文章列表-AI魔法学院

文章列表

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

但是近期，网易有道AI算法团队也开源了一款国产TTS语音合成引擎EmotiVoice，刚上线仅一周时间就暴涨4200颗星，问鼎当周GitHub trending流行榜第一。

EmotiVoice 语音库

测评了8个国产AI大模型，差点崩溃……

从自然语言处理到语音识别，从情感分析到知识问答，大模型的应用已经渗透到我们生活的方方面面。

大模型测评

Llama 3突然来袭！开源社区再次沸腾：GPT-4级别模型可以自由访问的时代到来

AI写作助手创企HyperWriteAI的CEO见此已忍不住感慨：我们正在步入一个新世界，一个GPT-4级别的模型开源并且可以自由访问的世界。

meta llama3

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

免训练！单图秒级别生成AI写真，人像生成进入无需训练的单阶段时代

原理 FaceChain FACT（Face Adapter）之所以能够跳过训练阶段，是因为它经过了百万级别的写真数据训练，从而使得 Stable Diffusion 具备了强大的人脸重建能力

FaceChain FACT 文生图

大语言模型LLM和知识图谱KG增强的企业搜索应用

它是一个理解语言模式的模型——不是语言本身，而是语言模式。

开源模型

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

基于其领先的视觉 token 密度，MiniCPM-V 2.6 成为了首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型。

minicpm 面壁

大语言模型定制化应用的三种方式：Prompt engineering、Fine tuning、Pre-trainning的区别

在实现大语言模型的定制化应用中，的确有几种常用的方式：Prompt Engineering（提示工程）、Fine-tuning（微调）和Pre-training（预训练）。

大模型

颠覆数据存储方式：向量数据库的威力

向量数据库通过计算向量之间的相似度来搜索数据，因此它特别适用于人脸识别、语音识别、推荐系统等需要高维度数据处理的领域。

编程数据库

如何用大语言模型构建一个知识问答系统

需求描述打造特定领域知识(Domain-specific Knowledge) 问答系统，具体需求有：通过自然语言问答的形式，和用户交互，同时支持中文和英文

知识库

腾讯开源的数字人MuseTalk到底行不行？

MuseTaIk是由腾讯团队开发的先进技术，它是一个实时高质量的音频驱动唇部同步模型。

MuseTalk 数字人音频

图片生成速度最高提升10倍！可以做到“实时”生成！清华推出LCM/LCM-LoRA！

近年来，随着SD和Midjourney的火热，文本到图像生成（Text-to-Image Generation）的研究取得了令人瞩目的进展，让我们能够用自然语言指导AI创造出各种各样的图像。

LCM/LCM-LoRA 文生图

一款构建AI数字人项目开源了！自动实现音视频同步！

1、Video-Tetalking Video-ReTalking 是一个利用AI实现视频人物嘴型与输入的声音同步的创新技术。

AI数字人音视频同步

惊艳推荐！8款好用又免费的文本转语音TTS工具

虽然这种方法能够产生可理解的语音，但由于样本数量的限制，很难达到完全自然的语音合成效果。

TTS Maker 语音

阿里出品自动化视频剪辑工具FunClip！

它依托于阿里巴巴通义实验室的FunASR Paraformer系列模型，实现了视频中语音的自动识别。

FunClip 视频阿里

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1