首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· LLM Agent最常见的九种设计模式(图解+代码)
· 第3期 SDXL和SD的10大区别!你知道几个?
· Suno音乐新手指南(手把手完整版教程)
· Deepseek-V2技术报告解读!全网最细!
· 一文汇总大语言模型LLM所有prompt提示词框架的论文出处
· Byzer-LLM 快速体验智谱 GLM-4
· 一文汇总市面上所有prompts提示词框架
· Stable Diffusion | SD的老舅ComfyUI来了,节点式工作流,分部控制出图
· 会议纪要类提示词大全-最全会议纪要prompt
· 角色,背景,任务,产出内容与形式:如何写出优雅的prompt? - 通用的万能框架
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
视频魔法
神奇的 OuteTTS - 0.1 - 350M:用几秒钟音频克隆声音的黑科技!
本文介绍了OuteTTS-0.1-350M这款新兴的文本转语音(TTS)模型,包括其技术原理、功能特性、应用场景及使用方法。该模型基于LLaMa架构,采用纯语言建模方式,具有零样本语音克隆、高效音频处理及广泛兼容性等特点,适用于智能语音助手、有声读物制作及内容本地化等领域。文章还提供了快速使用指南,帮助用户安装、初始化接口、生成语音及进行语音克隆。
OuteTTS-0.1-350M
音频
2024-11-26
2024-11-26
数字人
京东开源普通话数字人JoyHallo,一口流利标准普通话还会讲英语
JoyHallo模型通过半解耦结构和中文wav2vec2模型,解决了普通话视频生成中数据集难收集和唇部动作复杂的问题,提升了普通话视频生成的唇部同步和面部表情准确性,同时表现出跨语言生成能力。
JoyHallo
数字人
开源模型
2024-11-11
2024-11-11
开源
字节开源项目MimicTalk:快速打造逼真3D Talking Face的利器
MimicTalk是浙江大学和字节跳动联合研发的项目,利用NeRF技术快速训练高质量3D说话头像模型,提高个性化数字人视频生成效率和质量,适用于娱乐、教育、社交等领域,支持快速个性化训练、高质量视频生成、上下文学习和音频驱动,可应用于虚拟主播、视频会议、VR/AR、社交媒体、客户服务等场景,并提供了详细的部署条件和步骤。
MimicTalk
开源模型
2024-11-08
2024-11-08
开源
【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比,等你来评!
本文展示了5款爆火的开源TTS语音克隆项目(Fish、F5、GPT-SoVITS、CosyVoice、MaskGCT)的效果,包括模型介绍、实战部署代码及效果展示案例,并提醒使用时需遵守项目要求和法律法规。
语音克隆
开源模型
2024-11-06
2024-11-06
比真人还像真人!字节跳动PersonaTalk的黑科技有多强大?
字节跳动推出AI模型PersonaTalk,可精准同步视频配音与人物口型,保留个性特征,快速适配多场景,通过双重注意力机制实现细节之美,远超同类模型,但限制在科研机构使用,为视频创作带来便利和可能性。
PersonaTalk
视频
2024-10-31
2024-10-31
大模型
MaskGCT:登上GitHub趋势榜榜首的TTS开源大模型
香港中文大学(深圳)与趣丸科技推出新一代大规模声音克隆TTS模型MaskGCT,该模型在10万小时多语言数据上训练,无需文本与语音对齐监督和音素级持续时间预测,展现出超自然语音克隆、风格迁移及跨语种生成能力。MaskGCT由四个主要组件构成,通过两阶段预测实现高质量文本到语音合成,在多个基准数据集上达到SOTA效果,并具备丰富的应用场景,如短剧出海、数字人等。相关项目已在开源系统Amphion发布,并推出“趣丸千音”平台加速应用落地。
MaskGCT
声音克隆
2024-10-31
2024-10-31
大模型
炸裂!百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本
突出多模态能力和交互体验的 GPT-4o 强调了其在实际应用中的关键作用,然而它缺乏一个高性能的开源对应物。在本文中,作者介绍了Baichuan-Omni,这是第一款开源的 7B 多模态大语言模型(MLLM),能够同时处理和分析图像、视频、音频和文本的模态,同时提供先进的模态交互体验和强大性能。 作者提出了一种有效的多模态训练模式,从 7B 模型开始,经过两个阶段的多模态对齐和多任务微调,分别针对音频、图像、视频和文本模态。这种方法使语言模型能够有效地处理视觉和音频数据。 通过在各种全模态和多模态基准测试上展示强大的性能,作者旨在将此贡献作为开源社区在推进多模态理解和实时交互方面的竞争性 Baseline 。
Baichuan-Omni
多模态大模型
2024-10-16
2024-10-16
视频
超越Animate Anyone! 南加大&字节提出MagicPose,不需任何微调就可生成逼真的人类视频
南加州大学字节提出MagicPose,一种基于扩散的模型,能生成逼真的人类视频,实现运动和面部表情传输,保持身份一致,无需微调即可应用于新身份和复杂运动。MagicPose可作为Stable Diffusion等模型的插件,具备生成零样本2D动画的能力,并在实验中展现出优越性能。
MagicPose
视频
2024-09-29
2024-09-29
数字人
数字人起飞!字节Loopy对口型功能在即梦上线 可根据语境匹配表情和情绪
字节新项目Loopy在即梦上线,通过AI技术实现数字人声音、表情、情绪与画面完美匹配,解决传统对口型视频的割裂感,提供中文效果最佳的对口型服务,支持文本朗读和上传本地配音,让数字人更加真实自然。
Loopy
视频
2024-09-26
2024-09-26
RAG
RAG 修炼手册|一文讲透 RAG 背后的技术
本文详细介绍了从Embedding技术到Transformer、BERT、LLM(包括GPT系列和ChatGPT)等自然语言处理领域的发展历程及基本原理。Embedding将非结构化数据转为向量表示,Word2Vec是其早期代表,但存在多义词问题。Transformer通过自注意力机制捕捉上下文关系,推动了BERT等预训练模型的发展,实现了句子嵌入。GPT系列作为LLM的代表,通过不断迭代提升了文本生成能力,ChatGPT则进一步增强了响应指令、代码生成、推理等能力,但也存在数学能力弱、产生幻觉、知识不实时更新等不足。RAG技术作为解决方案之一,结合了向量数据库和LLM。整体而言,深度学习在自然语言处理领域的应用日益广泛,未来可期。
RAG
Embedding
2024-09-23
2024-09-23
数字人
腾讯出品!开源AI数字人框架!号称可以不限时长
MuseV是腾讯音乐娱乐天琴实验室开源的虚拟人视频生成框架,支持高质量视频、口型同步及无限长度视频生成,兼容多种生成方式和稳定扩散生态系统,提供多样化创作自由度,并发布了实时口型同步模型MuseTalk。MuseV将在娱乐、教育等领域发挥重要作用,引领虚拟人技术未来方向。项目地址在GitHub上。
MuseV
视频
数字人
框架
2024-09-14
2024-09-14
AI音乐热潮下,“神曲工作室”率先失业
五一假期演唱会门票难求,反映音乐行业向头部化、现场化转型。AI作曲工具快速发展,引发音乐行业裁员潮,音乐人共识现场音乐将成为主要收入来源。AI音乐质量受争议,但已对抖音等平台神曲构成冲击。音乐人强调线下演出重要性,通过增强临场感和感染力保持竞争力,呼吁音乐人提升线下经营能力应对AI挑战。
音乐
音频
2024-09-02
2024-09-02
数字人
腾讯开源的数字人MuseTalk到底行不行?
MuseTaIk是腾讯团队开发的音频驱动唇部同步模型,能实时调整数字人物面部图像以匹配音频内容,支持多语言。然而,其实时性和高质量受质疑,实测推理速度较慢且效果不理想。尽管存在不足,该团队致力于推动数字人技术发展,值得肯定。用户可根据需求选择是否使用,同时作者提供了改进建议及替代服务选项。
MuseTalk
数字人
音频
2024-08-30
2024-08-30
开源
从 GPT-4o 到 LiveKit:实时语音交互的开源实现
文章介绍了OpenAI发布会外的实时对话语音技术,特别是LiveKit作为GPT-4o背后的技术支持,提供了语音、视频、数据流处理及AI集成方案。通过案例探讨了LiveKit在潮玩模型、实时翻译耳机等场景的应用,并强调其作为开发者实现实时语音交互的便捷工具,展望未来应用前景广泛。
GPT-4o
语音交互
2024-08-27
2024-08-27
工具
FFmpeg之父新作——音频压缩工具 TSAC
FFmpeg作者Fabrice Bellard发布了音频压缩工具TSAC,利用深度学习中的Transformer结构提升性能,实现极低比特率下的高质量音频压缩。TSAC采用RVQGAN技术,通过级联VQ和GAN训练提升压缩效果,具备多速率编码能力和降噪功能。然而,压缩后音频存在高频细节丢失等问题。
TSAC
音频工具
2024-08-23
2024-08-23
<
1
2
3
4
5
6
7
8
9
>
1
2
4
5
6
7
8
9
100