文章列表-AI魔法学院

文章列表

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

虽然音频技术日新月异，但许多现有方案在复杂场景中仍难以提供稳定且高质量的音频体验。

ClearerVoice-Studio 语音

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

这是一个由Facebook研究院开发的技术，可以根据音频生成逼真的人物视频！

audio2photoreal 开源工具

一个完整Prompt让ChatGPT自动生成短视频制作脚本

———————— 把你想象成热门短视频脚本撰写的专家。

ChatGPT Prompt 视频

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

按照固有的思维方式，如果想要语音克隆首先得有克隆对象具体的语言语音样本，换句话说，克隆对象必须说过某一种语言的话才行，但现在，coqui-ai TTS V2.0版本做到了，真正的跨语种无需训练的语音克隆技术

coqui-ai TTS 语音

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一段语音转成文字，或者把一段文字转成语音，但是你不知道怎么操作！

大模型开源模型语音

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件

AnimateDiff介绍 AnimateDiff采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，它能够调整图像生成过程，生成一系列与训练视频剪辑相似的图像。

动画视频 AnimateDiff

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

min_interval根据音频的平均间隔调整，如果音频太密集可以适当调低。

数字人声音克隆 GPT-SoVITS

语音克隆又又又又又升级了

早在今年6月，Meta曾经推出过VoiceBox，能直接从文本生成高质量语音，不需要任何音频样本作为训练数据，可能是基于对音频Deepfake的担忧，一向秉承开源的Meta并未向工作开放VoiceBox

Meta 语音生成

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

这一步就像是为后续的分析和处理搭建好了基础框架，确保音频数据能够以合适的形式被模型所接受，为特征提取做好充分准备。

clone-voice 声音克隆

开箱即用的图像增强、视频增强AI工具，Upscapl、Topaz Video AI

图像和视频领域使用较多的AI工具，免安装，无需会员，开箱即用！

图像增强视频增强

十大开源语音识别项目

这项技术在多个领域有着广泛的应用，包括但不限于语音助手、语音搜索、自动转写以及语音命令识别。

语音识别开源项目

阿里出品自动化视频剪辑工具FunClip！

它依托于阿里巴巴通义实验室的FunASR Paraformer系列模型，实现了视频中语音的自动识别。

FunClip 视频阿里

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

一文带你看懂OpenAI-Sora生成视频的原理

那么，视频压缩网络究竟是如何做到的呢？

视频生成 sora

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1