文章列表-AI魔法学院

文章列表

精通百种语言的翻译AI来了！Meta推出，免费、开源！

这个模型可以实现近101种语言之间的文本、音频、视频等多种形式的翻译，而且只需要一个模型就可以完成所有任务。

大语言模型

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

例如，CNNs可以从语音频谱图中提取出关键的声学特征，而Transformer模型则可以对长文本进行深入理解，从而实现准确的情感分析和语音合成。

Westlake -Omni 语音

3 个令人惊艳的 GitHub 开源项目，诞生了！

AI 实现视频自动剪切近几年，短视频的风口一直在持续，各大社交网站也都针对短视频流量进行大力扶持。

开源模型

划重点！全网最全AI数字人工具合集！

· 编辑视频：添加各种特效、背景音乐、字幕，让视频更富有看点。

AI 数字人

详解 Diffusion (扩散) 模型

目前，它们主要用于图像和音频生成。

Diffusion 开源模型

只需四步就能构建自己的Agent！达摩院新开源框架小白也能用

写一篇关于Vision Pro VR眼镜的20字宣传文案，并用女声读出来，同时生成个视频看看。

大模型

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

那么，这个被誉为“语音识别的未来”的AI工具到底有何过人之处？

Distil-Whisper 语音识别

ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略

短视频内容分类解析短视频语义进行场景分类 video-detecction 视频检测对视频信息进行内容解析

开源

揭秘数字人困境：代理商亏钱、直播屡被封、刘润也不用了

做短视频是数字人最大用处吗？

数字人

46.6k星星！最强开源AI集合系统，一键部署全网AI工具都能直接用，UI简直是视觉盛宴！

用户可以上传各种类型的文件，包括文档、图片、音频和视频，同时还可以创建知识库，方便用户管理和搜索文件，还可以在对话中使用文件和知识库功能。

AI开源集合

智谱AI静悄悄的上线了一大波新模型，过年了，真的

图像和视频理解模型GLM-4V-Plus。

智谱AI 大模型

【提前体验GPT-5】吴恩达AI智能体工作流详细解读

当时他只是文本简单介绍了一下，现在他在斯坦福大学对此内容的演讲视频已经发布。

GPT-5 智能体

数字人：从科幻走向现实的技术革命

数字人，这一曾被视为科幻领域独有的概念，如今正逐渐走入我们的日常生活。

数字人语音

盘点来自工业界的GPU共享方案

进年来工业界一直孜孜不倦地寻求提升GPU利用率的方案，能被更多用户理解和使用的GPU共享走进工程师的视野中。

大模型

TTS它又来了！OpenVoice：一款借鉴于TTS实现的强大的AI语音克隆工具！

其核心功能是通过提供发言者的短音频片段（参考语音），实现声音的高效克隆。

tts 文本转语音

<...8 9 10 111213 14 15 16 17 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1