文章列表-AI魔法学院

文章列表

国内厂商语音识别与Whisper评测：现状与概况对比

、微信、王者荣耀语音转文字 · 百度：AIl开放平台、智能云、语音搜索、地图、小度音响、语音输入法

语音识别 Faster-Whisper

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

【进阶】-文生图术语解释

念咒提示词组合 (prompts) 施法/吟唱/t2i 文本转图像 (txt2img) i2i

文生图

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

在当今数字化时代，文本转语音（TTS）技术的应用愈发广泛，从智能语音助手到有声读物，从无障碍服务到教育娱乐领域，都离不开高质量的语音合成。

OuteTTS-0.1-350M 音频

【万字长文】全球AI Agent大盘点，大语言模型创业一定要参考的60个AI智能体

PS：因本文盘点的Agent项目众多，故而字数也达到了1W+，建议大家先收藏再阅读。

大语言模型

将文本转化为3D动画：DeepMotion推出MotionGPT，开启动画新时代！

这是一款基于生成式AI的工具，可以将文本提示无缝转换为复杂的3D动画，简化了动画创作过程，同时也超越了物理障碍，使得更多不同类型的创作者和行业可以使用3D动画。

3D 动作捕捉

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

数字人起飞！字节Loopy对口型功能在即梦上线可根据语境匹配表情和情绪

这个让数字人声音完美匹配画面还匹配表情和情绪的对口型项目已经正式在即梦上线了。

Loopy 视频

一款构建AI数字人项目开源了！自动实现音视频同步！

本周GitHub项目圈选: 主要包含音视频同步、多代理框架、3D对象模型、适用于开发者的演示文档构建工具、网页程序打包、自构建CRUD应用等热点项目。

AI数字人音视频同步

腾讯开源的数字人MuseTalk到底行不行？

该模型能够根据输入的音频信号，自动调整数字人物的面部图像，使其唇形与音频内容高度同步。

MuseTalk 数字人音频

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

前段时间，「霉霉大秀中文」的视频在各个社交媒体走红，随后又出现了「郭德纲大秀英语」等类似视频。

语音 HeyGen

Stable Diffusion

Stable Diffusion图生图（真人转动漫）

一、简介今天给大家分享使用Stable Diffusion图生图进行真人转动漫，木木共使用了五种模型进行真人转动漫测试，重绘幅度在0.45~0.6之间，如果重绘幅度过大，会导致生成的图片偏离主体样貌

StableDiffusion 图生图

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

美的数字化转型10年，方洪波的反思。作为领导者的高瞻远瞩与宽广胸襟！

那么ToC和ToB这四个板块的业务，在过去十年，都是我们同步数字化转型的。

工作

用AI轻松玩转年度总结PPT

这篇文章就是为你准备的我会教你如何利用完全免费的国产 AI 工具，快速的制作 PPT 如果你有很多复杂的文字需要整理，没问题，让 A 已帮你整理如果你平时不喜欢总结工作内容，做了很多事，写总结不知如何下笔

PPT 年终总结

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1