文章列表-AI魔法学院

文章列表

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

前不久小圈为大家介绍过 Coqui 文本转语音（Text-to-Speech，TTS）模型，相比较市面上原有的开源TTS模型，Coqui 有其独特的优势，也受到了广大科技互联网爱好者的青睐

EmotiVoice 语音库

Ollama的本地化又一图形工具ChatOllama，让你轻松玩转ollama，ChatGPT

4.基本聊天4.基本聊天创建系统指令，也就是聊天中system角色，比如让它做为你的翻译助手，可以在instrucions选create new instruction创建指令，保存：最上面选

ChatOllama 安装

打造音乐传奇：Suno推出音乐生成模型Suno V3，让每个人都能成为作曲家

古典、爵士、Hiphop、电子……自由变换，随心所欲，满足各种人群需求，远超期待！

suno 歌曲音乐

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

借题发挥下最近几例声音克隆的应用案例

最近接连接到几个客户找我订制声音的案例： 1.某父亲痛失爱子，因为儿子托梦告知人是可以复活的，于是这位父亲到处寻找让人复活的办法，于是他关注到了最新的人工智能技术，开始找人咨询和学习技术，通过摸索，他知道通过

声音克隆数字人

Stable Diffusion

小白设计师福音：Stable Diffusion 16款插件测评，好用不？推荐吗？

其中包含，中文输入自动转英文、自动保存使用描述词、描述词历史记录、快速修改权重、收藏常用描述词、翻译接口可以多种选择、一键粘贴删除描述词等。

SD 插件文生图

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

斯坦福宣布前端开发要失业了？！一张截图生成代码，64%优于原网页！

这为前端开发带来了一场自动化革命，其中多模态大型语言模型（LLMs）有望直接将视觉设计转换为代码实现。

设计转代码大模型

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

为了预处理音频数据，Whisper将其重新采样为16kHz的频率，并使用25ms的窗口大小和10ms的跳跃大小将原始波形转换为80通道的Mel频谱图。

大模型语音

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

懂技术的小伙伴也可以寻找其他替代方案，比如语音转文字模型 Whisper、文字翻译 GPT、声音克隆 + 生成音频 so-vits-svc、生成符合音频的嘴型视频 GeneFace++dengdeng。

语音 HeyGen

Stable Diffusion

Stable Diffusion 喂饭教程来啦！价值上万的模特AI换装方法

在电商领域，最近AI模特换装特别火，结合网上的教程和实战，总结了一个最简单性价比最高的方法。

Stable Diffusion 文生图

懒人福音！用AI生成会议纪要，让你的工作更高效！

会议音频一般有几种，手机或录音笔的音频，腾讯会议的音频等，那如何把音频转成文本呢？

会议纪要 AI工具

一款构建AI数字人项目开源了！自动实现音视频同步！

本周GitHub项目圈选: 主要包含音视频同步、多代理框架、3D对象模型、适用于开发者的演示文档构建工具、网页程序打包、自构建CRUD应用等热点项目。

AI数字人音视频同步

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

想将一份文档图片转换成 Markdown 格式？

OCR 手写文字识别

VividTalk：用一张照片和一段音频让人物栩栩如生地说话

最新的突破来自VividTalk项目，这是一个能够将单张照片和一段音频结合起来，创造出仿佛真人在说话的视频的技术。

VividTalk 视频

<...5 6 7 8910 11 12 13 14 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1