文章列表-AI魔法学院

文章列表

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

数字人直播哪家强？中国数字人平台分析大全

另一类是应用广泛的数字人软件，主要用于直播和短视频等领域。

数字分身数字人

4K star！录屏好帮手，超酷的实时按键显示工具

两种情况下会很实用，比如电脑画面中颜色和显示风格接近，不容易区分，可以换一种风格或者颜色；又或者是要适配品牌风格，设置一个合适的样式，能让视频更专业。

Keyviz 录频

ComfyUI初学者指南

ComfyUI 管理器要安装此自定义节点，请转到PowerShell (Windows) 或终端(Mac) 应用程序中的自定义节点文件夹： cd ComfyUI/custom_nodes 并将节点克隆到本地存储

文生图 comfyui

爆火「视频版ControlNet」开源了！靠提示词精准换画风，全华人团队出品

“视频版ControlNet”来了！

ControlNet

懒人福音！用AI生成会议纪要，让你的工作更高效！

会议音频一般有几种，手机或录音笔的音频，腾讯会议的音频等，那如何把音频转成文本呢？

会议纪要 AI工具

惊艳推荐！8款好用又免费的文本转语音TTS工具

在早期，TTS技术主要依赖于预录制的声音样本，通过组合这些样本来生成语音。

TTS Maker 语音

用AI做郭德纲说英文相声的爆款视频（详细教程）

郭德纲用英文说相声的短视频火爆全网，单条视频点赞破9.7万，转发量更是高达11.8万，AI的内容形式层出不穷，不断地出爆款，其实这个两周前有出过教程--用这个AI，把视频翻译成30+种语言，丝滑程度，随时能把生意做到全世界

视频翻译语言

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

惊了，ChatGLM、Vicuna 等热门大模型丝滑 input，跟所有的下载上传说拜拜

public/datasets 公共教程「公共教程」模版汇聚超过 100 个经典及流行教程，用户只需点击「克隆

下载

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

ensp;Sora发布的潜在影响 ▎C端 / 对于普通人 •这或许是独立创作者最好的年代，Sora发布之后，文案、音效

sora openai 视频生成

了解Kimi必看的26个问题 | Kimi系列文（二）

了解到，目前的GenAI有文本类、视频类、绘图类、音频类、编程类、PPT、数字人、AI搜索等形式。

Kimi 大语言模型

【AI科技大创意】2024年人工智能10大趋势

人工智能最终将在来年解锁语音优先的应用程序，特别是在伴侣和生产力类别中。

人工智能趋势

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

总参数量 8B，单图、多图和视频理解性能超越了 GPT-4V。

minicpm 面壁

<...5 6 7 8910 11 12 13 14 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1