文章列表-AI魔法学院

文章列表

营销Prompt：三分钟生成百篇营销文案，领先99%的同行！

就拿营销文案来说，别人动动手指就可以十分钟生产几百篇营销文案，你如果还用人工一篇一篇来写，那结果........

写作营销 prompt

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

文本到语义模型采用非自回归掩码生成Transformer，而不使用自回归模型或任何文本到语音的对齐信息。

MaskGCT 声音克隆

一文读懂AIGC产业链：AIGC的前世今生和未来展望

（民生证券《电子行业专题研究：国产AI算力芯片全景图》） AIGC产业依赖算法、数据和算力的发展 2、中游，技术层：它侧重核心技术的研发，主包括机器学习、计算机视觉、算法理论、智能语音、自然语言处理等

生成式AI

13.5K Star ! Fish Speech Windows本地搭建，能否达到官方的级别？强烈推荐

Fish Speech是一款由Fish Audio开发的开源的文本到语音（TTS）工具，支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。

Fish Speech 本地搭建

厉害了，匹诺曹Pinokio！所有AI工具，一键安装，全部免费！整合AI绘画、AI视频、AI语音...

涵盖了 AI 绘画、AI 视频、AI 音乐、AI 数字人等各个领域今天给大家推荐一款AI神器，匹诺曹Pinokio！

AI绘画 AI视频 AI音乐

俄罗斯人开源了最大的文生图模型：参数量12B，比SDXL大了3倍多！

，导致模型总参数达到了11.9B，这应该是目前最大的开源文生图模型。

Kandinsky-3 文生图开源模型

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

在10月24日，趣丸科技&香港中文大学提出一种完全非自回归的TTS模型——掩码生成编解码器变换器（MaskGCT），它消除了对文本和语音监督之间显式对齐信息的需求，以及对音素级别持续时间预测的需求

语音克隆开源模型

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

为了提高从数据集中生成的音频文本对的质量，作者利用了自家的ASR系统，并结合了多个开源模型来生成多个转录版本。

Baichuan-Omni 多模态大模型

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

、音效、视频AI生成的可用工具都已齐备，一个人可以无痛carry一个短片，好故事将价值千金，有才华的人更难被埋没。

sora openai 视频生成

腾讯开源的数字人MuseTalk到底行不行？

该模型能够根据输入的音频信号，自动调整数字人物的面部图像，使其唇形与音频内容高度同步。

MuseTalk 数字人音频

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

零样本文本到语音（TTS）：输入 5 秒的声音样本，即刻体验文本到语音转换。

数字人声音克隆 GPT-SoVITS

最佳开源文生图大模型可图：安装与批量出图的完整教程

Kolors可图是快手Kolors团队开发的基于潜在扩散的大规模文本到图像生成模型。

可图 kolors

三个大模型（ChatGPT,文心一言,Baichuan-13B)，帮我生成中医《本草纲目》的训练数据

因此，只要把其中以数字（1，2，3等）序号里的文本摘出来，处理成JSON格式，然后把它们变成一个问-答对的形式，模仿病人和医生的对话，就可以放到大模型训练了。

大模型

京东开源普通话数字人JoyHallo，一口流利标准普通话还会讲英语

在音频驱动的视频生成领域，制作普通话视频面临着许多挑战。

JoyHallo 数字人开源模型

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

只需提供一段简短的音频样本，它就可以根据该样本生成与原始声音极其相似的克隆声音，并且支持多种语言，目前包括中文、英文、日语、韩语等，甚至还扩展到了法语、德语、意大利语等16种语言，为用户提供了更广泛的应用可能性

clone-voice 声音克隆

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1