文章列表-AI魔法学院

文章列表

腾讯开源的数字人MuseTalk到底行不行？

该模型能够根据输入的音频信号，自动调整数字人物的面部图像，使其唇形与音频内容高度同步。

MuseTalk 数字人音频

15个中文AI写作提示词帮你覆盖所有主流写作场景！！！

请确保推文内容中不包含任何有争议或不适当的信息，并尽可能使用流畅、自然的语言。

写作 prompt 提示词

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

、音效、视频AI生成的可用工具都已齐备，一个人可以无痛carry一个短片，好故事将价值千金，有才华的人更难被埋没。

sora openai 视频生成

6个最佳开源TTS引擎

种语言（包括中文）。

TTS引擎开源模型

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

SenseVoice模型具有的功能特点：多语言语音识别：SenseVoice 支持包括中文、英文、粤语、日语和韩语在内的多语言识别。

asr tts 声音

姜子牙大模型系列 | 为知识检索而生，Ziya-Reader开源，多个长文本中文任务第一

因此，关于检索增强的大模型的研究如火如荼，为了能从多个文档或超长文档中找到答案，各种超长上下文窗口的模型已经陆续发布。

大模型 Ziya

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

此外，MiniCPM-V 2.0 还具备了独家的跨语言多模态泛化技术，让大模型可以用中文解读英文菜单并给出推荐。

MiniCPM 大模型

昆仑万维携Skywork-13B打造AI新纪元：600GB中文数据集全球开源

它不仅开源了130亿参数的大模型，更罕见地配套开源了600GB、150B Tokens的超大高质量中文数据集，为全球AI研究者提供了前所未有的资源。

Skywork 开源数据

手把手教你用上SDXL——SDXL 1.0 模型资源/comfyUI中文一键包下载

本文将着重介绍在你自己的电脑上部署SDXL1.0，因为各类在线使用网站中，虽然体验有了较大的优化，但是多多少少还是需要你掏出一定的经济代价。

SDXL 下载

请以“亮相”为题目写一篇记叙文，要求不少于700字。

文心一言： “亮相”是一个瞬间，一个舞台上的演员在掌声雷动中，优雅地走到台前，向观众鞠躬致意，展示自己的风采。

中文大模型训练

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

非自回归系统在训练过程中需要显式的文本与语音对齐信息，并预测语言单元（如音素）的持续时间，这可能会影响其自然度。

MaskGCT 声音克隆

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

零样本文本到语音（TTS）：输入 5 秒的声音样本，即刻体验文本到语音转换。

数字人声音克隆 GPT-SoVITS

FFmpeg之父新作——音频压缩工具 TSAC

具体来说，TSAC可以将3.5分钟的立体声歌曲压缩为192KB 的文件。

TSAC 音频工具

九问中国大模型掌门人，万字长文详解大模型进度趋势

因此，我们从头开始训练，对中文语料进行更好的理解，同时也会输入掌握英文知识。

大模型详解

<...3 4 5 678 9 10 11 12 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1