文章列表-AI魔法学院

文章列表

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

论文链接：https://arxiv.org/pdf/2311.07919.pdf 开源代码：https://github.com/QwenLM/Qwen-Audio 引言大型语言模型（LLMs

大模型语音

AI写作：如何让AI帮你写出10万+标题？

尤其是在大多数平台都转为信息流推送的模式后。

AI写作提示词

苹果一次性开源了8个大模型！包含模型权重、训练日志和设置，OpenELM全面开源

使用RMSNorm进行预归一化，同时使用旋转位置嵌入(ROPE)来编码位置信息， 3.

OpenELM 大模型

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

快速转换：Buzz 的模型在本地离线运行，无需互联网连接，因此转换速度非常快，适用于大量语音转换。

生成式AI

阿里最近推出AI项目的动作太过频繁，脑子跟不上了，事出反常必有妖，盘点一下

一个静态图片转视频的项目。

阿里大模型

造梦师手记：C站最受欢迎的LoRA竟然是... ...

随着AI绘画爱好者全面转向SDXL，C站的推荐也开始倾向于SDXL。

SDXL 文生图

Wunjo AI: 合成和克隆英语/俄语/中文语音,实时语音识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰

主要特征语音合成：轻松将文本转换为类似人类的语音。

AI语音克隆实时语音识别

接私活必看的11个开源项目

PDF Guru-是一个通用型PDF文件处理工具 .

私活开源项目

让AI记住你说的话、让AI给你生成几十万字的小说！StreamingLLM 让无限长token成为可能

这就好像七秒记忆的鱼一样，转身就忘记了刚才聊天内容。

StreamingLLM 写作

提示词框架：Markdown结构法

Markdown是什么 Markdown是一种轻量级标记语言，它允许用户使用易于阅读和编写的纯文本格式来编写文档，然后可以转换为结构化的HTML或其他格式。

prompt 提示词

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

懂技术的小伙伴也可以寻找其他替代方案，比如语音转文字模型 Whisper、文字翻译 GPT、声音克隆 + 生成音频 so-vits-svc、生成符合音频的嘴型视频 GeneFace++dengdeng。

语音 HeyGen

再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

· 论文链接：https://arxiv.org/pdf/2307.09481.pdf · 项目链接：https://damo-vilab.github.io

Anydoor 文生图

一个小妙招从Prompt菜鸟秒变专家！加州大学提出PromptAgent，帮你高效使用ChatGPT！

论文：论文链接： https://arxiv.org/pdf/2310.16427.pdf 先看一下例子感受一下有多厉害。

PromptAgent 大模型

从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

当应用于 LLM 思想时，相应的图形转换有望带来更强大的提示，但它们不能用 CoT 或 ToT 来表达。

大模型

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

<...5 6 7 8910 11 12 13 14 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1