文章列表-AI魔法学院

文章列表

硬核Prompt赏析：HuggingGPT告诉你Prompt可以有多“工程”

，它让ChatGPT这样的LLM能够使用HuggingFace社区的各种模型（包括但不仅限于文生图、图生文、语音转文字、文字合成语音等），从而让LLM能驱动其他智能Agent，实现多模态能力。

提示词 prompt

ChatGPT丨一次性修改全文的提示语！

当需要一次性修改全文的格式时，可以使用提示词来改进文章的结构、语言和流畅性： 1.

写文章

大语言模型应用中的文本分块策略

分块的主要原因是确保我们向量化的内容的噪音尽可能少，并且具有语义相关性。

开源模型

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

AI声音克隆 | 最全最简教程（权威版）

TTS 的英文全名是 Text To Speech,中文译名是“文本转语音”。

声音克隆教程

AI制作艺术二维码 - 文生图

前几天看到几个逼格比较高的二维码，然后自己动手做了一下，给大家看看效果： 1、文生图（狮子）： 2、文生图（城市）：下边将开始介绍怎么做的，有兴趣的可以继续读一读

文生图

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

CosyVoice-instruct-300M：能够生成富有情感表现力的语音，允许通过指令文本进行精细调整。

asr tts 声音

ComfyUI 基础教程（二）：文生图基础流程

一、文生图（text2img）使用步骤 .

comfyui 文生图

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件库

AnimateDiff介绍 AnimateDiff采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，它能够调整图像生成过程，生成一系列与训练视频剪辑相似的图像。

动画视频 AnimateDiff

书生·万卷：难得的中文开源数据集

中国的AI产业要迎头赶上，中文的数据集是最大的短板之一。

大模型

RAG——使用检索增强生成构建特定行业的大型语言模型

下面是检索增强技术论文的摘要部分，从中我们可以看到，检索增强技术是用于知识密集型nlp任务处理文本生成时，先通过信息检索技术来增强信息输入来使生成的内容更具体、更多样化和更真实的技术。

大模型

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

一文看懂RAG：大语言模型落地应用的未来

其中一些主要限制包括：不适应多模态数据：基础RAG主要关注文本数据的检索和生成，对于多模态数据（例如图像、音频）的处理能力有限。

rag 检索增强

解读OpenAI Sora文生视频技术原理

OpenAI 随后公布的技术综述[文献1]，难掩其勃勃雄心：视频生成模型作为世界模拟器。

sora

语义检索系统[全]：基于Milvus+ERNIE+SimCSE+In-batch Negatives样本策略的学术文献语义检索

比方说，你在电台里听到了一首陌生的歌曲。

开源模型

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1