文章列表-AI魔法学院

文章列表

【重磅推荐】PaddleOCR：超越人眼识别率的AI文字识别神器！

6.训练定制：PaddleOCR支持用户根据自己的需求进行模型训练和定制，满足特定场景下的OCR需求。

PaddleOCR 文字识别

学会这招，一个头像变100种风格！

在 Mijdourney 里，如何根据一张图随意切换风格？

Remix 文生图

截至2023年5月份业界支持中文大语言模型开源总结及商用协议分析

OPT模型本身并没有特意针对多语言进行训练，不过他们的数据集很大，因此也能在简单的中英文翻译中获得不错的结果。

大模型

超越Animate Anyone! 南加大&字节提出MagicPose，不需任何微调就可生成逼真的人类视频

为此，我们提出了一种两阶段的训练策略，以分离人体动作和外观（例如面部表情、肤色和着装），包括对同一数据集的人舞姿势的外观控制块的预训练和对外观-姿势-联合控制块的精细调整。

MagicPose 视频

Nvidia发布Llama3-ChatQA-1.5: 提升对话问答和表格推理能力，平均性能超越GPT-4

相比之前的ChatQA 1.0版本，其训练方法和数据集都进行了优化，尤其增强了对表格数据和算术计算的理解能力。

Llama3-ChatQA-1.5 对话问答模型

语音识别的未来已来：深入了解faster-whisper的突破性进展

faster-whisper的核心优势在于其能够在保持原有模型准确度的同时，大幅提升处理速度，这使得它在处理大规模语音数据时更加高效。

语音识别 Faster-Whisper

生成式人工智能的“经济学”，The Economic Case for Generative AI

它可以根据输入的信息，生成出与之相关的文字、图片、甚至是音乐！

生成式人工智能经济学

清华智能体「XAgent」比ChatGPT4.0还好用！

数据分析：展示双环机制的有效性我们将使用一个简单的数据集iris.zip上传到XAgent，然后让XAgent分析数据集并生成一个报告。

ChatGPT 智能体 Agent

用so-vits-svc-4.1进行音色转换的极简教程！

主要是因为孙燕姿的音色独特，吐词清晰，网络上存在她的大量歌曲，非常便于训练。

so-vits-svc 音色转换教程

中国电信开源星辰AI大模型：央企中首个完成LLM研发和开源的选手诞生

早在去年五月中旬，经过数十版模型训练与优化，中国电信就完成了百亿参数星辰AI大模型稳定版本的训练。

开源大模型电信

Embedding开源模型重磅玩家：北京智源人工智能研究院最新Embedding模型发布！登顶MTEB，免费商用授权！

BGE模型的训练有2个阶段：分别是预训练阶段和微调阶段。

开源模型

爆火！腾讯开源PhotoMaker：高效地定制化生成任意风格的逼真人类照片！

· · 此外，为了驱动PhotoMaker的训练，提出了一个面向id的数据构建管道来组装训练数据。

PhotoMaker 文生图

只需四步就能构建自己的Agent！达摩院新开源框架小白也能用

光集成的工具就有这么多，比如NLP、语音、视觉、多模态等多种模型，以及默认集成知识检索、API检索等方案。

大模型

使用这个工具后，我将 RAG 的准确性和召回率都提高了两倍！

RAG（Retrieval Augmented Generation）是一种检索增强生成技术，它利用大型语言模型来处理用户查询，RAG 技术的主要组成包括数据提取—embedding—创建索引—检索—

RAG 大语言模型

Stable Diffusion

Stable Diffusion 必装插件查缺补漏，你还有哪个没装？(上）

Stable Diffusion 的强大很大一部分来源于整个社区提供的免费插件，通过集成不同的插件实现各种炸裂的效果。

Stable Diffusion 文生图

<...23 24 25 262728 29 30 31 32 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1