文章列表-AI魔法学院

文章列表

无限逼近真人效果的“超真实人像大模型”，或许它才是你一直在寻找的真爱！

DeepFloyd I是一种新颖的开源文本到图像模型，具有高度的照片真实性和语言理解能力。

大模型文生图

CodeGeeX2来了!效果超LLaMA2-70B

进一步经过了 600B 代码数据预训练，相比上一代，能力有全面提升，不同于一代，CodeGeeX2是基于ChatGLM2架构加入代码预训练实现，在代码能力上全面提升，HumanEval-X 评测集的六种编程语言均大幅提升

CodeGeeX2 开源模型

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

F5-TTS在公共的100K小时多语言数据集上进行训练，展现出高自然性和表现力的零样本能力、无缝代码切换能力和速度控制效率。

F5-TTS 音频克隆

LangChain - RAG: 拿什么「降伏」PDF 中的 Table 类型数据

framework for your Retrieval Augmented Generation (RAG) pipelines) 库，我们看到 LangSmith 也针对 Ragas 做了一些集成方面的优化

大模型 LangChain RAG

45个 DALL-E 3 使用案例 (附提示词) ，人人都是设计师

掌握了这个工具，你就拥有了一个免费的设计师。

文生图

TrOCR——基于transformer模型的OCR手写文字识别

该数据集包括数亿张打印文本行的图像。

OCR 手写文字识别

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

但是对于密集和细粒度感知任务，比如文档级别的 OCR、Chart 理解，特别是在非英文场景，CLIP 表现出了明显的编码低效和 out-of-vocabulary 问题。

OCR 手写文字识别

StableDiffusion升级版SDXL：一键运行包ComfyUI和18G模型分享！

Stable Diffusion XL 或 SDXL 是最新的图像生成模型，与以前的 SD 模型（包括 SD 2.1）相比，它专为更逼真的输出而定制，具有更详细的图像和构图。

comfyui sdxl 文生图

制作可爱的表情包

orange，caricature-like illustrations 翻译:口袋妖怪xy 男孩使用她的笔记本电脑，在浅橙色和橙色的风格，漫画式的插图我们可以设计，喜欢的漫画角色形象的女孩，在对着电脑工作学习

绘画表情包

收藏！万字长文聊聊LLM Agents的现状，问题与未来

Brain模块承担记忆、思考和决策等内在的任务；Perception模块负责感知和处理来自外部环境的多模态信息；Action模块负责使用工具执行任务并影响周围环境。

LLM Agents

关于GPT-4在变笨，有人写了篇论文证实了这一点

其次，在敏感问题上，作者准备了饱含100个敏感问题在内的数据集测试这些大模型，按理来说，大模型应该直接拒绝回答这些问题。

大模型

大模型LLM基础｜分词

基于词典的分词基于词典的分词使用一个预定义的词汇集进行分词，通常涉及最大匹配算法。

开源模型

数字人直播哪家强？百度、硅基、风平与闪剪四大AI数字人横向评测！

所以我认为硅基智能「小播秀」还是传统的直播工具，它只是解决了用数字人代替真人出镜这个问题，但是没有解决除此之外的工作量。

数字人数字分身

OpenAI视频模型Sora的推理生成成本多高？

假设 25k 的超大规模集群训练所需通信量比 Dense 更高的 MoE 模型，OpenAI Infra 优化利用率 MFU 到 40% （无法 overlap 的通信和访存会大幅降低利用率），则可以推导出来训练所需的时间是

Sora 推理算力

Stable Diffusion

【Stable Diffusion】高效率视频转AI动画！EbSynth插件全流程操作

利用sd和EbSynth进行配合将它加工成动画质感，当然除了二次元之外，它还可以进行很多不同风格的转绘。

AI编程 EbSynth 动画

<...64 65 66 676869 70 71 72 73 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1