文章列表-AI魔法学院

文章列表

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

那么对于现在基于 CLIP 视觉词表的多模大模型也是一样的，遇到 “foreign language image”，如一页论文密密麻麻的文字，很难高效地将图片 token 化，Vary 提出就是解决这一问题

OCR 手写文字识别

Nvidia发布Llama3-ChatQA-1.5: 提升对话问答和表格推理能力，平均性能超越GPT-4

相比之前的ChatQA 1.0版本，其训练方法和数据集都进行了优化，尤其增强了对表格数据和算术计算的理解能力。

Llama3-ChatQA-1.5 对话问答模型

AI 爆文写作：如何用GPT写出10万＋？这篇五千字长文给你答案

这样的结构还可以进一步优化吗？

AI写作 GPT

Agent : 一文读懂LLM Agent架构，详解Profile，Memory，Planning，Action模块作用

还可以利用数据库存储，或组织为结构化列表表示内存语义。

大模型 LLM Agent

Comfyui工作流管理插件，再也不用保存本地了！

2.模块化,现代软件开发项目都是模块化的，整个系统被分解为不同的模块。

Comfyui 工作流插件

Sora懂不懂物理世界？

一方面因为临界态样本的稀缺，另一方面因为扩散模型将稳恒态数据流形的边界模糊化，消弭了临界态的存在，生成的视频出现了不同稳恒态之间的跳跃。

文生视频视频生成 sora

Stable Diffusion

深入浅出学习Stable diffusion之线稿转效果图

在sd的左上角我们看到秋叶包中加载的暂时只有一个anything的模型，这是一个大体模型，就是很多风格集中在一起的模型，不论是景观、建筑、动漫人物还是什么，但是当你需要出独特的风格图时候就需要更优化的模型

Stable Diffusion 文生图大模型

微信搜狗爬虫WechatSogou - 从微信公众号获取文章的利器

它能够获取文章的标题、摘要、发布时间、阅读量等信息，并将其保存为结构化数据。

WechatSogou 微信搜狗

阿里最近推出AI项目的动作太过频繁，脑子跟不上了，事出反常必有妖，盘点一下

这个框架利用了 Stable Difusion 模型的文生图功能并结合人像风格化 LORA 模型训练及人脸相关感知理解模型，将输入的图片进行训练后推理输出生成为个人写真图像。

阿里大模型

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

主要功能包括： · 支持多种声音变化 AI § MMVC § so-vits-svc § RVC(Retrieval-based-Voice-Conversion

AudioCraft 音频

ChatGPT丨一次性修改全文的提示语！

- 简化或重新安排句子，以提升段落间的过渡和连贯性。

写文章

玩一玩ChatGLM3，1660s即可流畅运行！

可以看到一张3090就可以轻松玩转不同量化等级的模型。

大模型 ChatGLM

回望做大模型一年后的感悟

不过，当时也看到了OpenAI内部对于AGI和商业化的追求是有明显的差异化的，因为在microsoft的时候有不少research team和product team合作的痛苦经验，深知两个方向所优化的目标是高度不

大模型感悟

盘点来自工业界的GPU共享方案

在接入K8s方面，AWS开源的device-plugin[16]没有考虑资源的二维关系，实现了非常简化的资源allocate。

大模型

开源版妙鸭相机来了，无限出个人写真图（阿里达摩院出品）

image 训练阶段输入：用户上传的包含清晰人脸区域的图像输出：人脸LoRA模型描述：首先，我们分别使用基于朝向判断的图像旋转模型，以及基于人脸检测和关键点模型的人脸精细化旋转方法处理用户上传图像

妙鸭相机

<...59 60 61 626364 65 66 67 68 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1