文章列表-AI魔法学院

文章列表

模拟ChatGPT流式数据——SSE最佳实践

：字段名:字段值。

打字机 sse 大模型

RVC和SVC声音模型难找？推荐这个网站

AI声音模型训练是通过分析大量音频数据来学习声音特性，生成与目标声音相似的新音频。这包括数据预处理、模型构建、训练、评估和优化。为了达到逼真、自然的声音效果，需要大量高质量音频数据和计算资源，并且需要精细调整和优化模型。

声音克隆数字人

一个充满多智能体的数字社会正在浮现，商业的底层逻辑已进入重构倒计时

未来已来，一个遍布智能体的数字社会正在浮现。

大模型

你是否发现ChatGPT甚至不能按字数要求回复问题？有人做了评测并讨论了可能的原因

Evaluating Large Language Models on Controlled Generation Tasks 你是否发现ChatGPT甚至不能按字数要求回复问题

大模型控制

中文开源OCR框架对比及介绍

字符切割：由于拍照、书写条件的限制，经常造成字符粘连、断笔，直接使用此类图像进行OCR分析将会极大限制OCR性能。

OCR

金融行业中 Fintech 的应用场景

本节课开始，咱们要花几节课的时间来学习一下 Fintech 的数据分析。

Fintech 金融

OCR的终极解法——传统算法VS多模态大模型

传统算法一般情况 OCR 识别商务名片会分为两步： · OCR 算法识别出文字和坐标

OCR 大模型文字识别

借题发挥下最近几例声音克隆的应用案例

某父亲痛失爱子，因为儿子托梦告知人是可以复活的，于是这位父亲到处寻找让人复活的办法，于是他关注到了最新的人工智能技术，开始找人咨询和学习技术，通过摸索，他知道通过ChatGPT可以训练儿子的过去的说话，文字等语料

声音克隆数字人

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字：

OCR 手写文字识别

Stable Diffusion

Stable Diffusion ComfyUI 入门感受

Clip文字编码器节点，正面和负面分成两个节点 · Unet阶段：ksampler节点，负责在潜空间生成图片

文生图

全球最强大模型一夜易主，GPT-4时代终结！Claude 3提前狙击GPT-5，3秒读懂万字论文理解力接近人类

再举个例子，要求Claude 3 Opus将难以阅读的手写字迹的照片转换为文本。

claude 大模型

解读wav2lip：探究语音驱动唇部动作的技术原理！

本文将深入介绍一下wav2lip的技术原理和细节，了解它是如何实现语音驱动唇部运动的！

wav2lip 语音

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

在当今数字化时代，文本转语音（TTS）技术的应用愈发广泛，从智能语音助手到有声读物，从无障碍服务到教育娱乐领域，都离不开高质量的语音合成。

OuteTTS-0.1-350M 音频

大模型套壳祛魅：质疑套壳，理解套壳

从年初到年末，从百度文心一言到零一万物，从字节跳动到谷歌 Gemini，各种「涉嫌套壳」的事件屡次冲上热搜，随后又被相关方解释澄清。

大模型套壳

Stable Diffusion

stable diffusion如何确保每张图的面部一致？

Compatible Image Prompt Adapter for Text-to-Image Diffusion Models，翻译成中文就是：用于文本到图像扩散模型的文本兼容图像提示适配器，名字很长很拗口

图生图文生图 sd

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1