文章列表-AI魔法学院

文章列表

一个充满多智能体的数字社会正在浮现，商业的底层逻辑已进入重构倒计时

未来已来，一个遍布智能体的数字社会正在浮现。

大模型

Selenium+ddddocr | 再也不担心图片验证码

ddddocr库介绍 ddddocr（Deep Double-Digital Digits OCR）是一个基于深度学习的OCR（Optical Character Recognition，光学字符识别

Selenium ddddocr库

从 ChatGPT 系统提示中，分享几个拿来就能用的prompt提示工程技巧

ChatGPT的强大毋庸置疑，特别是GPT4里面的数据分析、DALL.E 3图片生成等功能，以及近期推出的GPTs功能，这些官方公布的功能都是由他们自己内部的模型开发人员编写的提示词构成的。

ChatGPT prompt

保姆级教程：Coze 打工你躺平

Coze，中文名扣子，字节出的 o 定位：Next-generation AI chatbot building platform o&ensp

Coze 教程

模拟ChatGPT流式数据——SSE最佳实践

：字段名:字段值。

打字机 sse 大模型

RVC和SVC声音模型难找？推荐这个网站

AI声音模型训练是通过分析大量音频数据来学习声音特性，生成与目标声音相似的新音频。这包括数据预处理、模型构建、训练、评估和优化。为了达到逼真、自然的声音效果，需要大量高质量音频数据和计算资源，并且需要精细调整和优化模型。

声音克隆数字人

中文开源OCR框架对比及介绍

字符切割：由于拍照、书写条件的限制，经常造成字符粘连、断笔，直接使用此类图像进行OCR分析将会极大限制OCR性能。

OCR

你是否发现ChatGPT甚至不能按字数要求回复问题？有人做了评测并讨论了可能的原因

Evaluating Large Language Models on Controlled Generation Tasks 你是否发现ChatGPT甚至不能按字数要求回复问题

大模型控制

OCR的终极解法——传统算法VS多模态大模型

传统算法一般情况 OCR 识别商务名片会分为两步： · OCR 算法识别出文字和坐标

OCR 大模型文字识别

金融行业中 Fintech 的应用场景

本节课开始，咱们要花几节课的时间来学习一下 Fintech 的数据分析。

Fintech 金融

解读wav2lip：探究语音驱动唇部动作的技术原理！

本文将深入介绍一下wav2lip的技术原理和细节，了解它是如何实现语音驱动唇部运动的！

wav2lip 语音

Stable Diffusion

Stable Diffusion ComfyUI 入门感受

Clip文字编码器节点，正面和负面分成两个节点 · Unet阶段：ksampler节点，负责在潜空间生成图片

文生图

借题发挥下最近几例声音克隆的应用案例

某父亲痛失爱子，因为儿子托梦告知人是可以复活的，于是这位父亲到处寻找让人复活的办法，于是他关注到了最新的人工智能技术，开始找人咨询和学习技术，通过摸索，他知道通过ChatGPT可以训练儿子的过去的说话，文字等语料

声音克隆数字人

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字：

OCR 手写文字识别

精通结构化提示词：如何精确操控指令的作用域与优先级

3 强化提示重点信息通过加重字体或斜体字等手段，可向模型传递特定信息的重要性。

提示词结构化

<...5 6 7 8910 11 12 13 14 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1