文章列表-AI魔法学院

文章列表

生成式AI与大语言模型的区别

如果它们听起来像是可比的，可能更像是生成模型人工智能对大型模型人工智能，或者可能是生成式语言模型对大型语言模型。

生成式AI 大语言模型区别

Wunjo AI: 合成和克隆英语/俄语/中文语音,实时语音识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰

主要特征语音合成：轻松将文本转换为类似人类的语音。

AI语音克隆实时语音识别

TrOCR——基于transformer模型的OCR手写文字识别

前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别，当然那里主要使用的是CNN卷积神经网络，利用CNN卷积神经网络来训练文字识别的模型。

OCR 手写文字识别

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

在AI的众多分支中，语音识别技术的突破性进展尤为引人瞩目。

Whisper 语音识别

来个优秀的开源人脸识别项目！

虹膜识别技术通过全自动照相机寻找并聚焦虹膜，实现高精度识别。

人脸识别开源项目

人脸识别的开源的项目有哪些？

OpenCV：OpenCV（Open Source Computer Vision Library）是一个广泛使用的计算机视觉库，提供了许多人脸识别算法和工具。

人脸识别开源项目

14.6K star！最好用的OCR文字识别项目，没有之一！

伙伴们，平时都会用到文字识别吧？

Umi-OCR 开源项目文字识别

几款开源的OCR识别项目，收藏备用

naptha/tesseract.js.git PaddleOCR PaddleOCR是百度开源一套OCR,旨在打造一套丰富、领先、且实用的OCR工具库，助力开发者训练出更好的模型

OCR

OCRmyPDF—可智能识别PDF文本和图片信息的工具

如果需要，可以在执行OCR之前对图像进行纠偏和/或清洁 •验证输入和输出文件 •在所有可用的CPU核心之间分配工作 •使用Tesseract OCR引擎识别超过

OCRmyPDF 工具

OCR是什么以及推荐几款开源中文OCR识别软件

光学字符识别（Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。

OCR

Windrecorder：连续记录屏幕内容，通过OCR技术识别记录内容

它的所有能力（录制、识别处理、存储回溯等）完全运行在本地，无需联网，不上传任何数据，只做应该做的事。

Windrecorder 录屏

大语言模型LLM和知识图谱KG增强的企业搜索应用

它是一个理解语言模式的模型——不是语言本身，而是语言模式。

开源模型

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现，并进一步优化了 MiniCPM-Llama3-V 2.5 的 OCR、可信行为、多语言支持以及端侧部署等诸多特性

minicpm 面壁

大语言模型定制化应用的三种方式：Prompt engineering、Fine tuning、Pre-trainning的区别

以下是它们的区别和使用场景： Prompt Engineering（提示工程）：Prompt Engineering是通过设计和优化输入的提示或指令，以引导模型生成特定类型的输出。

大模型

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1