文章列表-AI魔法学院

文章列表

开源免费离线语音识别神器whisper如何安装

当然，我们知道一些商业公司提供语音识别服务，但是基本都是联网运行，个人隐私安全总是有隐患，而whisper完全不同，whisper完全在本地运行，无需联网，充分保障了个人隐私，且whisper识别准确率相当高

wisper 翻译免费

14.6K star！最好用的OCR文字识别项目，没有之一！

伙伴们，平时都会用到文字识别吧？

Umi-OCR 开源项目文字识别

几款开源的OCR识别项目，收藏备用

github.com/PaddlePaddle/PaddleOCR.git EasyOCR EasyOCR是用Python编写基于Tesseract的OCR识别库

OCR

OCRmyPDF—可智能识别PDF文本和图片信息的工具

•在所有可用的CPU核心之间分配工作 •使用Tesseract OCR引擎识别超过100种语言 •保护您的私人数据安全。

OCRmyPDF 工具

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

Whisper 是 OpenAI 研发并开源的一个自动语音识别（ASR，Automatic Speech Recognition）模型，他们通过从网络上收集了 68 万小时的多语言（

语音 HeyGen

语音识别的未来已来：深入了解faster-whisper的突破性进展

faster-whisper简介 faster-whisper是基于OpenAI的Whisper模型的高效实现，它利用CTranslate2，一个专为Transformer模型设计的快速推理引擎。

语音识别 Faster-Whisper

OCR是什么以及推荐几款开源中文OCR识别软件

光学字符识别（Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。

OCR

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

在AI技术的浪潮中，一款新型的语音识别模型Distil-Whisper以其独特的魅力和强大的性能脱颖而出。

Distil-Whisper 语音识别

国内厂商语音识别与Whisper评测：现状与概况对比

随着人工智能技术的飞速发展，语音识别已经成为了现代社会中一个重要的研究领域。

语音识别 Faster-Whisper

Windrecorder：连续记录屏幕内容，通过OCR技术识别记录内容

它的所有能力（录制、识别处理、存储回溯等）完全运行在本地，无需联网，不上传任何数据，只做应该做的事。

Windrecorder 录屏

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

，大部分都没有进行标点符号的标注。

Whisper 语音优化

4种通过LLM进行文本知识图谱的构建方法对比介绍

我们在以前的文章中已经介绍了使用大语言模型将非结构化文本转换为知识图谱。

知识图谱大模型

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

ensp;GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现，并进一步优化了 MiniCPM-Llama3-V 2.5 的 OCR、可信行为

minicpm 面壁

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

在AI的众多分支中，语音识别技术的突破性进展尤为引人瞩目。

Whisper 语音识别

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1