文章列表-AI魔法学院

文章列表

把ChatGPT装进二次元手办，你来吗？AI桌面机器人众筹

蓝牙音箱，语音控制小度丝滑流畅。

ai小车 esp32 开源

测评了8个国产AI大模型，差点崩溃……

从自然语言处理到语音识别，从情感分析到知识问答，大模型的应用已经渗透到我们生活的方方面面。

大模型测评

链接大模型与外部知识，智源开源最强语义向量模型BGE

RetroMAE 预训练算法示意 BGE 针对中文、英文分别构建了多达120M、232M的样本对数据，从而帮助模型掌握实际场景中各种不同的语义匹配任务，并借助负采样扩增 [7] 与难负样例挖掘

embedding 语义向量

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

别急着下线！

OpenAI 嵌入式实时语音 SDK

知识树：一个方法，教你构建「终身知识体系」

后来大一创业，因为创业需要大量的知识储备，我开始疯狂式的学习，看各种认知、商业类书籍，看各种类似混沌大学的课程，听各种类似得到、樊登读书会等音频。

大模型

SEO知识点入门

先把一些基础的理论东西弄清楚：什么是SEO、标题、关键词、描述、长尾关键词、内链、外链、反链、百度指数、权重、ALT标签、收录、站长工具、等等等一大堆，你会看到很多你看不懂的词和专业术语，看到不理解的词

达摩院SPACE对话大模型：知识注入与知识利用

对话是对语言的高级应用，主要有以下几个特点： ①口语化，表述随意，不一定符合语法、句子不完整、噪音较多、有很多 ASR 错误。

大模型

《构建个人知识图谱》：让 AIGC 帮你自动构建知识图谱

当下大语言模型最重要能力就是是自然语言理解和生成。

提示词文生图 AIGC

如何避免大语言模型绕过知识库乱答的情况？LlamaIndex 原理与应用简介

随着 LangChain + LLM 方案快速普及，知识问答类应用的开发变得容易，但是面对回答准确度要求较高的场景，则暴露出一些局限性，比如向量查询方式得到的内容不匹配，LLM 对意图识别不准。

大语言模型

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

在语音情感理解中，注意力机制可以关注语音信号中的情感特征，如语调、语速、重音等，从而准确地判断情感类别。

Westlake -Omni 语音

AI+音乐｜对话 Suno CEO：破圈的音乐生成产品是如何诞生的？

尽管这个项目专注于财经领域，但他们认识到音频AI在更广泛的音乐创作领域内的潜力。

suno 音乐

阿里出品自动化视频剪辑工具FunClip！

它依托于阿里巴巴通义实验室的FunASR Paraformer系列模型，实现了视频中语音的自动识别。

FunClip 视频阿里

OCR的终极解法——传统算法VS多模态大模型

命名实体识别命名实体识别（Named Entity Recognition, NER）是自然语言处理（Natural Language Processing, NLP）的一个分支，它的任务是识别文本中具有特定意义的实体

OCR 大模型文字识别

数字人：从科幻走向现实的技术革命

创建数字人需要多方面的技术支持，包括计算机图形学、动作捕捉、语音合成以及人工智能算法等。

数字人语音

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1