文章列表-AI魔法学院

文章列表

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

Buzz 语音转文字工具的特点高度精确：基于 OpenAI 提供的 Whisper 自动语音识别技术，这是一款功能强大的机器学习模型。

生成式AI

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

如何设置 GLM-4-Voice 9B 以实现无缝的实时语音交互，支持英语和中文，并探索其独特的架构、低延迟响应和可定制的声音属性。

GLM-4-Voice 9B 语音安装

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

只需提供一张人物的静态照片和一段语音录音，VividTalk即可制作出一个看起来像是实际说话的人物的视频。

VividTalk 视频

TrOCR——基于transformer模型的OCR手写文字识别

前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别，当然那里主要使用的是CNN卷积神经网络，利用CNN卷积神经网络来训练文字识别的模型。

OCR 手写文字识别

语言大模型100K上下文窗口的秘诀

在语言模型中，上下文窗口对于理解和生成与特定上下文相关的文本至关重要。

大模型

18种 DALL-E 3 炫酷的文字效果和提示词

DALL-E 3 不仅可以在图片上生成文字，还可以把文字巧妙地融合到图像中。

DALL-E 3 提示词文生图

图解检索增强式生成（RAG）技术 | 万字长文

3、假设性问题和 HyDE 另一种方法是让 LLM 为每个文本块生成一个问题，并将这些问题转化为向量。

检索增强式生成 RAG

Chinese-LLM开源中文大语言模型合集

-6B 简介：一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁

大模型中文

【重磅推荐】PaddleOCR：超越人眼识别率的AI文字识别神器！

导语：在当今数字化时代，人工智能技术已经渗透到各个领域。

PaddleOCR 文字识别

请以“亮相”为题目写一篇记叙文，要求不少于700字。

文心一言： “亮相”是一个瞬间，一个舞台上的演员在掌声雷动中，优雅地走到台前，向观众鞠躬致意，展示自己的风采。

中文大模型训练

【万字长文】LLaMA, ChatGLM, BLOOM的参数高效微调实践

LLaMA在中文上效果差，一方面是由于LLaMA模型是在以英文为主的拉丁语系语料上进行训练的，训练语料不包含中文；另一方面，与tokenizer有关，词表规模小，可能将一个汉字切分为多个token，编码效率低

大模型微调训练

万字长文，AI大模型的应用实践总结

但是进行模型训练之前需要先进行模型格式转换，将HF格式转换为Alpa格式的模型文件，具体请参考官方代码。

大模型

一文汇总大语言模型LLM所有prompt提示词框架的论文出处

能够让大模型推理结果变得更好的基础优化手段已经非常多了，这里梳理了常见的提示技术手段和对应的论文： - Zero-shot（零样本提示）：https://arxiv.org/abs/2109.01652

prompt 提示词

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

以前，智能玩具里只能播放预设的程序和声音，顶多就是进行一两轮简单提问，你可以理解成是“单向输出”，现在有了这个 openAI 的实时语音软件开发包，就变成了“双向交互”，能和你进行实时的语音对话。

OpenAI 嵌入式实时语音 SDK

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1