文章列表-AI魔法学院

文章列表

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

GLM-4-Voice作为一款端到端的语音模型，推动了多语言对话人工智能的边界，支持英语和中文的实时对话，同时提供可适应且类人化的响应生成。

GLM-4-Voice 9B 语音安装

语言大模型100K上下文窗口的秘诀

上下文窗口（context window）是指语言模型在进行预测或生成文本时，所考虑的前一个词元（token）或文本片段的大小范围。

大模型

中文原生文生图大模型来了！腾讯混元推出，Sora 同架构

　　开源地址：https://github.com/Tencent/HunyuanDiT 　　这是业内首个中文原生的DiT架构文生图开源模型，支持中英文双语输入及理解，

文生图混元腾讯

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件

AnimateDiff介绍 AnimateDiff采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，它能够调整图像生成过程，生成一系列与训练视频剪辑相似的图像。

动画视频 AnimateDiff

Stable Diffusion

Stable Diffusion 文生图全网最细详解

我们从 Web UI 开始讲解，基于使用最多的文生图模块来讲解一、WEB UI 页面如果你使用的是 Kaggle 搭建的SD，那么你进入到 web ui 页面后可以看到下面这个页面

文生图 SD

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

这是一个由Facebook研究院开发的技术，可以根据音频生成逼真的人物视频！

audio2photoreal 开源工具

Chinese-LLM开源中文大语言模型合集

OpenChineseLLaMA 简介：基于 LLaMA-7B 经过中文数据集增量预训练产生的中文大语言模型基座，对比原版 LLaMA，该模型在中文理解能力和生成能力方面均获得较大提升，在众多下游任务中均取得了突出的成绩

大模型中文

懒人福音！用AI生成会议纪要，让你的工作更高效！

下面我会把已经在用的流程和经验分享给大家，包括语音转文本工具的用法，AI总结会议的提示词等等。

会议纪要 AI工具

TTS，一个奇妙的AI工具

简介 TTS是一个将文本变换成语音的AI工具。

TTS 文本转语音

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

就像直播里的那只麋鹿，它能听懂你的问题，然后用自然流畅的语音跟你聊天，就是这个 SDK 的功劳！

OpenAI 嵌入式实时语音 SDK

一文汇总大语言模型LLM所有prompt提示词框架的论文出处

能够让大模型推理结果变得更好的基础优化手段已经非常多了，这里梳理了常见的提示技术手段和对应的论文： - Zero-shot（零样本提示）：https://arxiv.org/abs/2109.01652

prompt 提示词

VividTalk：用一张照片和一段音频让人物栩栩如生地说话

这个技术不仅有望改变数字媒体的生产方式，也为虚拟现实和人工智能的应用开辟了新的道路。

VividTalk 视频

Stable Diffusion

[Stable Diffusion]AnimateDiff ：最稳定的文本生成视频插件

在小视频风靡的时代，稳定的文本生成短视频成为了迫切需求。

AnimateDiff 视频训练

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

只需提供一张人物的静态照片和一段语音录音，VividTalk即可制作出一个看起来像是实际说话的人物的视频。

VividTalk 视频

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1