文章列表-AI魔法学院

文章列表

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

但现在回想起来，那只麋鹿的“能说会道”，其实正是 OpenAI 今天才正式揭晓的“谜底”——他们开源了一个叫做嵌入式实时语音 SDK 的东西！

OpenAI 嵌入式实时语音 SDK

Windrecorder：连续记录屏幕内容，通过OCR技术识别记录内容

推荐放在空间富足的分区中），通过终端命令 git clone https://github.com/Antonoko/Windrecorder 下载该工具；可以打开想要安装的文件夹，在路径栏输入cmd

Windrecorder 录屏

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

•技术细节写得比较泛（防止别人模仿）大概就是用视觉块编码（visual patch）的方式，把不同格式的视频统一编码成了用transformer架构能够训练的embeding，然后引入类似diffusion

sora openai 视频生成

四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法

当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。

大模型

技术爆炸！AI一图换脸新王者，Instant ID保姆级安装与使用测评

在SD中有很多人物换脸的新技术，比如像之前的Roop还有ReActor，它们都可以实现仅凭一张图进行人物换脸，后来又出现了EasyPhoto，可以通过快速炼制的小模型来对人物进行模仿。

Instant ID 文生图

SD入门教程六：ControlNet基础入门

图片，这张图片会作为 Conditioning 和最开始的 prompt 一起再输入到 Stable Diffusion 模型中，从而影响模型生成的图片。

ControlNet 文生图

人工智能大语言模型微调技术：SFT 、LoRA 、Freeze 监督微调方法

人工智能大语言模型微调技术：SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法 1.SFT 监督微调 1.1 SFT 监督微调基本概念 SFT（Supervised

大模型微调

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

该项目还提供了其他功能： · MusicGen：一种最新技术实现的可控文本到音乐模型。

AudioCraft 音频

AI Agent：大模型与场景间的价值之桥，但不适合当纯技术看

一类则是连续的，和周围环境的变化镶嵌在一起的的场景。

大模型

万物皆可接入DeepSeek，44家接入R1的国产平台超详细大盘点

技术本身再牛，不能落地都是纸上谈兵。

deepseek 大模型

大语言模型综述<演进，技术路线，区别，微调，实践，潜在问题与讨论>

使用RoPE embeddings：使用的不是绝对或相对位置嵌入，而是RoPE，是因为 RoPE 嵌入在长文本上具有更好的性能，采用Shared Input-Output Embeddings

大模型

【进阶】-文生图术语解释

CUDA# 配合 CUDA 技术，显卡可以模拟成一颗 PhysX 物理加速芯片。

文生图

微软研究团队：Sora核心技术及未来机会研究报告-中英对照版

3.2.3 视频压缩技术图 8: ViT 技术将一幅图像分割成多个固定大小的块，对每个块进行线性嵌入，并加入位置信息，然后将这些向量序列输入标准的 Transformer

sora 论文

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

在当今科技飞速发展的时代，声音克隆技术作为人工智能领域的一项重要成果，正逐渐走进我们的生活。

clone-voice 声音克隆

TypeChat 入门指南

传统模式下，创建自然语言模型界面是一项复杂的任务，通常依赖复杂的决策树来确定意图并收集行动所需的输入。

TypeChat

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1