文章列表-AI魔法学院

文章列表

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

;7.2k License: Apache-2.0 ESPnet 是一个端到端的语音处理工具包，涵盖了端到端语音识别、文本转语音、语音翻译、语音增强、说话人分离等功能

AudioCraft 音频

百川智能正式发布130亿参数通用大语言模型百川大模型（Baichuan-13B-Base）

同时开源预训练和对齐模型:预训练模型是适用开发者的『基座』，而广大普通用户对有对话功能的对齐模型具有更强的需求。

大模型中文

BGE M3-Embedding：智源最新发布的text embedding模型，多语言检索效果超过微软跟openai

具体情况如下图，这三种不同来源的数据相互补充，分别作用于模型不同阶段的训练，三个源头的数据量逐渐递减，但是数据数量逐渐提升。

BGE M3-Embedding 多语音检索

Stable Diffusion

[Stable Diffusion]Segment Anything实现商业换装

Segment Anything是一种基于深度学习算法的图像分割工具，它可以将图像当中的每一个像素分配到对应的区域当中，能够实现精准的边缘识别。

Segment Anything 文生图

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

基础语言模型Qwen 2.5 - 0.5b - instruct负责处理文本输入，它具备丰富的语义理解能力，能够对输入的文本进行深入分析。

OmniVision -968M 多模态模型

Python程序混淆和打包exe文件流程和方法

Python作为解释型语言，在部署发行之前，最好将代码进行加密，以免被别有用心的人轻易使用或篡改。

Python 程序

从零开始学习大模型-第二章-大模型学习路线

随着技术的进步，大模型如OpenAI的GPT-4和Sora、Google的BERT和Gemini等已经展现出了惊人的能力-从理解和生成自然语言到创造逼真的图像及视频。

大模型学习

RAG——使用检索增强生成构建特定行业的大型语言模型

我辈人工智能从业者，在探索AI应用的同时，也在不断地下钻技术本质。

大模型

LLM微调神器Lamini，疯狂获星1.9k，免费可用！！

LLM（大规模语言模型）的微调不再困难！！

大模型

一个万能提问公式，让大模型生成高质量回答

在讲万能提问公式前，我们需要先了解什么是 Prompt：首先，ChatGPT 从本质上讲是一个语言大模型。

提示词

AIGC工具提示词技巧

比如写一篇命题作文，或者回答一个政治题，用什么样的框架、什么样的方向、什么样的开场，内容如何填充，用怎样的结构性语言？

AIGC 提示词

Stable Diffusion

Stable Diffusion基础：ControlNet之细节替换

作为 ControlNet，它会对参考图进行分块，并识别出区块内的对象。

StableDiffusion 文生图

【上篇】深度解析AI大语言模型（LLM）在企业应用的关键技术与典型架构

大语言模型在企业应用的一些典型落地场景如： o 构建以自然语言为交互界面的应用，结合成熟的语音/图像识别、语音合成等技术，在市场营销、客户服务等领域提升客户体验。

大语言模型

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

Llama 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体，相比上一代的训练数据增加了 40%，在包括推理、编码、精通性和知识测试等许多外部基准测试中展示出了优越的表现，且支持多个语种

开源模型

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

项目简介代理框架设计用于构建在服务器上运行的实时、可编程参与者。

voice agent 开源音视频

<...11 12 13 141516 17 18 19 20 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1