文章列表-AI魔法学院

文章列表

Stable Diffusion

造梦师手记：腾讯加入Stable Diffusion的ControlNet模型开发，效果艳丽

ghostmix模型作者认为，应该尽可能的少做大模型，然后使用lora、ControlNet等微调工具来适配更多的场景。

Stable Diffusion

3.5k Star! 一分钟搭建一个属于你自己的开发工具箱！——It-tools

应用简览 IT-TOOLS是备受瞩目的免费开源工具站点项目，为开发人员和IT专业人员提供了一个便捷的在线工具集合。

IT-TOOLS 开源模型

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

arxiv.org/pdf/2407.04051 理论篇: FunAudioLLM项目介绍 FunAudioLLM整体系统框架介绍 FunAudioLLM 是阿里语音团队最新开源的项目

asr tts 声音

Stable Diffusion

OpenAI救了Stable Diffusion！开源Dall·E3同款解码器，来自Ilya宋飏等

在热火朝天的“AI春晚”上，OpenAI一口气开源两项工作，其中之一一致性解码器，专门面向SD的VAE模型。

SD 文生图 DALLE

精通百种语言的翻译AI来了！Meta推出，免费、开源！

这个模型可以实现近101种语言之间的文本、音频、视频等多种形式的翻译，而且只需要一个模型就可以完成所有任务。

大语言模型

被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线

马斯克所创办的 xAI 团队宣布开源 Grok-1——一个参数量为 3140 亿的 MoE 大模型。

Grok-1 开源模型

MindChat心理大模型

模型介绍心理大模型——漫谈(MindChat)期望从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们纾解心理压力与解决心理困惑, 提高心理健康水平.

心理大模型

Stable Diffusion

Stable Diffusion | SD腾讯云3步部署，全程五分钟，附价格费用清单

等待几分钟后，部署完成，就会跳转到资源列表：三、操作应用 1、因为我没有云盘，没有启用自定义模型上传支持，不能上传模型，这里只显示了一个网址，就是SD操作界面的网址，点击应用地址

下载开源模型

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

网易有道强力开源中英双语语音克隆

torchaudio pip install numpy numba scipy transformers==4.26.1 soundfile yacs g2p_en jieba pypinyin 准备模型文件

语音开源

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天不讨论 GPT-4o 的炸裂或颠覆，而是探讨如何作为个人或独立开发者实现这项技术，以及它的应用场景。

GPT-4o 语音交互

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

但现在回想起来，那只麋鹿的“能说会道”，其实正是 OpenAI 今天才正式揭晓的“谜底”——他们开源了一个叫做嵌入式实时语音 SDK 的东西！

OpenAI 嵌入式实时语音 SDK

BGE M3-Embedding：智源最新发布的text embedding模型，多语言检索效果超过微软跟openai

其二是来自有标注信息的监督数据，包括若干个中文跟英文的开源数据集，例如MS MARCO，NLI，DuReader等。

BGE M3-Embedding 多语音检索

省钱！微软开源框架LLMLingua + LlamaIndex实现提示词压缩

LLMLingua是微软发布的一款开源框架，旨在帮助开发者实现提示词压缩，从而在诸多应用场景中，在尽可能保留有意义的信息时，减少token开销，降低成本。

LLMLingua LlamaIndex 开源框架

备案通过且面向公众开放的国产精品大模型汇总，附访问链接

本文总结整理了目前已经国内面向公众开放的大模型网址、介绍，供大家了解使用。

大模型国产

<...8 9 10 111213 14 15 16 17 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1