文章列表-AI魔法学院

文章列表

《嬛嬛朕emo啦》但马斯克！阿里这项技术开放试玩

热度一直没掉下去，关键是生成时间也跟热度一起高居不下，顺利的话几分钟生成的小视频，挤的时候排队能排出好几个小时开外，亏得是阿里云服务器没被挤爆（不是）。

音频阿里

阿里最近推出AI项目的动作太过频繁，脑子跟不上了，事出反常必有妖，盘点一下

阿里动作太过频繁，就我的脑海回忆，推出了挺多东西的，效果还都不错，今天盘点下都有哪些。

阿里大模型

玩一玩阿里通义千问开源版，Win11 RTX3060本地安装记录！

大概在两天前，阿里做了一件大事儿。

通义千问

[论文] 阿里提出AgentScope：灵活强大的智能体框架

这里，这个独立对话应用的实现可以通过顺序管道和循环管道来简化，如示例 10 所示。

AgentScope 语言大模型智能体

阿里腾讯豪华阵容参投，智谱AI投资版图曝光

清华系受追捧，AI 创投背后的学术谱系当然，市场上流传的智谱融资规模和节奏比官方公布的更详细，就在9月有两个关于智谱融资的消息传来，一个是它完成B-4轮融资，参与的机构包括了腾讯和阿里

智谱阿里

开源版妙鸭相机来了，无限出个人写真图（阿里达摩院出品）

如果您熟悉docker，可以使用我们提供的docker镜像，其包含了模型依赖的所有组件，无需复杂的环境安装： # Step1: 机器资源您可以使用本地或云端带有

妙鸭相机

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

大型语言模型（LLMs）由于其良好的知识保留能力、复杂的推理和解决问题能力，在通用人工智能（AGI）领域取得了重大进展。然而，语言模型缺乏像人类一样感知非文本模态（如图像和音频）的能力。作为一种重要模态，语音提供了超越文本的多样且复杂的信号，如人声中的情感、语调和意图，自然声音中的火车汽笛、钟声和雷声，以及音乐中的旋律。使LLMs能够感知和理解丰富的音频信号以进行音频交互引起了广泛关注。

大模型语音

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D Hybrid Prior” VividTalk由南京大学、阿里巴巴

VividTalk 视频

百度智能云的Prompt模板

接下来主要介绍百度智能云中的Prompt模板。

大模型 prompt

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

来围观初代教父唱《野狼disco》之前全网刷屏的阿里明星项目 EMO 终于正式开放了！

EMO 阿里全民演唱

如何下载及使用通义千问7B开源大模型

阿里云开源通义千问70亿参数模型，包括通用模型Qwen-7B和对话模型Qwen-7B-Chat，两款模型均已上线ModelScope魔搭社区，开源、免费、可商用，欢迎大家来体验。

通义千问

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

清晰之声，重塑沟通体验为了解决这些痛点，阿里巴巴语音实验室推出了 ClearerVoice-Studio——一款功能全面的语音处理框架。

ClearerVoice-Studio 语音

全量免费的EMO模型上架通义APP，外媒称之为Sora之后最受期待的大模型之一

两个月前，阿里巴巴通义实验室公开了一篇能够让照片唱歌说话的生成式AI模型论文，EMO（Emote Portrait Alive），在海外媒体和社交平台引起热烈反响，被一批科技圈大V轮番转发。

EMO 阿里全民演唱

阿里RAG新框架R4：增强检索器-重排序-响应器，5个知识密集任务上都超过Self-RAG等！

大型语言模型（LLMs）在生成文本时可能会产生错误信息，即“幻觉”问题。尽管检索增强的LLMs通过检索外部数据来减少这种幻觉，但现有的方法通常不考虑检索文档与LLMs之间的细粒度结构语义交互，这在处理长文档时尤其影响回答的准确性。

RAG 检索大型语言模型

Stable Diffusion

Stable Diffusion | SD腾讯云3步部署，全程五分钟，附价格费用清单

昨天分享的阿里云部署SD，得到不少朋友的关注，那不得不看看腾讯云部署了，流程和界面几乎都是一样的，逻辑是一样，唯一不同的是，腾讯云云盘没有试用，需要自己购买。

下载开源模型

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1