文章列表-AI魔法学院

国产大模型Qwen2.5系列新成员Qwen2.5-Turbo支持超长上下文，性价比高，能45秒总结《三体》主要内容，处理百万上下文时速度提升4.3倍，且价格便宜，引发网友热议。在多项长文本任务测试中表现优异，同时在短文本任务上也不逊色，Demo已上线HuggingFace和魔搭社区，API服务已上线阿里云。目前模型权重尚未开源。

Qwen2.5 开源模型 2024-11-21

OpenAI

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

传统的大模型Scaling Law已遇瓶颈，硅谷主要AI实验室陷入困境，训练成本高昂且效果提升有限。OpenAI等巨头正寻求新方法，如OpenAI的「测试时计算」技术和SSI的未知新方法，以突破当前限制。这些变化可能打破英伟达GPU在AI硬件市场的垄断地位，推动新一代GPU和推理芯片的发展。同时，AI领域正从大规模预训练转向推理阶段优化，OpenAI的o系列模型成为新焦点，可能标志着从GPT到推理模型的转变。

Scaling Law AI大模型 2024-11-18

大模型

大模型天才杨植麟，被朱啸虎“咬”了一口

“人红是非多”，明星大模型独角兽月之暗面又“摊上事”了。据暗涌报道，Kimi背后公司月之暗面的创始人&CEO杨植麟，以及联合创始人&CTO张宇韬，近日被循环智能时期的部分投资人在香港提起仲裁，相关电子仲裁申请书已递交HKIAC（香港国际仲裁中心）。

杨植麟大模型 2024-11-18

13.5K Star ! Fish Speech Windows本地搭建，能否达到官方的级别？强烈推荐

Fish Speech是Fish Audio开发的开源文本到语音（TTS）工具，支持多语言，通过70万小时数据训练实现高质量语音合成，具有低显存需求、快速推理、高自定义性等特性，包括零样本/小样本TTS、语音克隆、无音素依赖等能力。文章还介绍了Fish Speech的本地搭建方法，包括环境要求、安装步骤和推理实战，效果接近官网服务。

Fish Speech 本地搭建 2024-11-15

Prompt

17岁高中生写了个神级Prompt，直接把Claude强化成了满血o1。

这两天，我被这个Claude3.5这个神级Prompt惊呆了。佩服的五体投地。非常简单的话说，就是它用Prompt把o1级别的思维链，复刻到了Claude3.5里，而且思考逻辑更详细、更像人，甚至思考过程都跟o1一样，可以展开折叠。

prompt 大模型 2024-11-15

小度为何押注AI眼镜？

小度科技在2024世界大会上发布了全新AI眼镜，该眼镜内置AI，可语音问答、整理文档、翻译外文等，配备高像素广角摄像头、轻便续航强，软硬件全面优化，提供流畅交互体验。AI眼镜市场增长迅速，小度凭借AI原生、软硬一体优势入局，旨在让AI技术成为人类智慧生活的伙伴。

AI眼镜小度 2024-11-14

LLM

个人从零预训练1B LLM心路历程

项目于2024年3月启动，旨在从零开始训练一个名为“Steel-LLM”的中文大型语言模型，使用A100 GPU和T级别的开源中文（80%）及英文（20%）数据，模型参数量为1B。项目过程中遇到算力断供等问题，历时8个月完成，最终在ceval和cmmlu评估中取得良好表现。项目通过博客形式详细分享了训练过程中的数据收集与处理、代码改进、模型设计、微调探索与评估等细节。训练框架基于TinyLlama改进，使用FSDP进行分布式训练，对模型结构进行了soft MOE和SENet等修改。微调阶段使用了包括Infinity-Instruct在内的多份数据，并进行了刷榜测试。文章最后提到了项目的一些局限性和未来计划。

LLM 训练 2024-11-14

语音

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

GLM-4-Voice 9B是一款支持英语和中文实时语音交互的端到端模型，具备低延迟响应和可定制声音属性。文章介绍了其独特架构、设置步骤及在客户服务、教育等领域的应用潜力，强调其作为多语言对话AI工具的优势。

GLM-4-Voice 9B 语音安装 2024-11-13

金融

MCI-GRU：在真实金融交易中验证有效的股票价格预测模型

本文提出MCI-GRU模型，结合多头交叉注意力机制和改进GRU结构，提升股票预测准确性。通过替换GRU重置门为注意力机制，并引入GAT模块和多头交叉注意力机制，模型有效捕捉市场复杂动态和关键历史信息。实验表明，MCI-GRU在多个数据集上优于现有方法，已应用于基金管理公司。未来可结合更多市场数据优化模型。

MCI-GRU 股票大模型 2024-11-13

大模型

天塌了，Scaling Law 已撞收益递减墙？OpenAI 在内，所有大模型都正遭遇巨大瓶颈

OpenAI及多家前沿实验室面临人工智能大模型改进速度放缓的问题，主要原因是高质量预训练数据稀缺和硬件成本上升。为应对此困境，OpenAI等正在研究新策略，如利用合成数据训练模型。同时，麻省理工学院研究发现，大模型虽表现惊人，但对世界缺乏连贯理解，一旦环境变化可能崩溃。网友提出将LLM与逻辑引擎等结合或用人形机器人收集现实数据等建议，以推动AI技术超越当前极限。

Scaling Law AI大模型 2024-11-12

我们需要的不是智能体，而是工作流（5000字保姆式教学）

文章总结：文章探讨了AI Agent在工作流中的应用，指出通过掌握思维技巧，如拆包大法COT（思维链方法）和多角色协作，可以打造个人高效工作流。通过实例展示了如何用COT设计生产爆文的工作流，并介绍了多角色协作在优化翻译和公众号爆文创作中的应用，强调人的能力结合AI使用技巧能放大生产力。

工作流教学 2024-11-12

登顶的小熊猫模型出AI产品了！3步10秒出一张海报，可免费商用

AI海报设计生成器“图形设计生成器”上新即受热捧，由图像生成新王者Recraft推出，操作简单快捷，平均10秒生成一张海报，文字无误，对新手友好，被网友视为Canva和PS的竞争对手。Recraft公司还提供了文生图、背景去除、图像放大、AI渲染等功能，且其V3模型可生成无限长度文字，支持团队实时协作，实测中能准确生成并计算数学题元素。

图形设计生成器文生图 2024-11-11

数字人

京东开源普通话数字人JoyHallo，一口流利标准普通话还会讲英语

JoyHallo模型通过半解耦结构和中文wav2vec2模型，解决了普通话视频生成中数据集难收集和唇部动作复杂的问题，提升了普通话视频生成的唇部同步和面部表情准确性，同时表现出跨语言生成能力。

JoyHallo 数字人开源模型 2024-11-11

大模型

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

Westlake-Omni是西湖心辰推出的全球首个开源中文情感端到端语音交互大模型，具有高质量的语音合成、精准的情感捕捉与表达、端到端设计等特点。它通过统一模态处理、深度学习基础、注意力机制等技术架构实现，经过大规模数据集训练和多种优化策略，支持情感感知与表达、多语言、个性化定制和实时交互。Westlake-Omni可应用于智能家居、智能车载、教育、医疗保健和娱乐产业等领域，为中文语音交互技术带来新活力和可能性。

Westlake -Omni 语音 2024-11-08

开源

字节开源项目MimicTalk：快速打造逼真3D Talking Face的利器

MimicTalk是浙江大学和字节跳动联合研发的项目，利用NeRF技术快速训练高质量3D说话头像模型，提高个性化数字人视频生成效率和质量，适用于娱乐、教育、社交等领域，支持快速个性化训练、高质量视频生成、上下文学习和音频驱动，可应用于虚拟主播、视频会议、VR/AR、社交媒体、客户服务等场景，并提供了详细的部署条件和步骤。

MimicTalk 开源模型 2024-11-08