训练魔法-AI魔法学院

训练魔法

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

国产大模型Qwen2.5系列新成员Qwen2.5-Turbo支持超长上下文，性价比高，能45秒总结《三体》主要内容，处理百万上下文时速度提升4.3倍，且价格便宜，引发网友热议。在多项长文本任务测试中表现优异，同时在短文本任务上也不逊色，Demo已上线HuggingFace和魔搭社区，API服务已上线阿里云。目前模型权重尚未开源。

Qwen2.5 开源模型 2024-11-21

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

传统的大模型Scaling Law已遇瓶颈，硅谷主要AI实验室陷入困境，训练成本高昂且效果提升有限。OpenAI等巨头正寻求新方法，如OpenAI的「测试时计算」技术和SSI的未知新方法，以突破当前限制。这些变化可能打破英伟达GPU在AI硬件市场的垄断地位，推动新一代GPU和推理芯片的发展。同时，AI领域正从大规模预训练转向推理阶段优化，OpenAI的o系列模型成为新焦点，可能标志着从GPT到推理模型的转变。

Scaling Law AI大模型 2024-11-18

大模型天才杨植麟，被朱啸虎“咬”了一口

“人红是非多”，明星大模型独角兽月之暗面又“摊上事”了。据暗涌报道，Kimi背后公司月之暗面的创始人&CEO杨植麟，以及联合创始人&CTO张宇韬，近日被循环智能时期的部分投资人在香港提起仲裁，相关电子仲裁申请书已递交HKIAC（香港国际仲裁中心）。

杨植麟大模型 2024-11-18

13.5K Star ! Fish Speech Windows本地搭建，能否达到官方的级别？强烈推荐

Fish Speech是Fish Audio开发的开源文本到语音（TTS）工具，支持多语言，通过70万小时数据训练实现高质量语音合成，具有低显存需求、快速推理、高自定义性等特性，包括零样本/小样本TTS、语音克隆、无音素依赖等能力。文章还介绍了Fish Speech的本地搭建方法，包括环境要求、安装步骤和推理实战，效果接近官网服务。

Fish Speech 本地搭建 2024-11-15

小度为何押注AI眼镜？

小度科技在2024世界大会上发布了全新AI眼镜，该眼镜内置AI，可语音问答、整理文档、翻译外文等，配备高像素广角摄像头、轻便续航强，软硬件全面优化，提供流畅交互体验。AI眼镜市场增长迅速，小度凭借AI原生、软硬一体优势入局，旨在让AI技术成为人类智慧生活的伙伴。

AI眼镜小度 2024-11-14

个人从零预训练1B LLM心路历程

项目于2024年3月启动，旨在从零开始训练一个名为“Steel-LLM”的中文大型语言模型，使用A100 GPU和T级别的开源中文（80%）及英文（20%）数据，模型参数量为1B。项目过程中遇到算力断供等问题，历时8个月完成，最终在ceval和cmmlu评估中取得良好表现。项目通过博客形式详细分享了训练过程中的数据收集与处理、代码改进、模型设计、微调探索与评估等细节。训练框架基于TinyLlama改进，使用FSDP进行分布式训练，对模型结构进行了soft MOE和SENet等修改。微调阶段使用了包括Infinity-Instruct在内的多份数据，并进行了刷榜测试。文章最后提到了项目的一些局限性和未来计划。

LLM 训练 2024-11-14

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

GLM-4-Voice 9B是一款支持英语和中文实时语音交互的端到端模型，具备低延迟响应和可定制声音属性。文章介绍了其独特架构、设置步骤及在客户服务、教育等领域的应用潜力，强调其作为多语言对话AI工具的优势。

GLM-4-Voice 9B 语音安装 2024-11-13

MCI-GRU：在真实金融交易中验证有效的股票价格预测模型

本文提出MCI-GRU模型，结合多头交叉注意力机制和改进GRU结构，提升股票预测准确性。通过替换GRU重置门为注意力机制，并引入GAT模块和多头交叉注意力机制，模型有效捕捉市场复杂动态和关键历史信息。实验表明，MCI-GRU在多个数据集上优于现有方法，已应用于基金管理公司。未来可结合更多市场数据优化模型。

MCI-GRU 股票大模型 2024-11-13

天塌了，Scaling Law 已撞收益递减墙？OpenAI 在内，所有大模型都正遭遇巨大瓶颈

OpenAI及多家前沿实验室面临人工智能大模型改进速度放缓的问题，主要原因是高质量预训练数据稀缺和硬件成本上升。为应对此困境，OpenAI等正在研究新策略，如利用合成数据训练模型。同时，麻省理工学院研究发现，大模型虽表现惊人，但对世界缺乏连贯理解，一旦环境变化可能崩溃。网友提出将LLM与逻辑引擎等结合或用人形机器人收集现实数据等建议，以推动AI技术超越当前极限。

Scaling Law AI大模型 2024-11-12

我们需要的不是智能体，而是工作流（5000字保姆式教学）

文章总结：文章探讨了AI Agent在工作流中的应用，指出通过掌握思维技巧，如拆包大法COT（思维链方法）和多角色协作，可以打造个人高效工作流。通过实例展示了如何用COT设计生产爆文的工作流，并介绍了多角色协作在优化翻译和公众号爆文创作中的应用，强调人的能力结合AI使用技巧能放大生产力。

工作流教学 2024-11-12

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

Westlake-Omni是西湖心辰推出的全球首个开源中文情感端到端语音交互大模型，具有高质量的语音合成、精准的情感捕捉与表达、端到端设计等特点。它通过统一模态处理、深度学习基础、注意力机制等技术架构实现，经过大规模数据集训练和多种优化策略，支持情感感知与表达、多语言、个性化定制和实时交互。Westlake-Omni可应用于智能家居、智能车载、教育、医疗保健和娱乐产业等领域，为中文语音交互技术带来新活力和可能性。

Westlake -Omni 语音 2024-11-08

PymuPDF4llm：PDF 提取的革命

PymuPDF4llm是一款开源、免费的PDF提取工具，专为大型语言模型（LLMs）优化，提供文本、表格、图像提取及文档结构分析功能，解决了传统PDF提取工具的诸多问题，提高了信息提取效率和准确性，为AI项目提供强有力的支持。

PymuPDF4llm PDF 2024-11-07

一文彻底搞懂多模态 - 多模态推理

本文总结了多模态推理的概念，涉及视觉和语言等至少两种感知模态的信息融合，旨在获取更全面准确的理解和知识，支持视觉问答、视觉常识推理、视觉语言导航等任务。文章进一步介绍了知识图谱推理及其方法，包括基于规则学习、路径排序、表示学习和神经网络学习。最后，文章阐述了多模态推理任务的具体应用，包括视觉问答、视觉常识推理和视觉语言导航。

多模态推理大模型 2024-11-07

AI+大模型在金融行业的应用场景

AI技术广泛赋能金融行业，包括营销、资管、风控等，提升交易效率和安全性。在银行、保险、证券行业中，AI应用各具特色，如银行的信用风险评估、保险的个性化产品和自动化理赔、证券的智能交易和智能投顾。但AI应用也面临数据偏差、隐私保护、算法透明度等风险和挑战。

AI大模型金融 2024-11-06

LLM每周速递！大模型最前沿：多模态RAG、RAG加速、大模型Agent、模型微调/对齐

本文总结了最近一周关于大模型(LLMs)的10篇最新研究进展，涉及多模态RAG、推理时对齐、多模态模型、大模型微调、大模型Agent等热门领域。具体包括：多模态RAG系统研究，旨在找到最佳配置以提升性能；推理时对齐方法，提出Speculative Rejection算法提高计算效率；新型扩散模型架构OmniGen，支持多种图像生成任务且用户友好；多模态语言模型BLIP-3-Video，有效捕捉视频帧时间信息；多语言多模态大模型Pangea，覆盖39种语言并在多文化和语言背景下表现优异；上下文Scaling Laws研究，解释了为何示例越多模型预测越准确；RAG推理加速方法Block-Attention，显著降低推理延迟和计算开销；可拓展Agent平台AgentStore，集成不同代理以自动化计算机任务；LLM PEFT技术全面介绍，提供了高效的针对预训练模型的下游任务适配手段。

大模型研究 2024-11-04

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1