训练魔法-AI魔法学院

训练魔法

大模型训练工程那些事

本文围绕大模型训练工程进行了深入探讨，将其与历史上的曼哈顿计划相提并论，凸显了其在当代科技领域的重要性。文章从技术原理、数据算力与资源、时间计划等方面，分析了大模型训练工程的复杂性和挑战性。在技术原理方面，文章介绍了Scaling Laws等科学原理在指导大模型训练中的应用。在数据、算力和资源方面，文章揭示了数据规模、模型规模和计算资源对AI模型性能的影响，并讨论了算力租赁、国产替代等当前面临的问题。在时间计划方面，文章预测了大模型训练迭代和应用的紧迫性，并强调了资源规划和差异化能力的重要性。总结来说，本文认为大模型训练工程是一项集科技、人力、资源和时间于一体的复杂系统工程，其发展和应用将对社会产生深远影响。文章呼吁产业界和学术界共同努力，推动大模型技术的发展和应用，为产业变革和社会进步贡献力量。

训练工程大模型 2024-05-13

如何看待大型语言模型的Prompt

本文回顾了Word2Vec中的词语算术现象，并探讨了大型语言模型（LLMs）与Word2Vec之间的相似之处。文章指出，两者都将标记（单词或子词）嵌入到向量空间中，并通过优化目标将相关标记在嵌入空间中拉近。LLMs通过自注意力机制学习嵌入空间，并展现了语义连续性和可插值性。此外，文章强调了LLMs在向量程序方面的强大能力，能够执行复杂的转换任务。最后，文章指出LLMs可以视为程序数据库，并通过提示工程在程序空间中搜索最佳程序。文章提醒读者理解LLMs时应避免拟人化倾向。

prompt 大语言模型 2024-05-13

强大高效的微信爬虫Wechat_Articles_Spider：快速获取公众号文章的利器

wechat_articles_spider是一个用于爬取微信公众号文章的Python工具，具备自动化、多线程、可定制化和数据持久化等特点。用户可安装后通过导入模块进行使用，它可应用于数据分析、媒体监测和学术研究等场景。但需注意遵守法律法规和网站规则，避免滥用。

微信爬虫 2024-05-13

大模型推理能力增强方法总结

推理能力作为智慧的重要象征，近年来在研究和讨论中备受关注。相关工作主要分为思维链提示、生成器加验证器以及两者混合方法。思维链提示通过向大语言模型展示少量样例，引导其展示推理过程，从而提高答案准确性。零样本思维链则通过简单提示，使模型能生成思维链。多数投票方法通过生成多个思维链并取多数答案，显著提高性能。思维树和思维图谱方法则通过组织推理步骤为树形或图形结构，提高推理的系统性和深度。思维程序方法要求模型生成可执行程序，以更清晰的方式展示推理过程。自动构建思维链和验证器方法则通过自动构建问题和推理链的演示，以及引入验证器对推理过程进行验证，提高推理的准确性和效率。累积推理方法则将整个推理过程建模为有向无环图，利用多个大语言模型协同工作，实现更深入的推理。这些方法共同推动了大语言模型在推理能力方面的发展。

推理能力大模型 2024-05-10

国内首个！最火的MoE大模型APP来了，免费下载，人人可玩

本文介绍了昆仑万维最新发布的天工2.0大模型，该模型采用与GPT-4同款的MoE混合专家结构，具备强大的多模态能力和超长的上下文窗口，能够提升复杂任务的处理能力和模型响应速度。天工2.0大模型已应用于新版天工AI智能助手APP，该APP支持多模态对话、数据分析和图文创作等功能，并且向全体C端用户免费开放。天工AI智能助手也因此成为国内首个搭载MoE架构并免费开放的AI应用。此外，天工AI智能助手还具备联网智能搜索能力，通过大模型技术提升搜索结果的准确性和质量。文章强调了大模型应用落地趋势的开启，以及天工AI智能助手在技术升级和玩法丰富方面的引领作用，认为这将有助于更多人拥抱大模型趋势，探索人类和大模型更好的交互方式。

MoE大模型 APPa 2024-05-10

如何提升 GPTs 的翻译效果？

GPT的出现不仅提高了翻译效率，更增强了翻译的可控能力。通过对比不同翻译软件的翻译结果和GPT的直译、意译及润色后的版本，展现了GPT在翻译方面的优势。文章还展示了GPT的翻译Prompt，强调了翻译后内容的二次润色对于提升翻译质量的重要性，突显了GPT在翻译中的优势在于对翻译结果的可控性。

GPT 翻译 2024-05-10

数据分析思路系列-如何建立指标体系

文章讨论了数据分析师在搭建和拆解指标体系时的工作方法和原则。指标体系是为了完成某一业务目标而建立的一套反映该目标结果的指标。搭建指标体系时，应坚持从业务出发的基本原则，首先关注公司的利润，然后拆解为收入、成本等关键指标。文章还介绍了如何根据业务逻辑进行一级和二级指标的拆解，并强调了指标体系的灵活性和可维护性。通过实际案例，展示了如何为特定业务（如教育公司的活跃业务）搭建指标体系。

数据分析指标体系 2024-05-10

浅浅介绍下中文分词，用这些库搞定

本文介绍了Python中常用的中文分词库，包括jieba、SnowNLP、pyltp和THULAC，并重点介绍了jieba库的安装和使用方法，包括精确模式、搜索引擎模式和全模式的分词，以及自定义词典、关键词提取、词性标注等功能的介绍。同时，本文还通过一个示例展示了如何使用jieba库对文本进行分词，并结合WordCloud和matplotlib库生成词云图像。

Python 分词库 2024-05-09

让AI帮你读财报：Reportify让你看得清、聊得深

Reportify是一款使用微软Copilot的AI分析工具，专注于解读公司财报。其优势在于信息新鲜、更新及时和专业输出。体验者对其专注感和陪伴感印象深刻，特别是财报分析结果的结构化摘要和与AI对话的能力。Reportify还提供财报对应电话会的总结与对话，以及公司相关新闻的分析。然而，新闻功能的优先级较低，未深入开发。建议Reportify聚焦从半专业到专业层级的用户，以公司为核心场景，提升用户体验。同时，注意导航设计和回顾会话时的消耗问题，并考虑加入KOL观点以增强特色。

Reportify 读财报 2024-05-09

深入探讨GPTs和AI Assistant

PTs 是 OpenAI 在2023年11月发布的新版本，具有可定制性和完成特定任务的强大功能。它提供了一种新的方式来使用ChatGPT，可以让用户根据自己的需求定制化，并与其他用户共享。

GPTs AI Assistant 2024-05-09

深入解析 Mistral AI 的 Mixtral 8x7B 开源MoE大模型

Mistral AI于2023年成立，市值已达到20亿美元。该公司推出的大型语言模型Mixtral 8x7B引起了广泛关注。Mixtral 8x7B的核心是其创新性的专家混合（MoE）架构，由八个“专家”和七十亿参数组成。这种设计使得模型训练和运算更为高效，体现了Mistral AI对于尖端架构的追求。 Mixtral 8x7B在处理效率上表现出色，每个Token仅需调用两位“专家”，既保证了运算速度，又没有牺牲性能。与其他大型模型如GPT-4相比，Mixtral 8x7B的模型体积更小，体现了Mistral AI对实用性的重视。此外，该模型在多种任务中都有出色表现，包括组合任务、数据分析、问题解决和编程辅助，并支持法语、德语、西班牙语、意大利语和英语等多语言。在开发过程中，Mistral AI采用了非常规的发布策略，通过torrent分发模型，引发了关于开源模型角色的讨论。AI社区对模型进行了快速的逆向工程，并对其进行了细致的调优，证明了模型的灵活性和开发过程中的协作精神。 Mistral AI对持续提升性能的承诺使Mixtral 8x7B成为不断进化的语言模型领域的领跑者。未来的改进、功能扩充和适应性增强将进一步提升模型的性能和应用范围。 Mixtral 8x7B的技术规格包括精心设计的模型结构、高效的GPU使用策略以及对各种部署环境的灵活适应。这些特点使得模型在性能上表现出色，并在多种应用中发挥重要作用。总的来说，Mixtral 8x7B是Mistral AI在大语言模型领域的一次重大突破，具有出色的处理能力和广泛的应用前景。随着Mistral AI不断优化和调整模型，我们有理由相信Mixtral 8x7B将在人工智能领域产生更深远的影响。

开源模型 Mixtral 8x7B 2024-05-09

谈Agent构建平台的设计

无论是2023年10月发布的讯飞友伴，还是11月发布的OpenAI的GPTs，还有国内小团队的dify和Vanus等的云平台，简单Agent（基于知识库的chatbot）的构建平台这一形态已经广为人知。本文与这些已有方案不同，主要讨论更为更强能力的Agent构建平台，主要目标是解决实际中稍微复杂一些的问题。此外本文主要讨论的是云上的平台，但其实很多考量可以应用在私有化部署的平台或者内部工具上。

Agent 构建 2024-05-08

初创企业必知的 30种商业模式（附实例）

本文介绍了30种不同的商业模式，这些模式涵盖了初创企业到成熟企业的各种经营策略。这些商业模式包括免费增值、订阅、交易市场、聚合者、按需付费、按服务收费、教育科技、锁定、API许可、开源、数据即服务、区块链、免费企业、剃刀与刀片、直接面向消费者、自有品牌与白标、特许经营、基于广告、八爪鱼、交易型、点对点、经纪、代发货、空间即服务、第三方物流、最后一公里交付、联盟、虚拟商品、云厨房、众包等。这些商业模式各有特点，适用于不同的企业和产品。例如，免费增值模式适用于那些希望吸引大量用户并通过升级功能或提供更多服务来变现的企业；订阅模式则适用于那些提供定期服务或产品的企业，如Netflix和Spotify；而交易市场模式则适用于那些希望通过第三方卖家来扩大产品种类和规模的企业，如亚马逊和eBay。此外，本文还对一些商业模式的优点和适用场景进行了详细的解释，如代发货模式的优势在于可以减少库存和运营成本，适用于初创企业和小型电商；而空间即服务模式则提供了一种灵活的工作和生活方式，适用于千禧一代等注重自由和便利的消费者。总之，选择适合自己的商业模式对于企业的发展至关重要。通过了解这些不同的商业模式，企业可以根据自己的特点和市场需求来选择合适的策略，从而实现可持续发展和盈利增长。

初创商业模式 2024-05-08

忘掉 RAG，未来是 RAG-Fusion！搜索的下一个前沿：检索增强生成遇上倒数排名融合和生成查询

本文介绍了作者近十年来在搜索技术领域的探索，特别关注了最近出现的检索增强生成（RAG）技术。RAG技术通过结合向量搜索和生成性人工智能，直接在可信数据上产生答案，对搜索和信息检索领域产生了颠覆性的影响。作者在个人搜索项目中使用RAG，发现其虽然具有许多优点，但也存在局限性。为了解决这些问题，作者开发了一个更精细的解决方案：RAG-Fusion。RAG-Fusion通过生成多个用户查询并重新排序结果，解决了RAG固有的限制。本文深入探讨了RAG-Fusion的技术细节和工作流程，包括多查询生成、逆向排名融合（RRF）和生成性输出等技术实现。同时，也分析了RAG-Fusion的优势和不足，并提出了伦理和用户体验方面的考虑。最后，文章呼吁创新者超越传统框架，重新构想“搜索”的织锦。

RAG-Fusion 检索增强 2024-05-08

模型压缩：量化、剪枝和蒸馏

本文介绍了针对预训练语言模型BERT的压缩方法，主要包括量化、剪枝和蒸馏等技术。BERT模型由于其庞大的参数规模和推理速度，使得其难以在算力受限的移动终端上部署。因此，对BERT模型进行压缩变得至关重要。首先，文章对BERT模型的结构进行了深入分析，包括Embedding层、Linear层、Multi-Head Attention层和Feed Forward层等。通过对BERT模型的结构拆分，可以更深入地理解其各部分的功能和特性，为后续的压缩方法提供基础。接下来，文章介绍了量化技术。量化是一种将模型权重参数用更少的比特数存储的方法，可以减少模型的存储空间和算力消耗。常见的量化方法包括均匀量化和均值聚类等。通过量化，可以将BERT模型的存储空间减少一半，同时运行速度也可以得到显著提升。然后，文章介绍了剪枝技术。剪枝是通过去除模型参数中冗余或不重要的部分，以减小模型的存储空间和推理时间。对于BERT模型，剪枝可以分为元素剪枝和结构剪枝两类。元素剪枝通过置零较小的参数来减小存储空间，而结构剪枝则通过去除冗余的模型结构来精简模型。剪枝操作会对模型带来精度损失，但可以通过训练时剪枝和后剪枝等方法来缓解。最后，文章介绍了蒸馏技术。蒸馏是一种基于教师-学生网络思想的训练方法，通过让一个小型的学生模型学习一个大型的教师模型的知识，从而实现模型的压缩。在BERT的蒸馏中，可以选择不同的蒸馏目标，如输出概率、隐层特征或Attention层等。蒸馏可以与量化和剪枝等技术结合使用，以达到更高的压缩比。除了上述三种主要的压缩方法外，还有一些与模型结构强依赖的压缩方法，如参数共享、低秩分解和注意力解耦等。这些方法虽然不会改变模型的结构，但也可以在一定程度上减小模型的存储空间和推理时间。总的来说，BERT模型的压缩是一个复杂而重要的任务。通过量化、剪枝和蒸馏等技术，可以在保证一定精度的前提下，实现对BERT模型的有效压缩，使其能够在算力受限的移动终端上顺利部署和运行。

BERT 语言模型 2024-05-08

<...11 12 13 141516 17 18 19 20 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1