文章列表-AI魔法学院

Mistral AI于2023年成立，市值已达到20亿美元。该公司推出的大型语言模型Mixtral 8x7B引起了广泛关注。Mixtral 8x7B的核心是其创新性的专家混合（MoE）架构，由八个“专家”和七十亿参数组成。这种设计使得模型训练和运算更为高效，体现了Mistral AI对于尖端架构的追求。 Mixtral 8x7B在处理效率上表现出色，每个Token仅需调用两位“专家”，既保证了运算速度，又没有牺牲性能。与其他大型模型如GPT-4相比，Mixtral 8x7B的模型体积更小，体现了Mistral AI对实用性的重视。此外，该模型在多种任务中都有出色表现，包括组合任务、数据分析、问题解决和编程辅助，并支持法语、德语、西班牙语、意大利语和英语等多语言。在开发过程中，Mistral AI采用了非常规的发布策略，通过torrent分发模型，引发了关于开源模型角色的讨论。AI社区对模型进行了快速的逆向工程，并对其进行了细致的调优，证明了模型的灵活性和开发过程中的协作精神。 Mistral AI对持续提升性能的承诺使Mixtral 8x7B成为不断进化的语言模型领域的领跑者。未来的改进、功能扩充和适应性增强将进一步提升模型的性能和应用范围。 Mixtral 8x7B的技术规格包括精心设计的模型结构、高效的GPU使用策略以及对各种部署环境的灵活适应。这些特点使得模型在性能上表现出色，并在多种应用中发挥重要作用。总的来说，Mixtral 8x7B是Mistral AI在大语言模型领域的一次重大突破，具有出色的处理能力和广泛的应用前景。随着Mistral AI不断优化和调整模型，我们有理由相信Mixtral 8x7B将在人工智能领域产生更深远的影响。

开源模型 Mixtral 8x7B 2024-05-09

OpenAI

基于 OpenAI Whisper 模型的实时语音转文字工具

WhisperLive是一款基于OpenAI Whisper模型的开源音频处理和创作软件，支持实时音频处理、效果制作和声音合成。具有跨平台支持、高度可定制性和直观的图形界面等特点。用户可以通过简单的安装步骤使用其进行音频文件的转录，也可以从麦克风或HLS流中实时转录音频。此外，WhisperLive是开源的，并得到了活跃社区的支持。

WhisperLive 音频开源软件 2024-05-08

免训练！单图秒级别生成AI写真，人像生成进入无需训练的单阶段时代

FaceChain FACT是AI人像写真开源项目的新版本，它通过重构Stable Diffusion模型架构，实现了无需训练即可生成高精度人像的效果。利用海量人脸数据预训练的Transformer架构特征提取器，FACT能够在10秒内生成细腻且自然的人像，大幅提升了用户体验。此外，FaceChain还提供丰富的API接口，支持定制化开发，推动AIGC文生图领域的发展。

FaceChain FACT 文生图 2024-05-08

Agent

谈Agent构建平台的设计

无论是2023年10月发布的讯飞友伴，还是11月发布的OpenAI的GPTs，还有国内小团队的dify和Vanus等的云平台，简单Agent（基于知识库的chatbot）的构建平台这一形态已经广为人知。本文与这些已有方案不同，主要讨论更为更强能力的Agent构建平台，主要目标是解决实际中稍微复杂一些的问题。此外本文主要讨论的是云上的平台，但其实很多考量可以应用在私有化部署的平台或者内部工具上。

Agent 构建 2024-05-08

企业

初创企业必知的 30种商业模式（附实例）

本文介绍了30种不同的商业模式，这些模式涵盖了初创企业到成熟企业的各种经营策略。这些商业模式包括免费增值、订阅、交易市场、聚合者、按需付费、按服务收费、教育科技、锁定、API许可、开源、数据即服务、区块链、免费企业、剃刀与刀片、直接面向消费者、自有品牌与白标、特许经营、基于广告、八爪鱼、交易型、点对点、经纪、代发货、空间即服务、第三方物流、最后一公里交付、联盟、虚拟商品、云厨房、众包等。这些商业模式各有特点，适用于不同的企业和产品。例如，免费增值模式适用于那些希望吸引大量用户并通过升级功能或提供更多服务来变现的企业；订阅模式则适用于那些提供定期服务或产品的企业，如Netflix和Spotify；而交易市场模式则适用于那些希望通过第三方卖家来扩大产品种类和规模的企业，如亚马逊和eBay。此外，本文还对一些商业模式的优点和适用场景进行了详细的解释，如代发货模式的优势在于可以减少库存和运营成本，适用于初创企业和小型电商；而空间即服务模式则提供了一种灵活的工作和生活方式，适用于千禧一代等注重自由和便利的消费者。总之，选择适合自己的商业模式对于企业的发展至关重要。通过了解这些不同的商业模式，企业可以根据自己的特点和市场需求来选择合适的策略，从而实现可持续发展和盈利增长。

初创商业模式 2024-05-08

ComfyUI

AA大佬新作：ComfyUI整合包，打造极简解决方案

AA发布的ComfyUI整合包为Stable Diffusion新手提供了便捷的安装和配置解决方案。整合包预装了大量节点，简化了安装过程，并提供启动器以完成节点更新和安装。用户需下载整合包、解压缩、放置模型文件、使用启动器、运行ComfyUI，并参考使用教程。遇到问题可在社区寻求帮助。ComfyUI将成为AI艺术创作和研究的重要工具。

comfyui 文生图工作流程 2024-05-08

ChatGPT

使用ChatGPT检查论文引用、提高研究深度

本文介绍了如何使用ChatGPT在学术研究和数据分析过程中提高论文质量。ChatGPT可以帮助检查论文引用的准确性、深化研究方法、提升数据分析技能、分析统计模型、提高研究效率以及解释复杂概念。用户可以通过与ChatGPT的互动，获取相关建议和资源，从而提高研究效率和成果质量。

ChatGPT 案例 2024-05-08

RAG

忘掉 RAG，未来是 RAG-Fusion！搜索的下一个前沿：检索增强生成遇上倒数排名融合和生成查询

本文介绍了作者近十年来在搜索技术领域的探索，特别关注了最近出现的检索增强生成（RAG）技术。RAG技术通过结合向量搜索和生成性人工智能，直接在可信数据上产生答案，对搜索和信息检索领域产生了颠覆性的影响。作者在个人搜索项目中使用RAG，发现其虽然具有许多优点，但也存在局限性。为了解决这些问题，作者开发了一个更精细的解决方案：RAG-Fusion。RAG-Fusion通过生成多个用户查询并重新排序结果，解决了RAG固有的限制。本文深入探讨了RAG-Fusion的技术细节和工作流程，包括多查询生成、逆向排名融合（RRF）和生成性输出等技术实现。同时，也分析了RAG-Fusion的优势和不足，并提出了伦理和用户体验方面的考虑。最后，文章呼吁创新者超越传统框架，重新构想“搜索”的织锦。

RAG-Fusion 检索增强 2024-05-08

模型压缩：量化、剪枝和蒸馏

本文介绍了针对预训练语言模型BERT的压缩方法，主要包括量化、剪枝和蒸馏等技术。BERT模型由于其庞大的参数规模和推理速度，使得其难以在算力受限的移动终端上部署。因此，对BERT模型进行压缩变得至关重要。首先，文章对BERT模型的结构进行了深入分析，包括Embedding层、Linear层、Multi-Head Attention层和Feed Forward层等。通过对BERT模型的结构拆分，可以更深入地理解其各部分的功能和特性，为后续的压缩方法提供基础。接下来，文章介绍了量化技术。量化是一种将模型权重参数用更少的比特数存储的方法，可以减少模型的存储空间和算力消耗。常见的量化方法包括均匀量化和均值聚类等。通过量化，可以将BERT模型的存储空间减少一半，同时运行速度也可以得到显著提升。然后，文章介绍了剪枝技术。剪枝是通过去除模型参数中冗余或不重要的部分，以减小模型的存储空间和推理时间。对于BERT模型，剪枝可以分为元素剪枝和结构剪枝两类。元素剪枝通过置零较小的参数来减小存储空间，而结构剪枝则通过去除冗余的模型结构来精简模型。剪枝操作会对模型带来精度损失，但可以通过训练时剪枝和后剪枝等方法来缓解。最后，文章介绍了蒸馏技术。蒸馏是一种基于教师-学生网络思想的训练方法，通过让一个小型的学生模型学习一个大型的教师模型的知识，从而实现模型的压缩。在BERT的蒸馏中，可以选择不同的蒸馏目标，如输出概率、隐层特征或Attention层等。蒸馏可以与量化和剪枝等技术结合使用，以达到更高的压缩比。除了上述三种主要的压缩方法外，还有一些与模型结构强依赖的压缩方法，如参数共享、低秩分解和注意力解耦等。这些方法虽然不会改变模型的结构，但也可以在一定程度上减小模型的存储空间和推理时间。总的来说，BERT模型的压缩是一个复杂而重要的任务。通过量化、剪枝和蒸馏等技术，可以在保证一定精度的前提下，实现对BERT模型的有效压缩，使其能够在算力受限的移动终端上顺利部署和运行。

BERT 语言模型 2024-05-08

视频

绝对是你的下载神器！AixDownloader可让你从任何网页下载你想要的内容，音乐、视频、图像、文件等！

文章介绍了AixDownloader这款万能的内容下载与管理工具，它能从各种网站轻松下载视频、音乐、图片等文件，并具有强大的下载管理功能。文章还详细说明了AixDownloader的使用方法和使用场景，以及它的优势和特点。总结来说，AixDownloader是一款功能强大、简单易用、完全免费的下载工具，适用于各种下载需求，是用户获取网络资源的得力助手。

AixDownloader 下载 2024-05-07

一张照片秒生不同风格图像！小红书InstantID来了！

InstantID是一个图像生成工具，利用零样本学习技术从单张面部图像提取身份特征，生成高保真度、不同风格的个性化图像。该工具即插即用，兼容多种预训练模型，具有高效性和风格灵活性。用户可通过上传人物图片和输入文本提示，轻松定制个性化图像。使用InstantID，无需大量训练数据，即可实现精确的人物身份保持和多样化风格生成。

InstantID 文生图 2024-05-07

Sora

Sora物理悖谬的几何解释

本文分析了Sora视频生成模型的技术路线和缺陷。Sora声称是“作为世界模拟的视频生成模型”，但其技术路线无法正确模拟世界的物理规律。文章指出，Sora存在以下几个问题： 1. 用概率统计的相关性无法精确表达物理定律的因果性。虽然Sora将视频分解成时空令牌并学习它们之间的连接概率，但这种相关性无法精确表达物理定律的因果性。因此，在生成视频时，Sora无法准确模拟物理过程的因果关系，导致生成的视频在某些情况下出现悖谬。 2. Sora缺乏全局观念。虽然Transformer可以学习临近时空令牌间的连接概率，但无法判断全局的合理性。这导致Sora生成的视频在局部上可能很合理，但在整体上却可能出现荒谬的情况。文章指出，这种全局观念可能来自于物理中的重力场、人体工程学或生物学等深层次的自然科学和人文科学背景，而目前的Transformer还无法真正悟出这些全局观点。 3. Sora忽略了物理过程中最为关键的临界（灾变）态。由于临界态样本的稀缺以及扩散模型将稳恒态数据流形的边界模糊化，Sora无法生成临界态的视频。这导致Sora生成的视频在某些情况下出现稳恒态之间的跳跃，而缺乏物理过程中最为关键的临界态。文章提出，基于几何方法的最优传输理论框架可以精确检测到稳恒态数据流形的边界，从而强调了临界态事件的生成，避免了不同稳恒态之间的横跳。综上所述，虽然Sora在视频生成方面取得了一定的成果，但其技术路线存在缺陷，无法精确模拟物理规律。文章呼吁年轻的读者们积极投身于这个伟大的转折点，用自己的聪明才智推动科技与社会的发展。同时，文章也提出了基于几何方法的最优传输理论框架作为一种可能的解决方案，以克服Sora等数据驱动世界模拟模型的缺陷。

Sora 解释 2024-05-07

大模型

大模型检索增强生成(RAG)高质量报告

同济大学Haofen Wang的报告《Retrieval-Augmented Generation (RAG): Paradigms, Technologies, and Trends》探讨了检索增强生成（RAG）在优化大语言模型性能中的应用。RAG通过检索相关信息辅助大模型回答，相比微调，RAG更具灵活性。报告介绍了Naive RAG、进阶RAG和模块化RAG三类方法，并探讨了RAG发展中涉及的数据索引优化、结构化语料库、知识图谱等技术。报告还总结了RAG的有效性评价、常用框架和工业应用，并指出了RAG的三大趋势、存在的挑战及未来发展方向。

RAG 大模型检索 2024-05-07

大模型

大模型能力评估体系

本文介绍了大模型技术的快速发展及其在各领域的广泛应用。随着模型规模的扩大，对其性能和能力的评测需求也日益增长。然而，当前的评测存在多样性和不一致性，导致不同榜单的排名结果存在显著差异。为了建立公正和全面的评测体系，一些机构采取了过程公开的评测方法，并涉及多个维度如通用能力、泛化能力、鲁棒性等。文章还介绍了多个广泛认可的大模型评测体系，如GLUE、SuperGLUE、GSM8K等，并展望了未来的评测方向，包括设计更全面的评测方法、动态评测和混合评测方法。同时，文章强调了在构建大模型时需要明确目标，并定义了通用、行业、企业和个人层面的评测体系及其目标。

大模型评估 2024-05-07

大模型

大模型能自己优化Prompt了，曾经那么火的提示工程要死了吗？

人类设计prompt的效率较低，效果也不如AI模型自己优化。随着ChatGPT等大型语言模型的上线，提示工程成为了一个热门领域。然而，新的研究表明，模型自己优化提示的效果最好，而非人类工程师。自动微调的提示技术成功且奇怪，一些工具可以自动生成最优的prompt，性能优于人工设计的prompt。因此，人类可能不再需要人工优化prompt，而是将这个任务交给算法。尽管如此，提示工程岗位可能仍会存在，因为将其产品化需要考虑许多因素，如可靠性、输出格式、测试、安全和合规等。目前这个领域处于早期阶段，变化很快，唯一确定的规则似乎就是没有规则。

prompt 大模型提示 2024-05-07