文章列表-AI魔法学院

文章列表

自己电脑上跑大语言模型（LLM）要多少内存？

文章总结了本地电脑上运行大型语言模型(LLM)时需要考虑的关键因素，包括模型名称解读（模型名+参数量）、模型精度（full precision、half precision等）、模型文件大小的计算（参数量与精度的关系）、内存需求（推断与训练时所需不同）、内存、显存与硬盘的使用情况，以及如何选择适合的模型。建议普通用户选择能跑的最大的4bit模型，并根据实际情况估算所需内存。

大语言模型运行 2024-07-11

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

文章介绍了京东探索研究院与悉尼大学联合提出的基于简单视觉transformer的姿态估计模型ViTPose及其改进版本ViTPose+。ViTPose通过简单的视觉transformer编码器和解码器设计，展示了在人体、动物等姿态估计任务上的出色性能，同时验证了其在简单性、可扩展性、灵活性和可迁移性方面的优势。ViTPose+进一步通过MoE机制解决了多数据集冲突问题，并在多个姿态估计数据集上刷新了最佳性能。这些工作为基于简单视觉transformer的姿态估计研究提供了新的方向，并有望推动相关视觉任务的发展。

ViTPose+Transformer 身体姿态 2024-07-11

一旦参透「第一性原理」，便洞悉所有事的本质

文章总结：第一性原理是一种深度分析的思维方式，它要求我们跳出传统思维的框架，回到问题的最基础、最核心的部分，忽略既有的假设和“常识”，从而找到创新的解决方案。要培养第一性原理思维，需学会识别和质疑现有假设，拆解问题到最基本的元素，并从根本上重新构建解决方案。通过实践如挑战权威、拆解问题、重构框架和迭代实验等步骤，我们可以提高问题解决能力。文章通过咖啡店销量下降和特斯拉电动汽车创新两个案例，展示了第一性原理在日常生活和工作中的应用及其重要性，强调了这种思维方式在创新和发展中的价值。

第一性原理大模型 2024-07-10

AI声音克隆 | 最全最简教程（权威版）

本文介绍了声音克隆技术，特别是GPT-SoVITS和Bert-VITS2两个开源项目，它们分别适用于快速实现声音克隆和追求更高质量的语音合成。GPT-SoVITS因其快速训练时间和跨语言能力受到推荐，并提供了详细的教程指导如何在OpenBayes平台上使用该项目克隆声音。文章还强调了数据集质量对生成结果的重要性，并以李雪健老师的声音为例，展示了克隆声音的效果。整体而言，本文为声音克隆技术的初学者提供了一个实用且易懂的入门指南。

声音克隆教程 2024-07-10

大模型落地“诸神之战”，场景玩家先杀出重围了

今年，大模型技术在多个领域展现出惊人落地速度，特别是在家居家电行业，已能实现快速生成精美家居效果图和种草视频。这一进步得益于定制化的家居家电大模型，它融合了自然语义、视觉和视频大模型，并吸收了专业设计师的家居布置案例和家装流行色搭配数据，确保了生成内容的自然美观。该技术已帮助美的、TCL等品牌提高营销效率，降低了成本。此外，AI营销产品如“来客易”、“森易销”和“森生万物”等，分别解决了线下门店引流、线上电商运营和品牌内容管理等问题，展现了AI在营销领域的巨大潜力。这些案例表明，拥有丰富行业经验和数据的场景玩家正在快速崛起，推动AI技术在更多领域实现落地应用。

大模型文生图 2024-07-10

SD 美颜修图神器

本文介绍了SD的美颜修图插件BMAB，可通过网址安装并用于调整生成的图片效果，如美颜、对比度、亮度、锐化、颜色、色温及噪点等。此外，该插件还能调整人物在画面中的位置和比例，提供了多种选项和参数设置，使图片更加生动和个性化。感兴趣的用户可查阅官方教程了解更多功能。

SD 文生图 2024-07-10

国产视频制作之光-可灵：提示词大全整理

国产视频制作正蓬勃发展，而可灵无疑是其中的闪耀之光！我们为您精心整理了一份提示词大全，堪称国产视频制作的宝藏秘籍。在这个大全里，您能找到各类丰富、实用且极具创意的提示词，无论您想要制作何种风格、何种主题的视频，它都能为您提供灵感指引。可灵的这份提示词大全，将助您在国产视频制作的道路上更加轻松顺畅，让您的创作之旅充满惊喜与可能！

可灵 kling 视频 2024-07-09

教会AI画汉字（ComfyUI篇）

文章介绍了如何使用ControlNet模型（一款基于qrcode的图图融合模型）和ComfyUI插件，通过详细步骤创建工作流并生成AI与文字相结合的图片效果。提供了模型下载链接和使用教程，展示了最终生成的效果图。

comfyui 文生图 2024-07-09

用上这10条神指令（prompt)，让ChatGPT快速写出优质高分科研论文

本文提供了十个高效利用ChatGPT辅助科研论文写作的提示词指令，涵盖研究方向、总结要点、提出研究问题、选择研究方法、寻找数据源、起草大纲、提高文本可读性、解释审稿人反馈、撰写摘要及推广论文等方面，旨在提高研究论文的质量和影响力。

prompt ChatGPT 写作 2024-07-09

7.1k Star！RAGFlow：最新开源OCR+深度文档理解的RAG引擎、大海捞针测试、降低幻觉、服务化API集成进业务！

RAGFlow是一个基于深度文档理解的开源RAG（检索增强生成）引擎，旨在通过整合检索到的信息和大型语言模型（LLM）来提升回答的质量和准确性。它支持多种文件类型，具有智能解析、可视化处理和可解释性等特点，允许用户轻松上传、管理和查询文档。RAGFlow不仅提高了知识库RAG的召回率，还提供了易于集成的API，适用于各类企业系统。此外，RAGFlow持续更新，集成新的模型和功能，以满足不同需求。部署RAGFlow需要一定的系统配置，包括Docker和适当的硬件资源。

OCR RAG 开源 2024-07-09

6个最佳开源TTS引擎

本文总结了多个优秀的开源文本到语音（TTS）引擎，这些引擎基于深度学习或传统技术，支持多种语言，包括中文。文章列举的引擎如CoQuiTTS、mozillaTTS、OpenTTS、MaryTTS、eSpeak、Mimic、CMU Flite TTS、MBROLA、mandarin-tts、FCH-TTS和rhasspypiper等，各自具有独特的功能和优势，适用于不同的应用场景，如帮助视觉障碍者理解文本、在车辆中播报文本信息、模拟人声、虚拟主播和歌手等。这些开源项目有助于提升TTS技术的发展和应用。

TTS引擎开源模型 2024-07-09

【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

ChatTTS 文本转语音项目在github爆火出圈，引来大家极大的关注。短短2周左右的时间，在 GitHub 上已经斩获了23.5k的Star量。本文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

chattts tts 文生语音 2024-06-21

使用python调用comfyui-api，实现出图自由

本文介绍了如何使用Python调用ComfyUI-API，实现自动化出图功能。首先，需要在ComfyUI中设置相应的端口并开启开发者模式，保存并验证API格式的工作流。接着，在Python脚本中，通过导入必要的库，定义一系列函数，包括显示GIF图片、向服务器队列发送提示信息、获取图片和历史记录等。通过解析工作流并获取图片，可以生成并显示所需的图像。最后，通过读取CSV文件中的提示词列表，循环调用生成图像的函数，实现批量处理。文章还提供了参考来源链接。

comfyui 工作流 2024-06-21

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

「可灵」全新国产视频生成大模型开始内测了。它采用了Sora相似的技术路线，结合多项自研技术创新，生成的视频不仅运动幅度大且合理，还能模拟物理世界特性，具备强大的概念组合能力和想象力。主打一个务实，不开空头支票、发布即上线，可灵大模型已在快影APP中正式开启邀测。

可灵快手文生视频 2024-06-09

开源新标杆，千问Qwen2系列模型发布，全面超越LLama3

Qwen2系列模型开源，包含五个尺寸，支持27种语言，性能优异。模型使用GQA，实现推理加速和显存降低。在基准测试中超越当前领先模型。支持多种框架，可微调、量化、部署和二次开发。Qwen团队将继续探索更大模型和多模态模型。无资源部署者可体验大模型竞技场中的Qwen2-72B-instruct。

qwen 千问开源 2024-06-07

<...11 12 13 141516 17 18 19 20 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1