文章列表-AI魔法学院

本文介绍了NEFTune技术，即在训练过程中向嵌入向量添加均匀随机噪声，以改善大型语言模型（LLM）的微调性能。研究结果显示，使用NEFTune技术可以显著提高LLM在对话任务上的性能，同时保持对其他任务性能的稳定性。NEFTune技术是一种简单而有效的正则化方法，可以缓解模型在指令微调阶段的过拟合现象，并更好地利用预训练阶段的知识内容。虽然研究还存在一些局限性，但NEFTune的成功表明了算法和正则化对LLM训练的重要性。

NEFTune 指令微调 2024-04-08

Stable Diffusion

Stable Diffusion超清放大及修复细节操作

本文介绍了使用Stable Diffusion模型进行低分辨率图片超清放大和修复细节的方法。通过具体实操案例，详细说明了生成图片、发送到图生图和后期处理的步骤，包括模型选择、参数设置和放大算法等。该方法仅需低显存即可实现高分辨率图片的生成和细节修复，操作简单，效果显著。

超清放大细节修复 2024-04-08

OpenAI

OpenAI 上线新功能力捧 RAG，开发者真的不需要向量数据库了？

本文探讨了OpenAI的开发者大会上推出的GPT-4 Turbo模型、全新Assistants API和一系列增强功能。其中，Assistants API的内置工具支持了代码解释器、知识库检索以及函数调用，能帮助开发者构建高质量的AI应用。然而，其内置的检索功能存在可扩展性、定制化和多租户支持等方面的限制。为了克服这些限制，文章介绍了使用Milvus向量数据库实现自定义检索功能的方法。通过集成Milvus，开发者可以构建高效、可扩展的检索器，满足多样化的用例需求。文章最后总结了OpenAI Assistants内置检索功能的局限性，并强调了使用向量数据库进行自定义检索的重要性。

OpenAI新功 RAG与向量库 2024-04-08

提示词

GPT提示词必杀技：思维树法

本文介绍了思维树方法，一种优化语言模型提示词的编写技巧。思维树通过将问题分解为多个子问题，每个子问题提供多种解决方案，模型评估后选出最优解。以写诗和数学问题为例，展示了如何使用思维树指导模型生成更精确、更有创意的答案。使用思维树后，模型能更好地理解问题，并给出更准确的答案。

GPT提示词思维树法 2024-04-08

Stable Diffusion

[Stable Diffusion]Segment Anything实现商业换装

SegmentAnything是一款基于深度学习的图像分割工具，通过自动检测提高分割效率。安装方法包括扩展面板和GitHub安装，并需下载并放置SAM模型。使用时，通过添加标记点定义提取区域，预览分离结果后可选择蒙版进行编辑和替换。结合controlnet，如openpose，可以控制人物身体姿势。最终生成的效果图展示了人物发型的成功替换。

StableDiffusion 商业换装 2024-04-08

AI+音乐｜对话 Suno CEO：破圈的音乐生成产品是如何诞生的？

Suno AI是一款由麻省理工团队开发的强大人工智能音乐生成器，于2022年创立，创始团队包括Mikey Shulman和Camachoeorg Kucsko等专家。Suno通过结合人工智能技术与音乐创作，降低了音乐制作的门槛，为音乐爱好者和专业人士提供了新的创作工具，推动了音乐创作的民主化。它不仅能生成音乐的旋律和伴奏，还能创作歌词和人声，提供基础模式和自定义模式两种创作方式。在最新的V3版本中，Suno引入了更多自然的人声和为用户提供更细致创作控制的新功能。 Suno不仅关注于音乐创作，也致力于探索新的音乐消费和分享方式。它使音乐创作更加普及和个性化，改变了人们与音乐的关系，促进了音乐作为一种表达和沟通方式的发展。同时，Suno也提供了一个平台，让创作者可以分享自己的音乐作品，发现来自世界各地的创作者和他们的作品，从而激发新的灵感和创意。这种跨文化的交流和合作将推动音乐的创新，使其成为一种真正全球化的语言。总的来说，Suno AI的出现为音乐创作和消费带来了革命性的变化，它降低了音乐创作的门槛，推动了音乐创作的民主化，同时也为音乐产业带来了新的商业模式和服务的可能性。

AI音乐 SunoCEO 2024-04-07

大模型

“大模型+机器人”的现状和未来，重磅综述报告来了！

本文综述了基础模型在机器人学中的应用，包括感知、决策与规划、控制等方面。视觉Transformer和视觉-语言模型提高了机器人感知的通用性和泛化能力，大型语言模型助力决策与规划，实现了从语言到行动的映射，而扩散模型和视觉-语言模型则优化了机器人控制。基础模型为机器人注入了语言理解、视觉泛化、常识推理等能力，预示着机器人学的新发展。未来，基础模型在机器人领域的应用将更广泛，需解决实时性、鲁棒性和可解释性等问题，推动机器人技术为社会带来更大福祉。

大模型+机器人现状与未来 2024-04-07

教程

GPTs使用指南 | 保姆级GPTs入门教程，0代码基础也能做AI产品

本文介绍了如何创建自己的GPTs，包括注册ChatGPT官网、开通ChatGPT Plus服务、进入GPTs创建入口、完善GPTs配置、保存并发布GPTs等步骤。同时，还推荐了一款名为GPTs Find的产品，帮助用户快速寻找可用的GPTs，并提供了GPTs搜索、入门教程、智能问答机器人和最新信息交流社群等功能。

GPTs使用 AI产品制作 2024-04-07

语音

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

文章主要讨论了阿里FunAsr对Whisper中文领域转写能力的挑战，并提供了通过优化措施提高Whisper在中文转写上的表现。首先，文章指出Whisper在中文语音转写后对标点符号的支持不够完备，但可以通过调整DecodingOptions中的prompt参数进行引导，改善标点符号的标注效果。其次，文章介绍了使用transformers库调用中文模型的方法，特别是BELLE-2/Belle-whisper-large-v2-zh模型，该模型在whisper的large-v2模型基础上针对中文进行了微调，提高了中文语音识别的准确度和效率。尽管该模型在标点能力方面有所弱化，但仍可通过其他方案如基于标点模型对转写文本加标点来弥补。文章还提到了small模型的中文优化版本，如Jingmiao/whisper-small-chinese_base。最后，文章总结了通过微调预训练模型，可以将其应用于特定的中文NLP任务，提高模型在该任务上的性能。

Whisper 中文语音 2024-04-07

SQL

RLHF 在 Text2SQL 领域中的探索

文主要介绍了 Text2SQL 的基本概念，以及 RLHF 的概念和框架，最后结合 DB-GPT-Hub 项目，将 RLHF 方法应用于 Text2SQL 任务进行实践探索。

Text2SQL RLHF 2024-04-07

开源

腾讯开源的照片生成工具PhotoMaker，采用高效个性化文本到图像生成方法，可生成逼真人类照片并具备堆叠ID嵌入功能。该技术展现了在文本到图像生成领域的新突破，尤其在个性化和真实感方面。使用Python和PyTorch框架，并提供了详细的安装、依赖项和测试指导。用户可通过Gradio界面上传多张定制人物照片，调整风格强度、基础模型和LoRAs，生成个性化图像。减少采样步骤可加速生成，但可能影响ID忠实度。项目链接：https://github.com/TencentARC/PhotoMaker。

PhotoMaker 照片风格生成 2024-04-07

LLM

Byzer-LLM 快速体验智谱 GLM-4

本文介绍了Byzer-LLM，一个可以部署和使用市面上主流开源和SaaS版本大模型的工具。文章重点介绍了如何快速体验GLM-4模型，包括注册账号、申请API Key、部署使用等步骤。此外，文章还提到了Byzer-LLM的一些独特功能，如Function Calling、RespondWith Class和Funciton Impl，以及两套实现方式：基于Prompt改写和基于SystemMessage+Prompt改写。最后，文章对GLM-4的测试结果进行了评价，认为其表现惊艳。

Byzer-LLM 智谱GLM-4 2024-04-07

ChatGPT

ChatGPT写论文最强指令！

文章请求了九种不同类型的学术帮助，包括收集文献资料、搜索特定作者或研究机构的论文、查找综述文献、分析和总结已有研究、润色和编辑论文、添加权威例证或引用、检查重复或不一致内容、提供改进逻辑和论证的建议，以及协助收集数据并展示图表。每种请求都旨在提升论文的质量、可信度和可读性。

ChatGPT写论文最强指令 2024-04-07

儿童

AI赋能实验室：儿童绘本插图

本文描述了一个儿童图书插图，展示了一个充满好奇心的动物在色彩鲜艳、充满魔法的环境中展开冒险的场景。插图需展现出动物的好奇心、顽皮举止，以及鲜艳的色彩和明亮的色调，以吸引儿童的注意。同时，插图需保持原始的手绘质感，以增加原创性和情感表达。挑战在于如何在保持手绘感的同时，让插图生动有趣且充满活力，以激发儿童的好奇心和探索欲望。

AI实验室儿童绘本 2024-04-07

Stable Diffusion

SD好复杂，是不是很糊，一文搞懂Stable Diffusion的各种模型及用户操作界面

在【AI绘画神器】探索Stable Diffusion、Midjourney与DALL-E 3：让创意无限飞扬！这篇文章中对 Stable Diffusion 的各个功能做了详细介绍，今天主要是以一秒内就能生成图片的爆炸性模型 SDXL Turbo的发布为契机，对SD 的各类基础模型：SD 1.x、SD 2.x、SD 1.5、SDXL 1.0和SDXL Turbo，及操作界面：WebUI、ComfyUI和Fooocus进行详细介绍，一文搞懂他们之间的关系，选择不迷路。

Stable Diffusion 文生图 2024-04-03