文章列表-AI魔法学院

文章列表

目前有哪些比较成功的人工智能应用？

语音：音乐，录音等等音频格式的文件。

生成式AI

我去华强北走了一圈，发现这里正被另一种 AI 包围

这款产品和传统形态的翻译机不同，是一个磁吸金属小圆片，贴在手机后做声音录入，颇有科技感，连接手机蓝牙后，能够翻译手机内的一切文字和语音，包括微信实时对话。

华强北 AI

这个方法可以让AI写出的文章完全去掉GPT味儿！

捕捉灵感：当灵感来袭时，立即用手机文字或者语音输入功能记录下来，不受限制地自由发挥。

ChatGPT 写作

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

语音到文本多模态开源对话模型 (LLaSM) LinkSoul.AI 开源了可商用的中英文双语语音 - 语言助手 LLaSM 以及中英文语音 SFT 数据集 LLaSM-Audio-Instructions

开源模型

最详细的文本分块(Chunking)方法——可以直接影响基于LLM应用效果

这个真正难题我在前面的文章中《一些LLM的声音总结》中提到过，基于大模型的企业应用中很大一部分需求就是RAG——检索增强生成。

RAG 大模型

向量数据库失宠了？OpenAI 力捧检索增强生成（RAG）技术，对行业来说意味着什么？

对于这些唱衰的声音，一位 IDswyx 的用户为在 X 上发表言论称：“对于今年向向量数据库投资 2.35 亿美元的公司来说，他们要的不是基础模型实验室 Sherlocking 和增加上下文长度这些基础功能

检索增强生成大语音模型

鹅厂版AI笔记悄悄上线，微信公众号优质内容秒变专属知识库，实测在此

基于Gemini 1.5，其最新音频摘要功能，可以让用户根据特定主题生成类似播客的音频对话。

ima copilot 搜索

颠覆数据存储方式：向量数据库的威力

向量数据库通过计算向量之间的相似度来搜索数据，因此它特别适用于人脸识别、语音识别、推荐系统等需要高维度数据处理的领域。

编程数据库

GPT让你拥有超强的写作能力！

密切注意保持作者原始的声音和意图，同时进行必要的调整以增强清晰度和流畅性 4、为特定受众定制语言 prompt：作为一名校对专家，你的任务是调整给定的[文本]，使之与特定的[目标受众]产生共鸣。

GPT 写作

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

元象大模型去年起已和多个腾讯产品，包括QQ音乐、虎牙直播、全民K歌、腾讯云等，进行深度合作与应用探索，为文化、娱乐、旅游、金融领域打造创新领先的用户体验。

XVERSE-V 多模态大模型

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

这也意味着用户无法自行上传音频内容，只能通过官方创建好的模板来上传图片，生成固定音频内容的视频。

EMO 阿里全民演唱

微软对 Sora 进行了逆向工程分析，揭秘 Sora 的秘密

文章还深入讨论了为实现 Sora 的广泛应用需克服的主要挑战，例如保证视频生成的安全性和公正性。

Sora 微软

AI Agents大爆发：软件2.0雏形初现，OpenAI的下一步

In-context Reinforcement Learning with Algorithm Distillation 这篇论文认为，任何一种生成学习历史的算法都可以通过对动作执行行为的克隆

agent

构建开源多模态RAG系统

亲爱的冒险家，请考虑一下：当你听到某人的声音时，你能认出这个人，而当你看到他们时，你也知道他们是谁。

RAG 大模型

没有思考过 Embedding，不足以谈 AI

有一条是显然可以给出的：性质一：每一个词具有唯一量化值，不同词需要具有不同的量化值背后的逻辑不言自明：一词多数，或是多词一数，都会增加计算机理解语言的难度，这种难度就如同多音字或是多义词给人类造成的困难

开源模型

<...14 15 16 171819 20 21 22 23 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1