文章列表-AI魔法学院

文章列表

腾讯开源混元AI绘画大模型

Install pip dependencies python -m pip install -r requirements.txt # 4.

腾讯混元文生图

【2023.10】看目前巨头的AI原生产品布局

【BD.2C.4】第三方插件生态百度提到了两个与其他企业合作的插件性产品：AI阅读助手、乘机助手。

大模型产品

ChatGPT 的对话框过时了？这款 AI 产品提供了一种很新的聊天方式

它在形式上最大的亮点是，把纵向的聊天记录，转变成了动态的画布，为人机交互提供了一种很新的方式。

ChatGPT 聊天

微信搜狗爬虫WechatSogou - 从微信公众号获取文章的利器

安装WechatSogou WechatSogou是一个Python库，你可以使用pip命令来安装它。

WechatSogou 微信搜狗

最佳开源文生图大模型可图：安装与批量出图的完整教程

在机器测评上，Kolors 获得了最高的 MPS 分数，这与人工评估的结果一致。

可图 kolors

斯坦福宣布前端开发要失业了？！一张截图生成代码，64%优于原网页！

随着生成型人工智能（AI）的飞速发展，多模态理解和代码生成的能力达到了前所未有的水平。

设计转代码大模型

万字长文-大语言模型指令调优综述

接下来，作者通过随机改写指令或输入来扩展数据集。

大语言模型

一文带你看懂OpenAI-Sora生成视频的原理

「从视觉数据到补丁」就像拼积木游戏假如你手里有一盒五彩缤纷的积木，每个积木都有它独特的形状和颜色。

视频生成 sora

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

LiveKit 不仅有一个开源的 voice agent 方案[1]，还能为你提供一个成熟且强大的实时多模态 AI 解决方案。

GPT-4o 语音交互

BGE M3-Embedding：智源最新发布的text embedding模型，多语言检索效果超过微软跟openai

Dense retrieval: 给定一个文本，获取语言模型最后一层上[CLS]位置的隐状态，经过标准化作为文本的稠密向量表征。

BGE M3-Embedding 多语音检索

LlamaIndex的QueryPipeline在实现RAG应用后，Agent应用也可以实现了（附开发示例）

;) 下面是一些构建Agent会用到的专门组件： · AgentInputComponent 允许将Agent输入（任务、状态字典

Agent QueryPipeline 大模型

为什么说AI现在还不行！

也正因此最近写了几篇文章都在提应该以一种更加理性的态度来看待AI的进展，甚至设想了一种测试智能程度的方式：图灵测试2.0。

大模型

【语音识别】OpenAI语音力作Whisper

这让Wav2Vec 2.0相形见绌，因为Wav2Vec 2.0是在无监督码预测任务上预训练的，所以其训得的模型仅从未标注的纯音频数据中习得了从语音到隐含状态的中间映射。

语音转文字 whisper

微信向量检索分析一体化数仓探索：OLAP For Embedding

在调研对 ClickHouse 对向量检索/加工能力时，我们惊讶地发现，现代 OLAP 数仓已具在其内部独立搭建 CLIP 等主流机器学习模型的数据处理全流程能力（图 1），包含 embedding

OLAP For Embedding 一体化数仓

<...13 14 15 161718 19 20 21 22 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1