文章列表-AI魔法学院

文章列表

【全文翻译】微软166页论文解读 GPT-4V：多模态大模型的黎明

在本节的接下来的实验中，我们将使用多个选定的视频帧作为输入，以测试模型在理解时间序列和视频内容方面的能力。

多模态大模型 GPT-4V 文生图

SDXL模型lora训练参数详细设置，显存占用22G，不用修脸原图直出

还没装的，去秋叶大佬视频详情里找一下哈~ https://www.bilibili.com/video/BV1AL411q7Ub/?

SDXL 训练

中国首份AIGC监管文件正式实施——《生成式人工智能服务管理暂行办法》简析

亮点： 1· 作为中国首份生成式人工智能（“AIGC”）监管文件，管理办法体现了现阶段监管机构的态度，即“既要重视发展，也要重视风险”。

人工智能

微信向量检索分析一体化数仓探索：OLAP For Embedding

在大模型出现之前，向量检索已经成熟并广泛应用在“推荐”、“文本/视频搜索”等领域了：向量数据库介绍： ChatGPT 掀起的大模型浪潮，embedding 在其中的核心地位，使得向量化数据库又成为时代新宠

OLAP For Embedding 一体化数仓

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

包含两个核心模型：SenseVoice 负责语音识别和音频处理，CosyVoice 负责语音生成和控制。

asr tts 声音

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

这一步就像是为后续的分析和处理搭建好了基础框架，确保音频数据能够以合适的形式被模型所接受，为特征提取做好充分准备。

clone-voice 声音克隆

【AI绘画】入门英文名词解析

只能在线联网调用接口提交数据获得返回结果并不知道是怎么来的会有很多限制为了避免法律风险 AI绘画项目对于某些人名或者不可描述画面作了限制不允许生成此外对于调用频次

文生图 AI绘画

【AI绘图工具】太爆炸了，AI出图速度100fps（每秒100张图片），比LCM、SDXL Turbo更快，目前No.1

colab.research.google.com/github/hewis123/stream-d/blob/main/Untitled2.ipynb 今天我就来介绍一下这个产品工具吧，我都不知道该把它归类入视频工具还是图像工具

StreamDiffusion 文生图

LLM每周速递！大模型最前沿：多模态RAG、RAG加速、大模型Agent、模型微调/对齐

此外，OmniGen可以处理经典的计算机视觉任务，将其转换为图像生成任务。

大模型研究

什么是极限、导数、微分与积分（通俗易懂）！

你的目光时而注视前方的道路，时而瞥向仪表盘上跳动的速度指针。

极限导数微分积分

一文搞定 ComfyUI SDXL1.0 完整流程

如果要在一篇文章里面介绍完整的使用方法实在太麻烦了，这里我推荐几个 B站大神的视频。

文生图 comfyui

阿里云开源通义千问多模态大模型Qwen-VL，持续推动中国大模型生态建设

8月25日消息，阿里云推出大规模视觉语言模型Qwen-VL，一步到位、直接开源。

大模型

开源！数字人资源大集合！

· 慕尼黑工业大学 (TUM)视觉计算机实验室，由Matthias Nießner 教授及其团队设计。

数字人开源

深入浅出：大语言模型中必不可少的技术——Embedding简介

如何生成和存储Embedding 总结 Embeddings技术简介及其历史概要在机器学习和自然语言处理中，embedding是指将高维度的数据（例如文字、图片、音频）

embedding

GitHub狂飙3万star的LLM公开资料 - 大模型入门教程

资源： 3Blue1Brown - 线性代数的本质：一系列视频，为这些概念提供了几何直觉。

LLM 大模型 GitHub

<...13 14 15 161718 19 20 21 22 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1