文章列表-AI魔法学院

文章列表

StableDiffusion升级版SDXL：一键运行包ComfyUI和18G模型分享！

· 基于1024×1024训练，更加高清，v2是768，V1.5是512。

comfyui sdxl 文生图

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

该项目的目录如下，详情见:【又又一款王炸级别TTS模型】趣丸科技&港中大开源MaskGCT语音大模型,性能超过CosyVoice，XTTS-v2！

语音克隆开源模型

国内厂商语音识别与Whisper评测：现状与概况对比

不同厂商在不同场景下的ASR评测结果 · 总结：本次主角 OpenAI 开源的 Whisper 模型(large-v2

语音识别 Faster-Whisper

大语言模型综述<演进，技术路线，区别，微调，实践，潜在问题与讨论>

AutoModelForCausalLM.from_pretrained(model_name_or_path, return_dict=True) model = get_peft_model(model, peft_config) P-Tuning v1-v2

大模型

盘点字节跳动最新的AI应用

去年11月，字节跳动发表视频生成研究成果 PixelDance，而今年1月，字节又发布了视频生成模型 MagicVideo-V2，最近，字节正式发布文生图模型 SDXL-Lightning...

字节 AI工具

中国电信开源星辰AI大模型：央企中首个完成LLM研发和开源的选手诞生

再通过将RoPE与FlashAttention-V2相结合，模型的训练速度进一步提高了20%以上。

开源大模型电信

Stable Diffusion

Stable Diffusion的模型分类以及使用

不需要搭配其他的文件：并且它们都有比较擅长生成的图像类型，例如这个Anything v3就是专门用来生成二次元的：而这个Realistic Vision v2

文生图

大模型微调经验汇总---LLM finetuning 踩坑经验之谈

Prefix-Tuning (P-Tuning v2) Prompt Tuning Lora / QLora 根据实际经验，这里推荐采用 Lora 或 QLora。

大模型人工智能

QWen1.5: 卓越模型之路

评估结果如下：尽管落后于 GPT-4-Turbo，但最大的 Qwen1.5 模型 Qwen1.5-72B-Chat 在 MT-Bench 和 Alpaca-Eval v2 上都表现出不俗的效果，

Qwen1.5 开源模型

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

音频编码器的初始化基于Whisper-large-v2模型，这是一个包含两个卷积下采样层作为起始层的32层Transformer模型。

大模型语音

AI音乐热潮下，“神曲工作室”率先失业

小旭音乐官网展示的部分商业客户小旭说，Suno v2的水平还未达到商业应用的级别。

音乐音频

理解 o3 及其技术分析

Ilya Sutskever在NeurIPS2024上报告全文中文版 V2 OpenAI前首席研究官Bob McGrew采访中文版 Ilya提到了下一步的两个价值很高的方向

o3 技术分析

深度对比丨探索LLM（大模型）部署服务的七大框架差异

· · 使用flash-attention（和v2）和Paged Attention优化 Transformer 代码进行推理。

大模型

最新最全的开源中文大语言模型列表

：https://github.com/scutcyr/BianQue 简介：一个经过指令与多轮问询对话联合微调的医疗对话大模型，基于ClueAI/ChatYuan-large-v2

大模型

比 Roop 和 Reactor 更像！IP Adapter 新模型为任何人做写真

标题：IP-Adapter 新模型超越 Roop 和 Reactor：更完美的角色一致性和相似性继我们上一篇文章介绍了IP-Adapter的新模型Face ID Plus V2之后，今天我们将深入探讨如何将这一强大工具用于生成具有高度个性化特征的人物肖像

IP-Adapter 文生图

<1 2 3 456 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1