首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 使用这个工具后,我将 RAG 的准确性和召回率都提高了两倍!
· 硬核解读Stable Diffusion(系列三)
· Pytorch安装(保姆级教学 真·满血·GPU版)CUDA更新?torch版本?一文全搞定!
· LangChain Agent 原理解析
· 无需翻墙,可合法使用的8款国内AI大模型产品
· AI Agent行业深度:框架拆解、应用方向、应用领域及相关公司深度梳理
· SD入门教程零:应用场景
· 教会AI画汉字(ComfyUI篇)
· 有道开源的国产语音库EmotiVoice爆火了!具有情绪控制功能的语音合成引擎!
· 100个最强Ai实用工具精讲 - 拒绝焦虑拥抱Ai
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
大模型
Westlake - Omni:西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型
Westlake-Omni是西湖心辰推出的全球首个开源中文情感端到端语音交互大模型,具有高质量的语音合成、精准的情感捕捉与表达、端到端设计等特点。它通过统一模态处理、深度学习基础、注意力机制等技术架构实现,经过大规模数据集训练和多种优化策略,支持情感感知与表达、多语言、个性化定制和实时交互。Westlake-Omni可应用于智能家居、智能车载、教育、医疗保健和娱乐产业等领域,为中文语音交互技术带来新活力和可能性。
Westlake
-
Omni
语音
2024-11-08
2024-11-08
开源
字节开源项目MimicTalk:快速打造逼真3D Talking Face的利器
MimicTalk是浙江大学和字节跳动联合研发的项目,利用NeRF技术快速训练高质量3D说话头像模型,提高个性化数字人视频生成效率和质量,适用于娱乐、教育、社交等领域,支持快速个性化训练、高质量视频生成、上下文学习和音频驱动,可应用于虚拟主播、视频会议、VR/AR、社交媒体、客户服务等场景,并提供了详细的部署条件和步骤。
MimicTalk
开源模型
2024-11-08
2024-11-08
LLM
PymuPDF4llm:PDF 提取的革命
PymuPDF4llm是一款开源、免费的PDF提取工具,专为大型语言模型(LLMs)优化,提供文本、表格、图像提取及文档结构分析功能,解决了传统PDF提取工具的诸多问题,提高了信息提取效率和准确性,为AI项目提供强有力的支持。
PymuPDF4llm
PDF
2024-11-07
2024-11-07
一文彻底搞懂多模态 - 多模态推理
本文总结了多模态推理的概念,涉及视觉和语言等至少两种感知模态的信息融合,旨在获取更全面准确的理解和知识,支持视觉问答、视觉常识推理、视觉语言导航等任务。文章进一步介绍了知识图谱推理及其方法,包括基于规则学习、路径排序、表示学习和神经网络学习。最后,文章阐述了多模态推理任务的具体应用,包括视觉问答、视觉常识推理和视觉语言导航。
多模态推理
大模型
2024-11-07
2024-11-07
开源
【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比,等你来评!
本文展示了5款爆火的开源TTS语音克隆项目(Fish、F5、GPT-SoVITS、CosyVoice、MaskGCT)的效果,包括模型介绍、实战部署代码及效果展示案例,并提醒使用时需遵守项目要求和法律法规。
语音克隆
开源模型
2024-11-06
2024-11-06
大模型
AI+大模型在金融行业的应用场景
AI技术广泛赋能金融行业,包括营销、资管、风控等,提升交易效率和安全性。在银行、保险、证券行业中,AI应用各具特色,如银行的信用风险评估、保险的个性化产品和自动化理赔、证券的智能交易和智能投顾。但AI应用也面临数据偏差、隐私保护、算法透明度等风险和挑战。
AI大模型
金融
2024-11-06
2024-11-06
大模型
LLM每周速递!大模型最前沿:多模态RAG、RAG加速、大模型Agent、模型微调/对齐
本文总结了最近一周关于大模型(LLMs)的10篇最新研究进展,涉及多模态RAG、推理时对齐、多模态模型、大模型微调、大模型Agent等热门领域。具体包括:多模态RAG系统研究,旨在找到最佳配置以提升性能;推理时对齐方法,提出Speculative Rejection算法提高计算效率;新型扩散模型架构OmniGen,支持多种图像生成任务且用户友好;多模态语言模型BLIP-3-Video,有效捕捉视频帧时间信息;多语言多模态大模型Pangea,覆盖39种语言并在多文化和语言背景下表现优异;上下文Scaling Laws研究,解释了为何示例越多模型预测越准确;RAG推理加速方法Block-Attention,显著降低推理延迟和计算开销;可拓展Agent平台AgentStore,集成不同代理以自动化计算机任务;LLM PEFT技术全面介绍,提供了高效的针对预训练模型的下游任务适配手段。
大模型
研究
2024-11-04
2024-11-04
大模型
投资人逃离大模型
人工智能浪潮的掀起,世界正迎来一场前所未有的技术革命。 从20世纪50年代开始人工智能技术诞生至今,已经先后四次引起大规模的关注。而如今正处在第四次的大模型时代,前三次分别为专家系统时代、机器学习时代和深度学习时代。 后世之人如果要回顾这次的大模型时代,ChatGPT一定是一个绕不开的名字。2022年时,Open AI研发的ChatGPT-3.5横空出世,技惊四座,无论是写代码论文还是写诗作画,吹拉弹唱样样精通。
大模型
2024-11-01
2024-11-01
字节,悄咪咪做了个 Liblib
「LiblibAI」一年内完成三轮数亿元融资,成为知名AI模型社区产品。字节推出类似AI模型分享社区「炉米Lumi」,目前为白名单版本,提供模型分享、Workflow搭建等服务。字节今年已推出二十余款AI产品,内部开启新一轮赛马机制,期待「炉米Lumi」早日公测。
Lumi
大模型
2024-11-01
2024-11-01
比真人还像真人!字节跳动PersonaTalk的黑科技有多强大?
字节跳动推出AI模型PersonaTalk,可精准同步视频配音与人物口型,保留个性特征,快速适配多场景,通过双重注意力机制实现细节之美,远超同类模型,但限制在科研机构使用,为视频创作带来便利和可能性。
PersonaTalk
视频
2024-10-31
2024-10-31
大模型
MaskGCT:登上GitHub趋势榜榜首的TTS开源大模型
香港中文大学(深圳)与趣丸科技推出新一代大规模声音克隆TTS模型MaskGCT,该模型在10万小时多语言数据上训练,无需文本与语音对齐监督和音素级持续时间预测,展现出超自然语音克隆、风格迁移及跨语种生成能力。MaskGCT由四个主要组件构成,通过两阶段预测实现高质量文本到语音合成,在多个基准数据集上达到SOTA效果,并具备丰富的应用场景,如短剧出海、数字人等。相关项目已在开源系统Amphion发布,并推出“趣丸千音”平台加速应用落地。
MaskGCT
声音克隆
2024-10-31
2024-10-31
鹅厂版AI笔记悄悄上线,微信公众号优质内容秒变专属知识库,实测在此
ima copilot是腾讯推出的AI助手,能搜索微信公众号文章并一键加入专属知识库,支持AI检索总结、笔记功能及多模态搜索。用户可建立个人知识库并利用AI扩写、润色、翻译等功能记笔记。此外,AI笔记应用正逐渐受到关注,谷歌NotebookLM和Meta的NotebookLlama等项目也在该领域展开竞争。
ima
copilot
搜索
2024-10-30
2024-10-30
Midjourney
神秘模型“小熊猫”一夜刷屏:排名超Flux、Midjourney,网友:一看就中国的
名为“red_panda”的神秘文生图模型在竞技场迅速走红,其ELO得分远超其他顶尖模型,生成图像速度快且质量高,引发广泛猜测其来源,包括可能是Midjourney V7、OpenAI的DALL-E 4、Mistral AI的新模型或中国厂商的作品等。经过实测,red_panda表现强劲但并非压倒性胜利。其真实身份仍未知,网友和专家纷纷提出各种猜测,同时期待更多样本和官方认领。
red_panda
文生图
2024-10-30
2024-10-30
独家!黄太吉创始人再创业:首次披露惨败内幕
赫畅31岁创办餐饮品牌黄太吉,利用移动互联网营销成为网红餐厅,后转型外卖平台,获1.8亿融资但终因战略失误破产。他通过研读《毛选》反思失败,并开设《毛选创业课》帮助其他创业者。同时,童话作家郑渊洁对其人生也有深刻影响,让他选择初中辍学学习技能。赫畅认为中国创业者应基于国情发展,学习《毛选》有助于找到新的理论基础。
黄太吉
创业
2024-10-29
2024-10-29
RAG
LlamaIndex的QueryPipeline在实现RAG应用后,Agent应用也可以实现了(附开发示例)
文章总结:文章介绍了LlamaIndex推出的新实验功能QueryPipeline,支持通过声明式方式定义个性化应用流程,并给出了RAG类应用及ReAct Agent的实现案例。文章以Text2SQL的ReAct Agent为例,详细阐述了构建过程,包括数据导入、安装可观测性工具、构建Text2SQL工具、构建ReAct Agent Pipeline等步骤。文章还提到,当前该特性仍处于研发预览状态,存在限制,未来有待改进以实现复杂的Agent应用模式及Agent与RAG混排。
Agent
QueryPipeline
大模型
2024-10-29
2024-10-29
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100