首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· Stable Diffusion | 常见问题清点汇总
· Stable Diffusion插件:提示词
· 揭秘DeepSeek:一个更极致的中国技术理想主义故事
· 结构化Prompt必备基础:5分钟学会Markdown语法,实现提示词创作自由!
· 保姆级AI写论文,ChatGPT写论文指令全集
· 我为什么不看好大模型行业
· 长窗口大战要终结了?谷歌魔改Transformer,推出了“无限注意力”
· 必看!ComfyUI故障应对指南,让您轻松应对每一个挑战
· AI“同声传译”新进展!Google发布,无监督,语音识别:Translatotron 3!
· Sora懂不懂物理世界?
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
RAG
Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了
国产大模型Qwen2.5系列新成员Qwen2.5-Turbo支持超长上下文,性价比高,能45秒总结《三体》主要内容,处理百万上下文时速度提升4.3倍,且价格便宜,引发网友热议。在多项长文本任务测试中表现优异,同时在短文本任务上也不逊色,Demo已上线HuggingFace和魔搭社区,API服务已上线阿里云。目前模型权重尚未开源。
Qwen2.5
开源模型
2024-11-21
2024-11-21
OpenAI
Ilya认错,Scaling Law崩了?自曝SSI秘密技术路线取代OpenAI
传统的大模型Scaling Law已遇瓶颈,硅谷主要AI实验室陷入困境,训练成本高昂且效果提升有限。OpenAI等巨头正寻求新方法,如OpenAI的「测试时计算」技术和SSI的未知新方法,以突破当前限制。这些变化可能打破英伟达GPU在AI硬件市场的垄断地位,推动新一代GPU和推理芯片的发展。同时,AI领域正从大规模预训练转向推理阶段优化,OpenAI的o系列模型成为新焦点,可能标志着从GPT到推理模型的转变。
Scaling
Law
AI大模型
2024-11-18
2024-11-18
大模型
大模型天才杨植麟,被朱啸虎“咬”了一口
“人红是非多”,明星大模型独角兽月之暗面又“摊上事”了。 据暗涌报道,Kimi背后公司月之暗面的创始人&CEO杨植麟,以及联合创始人&CTO张宇韬,近日被循环智能时期的部分投资人在香港提起仲裁,相关电子仲裁申请书已递交HKIAC(香港国际仲裁中心)。
杨植麟
大模型
2024-11-18
2024-11-18
13.5K Star ! Fish Speech Windows本地搭建,能否达到官方的级别?强烈推荐
Fish Speech是Fish Audio开发的开源文本到语音(TTS)工具,支持多语言,通过70万小时数据训练实现高质量语音合成,具有低显存需求、快速推理、高自定义性等特性,包括零样本/小样本TTS、语音克隆、无音素依赖等能力。文章还介绍了Fish Speech的本地搭建方法,包括环境要求、安装步骤和推理实战,效果接近官网服务。
Fish
Speech
本地搭建
2024-11-15
2024-11-15
Prompt
17岁高中生写了个神级Prompt,直接把Claude强化成了满血o1。
这两天,我被这个Claude3.5这个神级Prompt惊呆了。 佩服的五体投地。 非常简单的话说,就是它用Prompt把o1级别的思维链,复刻到了Claude3.5里,而且思考逻辑更详细、更像人,甚至思考过程都跟o1一样,可以展开折叠。
prompt
大模型
2024-11-15
2024-11-15
小度为何押注AI眼镜?
小度科技在2024世界大会上发布了全新AI眼镜,该眼镜内置AI,可语音问答、整理文档、翻译外文等,配备高像素广角摄像头、轻便续航强,软硬件全面优化,提供流畅交互体验。AI眼镜市场增长迅速,小度凭借AI原生、软硬一体优势入局,旨在让AI技术成为人类智慧生活的伙伴。
AI眼镜
小度
2024-11-14
2024-11-14
LLM
个人从零预训练1B LLM心路历程
项目于2024年3月启动,旨在从零开始训练一个名为“Steel-LLM”的中文大型语言模型,使用A100 GPU和T级别的开源中文(80%)及英文(20%)数据,模型参数量为1B。项目过程中遇到算力断供等问题,历时8个月完成,最终在ceval和cmmlu评估中取得良好表现。项目通过博客形式详细分享了训练过程中的数据收集与处理、代码改进、模型设计、微调探索与评估等细节。训练框架基于TinyLlama改进,使用FSDP进行分布式训练,对模型结构进行了soft MOE和SENet等修改。微调阶段使用了包括Infinity-Instruct在内的多份数据,并进行了刷榜测试。文章最后提到了项目的一些局限性和未来计划。
LLM
训练
2024-11-14
2024-11-14
语音
GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装
GLM-4-Voice 9B是一款支持英语和中文实时语音交互的端到端模型,具备低延迟响应和可定制声音属性。文章介绍了其独特架构、设置步骤及在客户服务、教育等领域的应用潜力,强调其作为多语言对话AI工具的优势。
GLM-4-Voice
9B
语音
安装
2024-11-13
2024-11-13
金融
MCI-GRU:在真实金融交易中验证有效的股票价格预测模型
本文提出MCI-GRU模型,结合多头交叉注意力机制和改进GRU结构,提升股票预测准确性。通过替换GRU重置门为注意力机制,并引入GAT模块和多头交叉注意力机制,模型有效捕捉市场复杂动态和关键历史信息。实验表明,MCI-GRU在多个数据集上优于现有方法,已应用于基金管理公司。未来可结合更多市场数据优化模型。
MCI-GRU
股票
大模型
2024-11-13
2024-11-13
大模型
天塌了,Scaling Law 已撞收益递减墙?OpenAI 在内,所有大模型都正遭遇巨大瓶颈
OpenAI及多家前沿实验室面临人工智能大模型改进速度放缓的问题,主要原因是高质量预训练数据稀缺和硬件成本上升。为应对此困境,OpenAI等正在研究新策略,如利用合成数据训练模型。同时,麻省理工学院研究发现,大模型虽表现惊人,但对世界缺乏连贯理解,一旦环境变化可能崩溃。网友提出将LLM与逻辑引擎等结合或用人形机器人收集现实数据等建议,以推动AI技术超越当前极限。
Scaling
Law
AI大模型
2024-11-12
2024-11-12
我们需要的不是智能体,而是工作流(5000字保姆式教学)
文章总结:文章探讨了AI Agent在工作流中的应用,指出通过掌握思维技巧,如拆包大法COT(思维链方法)和多角色协作,可以打造个人高效工作流。通过实例展示了如何用COT设计生产爆文的工作流,并介绍了多角色协作在优化翻译和公众号爆文创作中的应用,强调人的能力结合AI使用技巧能放大生产力。
工作流
教学
2024-11-12
2024-11-12
登顶的小熊猫模型出AI产品了!3步10秒出一张海报,可免费商用
AI海报设计生成器“图形设计生成器”上新即受热捧,由图像生成新王者Recraft推出,操作简单快捷,平均10秒生成一张海报,文字无误,对新手友好,被网友视为Canva和PS的竞争对手。Recraft公司还提供了文生图、背景去除、图像放大、AI渲染等功能,且其V3模型可生成无限长度文字,支持团队实时协作,实测中能准确生成并计算数学题元素。
图形设计生成器
文生图
2024-11-11
2024-11-11
数字人
京东开源普通话数字人JoyHallo,一口流利标准普通话还会讲英语
JoyHallo模型通过半解耦结构和中文wav2vec2模型,解决了普通话视频生成中数据集难收集和唇部动作复杂的问题,提升了普通话视频生成的唇部同步和面部表情准确性,同时表现出跨语言生成能力。
JoyHallo
数字人
开源模型
2024-11-11
2024-11-11
大模型
Westlake - Omni:西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型
Westlake-Omni是西湖心辰推出的全球首个开源中文情感端到端语音交互大模型,具有高质量的语音合成、精准的情感捕捉与表达、端到端设计等特点。它通过统一模态处理、深度学习基础、注意力机制等技术架构实现,经过大规模数据集训练和多种优化策略,支持情感感知与表达、多语言、个性化定制和实时交互。Westlake-Omni可应用于智能家居、智能车载、教育、医疗保健和娱乐产业等领域,为中文语音交互技术带来新活力和可能性。
Westlake
-
Omni
语音
2024-11-08
2024-11-08
开源
字节开源项目MimicTalk:快速打造逼真3D Talking Face的利器
MimicTalk是浙江大学和字节跳动联合研发的项目,利用NeRF技术快速训练高质量3D说话头像模型,提高个性化数字人视频生成效率和质量,适用于娱乐、教育、社交等领域,支持快速个性化训练、高质量视频生成、上下文学习和音频驱动,可应用于虚拟主播、视频会议、VR/AR、社交媒体、客户服务等场景,并提供了详细的部署条件和步骤。
MimicTalk
开源模型
2024-11-08
2024-11-08
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100