首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 使用这个工具后,我将 RAG 的准确性和召回率都提高了两倍!
· 硬核解读Stable Diffusion(系列三)
· 大模型狂飙两年后,“六小龙”开始做减法
· ChatGPT写论文指令全集
· 微软研究团队:Sora核心技术及未来机会研究报告-中英对照版
· AI绘画:InstantID Win11本地安装记录!
· 这个数字人开源项目太牛了,非常全面的项目解决方案(含源码)
· 你要牢记的四个常用AI提示词框架:ICIO、CRISPE、BROKE、RASCEF,有助于获取更加稳定和高质量的内容
· 通俗解读大模型微调(Fine Tuning)
· RAG检索增强技术在知识库智能检索场景下的应用实践
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
提示词
Anthropic推出提示词生成器让AI秒懂你的需求!
Anthropic公司推出了一款提示词生成器,通过高级提示工程技术帮助AI更精准地理解并执行用户指令,提高AI响应的精确度和可靠性。用户只需描述需求,系统即可生成优化提示,并支持微调及与其他AI模型兼容,广泛应用于各种AI平台和服务,提升工作效率,展现AI在复杂任务处理上的巨大潜力。
Anthropic
提示词
生成器
2024-07-23
2024-07-23
阿里
《嬛嬛朕emo啦》但马斯克!阿里这项技术开放试玩
文章概述:文章介绍了一个名为EMO的AI视频项目,该项目来自阿里通义实验室,允许用户通过上传人物正面大头照和选择音频片段,生成具有自然表情和头部运动的视频。该功能在通义App上受到欢迎,用户可以通过“全民舞台”功能体验。EMO采用弱控制设计,不强制建模整个面部,而是通过面部定位器和速度编码器等控制机制实现自然流畅的生成效果。项目负责人薄列峰表示,技术开源前需解决安全问题,并透露未来计划将EMO扩展到半身、全身,并可能引入新架构。同时,EMO背后团队专注于数字人研究,通过奶牛猫跳舞等动物主题激发用户兴趣,强调高质量AIGC内容的重要性。最后,文章推荐了EMO的一个私房玩法,即使用自己不同年龄段的照片进行合唱。
音频
阿里
2024-07-23
2024-07-23
开源
GPT-4o实时语音方案提供商Livekit开源voice agent:轻松处理音视频流
本文介绍了一个基于LiveKit WebRTC的代理框架,用于构建实时、可编程的服务器端参与者,能够处理或生成音频、视频和数据流。该框架包括多种插件,如语音转文本(STT)和文本转语音(TTS)等,与LiveKit服务器无缝集成,无需额外排队基础设施。当前处于开发者预览模式,API可能变动。代理通过pip安装,并可通过CLI接口运行,支持加入特定的聊天室。此外,提供了一个名为“playground”的Web前端用于简化代理的构建和测试。框架允许工作线程管理多个代理实例,并通过SIGTERM信号安全地终止工作线程。特定插件可能需要下载模型文件以使用。项目源码位于GitHub上。
voice
agent
开源
音视频
2024-07-22
2024-07-22
工具
AI文本转语音工具(TTS):MeloTTS
MeloTTS是款开源文本转语音工具,支持多语言及口音转换,可调整语速,声音自然流畅,项目及体验地址已给出。
MeloTTS
语音工具
2024-07-22
2024-07-22
开源
【开源看AI】4.2K star!Reor:AI自动帮你发现知识之间的连接
文章介绍了Reor,一个旨在通过AI自动连接笔记、增强推理能力的开源个人知识管理工具。Reor不仅支持自动连接相关笔记,还能通过智能聊天回答关于笔记的问题,并生成AI闪卡帮助记忆。它强调本地运行模型以保护用户数据隐私,适用于学生、研究人员等需要高效管理个人知识的用户。文章还探讨了Reor与Quivr等其他工具的整合潜力,以形成完整的个人知识管理系统。
Reor
开源工具
知识管理
2024-07-22
2024-07-22
阿里
[论文] 阿里提出AgentScope:灵活强大的智能体框架
随着科技的飞速发展,人工智能(AI)已经成为我们生活中不可或缺的一部分。从智能家居到自动驾驶汽车,AI正在逐渐渗透到各个领域,展现出其巨大的潜力和价值。然而,与此同时,AI也带来了一系列挑战,如就业岗位的减少、隐私安全等问题。我们该如何平衡AI带来的利弊,让科技真正为人类服务?
AgentScope
语言大模型
智能体
2024-07-22
2024-07-22
ComfyUI
扣子更新图像流功能,字节版 ComfyUI 来了!
本文介绍了ComfyUI的“字节版”图像流,一个通过可视化方式组合图像获取、生成、编辑和发布功能的开源工作流工具。尽管刚上线不久即被下架,但短暂测试中展现了智能扩图、抠图、换脸等强大功能,并提供了丰富的模板供学习。官方计划5月15日全量上线,同时呼吁读者加入社群关注更新。此外,作者还提到对GPT-4o API的初步尝试,认为其功能与4v相近,未见特别惊艳之处。
ComfyUI
图像流
文生图
2024-07-19
2024-07-19
数字人
数字人之声音克隆:无样本,1分钟样本完美克隆声音,开源
本文介绍了GPT-SoVITS声音克隆项目,该项目支持零样本文本到语音(TTS)转换、少样本TTS微调、跨语言支持以及WebUI工具等功能。环境要求包括特定版本的Python、PyTorch和CUDA。项目提供了Windows一键安装包,并详细说明了声音克隆的训练过程,包括数据准备、人声分离、语音转文字、数据格式化和微调等步骤。通过实际训练并测试效果,显示了该项目在中英文环境下声音克隆的可行性和效果提升。最后提供了项目在GitHub上的地址。
数字人
声音克隆
GPT-SoVITS
2024-07-19
2024-07-19
GGUF格式详解
在大模型领域,GGUF是一个非常常见的词语,也是非常常见的大模型预训练结果命名方式。很多模型模型,如Yi-34B、Llama2-70B等模型都有对应的GGUF版本,这些版本都模型除了文件名多了GGUF外,其它与原有的模型名称完全一致。那么,GGUF大模型文件格式是什么意思?为什么会有这样的大模型文件,与它一同出现对比的是GGML格式文件,二者的区别是啥?
GGUF
大模型
2024-07-19
2024-07-19
大模型
ollama本地部署自然语言大模型
本文介绍了如何在本地运行大模型,特别推荐使用ollama工具,无需编写代码。测试环境为i5 8400、16G内存和1060 6G显卡。通过下载和安装ollama,用户能够方便地在本地运行大模型,并使用Chatbox作为桌面程序简化模型调用。文章还提供了ollama和Chatbox的下载地址,以及修改模型默认安装位置的方法。此外,还列出了多种可下载的大模型及其安装命令,包括gemma:2b等,并指出了运行不同规模模型所需的最低内存要求。最后,文章还介绍了通过命令行与模型进行交互的方法。
ollama
语言大模型
部署
2024-07-19
2024-07-19
斯坦福宣布前端开发要失业了?!一张截图生成代码,64%优于原网页!
本文探讨了生成型人工智能(AI)在前端开发自动化方面的进展,尤其是多模态大型语言模型(LLMs)将视觉设计直接转换为代码实现的能力。通过斯坦福和谷歌等机构的研究,提出了Design2Code任务,并构建了包含484个真实世界网页的基准测试集。测试结果显示,GPT-4V在将设计转换为代码方面表现优异,能在49%的案例中替代原始参考网页,并在64%的案例中被认为设计得更好。研究还揭示了多模态提示方法和微调模型的有效性,为未来自动化前端工程和改进网站设计工具的研究提供了方向。同时,也强调了隐私和双重使用问题的重要性,并建议制定明确的伦理使用指南。
设计转代码
大模型
2024-07-17
2024-07-17
阿里
四木测评|让教父唱《野狼disco》、恶搞《甄嬛传》,火遍全网的阿里明星项目EMO正式开放
阿里推出的EMO项目可使静态人像照片与音频结合生成动态视频,实现了口型同步和人物自然动作。用户可通过通义千问免费体验,但当前版本限制多,如必须使用官方模板、不支持自定义音频、图片要求严格且生成时间长。尽管视频质量较高,但EMO的定制化有限,主要考虑因素包括视频质量、风控、版权和算力消耗。目前,EMO更多作为尝鲜产品,未来需改进才能应用于更广泛场景。
EMO
阿里
全民演唱
2024-07-17
2024-07-17
Google
Google 模型解读 | MoveNet-SinglePose:自底向上做单人姿态估计
MoveNet是Google推出的轻量化单人姿态估计模型,采用bottom-up范式,集成了MobileNetv2和FPN等经典结构,具备快速下采样、残差连接和参数集中等特性。其独特之处在于Head部分包含四个预测头,分别用于检测中心点、回归关节点坐标、检测关键点以及预测偏移值,以消除量化误差。后处理流程通过加权方法选取最相关的关键点,并利用Offset Regression减少误差。MoveNet在特定数据集上表现出色,与top-down模型相当,且经过工程优化加速推理速度。此外,Google还推出了多人姿态估计版本的MoveNet-MultiPose,但变动较大且精度不理想。
MoveNet-SinglePose
Google
模型
2024-07-17
2024-07-17
Deepseek-V2技术报告解读!全网最细!
Deepseek发布了v2版本模型,沿用Deepseek-MoE技术,采用小专家建模与多优化策略。该模型完全开源并支持商用,提供了低成本的API调用方案。v2模型在MMLU上取得第二名,超越V1版本,并显著提升成本效率与推理速度。其核心优化在于多头隐式注意力(MLA),旨在减少显存占用,同时保持模型效果。模型架构包含60层,采用RMSNorm和SiLU激活函数,并通过对话数据进行对齐训练。工程上,v2通过流水线并行和专家并行策略,结合资源感知专家负载均衡方法,实现了训练效率的最优。模型在基座能力和指令遵循能力上表现强劲,得益于数据优化和训练策略的深度整合。
Deepseek-V2
大模型
2024-07-17
2024-07-17
腾讯
AI助手App“腾讯元宝”已上线应用商店
腾讯元宝是一款基于腾讯混元大模型的AI产品,已在部分安卓应用商店上架,但尚未在苹果App Store上线。它支持中英文输入与理解,并允许用户创建个性化智能体,提供AI搜索、解析、写作和多种实用应用功能,旨在提升用户在办公、学习、创作和生活等领域的效率与体验。
腾讯元宝
2024-07-16
2024-07-16
<
...
9
10
11
12
13
14
15
16
17
18
...
>
1
2
4
5
6
7
8
9
100