首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· MCP服务介绍及应用场景报告-来自Manus
· 本地部署Manus+DeepSeek保姆级教程!
· Coze、Dify、FastGPT:哪款智能体平台最强?深度对比分析!
· GPU 性能(数据表)快速参考
· 盘点数据安全合规方向的热门证书【快来了解一下】
· YOO简历
· 五大AI工具自动生成PPT效果对比
· 实测:本地跑llama3:70B需要什么配置
· 划重点!全网最全AI数字人工具合集!
· 阿里Outfit Anyone实现真人百变换装
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
从 GPT-4o 到 LiveKit:实时语
音
交互的开源实现
LiveKit 支持语
音
、
视
频
和数据流处理,内置了自动语
音
识别(ASR)和文本转语
音
(TTS)功能,简化了语
音
到文本和文本到语
音
的转换过程。
GPT-4o
语音交互
Sora
中学生能看懂:Sora 原理解读
具体到Sora的实现,这个过程开始于一段与目标
视
频
同
样时长、但是内容完全是随机噪声的
视
频
。
Sora
原理
开源
OpenAI真的开源了!这波「实时语
音
」操作,让万物开口说话,我爱了
Sonatino - ESP32-S3
音
频
开发板 esp32s3 ,学过单片机的小伙伴都比较清楚,是一款微控制器芯片,如图长这个样子: ESP32-S3 是一款由 Espressif
OpenAI
嵌入式实时语音
SDK
提示词
推荐一个自动生成复杂提示词的模版:思考链(CoT)如何通过分
步
推理提升AI任务准确性 | 示例详解
这种方法使得模型能够逐
步
构建解决方案,从而减少错误并提高准确性。
思考链
提示词
语
音
识别的未来已来:深入了解faster-whisper的突破性进展
这种实现不仅提高了语
音
识别的速度,还优化了内存使用效率。
语音识别
Faster-Whisper
阿里
阿里Outfit Anyone实现真人百变换装
之前我分享了阿里通义千问APP推出的 "全民舞王" ,只要一张照片就能生成一段舞蹈
视
频
这几天相信有很多小伙伴都有在社交媒体和朋友圈刷到过这种 其背后就是用的 Animate Anyone 算法
Outfit
Anyone
阿里
阿里
阿里最近推出AI项目的动作太过
频
繁,脑子跟不上了,事出反常必有妖,盘点一下
上传一段
视
频
,AI 自动识别
视
频
中的运动主体人物,并一键替换成有趣的 3D 角色模型,生成与众不
同
的 AI
视
频
。
阿里
大模型
RAG
LangChain - RAG:线上系统多文档要
频
繁更新,每次都要重新花钱做一次 embedding,老板不批预算,批我...
LangChain 提出的方案如下图所示,暂且称它为「增量更新」模式,在 data-transform 这一
步
、embedding 之前针对没个 chunk 做一次 hash,记录下来 hash 值,每次源数据更新了只需要在这一
步
里面比对一下
大模型
开源
精通百种语言的翻译AI来了!Meta推出,免费、开源!
这个模型可以实现近101种语言之间的文本、
音
频
、
视
频
等多种形式的翻译,而且只需要一个模型就可以完成所有任务。
大语言模型
LLM
确实很神奇! 通过 Prompt 中加入“这件事对我的事业至关重要”这样的情感激励可以提升 LLMs 的表现
尽管大型语言模型(llm)越来越被
视
为向人工智能迈进的一
步
,在许多任务中表现出令人印象深刻的表现,但llm是否能够真正掌握心理情绪刺激仍然不确定。
Prompt
大模型
情感激励
阿里
体验完阿里的EMO模型,我emo了
这是
视
频
(你就说跳得好不好 ,时长00:12 四、全民唱演体验 全民舞王利用的是一种口唇
同
步
的技术
EMO
文生图
数字人
划重点!全网最全AI数字人工具合集!
· 选择头像:你可上传自己的照片,也可以选择平台提供的头像,
同
时调整其表情和动作。
AI
数字人
「长文」可能是目前最全的LangChain AI资源库之一
前言 本文主要内容是一个LangChain资源库,里面罗列了大大小小很多个基于LangChain框架的优秀项目,包括低代码、服务、代理、模板等工具类,还有像知识管理、聊天机器人等开源项目,还包括像
视
频
工作
OmniVision - 968M:小巧精悍的
视
觉语言模型,释放多模态边缘计算强大潜能
此时,仅解冻投影层参数,使模型能够学习到
视
觉和文本之间的初
步
关联。
OmniVision
-
968M
多模态模型
大模型
MaskGCT:登上GitHub趋势榜榜首的TTS开源大模型
03 效果展示 MaskGCT 能超自然地模拟参考
音
频
音
色与风格,并跨语言生成
音
频
: 与基于自回归的TTS系统相比,MaskGCT具有更强的稳定性,绕口令也不在话下
MaskGCT
声音克隆
<
...
10
11
12
13
14
15
16
17
18
19
...
>
1
2
4
5
6
7
8
9
100