首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 大模型应用发展的方向|代理 Agent 的兴起及其未来(上)
· 划重点!全网最全AI数字人工具合集!
· 大模型推理能力增强方法总结
· 惊艳推荐!8款好用又免费的文本转语音TTS工具
· Kimichat炒股:7个提示词案例
· LLM每周速递!大模型最前沿:多模态RAG、RAG加速、大模型Agent、模型微调/对齐
· 字节开源项目MimicTalk:快速打造逼真3D Talking Face的利器
· 我们需要的不是智能体,而是工作流(5000字保姆式教学)
· 神奇的 OuteTTS - 0.1 - 350M:用几秒钟音频克隆声音的黑科技!
· 开源!数字人资源大集合!
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
开源语音大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
https://arxiv.org/pdf/2311.07919.pdf 开源代码:https://github.com/QwenLM/Qwen-Audio 引言 大型语言模型(LLMs)由于其良好的
知
识
保留能力
大模型
语音
语音
Insanely Fast Whisper:超快的Whisper语音
识
别脚本
这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。通过使用Transformers和Optimum技术,可以在不到10分钟内转录300分钟(5小时)的音频。作者提供了几种优化方式,包括批处理、半精度处理以及BetterTransformer,以提高转录速度。最终,作者以实际测试数据展示了不同优化方式的速度对比。同时,还提到了Whisper.cpp的性能测试、4位推断性能测试、以及一个CLI工具的社区展示。这篇文章旨在展示如何使Whisper模型在转录2-3小时的音频时更加高效。
音频
Whisper
开源
来个优秀的开源人脸
识
别项目!
虹膜
识
别技术通过全自动照相机寻找并聚焦虹膜,实现高精度
识
别。
人脸识别
开源项目
Transformer
图
解 Transformer——功能概览
作者在系列文章中,介绍了 Transformer 的基本
知
识
,架构,及其内部工作方式,并深入剖析了 Transformer 内部的细节。
Transformer
大模型
图解
开源
几款开源的OCR
识
别项目,收藏备用
github.com/PaddlePaddle/PaddleOCR.git EasyOCR EasyOCR是用Python编写基于Tesseract的OCR
识
别库
OCR
开源
OCR是什么以及推荐几款开源中文OCR
识
别软件
光学字符
识
别(Optical Character Recognition, OCR)是指对文本资料的
图
像文件进行分析
识
别处理,获取文字及版面信息的过程。
OCR
开源
中文开源OCR框架对比及介绍
从严格定义来看,学字符
识
别(Optical Character Recognition, OCR)是指对文本资料的
图
像文件进行分析
识
别处理,获取文字及版面信息的过程。
OCR
Agent
谈Agent构建平台的设计
平台是否会对他们提出过分的技能/
知
识
要求?
Agent
构建
ComfyUI
ComfyUI 基础教程(二):文生
图
基础流程
节点搜索窗口方式:双击鼠标呼出节点搜索窗口,如果你
知
道节点的名称,可以直接搜索,节省时间。
comfyui
文生图
本地部署操作AI抠
图
软件
可实现一键人像抠
图
,完胜小白操作PS人像抠
图
。
抠图
Stable Diffusion
Stable Diffusion基础:ControlNet之
图
片高仿
今天继续给大家分享AI绘画中 ControlNet 的强大功能,本次的主角是 Reference,它可以参考一张
图
片生成另一张看起来差不多的
图
片,这句话说起来有点绕,如果换成高仿,大家应该就明白了吧。
文生图
视频
图
文生成短视频的方法
我完全不
知
道自己能讲什么,每次尝试,都很痛苦,痛苦的原因在于:我不能像自己看过视频里的人一样——口若悬河,张口就来。
视频
ChatGPT
Transformer
图
解 transformer——逐层介绍
位置编码(Position Encoding) RNN 在循环过程中,每个词按顺序输入,因此隐含地
知
道每个词的位置。
Transformer
大模型
图解
RAG
你真的会写 Prompt ? 剖析 RAG 应用中的指代消解
其中,检索增强生成(Retrieval-augmented generation,RAG)是一种针对
知
识
密集型 NLP 任务的生成方法,它通过在生成过程中引入检索组件,从已
知
的
知
识
库中检索相关信息
Prompt
大语言模型
RAG
ComfyUI
无需编码,轻松提升
图
像品质:探索ComfyUI的
图
像增强功能
该GitHub项目提供的Nodes/Graph/Floochart接口使
图
像修改、合成和其他任务的复杂工作流变得简单。
文生图
<
...
4
5
6
7
8
9
10
11
12
13
...
>
1
2
4
5
6
7
8
9
100