首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 爆火的“哄哄模拟器”,它是如何炼成的?Prompt泄漏了
· 第一性原理以及第一性原理是怎么帮马斯克成为首富的
· Coze多智能体(Multi-Agents)模式体验!
· 一键AI换脸!小红书和北大合作的InstantID
· 【AI绘画】入门英文名词解析
· 让你每次都随机生成各种图片,开盲盒的感觉:SD插件之无限抽卡神器Dynamic Prompts
· ComfyUI官方使用手册【官网直译+关键补充】
· Kimi+扣子Coze,我零门槛制作了一个好用的智能体Agent | 智能体开发
· 【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!
· 【AI代理】扣子,开始探索多代理模式
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
Google
AI“同声传译”新进展!Google发布,无监督,语音识
别
:Translatotron 3!
语音识
别
(ASR)是指将人类的语音转换为文本的技术,然而,目前的语音识
别
技术还面临着一些挑战,其中最大的一个就是如何支持更多的语言。
Translatotron
语音识别
工具
OCRmyPDF—可智能识
别
PDF文本和图片信息的工具
如果需要,可以在执行OCR之前对图像进行纠偏和/或清洁 •验证输入和输出文件 •在所有可用的CPU核心之间分配工作 •使用Tesseract OCR引擎识
别
超过
OCRmyPDF
工具
语音
语音识
别
的未来已来:深入了解faster-whisper的突破性进展
这种实现不仅提高了语音识
别
的速度,还优化了内存使用效率。
语音识别
Faster-Whisper
语音
「语音识
别
的未来已来」——探索Distil-Whisper,轻量级AI的强大力量
在AI技术的浪潮中,一款新型的语音识
别
模型Distil-Whisper以其独特的魅力和强大的性能脱颖而出。
Distil-Whisper
语音识别
Stable Diffusion
Stable Diffusion基础:ControlNet之细节替换
作为 ControlNet,它会对参考图进行分块,并识
别
出
区
块内的对象。
StableDiffusion
文生图
开源
OCR是什么以及推荐几款开源中文OCR识
别
软件
光学字符识
别
(Optical Character Recognition, OCR)是指对文本资料的图像文件进行分析识
别
处理,获取文字及版面信息的过程。
OCR
语音
国内厂商语音识
别
与Whisper评测:现状与概况对比
同时,Whisper(飞思卡尔语音识
别
技术)作为一项国际上也备受关注的语音识
别
技术,在语音识
别
领域也有着广泛的应用。
语音识别
Faster-Whisper
Agent
Coze多智能体(Multi-Agents)模式体验!
多智能体(Multi-Agents)和单智能体(Agent)有什么
区
别
?
Coze
多智能体
OCR
Windrecorder:连续记录屏幕内容,通过OCR技术识
别
记录内容
它的所有能力(录制、识
别
处理、存储回溯等)完全运行在本地,无需联网,不上传任何数据,只做应该做的事。
Windrecorder
录屏
工具
掌握这10个AI 工具用1小时完成
别
人1周的工作
Vondy种类丰富多样,包含商业、设计、营销等20个类
别
。
AI
工具
Stable Diffusion
[Stable Diffusion]Segment Anything实现商业换装
Segment Anything是一种基于深度学习算法的图像分割工具,它可以将图像当中的每一个像素分配到对应的
区
域当中,能够实现精准的边缘识
别
。
Segment Anything
文生图
语音
Whisper对于中文语音识
别
与转写中文文本优化的实践(Python3.10)
; Erwin_8.wav|Erwin|ZH|就必须像一个一流的诈骗犯一样 Erwin_9.wav|Erwin|ZH|对他们花言巧语一番 可以看到,除了语气特
别
强烈的素材
Whisper
语音优化
大模型
大模型训练为什么用A100不用4090
事实上,H100/A100 和 4090 最大的
区
别
就在通信和内存上,算力差距不大。
大模型
免训练!单图秒级
别
生成AI写真,人像生成进入无需训练的单阶段时代
介绍 作为 AI 人像写真开源项目的佼佼者,FaceChain 凭借其丰富多样的风格模版和卓越的人像保真度,深受社
区
的喜爱并已在商业应用中得到了广泛的应用。
FaceChain
FACT
文生图
大模型
最强国产开源多模态大模型MiniCPM-V:可识
别
图片、视频,还可在端侧部署
MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。
minicpm
面壁
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100