首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 绝了!新华社、知网官方出品的写作神器,不要太爽!
· 【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比,等你来评!
· 用so-vits-svc-4.1进行音色转换的极简教程!
· 大模型量化:什么是模型量化,如何进行模型量化
· SD-WebUI和ComfyUI的局域网访问设置
· 17岁高中生写了个神级Prompt,直接把Claude强化成了满血o1。
· Gpt写小说,常用的中文指令集「实操篇」
· 提示词框架:BROKE
· 一文彻底搞懂多模态 - 多模态推理
· 秘塔AI搜索
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
开源
精通百种语言的翻译AI来了!Meta推出,免费、开源!
它是基于Meta公司之前开发的两个模型:M2M-100和Universal
Speech
Translator。
大语言模型
开源
开源免费离线语音识别神器whisper如何安装
Whisper系统所提供的自动语音辨识(Automatic
Speech
Recognition,ASR)模型是被训练来运行语音辨识与翻译任务的,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文
wisper
翻译
免费
教程
AI声音克隆 | 最全最简教程(权威版)
TTS 的英文全名是 Text To
Speech
,中文译名是“文本转语音”。
声音克隆
教程
开源
ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略
word-segmentation 分词 分词,将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列 part-of-
speech
开源
大模型
“实时”语音翻译!AI语音具有“情绪”!最强开源AI大模型来了
seamless_communication 论文地址: https://ai.meta.com/research/publications/seamless-multilingual-expressive-and-streaming-
speech
-translation
大模型
开源模型
语音
开源
从声纹模型到语音合成:音频处理 AI 技术前沿 | 开源专题 No.45
· 支持多个 ASR (自动演讲识别) 配方 · 支持类似于 ASR 配方一样的 TTS (文本转声) · 支持 ST (
Speech
Translation
AudioCraft
音频
OpenAI
两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速
Whisper 是 OpenAI 研发并开源的一个自动语音识别(ASR,Automatic
Speech
Recognition)模型,他们通过从网络上收集了 68 万小时的多语言(
语音
HeyGen
大模型
Meta无限长文本大模型来了:参数仅7B,已开源
中小型基准的其他实验结果,包括 LRA、ImageNet、
Speech
Commands、WikiText-103 和 PG19 证明了 MEGALODON 在体量和多模态上的能力。
Meta
长文本
大模型
语音
Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)
transcriber = pipeline( "automatic-
speech
-recognition
Whisper
语音优化
大模型
OCR的终极解法——传统算法VS多模态大模型
词性标注(Part-of-
Speech
tagging):为每个单词指定词性,如名词、动词等。
OCR
大模型
文字识别
大模型
中文版开源Llama 2同时有了语言、多模态大模型,完全可商用
2304.03277 [12] Microsoft Azure 语音合成 API: https://azure.microsoft.com/en-us/products/ai-services/ai-
speech
开源模型
【提前体验GPT-5】吴恩达AI智能体工作流详细解读
descriptive text using an image-to-text model, and then transform the text into voice using a text-to-
speech
GPT-5
智能体
提示词
18种 DALL-E 3 炫酷的文字效果和提示词
The text '[text]' inside a (
speech
/thought) bubble is prominent and aligns with the image's style.
DALL-E
3
提示词
文生图
<
1
2
>
1
2
4
5
6
7
8
9
100