首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 使用这个工具后,我将 RAG 的准确性和召回率都提高了两倍!
· 硬核解读Stable Diffusion(系列三)
· 大模型狂飙两年后,“六小龙”开始做减法
· ChatGPT写论文指令全集
· 微软研究团队:Sora核心技术及未来机会研究报告-中英对照版
· AI绘画:InstantID Win11本地安装记录!
· 这个数字人开源项目太牛了,非常全面的项目解决方案(含源码)
· 你要牢记的四个常用AI提示词框架:ICIO、CRISPE、BROKE、RASCEF,有助于获取更加稳定和高质量的内容
· 通俗解读大模型微调(Fine Tuning)
· RAG检索增强技术在知识库智能检索场景下的应用实践
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
Fastwhisper + Pyannote 实现
ASR
+ 说话者识别
前言 最近在研究
ASR
相关的业务,也是调研了不少模型,踩了不少坑,
ASR
这块,目前中文普通话效果最好的应该是阿里的modelscope上的中文模型了,英文的话,还是非whisper莫属了,而且
faster-whisper
语者识别
ASR
开源
【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!
SenseVoice-Small 提供5种语言(中文、英文、日语、韩语、粤语)的低延迟
ASR
(目前已开源),SenseVoice-Large 支持超过 50 种语言的高精度
ASR
。
asr
tts
声音
OpenAI
【语音识别】OpenAI语音力作Whisper
一、介绍 Whisper 是一系列用于自动语音识别 (automatic speech recognition,
ASR
) 的预训练模型,它由来自于 OpenAI 的 Alec Radford
语音转文字
whisper
开源
十大开源语音识别项目
Automatic Speech Recognition(
ASR
)是一项自动语音识别技术,其目标是通过计算机自动将人类口头语音转录为文本。
语音识别
开源项目
金融
MCI-GRU:在真实金融交易中验证有效的股票价格预测模型
评价指标涵盖年化收益率(ARR)、年化波动率(AVol)、最大回撤(MDD)、年化夏普比率(
ASR
)、卡玛比率(CR)和信息比率(IR)。
MCI-GRU
股票
大模型
数字人
数字人之声音克隆:无样本,1分钟样本完美克隆声音,开源
WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(
ASR
)和文本标注,协助初学者创建训练数据集和
数字人
声音克隆
GPT-SoVITS
大模型
炸裂!百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本
对于音频对齐,作者收集了开源和内部的数据集,用于自动语音识别(
ASR
)和音频问答(AQA)。
Baichuan-Omni
多模态大模型
开源
开源免费离线语音识别神器whisper如何安装
Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,
ASR
)模型是被训练来运行语音辨识与翻译任务的,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文
wisper
翻译
免费
语音
国内厂商语音识别与Whisper评测:现状与概况对比
二、评测意义与预期成果 语音识别(speech recognition)技术,也被称为自动语音识别(Automatic Speech Recognition,
ASR
)、电脑语音识别(Computer
语音识别
Faster-Whisper
开源
从声纹模型到语音合成:音频处理 AI 技术前沿 | 开源专题 No.45
· 支持多个
ASR
(自动演讲识别) 配方 · 支持类似于
ASR
配方一样的 TTS (文本转声) · 支持 ST (Speech Translation
AudioCraft
音频
开源
开源语音大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
我们发现这个任务不仅在超越语音信号的基于语音的问题回答任务(如声音和音乐)方面改进了接地任务,还改善了
ASR
的性能。
大模型
语音
大模型
中文版开源Llama 2同时有了语言、多模态大模型,完全可商用
相较以往的传统方案,LLaSM 能够通过便捷的语音输入的交互方式,大幅改善过往以文本为输入的大模型的使用体验,同时有效避免基于
ASR
解决方案的繁琐流程以及可能引入的错误。
开源模型
大模型
“实时”语音翻译!AI语音具有“情绪”!最强开源AI大模型来了
SeamlessStreaming是一个基于深度学习的模型,它可以完成以下几种任务: 语音到语音翻译(S2ST)、语音到文字翻译(S2TT)、文字到语音翻译(T2ST)、文字到文字翻译(T2TT)、自动语音识别(
ASR
大模型
开源模型
语音
开源
从 GPT-4o 到 LiveKit:实时语音交互的开源实现
LiveKit 支持语音、视频和数据流处理,内置了自动语音识别(
ASR
)和文本转语音(TTS)功能,简化了语音到文本和文本到语音的转换过程。
GPT-4o
语音交互
OpenAI
两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速
Whisper 是 OpenAI 研发并开源的一个自动语音识别(
ASR
,Automatic Speech Recognition)模型,他们通过从网络上收集了 68 万小时的多语言(
语音
HeyGen
<
1
2
>
1
2
4
5
6
7
8
9
100