首页
Ai 资讯
Ai 知识库
创作魔法
绘画魔法
视频魔法
训练魔法
Ai术语
Ai提示词
Ai创意图
Ai工具
Ai视频
VIP专区
VIP专区
登录
AI魔法学院客服
最新
排序
收藏
全部
七天内
一个月内
选择分类
全部
写作魔法
绘画魔法
视频魔法
训练魔法
其他
AI工具
VIP视频
推荐阅读
换一批
· 使用这个工具后,我将 RAG 的准确性和召回率都提高了两倍!
· 硬核解读Stable Diffusion(系列三)
· AI高手都在用的10个提示词prompt网站,建议收藏!
· 一文汇总市面上所有prompts提示词框架!
· Ollama的本地化又一图形工具ChatOllama,让你轻松玩转ollama,ChatGPT
· 有道开源的国产语音库EmotiVoice爆火了!具有情绪控制功能的语音合成引擎!
· 盘点字节跳动最新的AI应用
· 产品经理必会的3大流程:业务流程、功能流程、页面流程(附案例)
· 一条价值2W的Prompt,帮你生成提示词的超级提示词
· Stable Diffusion快速生图,LCM-Lora、sd_xl turbo寄养和亲生谁好?!
热门标签
Stable Diffusion
stable diffusion
Midjourney
midjourney
ComfyUI
comfyui
ChatGPT
chatgpt
大模型
数字人
开源
人工智能
Sora
文心一言
天工
零一万物
知海图
星火
文心一格
混元
通义千问
盘古
言犀
ChatGLM
Github
微软
热门标签
免费
教程
插件
免费
教程
插件
免费
教程
插件
文章列表
语
音
克隆又又又又又升级了
,时隔几个月Meta又推出了最新的
语
音
生成技术,不仅能可能声
音
,还能通过对声
音
的描述来生成独特的
音
色,同时还能通过描述来生成各种各样的
音
效,甚至能通过文字描述来编辑声
音
,整体来说,这项技术几乎囊括了现在人们对
语
音
生成技术的所有的需求
Meta
语音生成
开源
【
语
音
领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!
整体项目的框架如下: 核心模型一:
语
音
识
别
模型SenseVoice介绍 SenseVoice 是一个全面的
语
音
基础模型,旨在执行各种
语
音
理解任务,包括自动
语
音
识
别
(ASR)、
语
言
识
别
asr
tts
声音
开源
语
音
、视频转文字神器:开源whisper介绍
OpenAI的Whisper是一种基于深度学习的
语
音
识
别
模型,它是一种通用的
语
音
识
别
模型,可以用于
语
音
识
别
、
语
音
翻译和
语
言
识
别
等任务。
人工智能
大模型
wisper
视频
栩栩如生,
音
色克隆,Bert-vits2文字转
语
音
打造鬼畜视频实践
通过这两种任务,BERT能够学习到上下文感知的词嵌入和句子级
别
的
语
义表示。
Bert-vits
语音
工具
OCRmyPDF—可智能
识
别
PDF文本和图片信息的工具
如果需要,可以在执行OCR之前对图像进行纠偏和/或清洁 •验证输入和输出文件 •在所有可用的CPU核心之间分配工作 •使用Tesseract OCR引擎
识
别
超过
OCRmyPDF
工具
开源
开源
语
音
大
语
言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
此外,我们还将
语
音
识
别
与基于字级时间戳预测(SRWT)的任务结合起来进行训练,这在以前的多任务学习研究中通常被忽视。
大模型
语音
开源
从声纹模型到
语
音
合成:
音
频处理 AI 技术前沿 | 开源专题 No.45
,使用各种
语
音
转换 AI (VC,Voice Conversion) 进行操作。
AudioCraft
音频
开源
OCR是什么以及推荐几款开源中文OCR
识
别
软件
光学字符
识
别
(Optical Character Recognition, OCR)是指对文本资料的图像文件进行分析
识
别
处理,获取文字及版面信息的过程。
OCR
解读wav2lip:探究
语
音
驱动唇部动作的技术原理!
本文将深入介绍一下wav2lip的技术原理和细节,了解它是如何实现
语
音
驱动唇部运动的!
wav2lip
语音
开源
网易有道强力开源中英双
语
语
音
克隆
其中的
音
素(phonemes)可以这样得到: python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.
语音
开源
OCR
Windrecorder:连续记录屏幕内容,通过OCR技术
识
别
记录内容
它的所有能力(录制、
识
别
处理、存储回溯等)完全运行在本地,无需联网,不上传任何数据,只做应该做的事。
Windrecorder
录屏
开源
【开源项目】Flow Matching
语
音
合成
CFM是一种新技术,已被证明可以改进扩散模型,Meta的Voicebox模型将CFM引入
语
音
合成领域,下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional
音视频
Flow
Matching
OpenAI
基于 OpenAI Whisper 模型的实时
语
音
转文字工具
· WhisperLive 是一款专注于
音
频处理和创作的开源软件,使用 OpenAI Whisper 模型将
语
音
输入转换为文本输出,可以用于转录麦克风的实时
音
频输入和预先录制的
音
频文件,为艺术家和
音
乐制作人提供了一个强大的平台
WhisperLive
音频
开源软件
开发
语
音
产品时设计唤醒词和命令词的技巧
在实际开发
语
音
产品过程中,要达到好的
语
音
识
别
效果,除了
语
音
算法要给力外,设计出好的唤醒词和命令词也能起到事倍功半的效果。
语音产品
唤醒词
命令词
开源
6个最佳开源TTS引擎
TTS引擎用于实现文本到
语
音
的转换。
TTS引擎
开源模型
<
1
2
3
4
5
6
7
8
9
10
...
>
1
2
4
5
6
7
8
9
100