MaskGCT��GitHub��ư��׵�TTS��Դ��ģ��

01
ǰ��

��գ��Ĵ�ѧ��ڣ��Ȥ��Ƽ��Ƴ��һ��ģ��¡TTSģ�͡��MaskGCT��ģ��ڰ��10��Сʱ��ݵ�Emilia��ݼ��Ͻ��ѵ��չ�ֳ��Ȼ��¡��Ǩ��Լ��ͬʱ��˽�ǿ��ȶ��ԡ�MaskGCT��Ĵ�ѧ��ڣ��Ϻ��˹��ʵ��Ͽ��Ŀ�ԴϵͳAmphion��Amphion��Github global trending��ף�

��д��ģ�ı��TTS��ϵͳͨ��Ϊ�Իع�ͷ��Իع�ϵͳ��Իع�ϵͳ��ʽ�ؽ�ģ��ʱ�䣬��³��Ժͳ��ʱ��ɿ��Է��һ��ȱ�ݡ��Իع�ϵͳ��ѵ��Ҫ��ʽ��ı��Ϣ��Ԥ��Ե�Ԫ��أ��ĳ��ʱ�䣬��ܻ�Ӱ��Ȼ�ȡ��Ľ��һ��ΪMasked Generative Codec Transformer��MaskGCT��ȫ��Իع�TTSģ�ͣ��ģ��ı��ල֮��ʽ��Լ��ؼ��ʱ��Ԥ�⡣MaskGCT��һ��׶�ģ�ͣ��ڵ�һ�׶Σ�ģ��ʹ��ı�Ԥ��Լලѧϰ��SSL��ģ��ȡ��ǣ��ڵڶ��׶Σ�ģ�ͻ��Щ��Ԥ��ѧ��ǡ�MaskGCT��ѭ��Ԥ��ѧϰ��ʽ��ѵ��У�MaskGCTѧϰ��ݸ��ʾԤ��ѧ��ǡ��У�ģ��Բ��з�ʽ��ָ��ȵı�ǡ�ͨ��10��Сʱ��Ȼ��ʵ�飬��MaskGCT��ƶȺͿ��Եȷ��ҵ��ȵ��TTSϵͳ��

02
��

MaskGCTģ��ĸ��Ҫ��ɣ�

1. ��ʾ��ת��Ϊ��ǡ�

2. ��ѧ��ѧ��ؽ��Ρ�

3. �ı��ģ�ͣ�ʹ��ı��ʾ��Ԥ��ǡ�

4. ��嵽��ѧģ�ͣ��Ԥ��ѧ��ǡ�

��ʾ����ڽ��ת��Ϊ��ɢ��ǣ��Щ��ͨ��ͨ��ɢ��Լලѧϰ��SSL��ģ�͵��á��ʹ��k-means��ɢ��ȣ��ַ��ܵ��Ϣ��ʧ��Ӷ�Ӱ��ؽ��ѧ��ǵľ�ȷԤ�⣬��ḻ��С�Ϊ��С��Ϣ��ʧ��ѵ��һ��VQ-VAEģ��ѧϰһ��뱾��뱾�ܹ��SSLģ��ؽ��ʾ��˵��ʹ��W2v-BERT 2.0ģ�͵ĵ�17��״̬��Ϊ��ͽ��ɶ��ConvNext��ɡ�ͨ��Ľ��VQ-GAN��DAC��ʹ��ӷֽ��뽫��ͶӰ��άǱ�ڱ��ռ䡣

��ѧ��ּ�ڽ��Ϊ��ɢ��ǣ�ͬʱ��ܱ��Ϣ��Ĳ��òв��Residual Vector Quantization, RVQ��24K��ʵ��ѹ��Ϊ12��ɢ��ǡ��⣬ģ��ʹ��Vocos�ܹ��Ϊ��ѵ��Ч�ʡ�

�ı��ģ����÷��Իع��Transformer��ʹ��Իع�ģ�ͻ��κ��ı��Ķ��Ϣ��ѵ��У��ȡ��е�ǰ׺��Ϊ��ʾ��ģ�͵��ѧϰ��ʹ��Llama��Transformer��Ϊģ�͵��ɣ��ſ��Ե�Ԫ��GLU��GELU����תλ�ñ��ȣ��ע��滻Ϊ˫��ע��ʹ��˽��ʱ�䲽t��Ϊ��ӦRMSNorm��У��ָ��ȵ�Ŀ��У��ı��ʾ��С��Ļ�ѵ��һ��ƥ��ĳ��ʱ��Ԥ��ģ�ͣ��Ԥ��ı��ʾ��ʱ��ܳ��ʱ�䣬��ѧϰ��

��嵽��ѧģ��ͬ��÷��Իع��Transformer��ģ��Ϊ��ɶ��ѧ��ؽ��Ρ�

03
Ч��չʾ

MaskGCT �ܳ��Ȼ��ģ��ο��Ƶ��ɫ��񣬲��Ƶ��

��Իع��TTSϵͳ��ȣ�MaskGCT��и�ǿ��ȶ��ԣ��ƿ��Ҳ��ڻ��£�

��⣬MaskGCT��Կ��Ƶ��٣�

04
ʵ��

SOTA��ϳ�Ч��MaskGCT��TTS��׼��ݼ��϶��ﵽ��SOTA��Ч��ĳЩָ��ˮƽ��

��⣬MaskGCT�ڷ��Ǩ�ƣ��У�Ҳ�ﵽ��SOTA��ˮ׼��

��ǻ��о��MaskGCT��С�Ӣ��Ե��

05
Ӧ�ó��

Ŀǰ��MaskGCT�ڶ̾��ˡ��֡����ӵ�зḻ��Ӧ�ó��Ϊ�˼ӿ��Ӧ�ã��ڰ�ȫ�Ϲ��£�Ȥ��Ƽ��˶��ƽ̨��Ȥ��ǧ��һ��ϴ��Ƶ��ɿ��ٷ��ɶ��ְ汾��ʵ��Ļ�޸��뷭�롢��롢��ͬ��ȹ��ܡ��ò�Ʒ��һ��Ƶ��̣��͹��˹��ɱ��߳��ڣ��ΪӰ�ӡ��Ϸ��̾��ݳ��ѡ��ƽ̨��

��2024��̾��Ƥ�顷��ʾ��̾��Ϊ��2023�꺣��г��ģ�ߴ�650��Ԫ��ԼΪ��г��12��̾��Ϊ��ԡ�Ȥ��ǧ��Ϊ��Ĳ�Ʒ�ĳ��֣��ٹ��̾硰�߳�ȥ��һ��ƶ��л��Ļ��ȫ��ͬ�ﾳ�µĴ��

06
�ܽ�

MaskGCT��һ��ģ��TTSϵͳ��ȫ��Իع��ɱ��Transformer��ı��Ķ��ල��ؼ��ʱ��Ԥ�⡣MaskGCTͨ��ı�Ԥ��Լලѧϰ��SSL��ģ��ȡ��ǣ�Ȼ��Щ��Ԥ��ѧ��ǣ�ʵ��˸��ı��ϳɡ�ʵ��MaskGCT��ƶȺͿ��Է��Ƚ��TTSϵͳ��ģ�͹�ģ��ѵ��ʱ��ָ��ѣ�ͬʱ�ܹ��ʱ��⣬��ǻ�̽��MaskGCT��롢��ת��п��ƺ��ݱ༭��еĿ��չ�ԣ�չʾ��MaskGCT��Ϊ��ɻ��ģ�͵�Ǳ��

��ӣ�

https://arxiv.org/abs/2409.00750

Demoչʾ��

https://modelscope.cn/studios/amphion/maskgct

Amphion��ַ��

https://github.com/open-mmlab/Amphion

ģ��أ�

https://modelscope.cn/models/amphion/MaskGCT

��Ŀ��ַ��

https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct

��ַ��Ȥ��ǧ��

voice.funnycp.com