Yi��������ϸ�ڷ���

д��ǰ��

Yiģ�ͺ��ͷ��ˣ��ų��֮ǰ��Llama2��Baichuan2��Qwen��ҽ��ϸ�ڷ��

Yiģ��ڿ�ƪ��ǿ��ģ��˼·��Χ��ģ�͹�ģ��ݹ�ģ��ˣ��ҪΪԤѵ��΢��ı��Լ�ģ��չ��

Paper: https://arxiv.org/abs/2403.04652

Ԥѵ��׶��ݹ��

Yiģ��Ԥѵ��׶ε��ݴ��Ҫ��ͼ��ʾ��Ҫ�Ƕ��ȡ��ı��ݹ��˺�ȥ�ء�

��ϴ��

��˷��

o ��ʽ��ˣ��÷��Ҫȥ��ϵ͵��ı��ݡ��˹��1��URL��ʱ��Լ��ı��й��ˣ��2��ı��ȡ��ַ��̡��б��3��ظ��N-GramƬ�Ρ��ռ�ȣ��4��ʶ��˿�ʶ��Ϣ��磺��䡢�绰�ȡ�

o ѧϰʽ��ˣ�ͨ��ȡ� �� ȫ��ĵ��4��ı��й��ˣ��У��KenLM�⣬��CCNet�ķ��ı��ȷ��Ը��ƽ��ˮƽ��ı��Ǿ��ά��ٿ��ѵ��ķ��ģ�ͣ��ı��ݸ�ƫ��ά��ҳ��ʱ��Ϊ�ı��ϸߣ��ȫ��ʶ��ɾ��ж��ݵ��ĵ��籩��ɫ��ȣ��ĵ��ʶ��ı��ԣ�ɾ��ӻ��䲻��ı��

o ��ˣ��޼ල��ı��з��飬Ȼ��Ծ��ݱ�ע��ǩ��Ϊ��ݻ�ϲ��ṩ�ο��

ȥ�ط��ı��֮��ȥ��̣��漰��ĵ��MinHashȥ�غ��ĵ��ȷƥ��ȥ�أ��Чʶ��ĵ��ڲ��Ϳ��ĵ��е��ظ��ݡ�ͬʱ��ģ�Ͷ��ݸ��ض��⣬��ݲ��ֶ��Ϣ�ܶȽϵ͵��ݽ��²��Ҫ�ǹ��ı��

��Ԥѵ��ͼ��ʾ��ܼ�3.1T Token��

��

΢��׶��ݹ��

��΢��н��10K��ݽ��ģ��΢��Ϊ��Ҫʤ��ʮ��Դָ��΢��ģ�ͣ��ý�С��ֶ��ע��ݼ��Ч��š�

��ڹ��У��WizardLM�еķ��ȡ�ѶȽϸ��ʾ��ݼ��LIMA�лظ��-��-�ܣ��ɻظ��ݸ�ʽ��á�Step-Back��ģʽ��ά��ݸ�ʽ��ͬʱΪ�˼��ٻþ��ظ��鲢ȷ��ظ��е�֪ʶ��ģ��У��ܵ��ģ��Ӳ��Ļظ��д�ظ��֤΢��ʱ��ݲ��ظ��

Ϊ��ȷ��ģ��ĸ��Ƿ�Χ��΢��漰��磺�ʴ𡢴��д��Ի��ѧ��롢˫��ȡ�Ϊ��ģ�͵ľ�ϸ��һ��ϵͳָ�ͨ��ԵĲ��㷨��ƽ��ϵͳָ��ϵ��ݷֲ��ǿ�Ŀ��³��ԡ�

Ϊ��̽��ͬ��ݱ��ģ��Ӱ�죬ͨ��ȷ��ݻ�ϱ��

��΢��ݲ��ChatML��ʽ��ģ�Ϳ��Ը��õ��и��Ϣ��磺ϵͳָ��û��ģ�ͻظ��

�ִ��ģ�ͽṹ��΢��

Tokenizer��sentencepece��BPE��Ԥѵ��ѵ��Ϊƽ��Ч�ʺʹ��ʱ��Ϊ64000��ֲ��Ϊ��֣��ַ��unicode��롣

ģ�Ͳ��Transformer-Decoder�ṹ��llama�Ĵ��ʵ�֣��޸��£�

o ע��ƣ�Yi-6B��34B�汾��Grouped-Query Attention(GQA)��Llama2�н�70B�汾��GQA��

o ����Yi��SwiGLU��Ϊ��ע��ļ����

o λ�ñ��룺Yiģ�Ͳ��תλ�ñ��루RoPE��Ϊ��֧��200k��Ĵ��ڣ��˻��Ƶ�ʣ�RoPE ABF��

ģ�ͽṹ

ģ��΢��׶Σ��ظ��ݵ��ʧ��ϵͳָ��û�ָ���AdamW�Ż��Ц�1��2��ϵ�ֱ�Ϊ0.9��0.999��1e−8��ѵ��󳤶�Ϊ4096��СΪ64��ѵ��300��ѧϰ�ʺ㶨Ϊ1e−5��Ȩ��˥��Ϊ0.1��ݶȲü��ֵΪ1.0��NEFTune��ʽѵ��Yi-34B-Chat��Yi-6B-Chat��߶ȷֱ�Ϊ45��5��

��չģ��ĳ��

��ڳ��ĵĽ��ü��Ԥѵ��΢��ַ��ģ��ʵ��Ѿ��200K��κ�λ��Ϣ��ǰ��Ԥѵ��ԡ��ͨ��΢��Խ�һ��ݵķ��Ը��õ��ѭ��ָ��ƫ�á�

o Ԥѵ��׶Σ��в��кͷֲ�ʽע��ķ�ʽ��ģ��ȫ��ע��ѵ��Դ��1��ԭʼԤѵ��ݣ��2��ݣ��Ҫ��ݣ��3��ĵ��ĵ��ϳ��ݡ��ƶ�5B Token��ݽ��ѵ��δ�СΪ4M Token��

��ʵ��

o ΢��׶Σ��SFT��볤��ʴ��ʴ��ݻ��ʹ�á��ĵ��ʴ��ģ�͸��ĵ�ƴ��һ��ĵ��г�ȡһ��䣬Ҫ��ģ�ͻ��ڳ�ȡ��ݹ��ʴ�ԡ�Trick��Ҫ��֮ǰģ��Ҫ��л��дԭʼ��䣬��ݸ�ʽ��ģ�ͽ��м��Ӷ��ֹ��֪ʶ�ش��Ļþ��

��չģ��

�ο�SOLAR 10.7Bģ�Ͷ�Yi-6Bģ�ͽ��չ��ԭ��32��չ��48�㣬��Yi-9Bģ�͡��ھ��ѡ��ʱ��ͨ��ÿһ��ֱ�ӵ��ƶȵó��ͼ��ʾ��ƶ�Խ�ӽ��1��Щ�㲻��ı�ԭʼģ��logits��ѡ��ԭʼģ��м�12-28��16��㡣

��׶�ѵ��һ�׶�ʹ��0.4T��ݣ��ı��ʹ��룩��Yi-6Bģ��һ��ڶ��׶�ʹ��0.4T��ݣ��ı��ѧ��ص��˴��ѧ��ݵı��ߴ��ܡ�

��΢��У��趨��һ��̶��ѧϰ�� 3e-5��ȡ�� batch size �Ĳ��ԣ�� batch size 4M token ��ʼ��ÿ��ģ�� loss ֹͣ�½�ʱ�� batch size��ʹ loss ��½��ģ��ѧϰ��ӳ�֣��ܸ��á�

д��

��θ��Ҵ��Yi�ļ��ݣ�Yiģ��Ҳ��Դ�ȽϾ��ˣ��Դ��ף��ϧ��

Yi-6Bģ�͵��չ��ȵ�Yi-9Bģ��о�Ҳ�Ƚ��˼��ͨ��ƶ��ѡ��ģ��չ��ķ��

��ԣ�https://mp.weixin.qq.com/s/ZmQ4OablSL5CwGYFRwMtOw

д��ǰ��

Ԥѵ���׶����ݹ���

΢���׶����ݹ���

�ִ�����ģ�ͽṹ��΢������

��չģ�������ĳ���

��չģ�����

д�����

Ԥѵ��׶��ݹ��

΢��׶��ݹ��

�ִ��ģ�ͽṹ��΢��

��չģ��ĳ��

��չģ��

д��