��ģ��΢��Լ��΢��ݼ�

��Ŵ��ģ��ChatGPT��У��о��ҵ��Ȥ��ߵȶ��ڳ��΢��ģ�ͣ�large language model��Ӧ�ض��Ӧ�ó��΢��ĺû��ܵ��ص�Ӱ�죬��ģ�ͼܹ��΢��ݼ��Լ�RLHF��RLHF��Reinforcement Learning from Human Feedback��ȡ��Щ��У��Ԥѵ��ʹ��Լ��ݼ��΢��һ��Լ��еķ��Ϊ��ʵ�ִ��ģ�͵�΢��һ��ʵ�΢��ݼ��Ǳ��ġ��һ��΢��ݼ��ʹ��΢��ģ��ض��ϱ��ָ�Ϊ��㡣��ǹ��΢��ݼ��һЩ��أ���Դ��ѡ��ʵ��Դ�ǳ��ؼ��ͨ��ץȡ��ռ��ʵ��ռ��ݡ��Ҫ΢��ģ��Դ��ض��ô��ݼ��ص��ı��磬��Ҫ��ľ��з��΢��ݼ��ݼ�Ӧ��͸��۵��ı������ݼ��ģ�͵�΢��Ҫ��ˣ�Ӧ��׼��ʱ��ϸ��鲢��ϴ��ݡ�ȷ��ݼ��õ��ı��ݼ��е�ÿ��Ӧ��ȷ��ʵ��壬�Ա�ģ��ܹ��Ϻõ��京�塣��ݹ�ģ��ݼ��Ĵ�СҲ��Ҫ��Ӧ�ó�֣��ȷ��ģ��ܹ�׼ȷ��ѧϰ�ض��ĸ�ʽ�͹��ɡ�ͨ��Ϊ��ݼ��е��ı��Ӧ��ڼ�ǧ��ʮ��֮�䣬��Ŀǰ��о��һЩ�µĿ��Ľ������ڹ��΢��ݼ�ʱ��Ӧע��ȷ��֮��Ǿ��໥��ģ��ڷ��ġ��ζ��Ӧ��ض��΢��Ͼ��ԣ��ֲ��Ǽ򵥵��ظ��о��ظ��ݲ��ģ�͵��ظ��ݻ��Ӷ��΢��ɱ��Ŀǰ��ʵ��΢��һ�ַǳ�ʵ�õļ��ǹ��΢��ݼ��һ��ɵ��顣��˱��Ľ��΢��ݼ��ĸ�ʽ��Լ��ʽ�Ƕȳ��ڿ�չ��о��ּ�ڰ��˽�΢��ݼ��ؼ��Ľ�չ��
΢��ݼ��ĸ�ʽ

Ŀǰ��΢��ݼ��ĸ�ʽ��¼��֣�ָ��ʽ��ֶԻ��ʽ��Լ��ʽ��1. ָ��ʽָ��ʽ��ָ�û��ָ�ģ�Ͱ��ָ��Ҫ��ĸ�ʽ��ʽ��ݼ�ͨ��json�ļ��ʽ�洢��͵��Alpaca-52k��ݼ�[1]��Alpaca-52k��һ��Դ��ѭָ��ģ��΢��LLaMAģ��Եõ�Alpaca-7Bģ�͵��ݼ��52000��ָ��ݡ��52k��ǹ��ǧ��ָ��ԡ�Alpaca�ĸ�ʽ��࣬һ��instruction/output��ʽ��磺
#instruction��ʲô��ԭɫ��
#output��ԭɫ�Ǻ졢��ơ��Щ��ɫ��Ϊԭɫ��Ϊ��ǲ��ͨ��ɫ��ɫ��ͨ��Բ�ͬ��ڹ�ļӷ�ɫ��ϵͳ�У�ԭɫ�Ǻ졢�̡��RGB��һ��Ϊinstruction/input/output��ʽ��磺#instruction��ӵ�ƴд��﷨��#input��극�뿪�˲��#output��仰��ƴд��ȷ�ľ��Ӧ��ǣ��극�뿪�˲��Ȼ��Alpaca��ݼ��self-instruct [2] ��õ��ݼ��һЩ覴ã��ݼ��Ҫ��һ��ϴ�͸Ľ��alpaca-cleaned [3] ��alpaca-gpt4 [4]��⻹��ķ��汾[5]��Щ��ݼ�ͨ��ָ��ԣ��ļ��СԼΪ40MB��ҵ�json��ʽ�ļ��ﲹ��һ�䣬��о��У��ݼ��ͨ��token��ָ��м��㡣��token��tokenizer��أ��ָ��ı��ȵĲ�ͬ��д��Ӱ�졣Ϊ��ֱ��ڱ��ĵ��ݼ��ģ��ѡ��ļ��洢��С��Ϊ��ָ�ꡣ
2. ��ֶԻ��ʽ��ֶԻ��ʽ��ָ�û��ģ��֮��ԶԻ��ʽ��У�ģ�ͽ�ͨ��û��ж��ֵĽ��ﵽ�û��󡣵��͵��ѵ��Vicunaģ�� [6] ��ʹ�õ�ShareGPT��ݼ��ShareGPT��һ��ChatGPT��GPT-4��ģ�͵��¼��ƽ̨��й��˴��û��ѡ�ĶԻ��ݼ��Щ��¼ͨ��չʾ��Ȼ��д��Ļش�Vicunaģ��ͨ��ռ��ƽ̨��ݣ��ݴ�СΪ 673MB [7]��ѵ��ģ�;��нϺõĶ��ֶԻ��ʽ�� [6]��

    "conversations": [      {        "from": "human",        "value": "Who are you?"      },      {        "from": "gpt",        "value": "I am Vicuna, ..."      },      {        "from": "human",        "value": "What can you do?"      },      {        "from": "gpt",        "value": "I can chat with you."      }

3. ��ʽ
��ᵽ��ݸ�ʽ��һЩ��ݸ�ʽ��ת��Ϊ�Ի��ʽ��紿�ı��ĵ��⣬��һЩ��ض��;��ݼ��ı��ܽ��ݼ��Լ��ݴ��ı��ɶԻ��ݼ��RefGPT [8] ��ᵽ�ķ��ı��Ĳ�ͬ��ܣ��ǻ��API�ĸ�ʽ [9] �͵��ݿ��Եĸ�ʽ [10] �ȡ��Ȼ��Դ��ı��ʽ��ڣ��Щ��ʽ��ת��Ϊָ��ֶԻ��ĸ�ʽ��Ҫע��ǣ��ᵽ��΢��ݼ��ĸ�ʽ��ǿ��ѧϰѵ��ʹ�õ�RLHF��ݼ��
΢��ݵĻ��
΢��ݼ��Ҫ��һϵ�еĴ��裬��ռ��ϴ��ǿ�ȡ��ռ��ı��Ļ��ͨ��ݼ��Զ��ݼ��ҵ��ݼ��ȶ��ַ�ʽ��á��ڻ��ݼ��Ҫ��ϴ��ȥ��ظ��͵��ݣ��ͳһת��Ϊ��ѵ��ĸ�ʽ��⣬Ϊ��ݼ��ͷḻ�ԣ��Բ��ǿ��緭�롢ժҪ��ͬ��滻��Ȳ��Ȼ��ڴ�ģ�ͱ��Ѿ��˺�ǿ��ı��Щ��ǿ��ʹ�ô�ģ��ɡ�ͨ��΢��ݼ��Ĺ�ģ��Ԥѵ��ݼ�С�öࡣ��͵��ڼ��TB��Ԥѵ��ı��ݣ�Ԥѵ��Ĵ洢��Сͨ��ڼ�MB��1GB��ҡ��ռ��ݺ󣬿��Խ��Զ��ݼ��Դ��ݼ��ѵ��⣬΢��ݼ�ͨ��һ��֪��ݼ��͵��ѵ��Vicunaģ��ʱ�ᵽ��Dummy��ݼ� [6]��Զ��ݼ��Դ��ݼ��ѵ��ģ��Ч��ͷ��ԡ��ڷ��ģ�� MPT-30B-Chat [11] ��˶��ֵĶԻ��ݼ��£�

ͼ1.΢��MPT-30B-Chatģ��õ��Ļ��ݼ�ͼƬ��Դ��https://www.mosaicml.com/blog/mpt-30b
��Ҫ�漰��෽�棬��һ��õ�GUI��߽��ڼ��ݴ��Ĺ��̡��Ŀ�Դ��ݱ�ע��Label-Studio��ⷽ��չ��ڻ��һ��¹��H2O LLM Data Studio [12]��ͼ��Ȼ΢��Ե��Ч��ѵ��õĴ�ģ�Ϳ��Լ�ӵ�֤��ù��ߵ��Ч�ԡ��ˣ��һ��GUI��ܹ��õؽ��ݴ��ģ��΢��һͬ��ô��Ǹ��صõ�һ��õĴ�ģ�͡�

ͼ2.H2O LLM Data Studio GUI��Ԥ��ͼƬ��Դ��https://blog.h2o.ai/blog/streamlining-data-preparation-for-fine-tuning-of-large-language-models/
��Ȼ��Ԥѵ��ģ�͵ı�׼��ڲ��ϱ仯�ͷ�չ�У��ӱ�ݺ͸�Ч��΢��ݵĴ��ʵ��Ҳ��ڱ�̽��С�

΢��ݹ��ʽ��̽��

��п��Կ��΢��ݼ��Ĺ��ǳ��Ҫ��˵�Ƕ��ƻ��ģ��ʱ��ĵĻ��ˡ�΢��Ŀ��һ��Ԥѵ��ģ��Ϊ��һ��С��ݼ��Դ�ĥϸ�ڵķ��΢��һ��Ϊ��ƻ��ģ�͡�

�ڹ��΢��ݼ�ʱ��һЩֵ��ע��͹��Ի��еĴ�ģ�ͽ��self-instruct��Լ��һЩ��ԭ��ͨ��self-instruct��΢��ݣ��Dromedary-65Bģ�͵�΢�� [13]��Ȼ��ģ��й��һ�ּ��ķ��һ��ܵõ��ݼ��֮��С��Ψһ��б�׼��LIMA [14] ��µĽ��һ��΢��ݾͿ��Լ��ģ��Ԥѵ��ݣ��ؼ��ݵ��Ͷ�ģ�͵��LIMA��µ�˼�룬��һ��˼��ģ�ͳ�Ϊbased [15]��ģ�͵�ָ��˼��ǣ��ģ�ͱ��Ѿ�ӵ�жԸ��Ŀ��ˣ��Ҫ�̻��˵��Ϳ��ˡ��ģ��˼�ĵط��ڣ��΢��ݵ��ļ��С��72.8KB��Ϳ��ô�ģ��Ĺ۵��ˣ��Ϊ�Աȣ�LIMA��΢��ļ��С��2.97MB��

��΢��ݼ��Ŀ��ǣ�һ��Ǹ�֪��ģ��һЩ�µ�֪ʶ��һ��ǵ��ģ��ڴ��ķ�ʽ�ظ��ǡ��Ҫ��ߴ�ģ��һ��µ�֪ʶ��Ҫ�ø��̵�ʽ�ķ�ʽ��䡣����е��ṩ��ʾ��Orcaģ�� [16] ��ѵ��ʽ��GPT-4��÷ḻ�Ľ��͹켣��˼ά��Ӷ�ʹ��LLaMA-13Bģ��ѵ��ChatGPT�൱��Ч�� Textbook is all you need [17] ��ģ��ƪ��۵Ĳ��΢��̣��Թ��Ӿ��н��֪ʶ��ý̿��鼶��ݼ��ʹ��ģ��ڱ��ϴﵽ��ߵ�ˮƽ��Ȼ��Ϊ��΢��ݵĸ��Ӷȣ�Ҳ��Ի��ڴ�ģ�͸��е��ͨ��ݻ��ķ��ɸ��Ӹ��ӵ�΢�� [18][19]��

��⣬΢��ݼ��Ĺ��tokenizerҲ�й�ϵ��Ӱ��ǣ�tokenizer��Ӱ�쵽��ģ�͵�ѧϰ�� [20][21] �ᵽ�ģ��ǡ��tokenizerӰ��Ӱ��ģ��λ��ļӷ��ȷ�ԡ��Ȼ��Ѿ�ѵ��õ�tokenizer��ô�ڹ��΢��ݼ�ʱ��ʹ��tokenizer��еĴʻ㡣��Ȼ��tokenizer��Ӱ�쵽token�ĳ��ȣ��и��Ĵʻ��tokenizer��ʹ��ı��tokenizer֮��̡�ͬʱ��ݼ��̼��StartToken��PadToken��EndToken�ȱ�ǣ�Ҳ��԰��ģ�͸��õ��ݣ��߰��Ӧ�ý��б��룬һ��Vicunaģ�ͣ��ڰ汾��º��΢��ݼ��м��µĶԻ��ı�ǣ�</s>��ʹģ��Ч��Ԥ��ʱֹͣ��ַ��

��ϣ��ڹ��΢��ݼ�ʱ��Ҫ��Ƿ��⣬��Ҫע��ƽ�⣬ͬʱҲҪ��ģ��˽��ǵ��Լ��ר�еĶ��Ӧ��֪ʶ��Ӷ��ﵽ�ڶ��и��ߵ�Ԥ��׼ȷ�ԡ��΢��ݵ��Ҫ�ԣ��ⷽ��Ŭ��ֵ�õġ�

�ܽ�

��Ҫ��˴��ģ�͵�΢��ݼ��΢��ݼ��ĸ�ʽ��ǿ��Ȳ��衣��Ԥѵ��ݼ��ȣ�΢��ݼ��Ĺ��Ҫ��Ӿ��󾫡��ʵ��У��Զ��ݼ��Դ��ݼ��ѵ��ķ�ʽ��԰��΢��ģ��Ч��ͷ��ԡ�Ȼ��΢��ݼ��һ��Ҫ�ķѴ��ʱ��;��ڴ��δ��ָ��Ѻ��õ�GUI��ߣ��Ǹ��õع��΢��ݼ��

��ԣ�https://mp.weixin.qq.com/s/UPsfwxHObhaVB6yrm3atYw