本文Github地址:https://github.com/HqWu-HITCS/Awesome-Chinese-LLM
1. 模型
1.1 文本LLM模型
ChatGLM2-6B
- 地址:https://github.com/THUDM/ChatGLM2-6B
- 简介:基于开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,引入了GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练;基座模型的上下文长度扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练;基于 Multi-Query Attention 技术实现更高效的推理速度和更低的显存占用;允许商业使用。
Chinese-LLaMA-Alpaca:
Chinese-LLaMA-Alpaca-2:
Chinese-LlaMA2:
- 地址:https://github.com/michael-wzhu/Chinese-LlaMA2
- 简介:该项目基于可商用的LLaMA-2进行二次开发决定在次开展Llama 2的中文汉化工作,包括Chinese-LlaMA2: 对Llama 2进行中文预训练;第一步:先在42G中文预料上进行训练;后续将会加大训练规模;Chinese-LlaMA2-chat: 对Chinese-LlaMA2进行指令微调和多轮对话微调,以适应各种应用场景和多轮对话交互。同时我们也考虑更为快速的中文适配方案:Chinese-LlaMA2-sft-v0: 采用现有的开源中文指令微调或者是对话数据,对LlaMA-2进行直接微调 (将于近期开源)。
OpenChineseLLaMA:
BELLE:
Panda:
Robin (罗宾):
Fengshenbang-LM:
BiLLa:
- 地址:https://github.com/Neutralzz/BiLLa
- 简介:该项目开源了推理能力增强的中英双语LLaMA模型。模型的主要特性有:较大提升LLaMA的中文理解能力,并尽可能减少对原始LLaMA英文能力的损伤;训练过程增加较多的任务型数据,利用ChatGPT生成解析,强化模型理解任务求解逻辑;全量参数更新,追求更好的生成效果。
Moss:
Luotuo-Chinese-LLM:
Linly:
- 地址:https://github.com/CVI-SZU/Linly
- 简介:提供中文对话模型 Linly-ChatFlow 、中文基础模型 Linly-Chinese-LLaMA 及其训练数据。 中文基础模型以 LLaMA 为底座,利用中文和中英平行增量预训练。项目汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 Linly-ChatFlow 对话模型。
Firefly:
- 地址:https://github.com/yangjianxin1/Firefly
- 简介:Firefly(流萤) 是一个开源的中文大语言模型项目,开源包括数据、微调代码、多个基于Bloom、baichuan等微调好的模型等;支持全量参数指令微调、QLoRA低成本高效指令微调、LoRA指令微调;支持绝大部分主流的开源大模型,如百川baichuan、Ziya、Bloom、LLaMA等。持lora与base model进行权重合并,推理更便捷。
ChatYuan
ChatRWKV:
CPM-Bee
- 地址:https://github.com/OpenBMB/CPM-Bee
- 简介:一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。
TigerBot
书生·浦语
Aquila
Baichuan-7B
Baichuan-13B
Anima
- 地址:https://github.com/lyogavin/Anima
- 简介:由艾写科技开发的一个开源的基于QLoRA的33B中文大语言模型,该模型基于QLoRA的Guanaco 33B模型使用Chinese-Vicuna项目开放的训练数据集guanaco_belle_merge_v1.0进行finetune训练了10000个step,基于Elo rating tournament评估效果较好。
KnowLM
- 地址:https://github.com/zjunlp/KnowLM
- 简介:KnowLM项目旨在发布开源大模型框架及相应模型权重以助力减轻知识谬误问题,包括大模型的知识难更新及存在潜在的错误和偏见等。该项目一期发布了基于Llama的抽取大模型智析,使用中英文语料对LLaMA(13B)进行进一步全量预训练,并基于知识图谱转换指令技术对知识抽取任务进行优化。
BayLing
- 地址:https://github.com/ictnlp/BayLing
- 简介:一个具有增强的跨语言对齐的通用大模型,由中国科学院计算技术研究所自然语言处理团队开发。百聆(BayLing)以LLaMA为基座模型,探索了以交互式翻译任务为核心进行指令微调的方法,旨在同时完成语言间对齐以及与人类意图对齐,将LLaMA的生成能力和指令跟随能力从英语迁移到其他语言(中文)。在多语言翻译、交互翻译、通用任务、标准化考试的测评中,百聆在中文/英语中均展现出更好的表现。百聆提供了在线的内测版demo,以供大家体验。
YuLan-Chat
1.2 多模态LLM模型
-
VisualGLM-6B
- 地址:https://github.com/THUDM/VisualGLM-6B
- 简介:一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练。
VisCPM
- 地址:https://github.com/OpenBMB/VisCPM
- 简介:一个开源的多模态大模型系列,支持中英双语的多模态对话能力(VisCPM-Chat模型)和文到图生成能力(VisCPM-Paint模型)。VisCPM基于百亿参数量语言大模型CPM-Bee(10B)训练,融合视觉编码器(Q-Former)和视觉解码器(Diffusion-UNet)以支持视觉信号的输入和输出。得益于CPM-Bee基座优秀的双语能力,VisCPM可以仅通过英文多模态数据预训练,泛化实现优秀的中文多模态能力。
2.应用
2.1 垂直领域微调
医疗
BenTsao:
BianQue:
HuatuoGPT:
Med-ChatGLM:
QiZhenGPT:
- 地址:https://github.com/CMKRG/QiZhenGPT
- 简介:该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在LLaMA-7B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。
ChatMed:
- 地址:https://github.com/michael-wzhu/ChatMed
- 简介:该项目推出ChatMed系列中文医疗大规模语言模型,模型主干为LlaMA-7b并采用LoRA微调,具体包括ChatMed-Consult : 基于中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集;ChatMed-TCM : 基于中医药指令数据集ChatMed_TCM_Dataset,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法(entity-centric self-instruct),调用ChatGPT得到2.6w+的围绕中医药的指令数据训练得到。
XrayGLM,首个会看胸部X光片的中文多模态医学大模型:
MeChat,中文心理健康支持对话大模型:
- 地址:https://github.com/qiuhuachuan/smile
- 简介:该项目开源的中文心理健康支持通用模型由 ChatGLM-6B LoRA 16-bit 指令微调得到。数据集通过调用gpt-3.5-turbo API扩展真实的心理互助 QA为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。
MedicalGPT
Sunsimiao
ShenNong-TCM-LLM
SoulChat
法律
LaWGPT:基于中文法律知识的大语言模型
LexiLaw:中文法律大模型
Lawyer LLaMA:中文法律LLaMA
- 地址:https://github.com/AndrewZhe/lawyer-llama
- 简介:开源了一系列法律领域的指令微调数据和基于LLaMA训练的中文法律大模型的参数。Lawyer LLaMA 首先在大规模法律语料上进行了continual pretraining。在此基础上,借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。
韩非(HanFei)
ChatLaw-法律大模型
- 地址:https://github.com/PKU-YuanGroup/ChatLaw
- 简介:由北大开源的一系列法律领域的大模型,包括ChatLaw-13B(基于姜子牙Ziya-LLaMA-13B-v1训练而来),ChatLaw-33B(基于Anima-33B训练而来,逻辑推理能力大幅提升),ChatLaw-Text2Vec,使用93w条判决案例做成的数据集基于BERT训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配。
lychee_law-律知
金融
BBT-FinCUGE-Applications
XuanYuan(轩辕):首个千亿级中文金融对话模型
FinGPT
教育
-
桃李(Taoli):
- 地址:https://github.com/blcuicall/taoli
- 简介:一个在国际中文教育领域数据上进行了额外训练的模型。项目基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库,构造了共计 88000 条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将知识应用到具体场景中的能力。
EduChat:
- 地址:https://github.com/icalk-nlp/EduChat
- 简介:该项目华东师范大学计算机科学与技术学院的EduNLP团队研发,主要研究以预训练大模型为基底的教育对话大模型相关技术,融合多样化的教育垂直领域数据,辅以指令微调、价值观对齐等方法,提供教育场景下自动出题、作业批改、情感支持、课程辅导、高考咨询等丰富功能,服务于广大老师、学生和家长群体,助力实现因材施教、公平公正、富有温度的智能教育。
chatglm-maths:
2.2 LangChain应用
LangChain-ChatGLM-Webui:
Langchain-ChatGLM-and-TigerBot:
Chinese-LangChain:
DemoGPT:
2.3 其他应用
JittorLLMs:
LMFlow:
- 地址:https://github.com/OptimalScale/LMFlow
- 简介:LMFlow是香港科技大学LMFlow团队开发的大模型微调工具箱。LMFlow工具箱具有可扩展性强、高效、方便的特性。LMFlow仅使用180K条数据微调,即可得到在Huggingface榜单第一名的Robin模型。LMFlow支持用户快速训练个性化模型,仅需单张3090和5个小时即可微调70亿参数定制化模型。
fastllm:
WebCPM
GPT Academic:
ChatALL:
CreativeChatGLM:
3. 数据集
预训练数据集
-
MNBVC
- 地址:https://github.com/esbatmop/MNBVC
- 数据集说明:超大规模中文语料集,不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集,且在持续更新中。
WuDaoCorporaText
CLUECorpus2020
SFT数据集
COIG
generated_chat_0.4M:
alpaca_chinese_dataset:
Alpaca-CoT:
pCLUE:
firefly-train-1.1M:
BELLE-data-1.5M:
Chinese Scientific Literature Dataset:
Chinese medical dialogue data:
Huatuo-26M:
Alpaca-GPT-4:
InstructionWild
ShareChat
- 地址:https://paratranz.cn/projects/6725
- 数据集说明:一个倡议大家一起翻译高质量 ShareGPT 数据的项目。
- 项目介绍:清洗/构造/翻译中文的ChatGPT数据,推进国内AI的发展,人人可炼优质中文 Chat 模型。本数据集为ChatGPT约九万个对话数据,由ShareGPT API获得(英文68000,中文11000条,其他各国语言)。项目所有数据最终将以 CC0 协议并入 Multilingual Share GPT 语料库。
Guanaco
chatgpt-corpus
SmileConv
- 地址:https://github.com/qiuhuachuan/smile
- 数据集说明:数据集通过ChatGPT改写真实的心理互助 QA为多轮的心理健康支持多轮对话(single-turn to multi-turn inclusive language expansion via ChatGPT),该数据集含有56k个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景。
PPO数据集
- CValues
- 地址:https://github.com/X-PLUG/CValues
- 数据集说明:该项目开源了数据规模为145k的价值对齐数据集,该数据集对于每个prompt包括了拒绝&正向建议 (safe and reponsibility) > 拒绝为主(safe) > 风险回复(unsafe)三种类型,可用于增强SFT模型的安全性或用于训练reward模型。
4. LLM评测
C-Eval: 构造中文大模型的知识评估基准:
OpenCompass:
- 地址:https://github.com/InternLM/opencompass
- 简介:由上海AI实验室发布的面向大模型评测的一站式平台。主要特点包括:开源可复现;全面的能力维度:五大维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案;丰富的模型支持:已支持 20+ HuggingFace 及 API 模型;分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测;多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板;灵活化拓展。
SuperCLUElyb: SuperCLUE琅琊榜
GAOKAO-Bench:
AGIEval:
Xiezhi:
Open LLM Leaderboard:
CMMLU:
- 地址:https://github.com/haonan-li/CMMLU
- 简介:CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
MMCU:
chinese-llm-benchmark:
Safety-Prompts:
PromptCBLUE: 中文医疗场景的LLM评测基准
5. LLM教程
LLM基础知识
LLMsPracticalGuide:
提示工程教程
提示工程指南:
awesome-chatgpt-prompts-zh:
LLM应用教程
OpenAI Cookbook:
构筑大语言模型应用:应用开发与架构设计:
LLM实战教程
llm-action:
LLM高效微调教程
ChatGLM Efficient Tuning:
bert4torch:
6. 相关仓库
LLM_reviewer:
Awesome-AITools:
open source ChatGPT and beyond:
- 地址:https://github.com/SunLemuria/open_source_chatgpt_list
- 简介:This repo aims at recording open source ChatGPT, and providing an overview of how to get involved, including: base models, technologies, data, domain models, training pipelines, speed up techniques, multi-language, multi-modal, and more to go.
Awesome Totally Open Chatgpt:
Awesome-LLM:
- 地址:https://github.com/Hannibal046/Awesome-LLM
- 简介:This repo is a curated list of papers about large language models, especially relating to ChatGPT. It also contains frameworks for LLM training, tools to deploy LLM, courses and tutorials about LLM and all publicly available LLM checkpoints and APIs.
DecryptPrompt:
Awesome Pretrained Chinese NLP Models:
ChatPiXiu:
LLM-Zoo:
LLMs-In-China:
BMList:
awesome-free-chatgpt: