医学大模型训练用语料库榜单

模型	开源地址	所用数据	数据下载地址
Med-Flamingo 一种适用于医学领域的多模态少样本学习器		-基于OpenFlamingo-9B -对出版物和教科书中成对和交错的医学图像-文本数据进行预训练-4K数据集	https://huggingface.co/datasets/axiong/pmc_oa
BioMedLM（原PubMed GPT 2.7B）用于生物医学文本的特定领域大型语言模型	https://github.com/stanford-crfm/BioMedLM	-基于HuggingFace GPT模型 -2.7B的参数和1024个标记的最大上下文长度 -数据是Pile数据集的部分——PubMed Abstracts和PubMed Central：涵盖由美国国立卫生研究院策划的来自生物医学文献的 16 万份摘要和 5 万篇全文文章的集合	https://github.com/thoppe/The-Pile-PubMed
BioGPT 大规模生物医学文献上进行预训练的特定领域生成式 Transformer 语言模型	https://github.com/microsoft/BioGPT	-GPT2作为骨干模型 -从 PubMed 收集文章，PubMed 是一个生物医学研究领域的大型数据库，团队共产生1500万条带有标题和摘要的内容 -使用 3.57 亿个参数改进了预训练的基于 GPT-2 的模型，用于下游任务：端到端关系提取、文本生成、问题回答和文档分类
Med-PaLM2 5400亿参数的转换器语言模型
文心一言		对中国医疗信息数据提供商GBI Health的并购，通过GBI与其类ChatGPT产品“文心一言”等的结合
BioMedGPT-1.6B 生物医药领域基础模型		-把分子语言中蕴含的知识以及长期以来通过实验总结的文本和知识图谱信息融合压缩到一个大规模语言模型中，从而实现从序列模式中学习生物结构和功能规律，通过AI解码生命语言
OpenBioMed	https://github.com/BioFM/OpenBioMed	-基于Llama2的大型生成语言模型 -从Llama2-7B-Chat与S2ORC语料库中的数百万篇生物医学论文进行了微调 -开源轻量版BioMedGPT, 知识图谱&20+生物研究领域多模态预训练模型
本草Huatuo	https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese	-经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型 -医学知识图谱和GPT3.5API构建中文医学指令数据集+医学文献和GPT3.5API构建多轮问答数据	https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese/tree/main/data-literature https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese/tree/main/data
春雨慧问基于大模型的AI在线问诊产品
medGPT 国内首款大模型驱动的 AI 医生		-收集整理接近 20 亿条真实医患沟通对话、检验检测和病例信息进行深度训练学习 -同时利用医生真实反馈进行强化学习
ChatGLM-6B-Med	https://github.com/SCIR-HI/Med-ChatGLM	-医学知识图谱和GPT3.5 API构建了中文医学指令数据集 -并在此基础上对ChatGLM-6B进行了指令微调
MedPalm		-在Faln-PaLM的基础上通过多种类型的医疗QA数据进行prompt-tuning指令微调得到 -同时构建了MultiMedQA	https://github.com/SCIR-HI/Med-ChatGLM/tree/main/data
ChatDoctor	https://github.com/Kent0n-Li/ChatDoctor	-基于Llama7b模型的医学垂直领域模型 -110K真实医患对话样本+5KChatGPT生成数据进行指令微调	https://github.com/Kent0n-Li/ChatDoctor
Chinese-vicuna-med	https://github.com/Facico/Chinese-Vicuna/blob/master/docs/performance-medical.md)	Chinese-vicuna在cMedQA2数据上微调	https://github.com/zhangsheng93/cMedQA2
OpenBioMed	https://github.com/PharMolix/OpenBioMed	知识图谱&20+生物研究领域多模态预训练模型	CMeKG知识图谱https://github.com/king-yyf/CMeKG_tools
DoctorGLM 基于chatGLM6B模型的医学垂直领域模型	https://github.com/xionghonglin/DoctorGLM	ChatDoctor+MedDialog+CMD 多轮对话+单轮指令样本微调GLM	CMD.中文医疗对话数据集 https://tianchi.aliyun.com/dataset/90163 MedDialog中文医疗对话数据集https://tianchi.aliyun.com/dataset/92110 HearlthcareMagic
MedicalGPT-zh	https://github.com/MediaBrain-SJTU/MedicalGPT-zh	-基于Llama7b的医学垂域模型 -自建的医学数据库ChatGPT生成QA+16个情境下SELF构建情景对话
PMC-LLaMA	https://github.com/chaoyi-wu/PMC-LLaMA	医疗论文微调Llama	https://github.com/allenai/s2orc
NHS-LLM	https://github.com/CogStack/OpenGPT/tree/main	Chatgpt生成的医疗问答，对话，微调模型	https://github.com/CogStack/OpenGPT/tree/main
Med-ChatGLM	https://github.com/SCIR-HI/Med-ChatGLM	医学知识图谱和chatgpt构建中文医学指令数据集+医学文献和chatgpt构建多轮问答数据	CMeKG知识图谱https://github.com/king-yyf/CMeKG_tools
网新启真13B	https://github.com/CMKRG/QiZhenGPT	-基于Llama7b模型的医学垂域模型 -基于浙大知识库及在线问诊构建的中文医学指令数据集	https://github.com/CMKRG/QiZhenGPT/blob/main/data/train/sft-20k.json
BenTsao		-经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。 -通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集，并在此基础上对LLaMA进行了指令微调，提高了LLaMA在医疗领域的问答效果
BianQue	https://blog.csdn.net/m0_37201243/article/details/130334076	-经过指令与多轮问询对话联合微调的医疗对话大模型 -基于ClueAI/ChatYuan-large-v2作为底座 -使用中文医疗问答指令与多轮问询对话混合数据集进行微调	hinese medical dialogue data 中文医疗问答数据集 https://github.com/Toyhom/Chinese-medical-dialogue-data cMedQA2 https://github.com/zhangsheng93/cMedQA2 IMCS-21 https://github.com/lemuria-wchen/imcs21 Medical-Dialogue-System https://github.com/UCSD-AI4H/Medical-Dialogue-System