医学大模型榜单

模型	所在机构	发布时间	开源地址	所用数据
Med-Flamingo 一种适用于医学领域的多模态少样本学习器	美国斯坦福大学-			-基于OpenFlamingo-9B -对出版物和教科书中成对和交错的医学图像-文本数据进行预训练-4K数据集
BioMedLM（原PubMed GPT 2.7B）用于生物医学文本的特定领域大型语言模型	美国斯坦福大学-基础模型研究中心CRFM	2022年12月	https://github.com/stanford-crfm/BioMedLM	-基于HuggingFace GPT模型 -2.7B的参数和1024个标记的最大上下文长度 -数据是Pile数据集的部分——PubMed Abstracts和PubMed Central：涵盖由美国国立卫生研究院策划的来自生物医学文献的 16 万份摘要和 5 万篇全文文章的集合
BioGPT 大规模生物医学文献上进行预训练的特定领域生成式 Transformer 语言模型	微软		https://github.com/microsoft/BioGPT	-GPT2作为骨干模型 -从 PubMed 收集文章，PubMed 是一个生物医学研究领域的大型数据库，团队共产生1500万条带有标题和摘要的内容 -使用 3.57 亿个参数改进了预训练的基于 GPT-2 的模型，用于下游任务：端到端关系提取、文本生成、问题回答和文档分类
Med-PaLM2 5400亿参数的转换器语言模型	谷歌
文心一言	百度	2023年2月		对中国医疗信息数据提供商GBI Health的并购，通过GBI与其类ChatGPT产品“文心一言”等的结合
BioMedGPT-1.6B 生物医药领域基础模型	清华大学-智能产业研究院	2023年4月19日		-把分子语言中蕴含的知识以及长期以来通过实验总结的文本和知识图谱信息融合压缩到一个大规模语言模型中，从而实现从序列模式中学习生物结构和功能规律，通过AI解码生命语言
OpenBioMed	清华大学-智能产业研究院	2023年8月14日	https://github.com/BioFM/OpenBioMed	-基于Llama2的大型生成语言模型 -从Llama2-7B-Chat与S2ORC语料库中的数百万篇生物医学论文进行了微调 -开源轻量版BioMedGPT, 知识图谱&20+生物研究领域多模态预训练模型
本草Huatuo	哈尔滨工业大学	2023年3月31日	https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese	-经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型 -医学知识图谱和GPT3.5API构建中文医学指令数据集+医学文献和GPT3.5API构建多轮问答数据
春雨慧问基于大模型的AI在线问诊产品	春雨医生	2023年4月26日
medGPT 国内首款大模型驱动的 AI 医生	医联	2023年4月28日		-收集整理接近 20 亿条真实医患沟通对话、检验检测和病例信息进行深度训练学习 -同时利用医生真实反馈进行强化学习
ChatGLM-6B-Med			https://github.com/SCIR-HI/Med-ChatGLM	-医学知识图谱和GPT3.5 API构建了中文医学指令数据集 -并在此基础上对ChatGLM-6B进行了指令微调
MedPalm	Google			-在Faln-PaLM的基础上通过多种类型的医疗QA数据进行prompt-tuning指令微调得到 -同时构建了MultiMedQA
ChatDoctor	德克萨斯大学		https://github.com/Kent0n-Li/ChatDoctor	-基于Llama7b模型的医学垂直领域模型 -110K真实医患对话样本+5KChatGPT生成数据进行指令微调
Chinese-vicuna-med			https://github.com/Facico/Chinese-Vicuna/blob/master/docs/performance-medical.md)	Chinese-vicuna在cMedQA2数据上微调
OpenBioMed			https://github.com/PharMolix/OpenBioMed	知识图谱&20+生物研究领域多模态预训练模型
DoctorGLM 基于chatGLM6B模型的医学垂直领域模型	上海科技大学		https://github.com/xionghonglin/DoctorGLM	ChatDoctor+MedDialog+CMD 多轮对话+单轮指令样本微调GLM
MedicalGPT-zh	上海交通大学		https://github.com/MediaBrain-SJTU/MedicalGPT-zh	-基于Llama7b的医学垂域模型 -自建的医学数据库ChatGPT生成QA+16个情境下SELF构建情景对话
PMC-LLaMA			https://github.com/chaoyi-wu/PMC-LLaMA	医疗论文微调Llama
NHS-LLM			https://github.com/CogStack/OpenGPT/tree/main	Chatgpt生成的医疗问答，对话，微调模型
Med-ChatGLM			https://github.com/SCIR-HI/Med-ChatGLM	医学知识图谱和chatgpt构建中文医学指令数据集+医学文献和chatgpt构建多轮问答数据
网新启真13B	浙江大学		https://github.com/CMKRG/QiZhenGPT	-基于Llama7b模型的医学垂域模型 -基于浙大知识库及在线问诊构建的中文医学指令数据集
BenTsao				-经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。 -通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集，并在此基础上对LLaMA进行了指令微调，提高了LLaMA在医疗领域的问答效果
BianQue				-经过指令与多轮问询对话联合微调的医疗对话大模型 -基于ClueAI/ChatYuan-large-v2作为底座 -使用中文医疗问答指令与多轮问询对话混合数据集进行微调
ChatDD 对话式药物研发助手	水木分子		https://mp.weixin.qq.com/s/l5iE9NCA2v0fC_wg3S5DTw
ChatDD-FM 100B 全球首个千亿参数多模态生物医药对话大模型
BioMedGPT-10B 16亿参数的轻量级科研版基础模型	清华智能产业研究院（AIR）		https://github.com/PharMolix/OpenBioMed
太一（Taiyi）中英双语生物医学大模型	大连理工大学		https://github.com/DUTIR-BioNLP/Taiyi-LLM
Almanac：临床医学检索增强语言模型			https://arxiv.org/abs/2303.01229
MedLLaMA			https://huggingface.co/chaoyi-wu/MedLLaMA_13B
DISC-MedLLM	复旦大学数据智能与社会计算实验室		https://github.com/FudanDISC/DISC-MedLLM
Clinical Camel	Vector 研究所（加拿大）		https://huggingface.co/wanglab/ClinicalCamel-70B