测评工具
Med-Eval
-
结论准确性:
- 包括对诊断结果的准确度评估,以及对关键医学术语和概念的正确识别和应用。
-
结论完备性:
- 不仅评估对关键信息的覆盖,还要考虑辅助决策提供的上下文信息和相关解释,确保结论的全面性和深度。
-
过程一致性:
- 评估模型的决策路径是否遵循医学专业标准和逻辑,包括数据处理、分析方法和结论推导过程。
-
可验证性:
- 检验模型输出的一致性和稳定性,包括在不同类型的医疗数据集上的表现和在多次运行中的重复性。
-
优化潜力:
- 分析模型在当前状态下的性能极限,包括对未来改进可能性的评估和对当前缺陷的识别。
-
用户友好性:
- 包括界面的直观性、操作的简便性,以及输出结果的可读性和解释性,确保非技术用户也能轻松使用。
-
响应时间:
- 考虑模型处理请求的速度,特别是在紧急情况下的表现,以及是否能够满足实际临床应用的实时性要求。
-
临床适用性:
- 评估模型在真实临床环境中的实用性,包括适应不同病例类型和处理复杂病情的能力。
-
数据处理能力:
- 评估模型处理大量和多样化医疗数据(如图像、文字、实验数据等)的能力。
-
伦理和安全性:
- 评估模型是否符合医疗伦理标准,包括患者隐私保护和数据安全性。
这些细化的评估指标能够为医学大模型的评估提供更深入的洞察,帮助工程师和医疗专业人员更全面地理解模型的优势、局限和改进方向。
根据上述讨论的评估指标,我们可以形成一个详细的评分量表,用于对医学大模型辅助决策系统进行量化评估。这个量表可以采用1到5的评分标准,其中1代表非常差,5代表非常好。以下是评分量表的一个示例:
-
结论准确性(1-5分):
-
1分:诊断结果和关键医学术语的准确性极低。
-
3分:诊断结果和关键医学术语的准确性一般。
-
5分:诊断结果和关键医学术语的准确性非常高。
-
-
结论完备性(1-5分):
-
1分:输出结果信息不全,缺乏必要的解释和上下文。
-
3分:输出结果基本完备,但部分解释和上下文不够详尽。
-
5分:输出结果非常完备,提供详细的解释和丰富的上下文信息。
-
-
过程一致性(1-5分):
-
1分:决策过程与医学专业标准差异很大。
-
3分:决策过程基本符合医学专业标准。
-
5分:决策过程完全符合医学专业标准。
-
-
可验证性(1-5分):
-
1分:输出结果不稳定,重复性差。
-
3分:输出结果较为稳定,有一定的重复性。
-
5分:输出结果非常稳定,重复性高。
-
-
优化潜力(1-5分):
-
1分:性能极限低,改进空间小。
-
3分:有一定的改进空间。
-
5分:改进空间大,性能有很大提升潜力。
-
-
用户友好性(1-5分):
-
1分:界面不直观,操作复杂,结果难以理解。
-
3分:界面基本直观,操作和结果理解程度一般。
-
5分:界面非常直观,操作简单,结果易于理解。
-
-
响应时间(1-5分):
-
1分:处理速度非常慢,不满足临床需求。
-
3分:处理速度一般,基本满足临床需求。
-
5分:处理速度快,完全满足临床需求。
-
-
临床适用性(1-5分):
-
1分:在临床环境中几乎不可用。
-
3分:在临床环境中表现一般。
-
5分:在临床环境中表现出色。
-
-
数据处理能力(1-5分):
-
1分:处理大量和多样化数据的能力非常差。
-
3分:能够处理一定量和类型的数据。
-
5分:处理大量和多样化数据的能力非常强。
-
-
伦理和安全性(1-5分):
-
1分:严重缺乏伦理和安全性考虑。
-
3分:基本符合伦理和安全性要求。
-
5分:严格遵守伦理和安全性标准。
-
通过这样的评分量表,可以对不同的医学大模型辅助决策系统进行详细的量化评估。
MedRad
三个数据集,可以宏观上给出 可靠性 低(解决第一个数据集的能力)、中(解决第二个数据集的能力)、高(解决第三个数据集的能力)。
低复杂度:医学知识问答
可直接根据结果判断。
中复杂度:门诊医患对话
模型生成文本可以从以下维度评价:
-
医学知识的准确性:评估模型是否准确引用了医学检查和程序。例如,听诊、X光检查、肺功能测试等是否为诊断肺气肿的标准方法。
-
诊断过程的合理性:判断模型的建议是否遵循了合理的医学诊断逻辑。诊断建议应该根据患者的具体症状逐步展开,避免跳过重要的诊断步骤或提出不必要的检查。
-
症状与建议的相关性:考量模型的建议是否紧密针对患者的具体症状。例如,针对呼吸急促和咳痰的症状,是否提出了适当的呼吸系统检查。
-
风险与副作用的考虑:评估模型在建议诊断和治疗时是否考虑到了可能的风险和副作用,这对于病人来说是重要的信息。
-
沟通和解释的清晰度:检查模型的输出是否易于理解,是否有效地解释了每项建议检查的目的和必要性,以便患者理解。
高复杂度:临床病历诊断
通过以下维度评测:
-
医学准确性:模型提供的诊断和医嘱是否与标准答案一致,以及是否符合医学标准和实践。
-
信息详尽程度:模型是否提供了足够的详细信息,例如药物剂量、用法,以及具体的后续治疗和生活方式建议。
-
适应病人情况:模型的回答是否考虑了病人的具体情况和需求。
-
治疗的连续性:模型是否提出了合理的后续治疗计划,例如复诊安排。
-
语言和表达清晰度:模型提供的信息是否清晰易懂,有助于病人或家属的理解。
评分时让模型从每个维度打分并求平均分,可以拉开问题间的评分差距。
例如利用gpt4进行propmt测评:
请参考标准答案,请从以下角度简短评价评价模型的回答效果准确性: 模型的答案是否提供了正确、科学的信息。
相关性: 答案是否针对患者的具体问题,与患者的描述和问题紧密相关
完整性:答案是否全面,覆盖了患者可能需要的所有重要信息。
清晰性:信息是否表达清晰,易于患者理解。
逻辑性: 答案的结构是否合理,信息是否按逻辑顺序排列。
交互的自然性: 回答是否流畅,是否类似于真实的医患对话
合规性:答案是否符合医学伦理和法律规定,避免提供误导信息或不恰当的建议。并结合对于模型评价为模型的回答打一个1到5的分数,评分标准为:
1: 回答存在准确性或者合规性上的明显错误:
2: 回答准确合规、但在相关性或者逻辑性上有明显问题
3:回答准确合规,相关且无明显逻辑错误,但并不完整,或者没有清晰表达4: 回答信息基本完备,但交互存在不够自然的问题,
5: 回答在评价的条件中均属完美:
如果分数不是5分,请生成一个可以被评为5分
MedQA-USMLE
数据集定义 | MedQA-USMLE是一个基于美国医疗执照考试(USMLE)的多项选择问题回答数据集。数据来自专业医疗委员会的考试,涵盖了各种医疗领域的问题。 |
---|---|
数据提供者 | - Computer Science and Artificial Intelligence- MITTongji Medical College,HUST(华中科技大学同济医学院 ) |
数据规模/构成 | 数据集QA包含三种语言:- 英语:12723个 - 简体中文:34251个- 繁体中文:14123个 |
数据维度 | Question:问题描述Options:选项与正确答案Evidence:依据与解释 |
{
"question": "A 57-year-old man presents to his primary care physician with a 2-month history of right upper and lower extremity weakness. He noticed the weakness when he started falling far more frequently while running errands. Since then, he has had increasing difficulty with walking and lifting objects. His past medical history is significant only for well-controlled hypertension, but he says that some members of his family have had musculoskeletal problems. His right upper extremity shows forearm atrophy and depressed reflexes while his right lower extremity is hypertonic with a positive Babinski sign. Which of the following is most likely associated with the cause of this patient's symptoms?",
"answer": "Mutation in SOD1",
"options": {
"A": "HLA-B8 haplotype",
"B": "HLA-DR2 haplotype",
"C": "Mutation in SOD1",
"D": "Mutation in SMN1",
"E": "Viral infection"
},
"meta_info": "step1",
"answer_idx": "C"
}
{
"QU": "一名57岁的男子向其初级保健医生介绍其右上下肢无力2个月的病史。当他在跑腿时开始更频繁地摔倒时,他注意到了自己的弱点。从那以后,他走路和举起东西的难度越来越大。他过去的病史只有在高血压控制良好的情况下才有意义,但他说,他的一些家庭成员有肌肉骨骼问题。他的右上肢表现为前臂萎缩和反射抑制,而右下肢高渗,巴宾斯基征呈阳性。以下哪一项最有可能与该患者症状的原因有关?",
"OP":
{
"A": "HLA-B8单倍型",
"B": "HLA-DR2单倍型",
"C": "SOD1突变",
"D": "SMN1突变",
"E": "病毒感染"
},
"AN": "C"
}
-
MedQA-USMLE是第一个自由形式的多项选择开放领域问题回答数据集,专门用于解决医疗问题。
-
该数据集的多语言特性(包括中文和英文),有助于中国医疗大模型研发与全球水平的对标评估。
PubMedQA
数据集定义 | PubMedQA是一个生物医学问题回答(QA)数据集,该数据集从PubMed摘要中收集。任务定义是使用相应的摘要回答研究问题,这些问题的答案可以是yes/no/maybe。例如:术前使用他汀类药物能否减少冠状动脉旁路移植术后的心房颤动? |
---|---|
数据提供者 | - University of Pittsburgr- Carnegie Mellon University- Google Al |
数据规模/构成 | QA数据包含:- 1k专家注释数据- 61.2k未标记数据- 211.3k人工生成数据 |
数据维度 | Question:问题描述Context:上下文,即问题相关的摘要,但不包括结论Long Answer:长答案,即摘要的结论Answer:对结论的总结,是yes/no/maybe的形式 |
{
"QUESTION": "Does psammaplin A induce Sirtuin 1-dependent autophagic cell death in doxorubicin-resistant MCF-7/adr human breast cancer cells and xenografts?",
"CONTEXTS": [
"Psammaplin A (PsA) is a natural product isolated from marine sponges, which has been demonstrated to have anticancer activity against several human cancer cell lines via the induction of cell cycle arrest and apoptosis. New drugs that are less toxic and more effective against multidrug-resistant cancers are urgently needed.",
"We tested cell proliferation, cell cycle progression and autophagic cell death pathway in doxorubicin-resistant MCF-7 (MCF-7/adr) human breast cancer cells. The potency of PsA was further determined using an in vivo xenograft model."
],
"LABELS": [
"BACKGROUND",
"METHODS"
],
"LONG_ANSWER": "PsA significantly inhibited MCF-7/adr cells proliferation in a concentration-dependent manner, with accumulation of cells in G2/M phase of the cell cycle. PsA significantly decreased SIRT1 enzyme activity and reduced expression of SIRT1 protein in the cultured cells with greater potency than sirtinol or salermide. Acetylation of p53, a putative target of SIRT1, increased significantly following PsA treatment. In addition, PsA markedly increased the expression levels of autophagy-related proteins. In support of this, it was found that PsA significantly increased the expression of damage-regulated autophagy modulator (DRAM), a p53-induced protein.",
"MESHES": [
"Acetylation",
"Animals",
"Antibiotics, Antineoplastic",
"Autophagy",
"Breast Neoplasms",
"Cell Division",
"Cell Line, Tumor",
"Disulfides",
"Doxorubicin",
"Drug Resistance, Neoplasm",
"Female",
"G2 Phase",
"Gene Expression Regulation, Neoplastic",
"Heterografts",
"Humans",
"Membrane Proteins",
"Mice",
"Mice, Nude",
"Neoplasm Transplantation",
"Sirtuin 1",
"Tumor Suppressor Protein p53",
"Tyrosine",
"Xenograft Model Antitumor Assays"
],
"final_decision": "yes"
}
{
"QU": "在阿霉素耐药MCF-7/adr人乳腺癌症细胞和异种移植物中,psammablin A是否诱导Sirtuin 1依赖性自噬细胞死亡?",
"CONTEXTS":
[
"Psammablin A(PsA)是一种从海绵中分离的天然产物,已被证明通过诱导细胞周期阻滞和凋亡对几种人癌症细胞系具有抗癌活性。迫切需要毒性更小、对耐多药癌症更有效的新药。",
"我们在多柔比星耐药的MCF-7(MCF-7/adr)人乳腺癌症细胞中检测了细胞增殖、细胞周期进展和自噬细胞死亡途径。使用体内异种移植物模型进一步测定PsA的效力。"
],
"AN": "对",
"LONG_AN": "PsA以浓度依赖性方式显著抑制MCF-7/adr细胞增殖,细胞在细胞周期的G2/M期积累。在培养的细胞中,PsA显著降低SIRT1酶活性并降低SIRT1蛋白的表达,其效力大于sirtinol或salermide。p53(SIRT1的假定靶点)的乙酰化在PsA治疗后显著增加。此外,PsA显著提高了自噬相关蛋白的表达水平。为了支持这一点,发现PsA显著增加了损伤调节的自噬调节剂(DRAM)的表达,DRAM是一种p53诱导的蛋白质。",
"MESHES":
[
"乙酰化作用",
"动物",
"抗生素类, 抗肿瘤",
"自噬",
"乳腺肿瘤",
"细胞分裂",
"细胞系, 肿瘤",
"二硫化物类",
"多柔比星",
"抗药性, 肿瘤",
"女(雌)性",
"G2期",
"基因表达调控, 肿瘤",
"异种移植物",
"人类",
"膜蛋白质类",
"小鼠",
"小鼠, 裸",
"肿瘤移植",
"抗衰老酶1",
"肿瘤抑制蛋白质p53",
"酪氨酸",
"异种移植模型抗肿瘤试验"
]
}
- PubMedQA 是第一个需要对生物医学研究文本进行推理,特别是对其定量内容进行推理,以回答问题的QA数据集,因此在医学研究领域具有很高的价值。
- 数据来源: https://huggingface.co/datasets/pubmed_qa
MedMCQA
数据集定义 | MedMCQA是一个大规模的、多主题的、多选择题的医学领域问题回答数据集,旨在解决真实世界的医学入学考试问题。 |
---|---|
数据提供者 | 由Saama Al Research提供。 |
数据规模/构成 | 包含了194,267个问题:覆盖了2,400个医疗主题和21个医学科目。 |
数据维度 | Question:问题Options:选项Correct Answer:正确答案(选项)Explanation:详细解释Subject:学科Topic:主题 |
{
"question":"Chronic urethral obstruction due to benign prismatic hyperplasia can lead to the following change in kidney parenchyma",
"exp":"Chronic urethral obstruction because of urinary calculi, prostatic hyperophy, tumors, normal pregnancy, tumors, uterine prolapse or functional disorders cause hydronephrosis which by definition is used to describe dilatation of renal pelvis and calculus associated with progressive atrophy of the kidney due to obstruction to the outflow of urine Refer Robbins 7yh\/9,1012,9\/e. P950",
"cop":3,
"opa":"Hyperplasia",
"opb":"Hyperophy",
"opc":"Atrophy",
"opd":"Dyplasia",
"subject_name":"Anatomy",
"topic_name":"Urinary tract",
"id":"e9ad821a-c438-4965-9f77-760819dfa155",
"choice_type":"single"
}
{
"QU": "良性棱柱状增生引起的慢性尿道梗阻可导致肾实质发生以下变化",
"OP":
{
"A": "增生",
"B": "Hyperphy",
"C": "萎缩",
"D": "发育不全"
},
"EXP": "由尿路结石、前列腺增生、肿瘤、正常妊娠、肿瘤、子宫脱垂或功能紊乱引起的慢性尿道梗阻会导致肾积水,根据定义,肾积水用于描述因尿液流出受阻而导致的肾盂扩张和与肾脏进行性萎缩相关的结石。参见Robbins 7yh/91012,9/e。P950",
"AN": "C"
}
- 数据集可以用来测试模型在医学领域问题回答的能力,特别是在处理真实世界的医学入学考试问题上。
- MedMCQA的每个问题都带有Subject (学科)、Topic (主题)标签,有助于更精细化的模型训练、细分领域评估。
- 数据来源: https://huggingface.co/datasets/medmcqa
- GitHub - medmcqa/medmcqa: A large-scale (194k), Multiple-Choice Question Answering (MCQA) dataset designed to address realworld medical entrance exam questions.
Med-Eval-ChineseDoctor:中国职业医师考试题
数据集定义 | Med-Eval-ChineseDoctor是一个中国职业医师选择题数据集,旨在解决真实世界的中国职业医师医学入学考试问题。 |
---|---|
数据提供者 | 由清华大学OpenDE团队和中国医学科学院医学信息研究所提供。 |
数据规模/构成 | 包含了2957个问题 |
数据维度 | Question:问题Options:选项Correct Answer:正确答案(选项) |
{
"id": 1,
"question": "颌骨骨髓炎通常在发病几周后才能逐渐在×线片上呈现骨质变化",
"options": {
"A": "1周",
"B": "2周",
"C": "3周",
"D": "4周",
"E": "3-4周"
},
"answer": "D"
}
- 数据集可以用来测试模型在医学领域问题回答的能力,特别是在处理真实世界的医学入学考试问题上。
- 测试原则
- 严格正确:模型输出正确选项
- 绝对宽松正确:模型输出存在正确选项,比如输出【答案】A 正确就是A
- 相对宽松正确:模型中存在正确选项的具体内容