想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。
1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。
CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987
视频号(直播分享):sphuYAMr0pGTk27 抖音号:44185842659
模仿医学专家的Citrus模型
在医疗领域,决策支持一直是备受关注的课题。近年来,大模型技术的快速发展为这一领域带来了新的机遇。《Citrus: Leveraging Expert Cognitive Pathways in a Medical Language Model for Advanced Medical Decision Support》论文介绍了一种名为Citrus的医疗语言模型,它通过模仿医学专家的认知过程,为医疗决策支持提供了新思路。
图1 展示了Citrus在多个权威医疗基准测试中的出色表现。在这些测试中,Citrus与其他大模型相比,无论是在通用医学知识还是复杂推理任务上,都展现出了显著的优势。这表明Citrus在模拟医学专家思维方面取得了重要进展。
Citrus的核心优势在于其独特的训练方法。该模型采用多阶段训练流程,包括持续预训练(CPT)、监督微调(SFT)和强化学习(RL)。这种训练方式使得模型能够逐步学习医学知识,并模仿医生的复杂推理过程。值得注意的是,Citrus的训练数据是通过创新的数据合成方法生成的,这种方法能够准确捕捉医生的决策路径。通过这种方式,Citrus能够更好地理解医学领域的复杂性和不确定性。
训练数据的巧妙设计
Citrus的训练数据设计是其成功的关键之一。表1 列出了训练过程中使用的各类数据的规模、领域和构建方法。数据来源包括网络数据、医学教材、医学指南和文献等。这些数据经过严格的处理和筛选,以确保模型能够学习到高质量的医学知识。例如,对于网络数据,研究人员采用了自然语言处理技术进行清洗和标注;对于医学教材,通过数据增强技术合成了更多样化的医学查询。
在数据合成方面,Citrus采用了基于假设演绎法的方法。这种方法模拟了医生在面对复杂病例时的思维过程,包括信息收集、症状分析、假设生成、鉴别诊断和结论形成等步骤。通过这种方式,Citrus能够生成符合医学逻辑的长链推理数据,从而提升其医学推理能力。
真实世界数据的评估
为了更好地评估Citrus在实际临床场景中的表现,研究人员开发了一个名为JMED的数据集。表2 对比了JMED与其他现有医学问答数据集的特点。与传统的医学考试题目不同,JMED基于真实的医生-患者对话,涵盖了不同年龄段和多种医学专科。这种基于真实世界数据的评估方式,使得Citrus能够更准确地反映实际临床中的复杂性和模糊性。
JMED数据集的构建过程也非常严谨。研究人员首先从JD健康互联网医院的匿名医生-患者对话中筛选出符合标准化诊断流程的咨询记录。然后,通过一系列的数据处理步骤,包括隐私保护、数据平衡和去重等,确保数据集的质量和代表性。最终,研究人员构建了1000道多选题,每道题包含21个互斥的诊断选项,这些选项符合国际疾病分类第10版(ICD-10)的标准,并经过专业医生的审核和验证。
Citrus的实际表现
Citrus在多个医学基准测试中的表现令人印象深刻。表4 显示了Citrus在MedQA、PubMedQA、MedMCQA等基准测试中的成绩。与同级别的其他大模型相比,Citrus在大多数测试中都取得了最高的分数。例如,在MedQA测试中,Citrus的准确率达到了88.92%,超过了其他模型。这表明Citrus在医学推理和决策支持方面具有很强的能力。
此外,Citrus在不同医学领域的表现也相对均衡。在MMLU(多任务语言理解)的各个子测试中,Citrus在解剖学、临床知识、大学生物学、大学医学、医学遗传学和专业医学等领域的表现都较为出色。这进一步证明了Citrus模型的广泛适用性和可靠性。
Citrus的训练流程
Citrus的训练流程采用了多阶段的方法,包括持续预训练(CPT)、监督微调(SFT)和强化学习(RL)。在CPT阶段,模型通过学习大量的医学领域数据,增强其对医学知识的理解。在SFT阶段,模型通过三个阶段的训练逐步提升其医学推理能力。图3 概述了训练阶段和训练数据管道,展示了每个阶段的训练目的和数据规模。最终,在RL阶段,通过拒绝采样等技术进一步优化模型的推理能力。
Citrus的意义与未来
Citrus模型的出现为医疗决策支持领域带来了新的希望。通过模仿医学专家的认知过程,Citrus能够更准确地处理复杂的医学问题,为医生提供有价值的决策支持。尽管Citrus目前仍处于研究阶段,但其潜力巨大。随着技术的不断进步和数据的不断丰富,未来Citrus有望在实际医疗场景中发挥更大的作用,为患者带来更好的医疗服务。
需要注意的是,尽管Citrus在多个基准测试中表现出色,但在实际应用中仍需谨慎。论文中明确指出,当前模型可能会产生幻觉或不准确的内容,因此不适合直接用于临床或其他对准确性要求极高的行业应用。研究人员强调了用户在使用模型时应遵守的伦理限制,以确保安全和应用的完整性。
论文原文链接:https://arxiv.org/abs/2502.18274
Citrus_S3训练数据下载链接:GitHub - jdh-algo/Citrus: Citrus: Leveraging Expert Cognitive Pathways in a Medical Language Model for Advanced Medical Decision Support。