1. 研究目标与问题定义
任务:输入医学影像 xxx(如X光、CT切片或病理图)与自然语言问题 qqq,生成医学上事实一致、可解释且可校准的不确定性的答案 aaa。
核心挑战:
1)跨模态对齐难:影像-文本语义鸿沟;2)医学知识稀疏且术语复杂;3)开/闭式问答兼容与事实一致性;4)小样本数据与域外泛化。
总体思路:在大规模医学视觉-语言预训练的基础上,引入多粒度对比学习与知识引导的困难负样本,同时结合指令微调与事实性度量约束,提升检索-对齐-生成一体化能力。为中文/英文双语问答适配 SLAKE 与其它公开数据集。SLAKE 为双语、含分割/检测标注与知识图谱的Med-VQA数据集,适合区域对齐与可解释性评估。www4.comp.polyu.edu.hk