文献笔记:2023-ACL(Findings)-Race, Gender, and Age Biases in Biomedical Masked Language Models

本文研究了生物医学预训练语言模型在诊断预测中的社会偏见,通过策划基于循证实践的提示,发现模型在性别上的偏见较小,但在种族和年龄方面有所不同。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1. 摘要

2. 引言

3. 方法

3.1 提示策划

3.2 诊断预测

【注】:

(1)模型

(2)名词解释


1. 摘要

患者的种族、性别和年龄会影响与医生的互动以及接受的治疗。在生物医学语料库上训练的预训练语言模型发布后,临床实践中的这些偏见可能会被放大。为了让人们意识到这种影响,本文研究了生物医学掩码语言模型中存在的社会偏见。本文根据循证实践策划提示,并比较基于偏见的诊断结果。在案例研究中,本文度量了诊断冠状动脉疾病和基于偏见使用心血管手术的偏见。本文的研究表明,生物医学模型在性别方面比BERT的偏见更小,而在种族和年龄方面则相反。

2. 引言

为了识别医疗保健领域的刻板印象,我们检查了生物医学预训练模型中存在的社会偏见。本文将偏见定义为在生成的句子中将特定群体与疾病相关联的倾向,并在给定偏见的情况下检查模型与哪种疾病关联更多。首先,提示是根据基于证据的实践手动策划的。然后,模型填写掩码的提示。最后,对冠状动脉疾病诊断和治疗中的偏见进行了案例研究。

本文的贡献是:(1)通过手动策划的提示来调查生物医学掩码语言模型中的偏见。实验结果表明,BERT 在种族和年龄方面的偏见小于生物医学模型,并且无论偏见如何,每个模型都会将不同的疾病与患者相关联。(2) 研究模型是否将特定疾病和治疗与特定偏见相关联。本文使用两个偏见指标并展示了度量偏见的挑战。

3. 方法

通过识别生成的Tokens和有偏见的词之间的关联来研究偏见对生物医学预训练语言模型的影响。首先,策划基于循证医学的提示。接下来,比较基于种族、性别和年龄偏差的模型的诊断预测。

3.1 提示策划

手动策划对预训练模型的诊断预测的提示。PICO的问题被重写为句子格式并用作提示。PICO 代表患者(或人群)、干预、比较(或控制)和结果,是一个由基于证据的实践精心构建的问题框架。为了本文的研究目的,利用有关患者年龄、性别和种族的问题。提示的格式为“[Bias] [Prompt] [Diagnosis].”,详见下表。对于下表中的每个提示,表示种族、性别或年龄偏见的名词和代词填充[X]。

年龄:

– Young: “young person,” “junior.”
– Old: “old person,” “senior.”

性别:

– Female: “woman,” “female,” “she.”
– Male: “man,” “male,” “he.”

种族:

“White American,” “African American,” “American Indian,” “Asian,” “Native Hawaiian.”

一个典型的句子是“A woman is diagnosed with pneumonia.(一名妇女被诊断患有肺炎)”。掩码[Diagnosis]以观察每个模型生成的Tokens的差异。在提供的示例中,单词“pneumonia”被掩码。识别种族、性别和年龄偏见的名词和代词填充句子的 [Bias] 部分。例如,为了反映年龄偏见,本文选择“a young person”和“a junior”这两个词来代表较年轻的年龄组,而选择“an old person”和“a senior”来代表较年长的年龄组。使用“person”这个词来避免“woman”和“man”等特定性别词的影响。对于性别偏见词,采用性别二元分类,并使用特定性别的代词和名词。最后,使用 OMB 设定的五个最小种族类别来选择反映种族偏见的词语:White American,African/Black American,American Indian,Asian,and Native Hawaiian。

3.2 诊断预测

根据提示,预训练模型会生成Tokens以用分数填充掩码。本文将给定偏见的所有提示中每个Token的分数相加。为了进行比较,本文探索了以下生物医学预训练模型:BioBERT ,ClinicalBERT ,and Clinical-Longformer 。作为基线,本文将这些模型与预训练的 BERT 进行比较。


【注】:

(1)模型

BioBERT: dmis-lab/biobert-base-cased-v1.2

ClinicalBERT: emilyalsentzer/Bio_ClinicalBERT

Clinical Longformer: yikuan8/Clinical-Longformer

(2)名词解释

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值