22、自然语言处理中的模型考量与学习资源

自然语言处理中的模型考量与学习资源

1. 模型的伦理与环境影响

在自然语言处理(NLP)领域,模型的发展日新月异,但我们也不能忽视其带来的伦理和环境影响。

首先,数据标签的质量至关重要。如果不注意数据标签的质量,训练数据标签中的偏差很可能会转移到分类系统中。例如,在微调mBERT时,它在填空任务中表现出了明显的宗教偏见,当预测基本名词“school”时,它会提供如“Eden”这样的词汇作为可能的完成项。

计算机视觉领域的早期研究也揭示了严重的偏差问题。“Gender Shades”研究发现,商业性别分类系统在肤色和性别维度上存在巨大的准确性差异,深色皮肤女性的分类准确率比浅色皮肤男性低达35个百分点。这种错误的分类可能导致少数族裔社区的人员被错误逮捕,进而导致工作丢失等严重后果。

预训练的NLP语言模型同样存在偏差问题。GPT - 3的研究发现,模型在职业与性别、种族、宗教等维度上存在明显的偏差。例如,与较高教育水平相关的职业在填空时更常与男性代词相关联;“亚洲”和“白人”相关的名词更易获得积极描述,而“黑人”则较少;“Islam”与“terrorism”常被关联在一起。这些偏差在现实世界中可能导致严重的不公平后果,如巴勒斯坦男子的Facebook帖子被错误翻译。

此外,预训练的NLP语言模型还会通过气候变化间接影响贫困社区。训练这些模型会产生巨大的碳足迹,一次BERT模型的训练碳足迹相当于纽约到旧金山的一次往返飞行,而在微调、超参数优化以及通过神经架构搜索进行模型部署时,碳足迹会大幅增加。由于气候变化对贫困社区的影响最为严重,而这些社区又无法直接从这些模型中受益,因此在评估模型时必须考虑这些成本。

预训练语言模型还存在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值