意大利EVALITA与Lingsoft:语言技术资源在欧洲语言网格的整合与应用
立即解锁
发布时间: 2025-09-03 00:33:11 阅读量: 7 订阅数: 13 AIGC 


欧洲语言网格平台解析
# 意大利EVALITA与Lingsoft:语言技术资源在欧洲语言网格的整合与应用
## 1. EVALITA4ELG项目概述
在自然语言处理(NLP)领域,定期开展评估活动是为特定任务设定基准、推动可比系统发展以及促进研究进步的常用方法。EVALITA自2007年首次举办以来,一直致力于评估意大利语的自然语言处理工具,为不同系统和方法提供了一个共享框架,使其能够在多种任务中进行评估和比较。
EVALITA4ELG项目的主要目标是利用意大利NLP社区十多年的研究成果,通过欧洲语言网格(ELG)为意大利语资源和工具提供更便捷的访问途径。该项目旨在实现多个目标:
- 对EVALITA七届活动中组织的任务进行调查,并以知识图谱的形式发布。
- 实施匿名化程序,以符合当前的数据标准政策。
- 将EVALITA期间开发的资源和系统集成到ELG平台。
- 创建一个统一的基准,用于评估意大利语自然语言理解(NLU)。
- 传播共享协议和最佳实践,以便以允许快速将元数据集成到欧洲语言网格的格式描述新资源和任务。
## 2. EVALITA4ELG项目方法
### 2.1 调查EVALITA任务
自2007年起,EVALITA一直专注于评估意大利语的NLP工具,为参与系统提供了一个在不断增加的不同任务中进行评估的共享框架。与专注于单一任务不同,EVALITA的特点是任务种类广泛。从2007年的第一届到2020年的第七届,任务数量从5个显著增加到14个。任务类型也随着其他国内外评估活动的趋势而演变,逐渐包括更多面向语义和语用的练习。特别是2016年的版本聚焦于社交媒体数据和跨任务共享数据的使用。组织者被鼓励合作,创建跨任务的共享测试集,并最终与更广泛的受众共享所有资源,这导致了GitHub公共存储库的创建。
### 2.2 EVALITA知识图谱
基于对EVALITA七届活动的调查信息,构建了一个知识图谱(KG),它提供了EVALITA评估活动各版本的基本信息。该KG不仅描述了组织的任务,还涵盖了多年来构成EVALITA社区的人员和机构。KG围绕一个用OWL实现的本体进行构建,可在EVALITA4ELG项目网站和ELG平台上获取。当前版本的本体包含148个类、37个对象属性和9个数据属性。
知识图谱可以通过SPARQL端点进行查询,例如,可以通过以下查询获取所有七届EVALITA活动中作为任务组织者参与的机构总数:
```sparql
SELECT
(COUNT(distinct ?institution) AS ?totalInstitutions)
where {
?task e4e:hasInstitution ?institution.
}
```
查询结果为55。
### 2.3 资源匿名化
为了使EVALITA资源能够在ELG平台上访问,需要仔细检查并确保其符合当前的数据发布和共享政策(如GDPR)。因此,特别关注了数据匿名化。EVALITA4ELG收集的数据集使用了在AnonymAI研究项目中开发的自动匿名化工具进行匿名化处理,然后进行手动审核以评估其质量。AnonymAI是一个由H2020项目NGI Trust共同资助的为期九个月的研究项目,专注于为最终用户提供符合法律要求的定制匿名化配置文件。
匿名化配置文件可检测并屏蔽人名、电话号码、电子邮件地址、提及/回复/转发和URL。在匿名化过程中,最常被屏蔽的实体包括人名和提及(例如,在SardiStance数据集中,约有50个人名和150个提及被屏蔽)。
### 2.4 通过ELG发布数据和模型
截至撰写本文时,ELG中有51项语言资源和技术与EVALITA4ELG项目相关联。八个服务已完全集成到ELG中:四个来自2018年的EVALITA版本,四个来自最新的2020年版本。2018年的系统中,三个是仇恨言论检测系统(HaSpeeDe 2018任务),一个是性别检测系统(GxG)。2020年的系统中,两个是仇恨言论检测器(HaSpeeDe 2020任务),一个是口语词性标注器(KIPoS任务),一个是厌女症检测系统(AMI
0
0
复制全文
相关推荐









