意大利EVALITA与Lingsoft：语言技术资源在欧洲语言网格的整合与应用

立即解锁

发布时间: 2025-09-03 00:33:11 阅读量: 7 订阅数: 13

欧洲语言网格平台解析

# 意大利EVALITA与Lingsoft：语言技术资源在欧洲语言网格的整合与应用 ## 1. EVALITA4ELG项目概述在自然语言处理（NLP）领域，定期开展评估活动是为特定任务设定基准、推动可比系统发展以及促进研究进步的常用方法。EVALITA自2007年首次举办以来，一直致力于评估意大利语的自然语言处理工具，为不同系统和方法提供了一个共享框架，使其能够在多种任务中进行评估和比较。 EVALITA4ELG项目的主要目标是利用意大利NLP社区十多年的研究成果，通过欧洲语言网格（ELG）为意大利语资源和工具提供更便捷的访问途径。该项目旨在实现多个目标： - 对EVALITA七届活动中组织的任务进行调查，并以知识图谱的形式发布。 - 实施匿名化程序，以符合当前的数据标准政策。 - 将EVALITA期间开发的资源和系统集成到ELG平台。 - 创建一个统一的基准，用于评估意大利语自然语言理解（NLU）。 - 传播共享协议和最佳实践，以便以允许快速将元数据集成到欧洲语言网格的格式描述新资源和任务。 ## 2. EVALITA4ELG项目方法 ### 2.1 调查EVALITA任务自2007年起，EVALITA一直专注于评估意大利语的NLP工具，为参与系统提供了一个在不断增加的不同任务中进行评估的共享框架。与专注于单一任务不同，EVALITA的特点是任务种类广泛。从2007年的第一届到2020年的第七届，任务数量从5个显著增加到14个。任务类型也随着其他国内外评估活动的趋势而演变，逐渐包括更多面向语义和语用的练习。特别是2016年的版本聚焦于社交媒体数据和跨任务共享数据的使用。组织者被鼓励合作，创建跨任务的共享测试集，并最终与更广泛的受众共享所有资源，这导致了GitHub公共存储库的创建。 ### 2.2 EVALITA知识图谱基于对EVALITA七届活动的调查信息，构建了一个知识图谱（KG），它提供了EVALITA评估活动各版本的基本信息。该KG不仅描述了组织的任务，还涵盖了多年来构成EVALITA社区的人员和机构。KG围绕一个用OWL实现的本体进行构建，可在EVALITA4ELG项目网站和ELG平台上获取。当前版本的本体包含148个类、37个对象属性和9个数据属性。知识图谱可以通过SPARQL端点进行查询，例如，可以通过以下查询获取所有七届EVALITA活动中作为任务组织者参与的机构总数： ```sparql SELECT (COUNT(distinct ?institution) AS ?totalInstitutions) where { ?task e4e:hasInstitution ?institution. } ``` 查询结果为55。 ### 2.3 资源匿名化为了使EVALITA资源能够在ELG平台上访问，需要仔细检查并确保其符合当前的数据发布和共享政策（如GDPR）。因此，特别关注了数据匿名化。EVALITA4ELG收集的数据集使用了在AnonymAI研究项目中开发的自动匿名化工具进行匿名化处理，然后进行手动审核以评估其质量。AnonymAI是一个由H2020项目NGI Trust共同资助的为期九个月的研究项目，专注于为最终用户提供符合法律要求的定制匿名化配置文件。匿名化配置文件可检测并屏蔽人名、电话号码、电子邮件地址、提及/回复/转发和URL。在匿名化过程中，最常被屏蔽的实体包括人名和提及（例如，在SardiStance数据集中，约有50个人名和150个提及被屏蔽）。 ### 2.4 通过ELG发布数据和模型截至撰写本文时，ELG中有51项语言资源和技术与EVALITA4ELG项目相关联。八个服务已完全集成到ELG中：四个来自2018年的EVALITA版本，四个来自最新的2020年版本。2018年的系统中，三个是仇恨言论检测系统（HaSpeeDe 2018任务），一个是性别检测系统（GxG）。2020年的系统中，两个是仇恨言论检测器（HaSpeeDe 2020任务），一个是口语词性标注器（KIPoS任务），一个是厌女症检测系统（AMI

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

意大利EVALITA与Lingsoft：语言技术资源在欧洲语言网格的整合与应用

相关推荐

专栏目录

意大利EVALITA与Lingsoft：语言技术资源在欧洲语言网格的整合与应用

相关推荐

受控自然语言：理论与应用进展

通信与网络中的意大利外交部采用Psion Teklogix RFID应用方案

单片机与DSP中的高性能SoC芯片在IPTV领域应用方案

意大利技术会议：社区策划的意大利会议列表:Italy:

意大利辣香肠加：使用Paper 1.12.2的Discord机器人

欧洲意大利HEMPEL洁具整合提案.ppt

language-detection:语言检测

PE_2021:意大利语言文字专业课程

DataGridFilter:WPF可过滤数据网格，多语言

电力设备：V字之后，欧洲新能源车销量持续向好.pdf

用Tinyproxy搭建自己的proxy server

vSphere与Kubernetes自动化脚本集合_包含vSpherevSphere_with_KubernetesVMCNSX-T的Java_Python_SDK和Powe.zip

专栏目录

最新推荐

人工智能的组织、社会和伦理影响管理

Rails微帖操作与图片处理全解析

前端交互效果与Perl服务器安装指南

编程挑战：uniq与findr实现解析

碳纳米管在摩擦学应用中的最新进展

分形分析与随机微分方程：理论与应用

零售销售数据的探索性分析与DeepAR模型预测

Web开发实用技巧与Perl服务器安装使用指南

数据提取与处理：字符、字节和字段的解析

数据处理与自然语言编码技术详解