Legar:面向越南用户的法律条文识别系统
1. 引言
在越南法律领域,传统的法律条文识别系统(LSI)不仅应是一个问答系统,还需配备合适标注的法律知识库,如 2013 年越南土地法,以进行多标签训练。然而,目前越南缺乏此类法律相关数据。为了有效利用深度学习模型进行分类任务,知识库应能有效捕捉法律领域知识。
为解决这些局限,引入了 LegaR 系统,其主要贡献如下:
- 引入了 VN - LandLaw - 2013 语料库,该语料库经过数字化和结构化处理,并针对基于分类的咨询任务进行了多标签标注。
- 提出了 LegaRBERT 语言模型,专门为 2013 年越南土地法领域设计。它基于 RoBERTa 架构,但采用了新的法律掩码语言建模策略,以增强对文本中法律特定术语的关注。
- LegaRBERT 采用基于 XGBoost 的多标签分类模型,并引入了 K - Utility(K - U)指标来评估多标签分类问题,该指标在实际场景中对为用户检索答案很有用。
2. 相关工作
2.1 VN - LandLaw - 2013 语料库
VN - LandLaw - 2013 语料库包含与 2013 年越南土地法相关的问题、答案和对应标签。其准备过程包括两个主要步骤:
1. 数据收集 :获取 2013 年越南土地法的数字化版本,并从土地法相关电子论坛收集对话,这些对话反映了专家对该法律应用的实际咨询情况。
2. 数据标注 :由法律专家团队对收集的对话数据集进行标注,提取如文档类型、立法、条款、子条款和要点等相关信息。