Abstract
- 在低资源情况下解决特定领域社区问答论坛中的 Duplicate Question Detection (DQD) 问题
- 提出 multi-view framework MV-DASE
- 通过 Generalized Canonical Correlation Analysis 对 sentence encoders 进行集成
- generic and domain-specific averaged word embeddings
- domain-finetuned BERT
- Universal Sentence Encoder
- 仅使用无标注数据
- 通过 Generalized Canonical Correlation Analysis 对 sentence encoders 进行集成
- 评估数据集:
- CQADupStack
- low-resource Stack Exchange forums
- 通过结合不同 encoder 的优势,超过以下 baseline
- BM25
- single-view systems