답변_동등
컬렉션을 사용해 정리하기
내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.
Answer Equivalence 데이터 세트에는 SQuAD 데이터 세트의 여러 모델에서 모델 예측에 대한 인적 평가가 포함되어 있습니다. 등급은 예상 답변이 골드 답변과 '동등'한지 여부를 설정합니다(질문과 컨텍스트를 모두 고려).
보다 구체적으로 '동등한'이란 예측 답변이 최소한 골드 답변과 동일한 정보를 포함하고 불필요한 정보를 추가하지 않음을 의미합니다. 데이터 세트에는 다음에 대한 주석이 포함되어 있습니다. * SQuAD dev에 대한 BiDAF의 예측 * SQuAD dev에 대한 XLNet의 예측 * SQuAD dev에 대한 Luke의 예측 * SQuAD 교육, 개발 및 테스트 예제에 대한 Albert의 예측
나뉘다 | 예 |
---|
'ae_dev' | 4,446 |
'ae_test' | 9,724 |
'dev_bidaf' | 7,522 |
'dev_luke' | 4,590 |
'dev_xlnet' | 7,932 |
'train' | 9,090 |
FeaturesDict({
'candidate': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'gold_index': int32,
'qid': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'question_1': ClassLabel(shape=(), dtype=int64, num_classes=3),
'question_2': ClassLabel(shape=(), dtype=int64, num_classes=3),
'question_3': ClassLabel(shape=(), dtype=int64, num_classes=3),
'question_4': ClassLabel(shape=(), dtype=int64, num_classes=3),
'reference': Text(shape=(), dtype=string),
'score': float32,
})
특징 | 수업 | 모양 | D타입 | 설명 |
---|
| 풍모Dict | | | |
후보자 | 텍스트 | | 끈 | |
문맥 | 텍스트 | | 끈 | |
gold_index | 텐서 | | int32 | |
키드 | 텍스트 | | 끈 | |
의문 | 텍스트 | | 끈 | |
질문 1 | 클래스 레이블 | | int64 | |
질문_2 | 클래스 레이블 | | int64 | |
질문_3 | 클래스 레이블 | | int64 | |
질문_4 | 클래스 레이블 | | int64 | |
참조 | 텍스트 | | 끈 | |
점수 | 텐서 | | float32 | |
@article{bulian-etal-2022-tomayto,
title={Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation},
author={Jannis Bulian and Christian Buck and Wojciech Gajewski and Benjamin Boerschinger and Tal Schuster},
year={2022},
eprint={2202.07654},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.
최종 업데이트: 2022-12-06(UTC)
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2022-12-06(UTC)"],[],[],null,["# answer_equivalence\n\n\u003cbr /\u003e\n\n- **Description**:\n\nThe Answer Equivalence Dataset contains human ratings on model predictions from\nseveral models on the SQuAD dataset. The ratings establish whether the predicted\nanswer is 'equivalent' to the gold answer (taking into account both question and\ncontext).\n\nMore specifically, by 'equivalent' we mean that the predicted answer contains at\nleast the same information as the gold answer and does not add superfluous\ninformation. The dataset contains annotations for: \\* predictions from BiDAF on\nSQuAD dev \\* predictions from XLNet on SQuAD dev \\* predictions from Luke on SQuAD\ndev \\* predictions from Albert on SQuAD training, dev and test examples\n\n- **Homepage** :\n \u003chttps://github.com/google-research-datasets/answer-equivalence-dataset\u003e\n\n- **Source code** :\n [`tfds.datasets.answer_equivalence.Builder`](https://github.com/tensorflow/datasets/tree/master/tensorflow_datasets/datasets/answer_equivalence/answer_equivalence_dataset_builder.py)\n\n- **Versions**:\n\n - **`1.0.0`** (default): Initial release.\n- **Download size** : `45.86 MiB`\n\n- **Dataset size** : `47.24 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Yes\n\n- **Splits**:\n\n| Split | Examples |\n|---------------|----------|\n| `'ae_dev'` | 4,446 |\n| `'ae_test'` | 9,724 |\n| `'dev_bidaf'` | 7,522 |\n| `'dev_luke'` | 4,590 |\n| `'dev_xlnet'` | 7,932 |\n| `'train'` | 9,090 |\n\n- **Feature structure**:\n\n FeaturesDict({\n 'candidate': Text(shape=(), dtype=string),\n 'context': Text(shape=(), dtype=string),\n 'gold_index': int32,\n 'qid': Text(shape=(), dtype=string),\n 'question': Text(shape=(), dtype=string),\n 'question_1': ClassLabel(shape=(), dtype=int64, num_classes=3),\n 'question_2': ClassLabel(shape=(), dtype=int64, num_classes=3),\n 'question_3': ClassLabel(shape=(), dtype=int64, num_classes=3),\n 'question_4': ClassLabel(shape=(), dtype=int64, num_classes=3),\n 'reference': Text(shape=(), dtype=string),\n 'score': float32,\n })\n\n- **Feature documentation**:\n\n| Feature | Class | Shape | Dtype | Description |\n|------------|--------------|-------|---------|-------------|\n| | FeaturesDict | | | |\n| candidate | Text | | string | |\n| context | Text | | string | |\n| gold_index | Tensor | | int32 | |\n| qid | Text | | string | |\n| question | Text | | string | |\n| question_1 | ClassLabel | | int64 | |\n| question_2 | ClassLabel | | int64 | |\n| question_3 | ClassLabel | | int64 | |\n| question_4 | ClassLabel | | int64 | |\n| reference | Text | | string | |\n| score | Tensor | | float32 | |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `None`\n\n- **Figure**\n ([tfds.show_examples](https://www.tensorflow.org/datasets/api_docs/python/tfds/visualization/show_examples)):\n Not supported.\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\n- **Citation**:\n\n @article{bulian-etal-2022-tomayto,\n title={Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation},\n author={Jannis Bulian and Christian Buck and Wojciech Gajewski and Benjamin Boerschinger and Tal Schuster},\n year={2022},\n eprint={2202.07654},\n archivePrefix={arXiv},\n primaryClass={cs.CL}\n }"]]