answer_equivalence
จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน
บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ
ชุดข้อมูลความเท่าเทียมกันของคำตอบประกอบด้วยการให้คะแนนโดยมนุษย์ในการคาดคะเนแบบจำลองจากแบบจำลองต่างๆ ในชุดข้อมูล SQuAD การให้คะแนนกำหนดว่าคำตอบที่คาดคะเนนั้น 'เทียบเท่า' กับคำตอบทองคำหรือไม่ (พิจารณาทั้งคำถามและบริบท)
โดยเฉพาะอย่างยิ่ง โดยคำว่า 'เทียบเท่า' เราหมายความว่าคำตอบที่คาดคะเนมีข้อมูลอย่างน้อยเหมือนกับคำตอบทองคำ และไม่เพิ่มข้อมูลที่ไม่จำเป็น ชุดข้อมูลประกอบด้วยคำอธิบายประกอบสำหรับ: * การคาดคะเนจาก BiDAF บน SQuAD dev * การคาดคะเนจาก XLNet บน SQuAD dev * การคาดคะเนจาก Luke บน SQuAD dev * การคาดคะเนจาก Albert ในการฝึกอบรม SQuAD ผู้พัฒนา และตัวอย่างการทดสอบ
แยก | ตัวอย่าง |
---|
'ae_dev' | 4,446 |
'ae_test' | 9,724 |
'dev_bidaf' | 7,522 |
'dev_luke' | 4,590 |
'dev_xlnet' | 7,932 |
'train' | 9,090 |
FeaturesDict({
'candidate': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'gold_index': int32,
'qid': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'question_1': ClassLabel(shape=(), dtype=int64, num_classes=3),
'question_2': ClassLabel(shape=(), dtype=int64, num_classes=3),
'question_3': ClassLabel(shape=(), dtype=int64, num_classes=3),
'question_4': ClassLabel(shape=(), dtype=int64, num_classes=3),
'reference': Text(shape=(), dtype=string),
'score': float32,
})
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|
| คุณสมบัติDict | | | |
ผู้สมัคร | ข้อความ | | สตริง | |
บริบท | ข้อความ | | สตริง | |
gold_index | เทนเซอร์ | | int32 | |
คิด | ข้อความ | | สตริง | |
คำถาม | ข้อความ | | สตริง | |
คำถามที่ 1 | ป้ายกำกับคลาส | | int64 | |
คำถามที่ 2 | ป้ายกำกับคลาส | | int64 | |
คำถามที่ 3 | ป้ายกำกับคลาส | | int64 | |
คำถามที่ 4 | ป้ายกำกับคลาส | | int64 | |
อ้างอิง | ข้อความ | | สตริง | |
คะแนน | เทนเซอร์ | | ลอย32 | |
@article{bulian-etal-2022-tomayto,
title={Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation},
author={Jannis Bulian and Christian Buck and Wojciech Gajewski and Benjamin Boerschinger and Tal Schuster},
year={2022},
eprint={2202.07654},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
เนื้อหาของหน้าเว็บนี้ได้รับอนุญาตภายใต้ใบอนุญาตที่ต้องระบุที่มาของครีเอทีฟคอมมอนส์ 4.0 และตัวอย่างโค้ดได้รับอนุญาตภายใต้ใบอนุญาต Apache 2.0 เว้นแต่จะระบุไว้เป็นอย่างอื่น โปรดดูรายละเอียดที่นโยบายเว็บไซต์ Google Developers Java เป็นเครื่องหมายการค้าจดทะเบียนของ Oracle และ/หรือบริษัทในเครือ
อัปเดตล่าสุด 2022-12-06 UTC
[[["เข้าใจง่าย","easyToUnderstand","thumb-up"],["แก้ปัญหาของฉันได้","solvedMyProblem","thumb-up"],["อื่นๆ","otherUp","thumb-up"]],[["ไม่มีข้อมูลที่ฉันต้องการ","missingTheInformationINeed","thumb-down"],["ซับซ้อนเกินไป/มีหลายขั้นตอนมากเกินไป","tooComplicatedTooManySteps","thumb-down"],["ล้าสมัย","outOfDate","thumb-down"],["ปัญหาเกี่ยวกับการแปล","translationIssue","thumb-down"],["ตัวอย่าง/ปัญหาเกี่ยวกับโค้ด","samplesCodeIssue","thumb-down"],["อื่นๆ","otherDown","thumb-down"]],["อัปเดตล่าสุด 2022-12-06 UTC"],[],[],null,["# answer_equivalence\n\n\u003cbr /\u003e\n\n- **Description**:\n\nThe Answer Equivalence Dataset contains human ratings on model predictions from\nseveral models on the SQuAD dataset. The ratings establish whether the predicted\nanswer is 'equivalent' to the gold answer (taking into account both question and\ncontext).\n\nMore specifically, by 'equivalent' we mean that the predicted answer contains at\nleast the same information as the gold answer and does not add superfluous\ninformation. The dataset contains annotations for: \\* predictions from BiDAF on\nSQuAD dev \\* predictions from XLNet on SQuAD dev \\* predictions from Luke on SQuAD\ndev \\* predictions from Albert on SQuAD training, dev and test examples\n\n- **Homepage** :\n \u003chttps://github.com/google-research-datasets/answer-equivalence-dataset\u003e\n\n- **Source code** :\n [`tfds.datasets.answer_equivalence.Builder`](https://github.com/tensorflow/datasets/tree/master/tensorflow_datasets/datasets/answer_equivalence/answer_equivalence_dataset_builder.py)\n\n- **Versions**:\n\n - **`1.0.0`** (default): Initial release.\n- **Download size** : `45.86 MiB`\n\n- **Dataset size** : `47.24 MiB`\n\n- **Auto-cached**\n ([documentation](https://www.tensorflow.org/datasets/performances#auto-caching)):\n Yes\n\n- **Splits**:\n\n| Split | Examples |\n|---------------|----------|\n| `'ae_dev'` | 4,446 |\n| `'ae_test'` | 9,724 |\n| `'dev_bidaf'` | 7,522 |\n| `'dev_luke'` | 4,590 |\n| `'dev_xlnet'` | 7,932 |\n| `'train'` | 9,090 |\n\n- **Feature structure**:\n\n FeaturesDict({\n 'candidate': Text(shape=(), dtype=string),\n 'context': Text(shape=(), dtype=string),\n 'gold_index': int32,\n 'qid': Text(shape=(), dtype=string),\n 'question': Text(shape=(), dtype=string),\n 'question_1': ClassLabel(shape=(), dtype=int64, num_classes=3),\n 'question_2': ClassLabel(shape=(), dtype=int64, num_classes=3),\n 'question_3': ClassLabel(shape=(), dtype=int64, num_classes=3),\n 'question_4': ClassLabel(shape=(), dtype=int64, num_classes=3),\n 'reference': Text(shape=(), dtype=string),\n 'score': float32,\n })\n\n- **Feature documentation**:\n\n| Feature | Class | Shape | Dtype | Description |\n|------------|--------------|-------|---------|-------------|\n| | FeaturesDict | | | |\n| candidate | Text | | string | |\n| context | Text | | string | |\n| gold_index | Tensor | | int32 | |\n| qid | Text | | string | |\n| question | Text | | string | |\n| question_1 | ClassLabel | | int64 | |\n| question_2 | ClassLabel | | int64 | |\n| question_3 | ClassLabel | | int64 | |\n| question_4 | ClassLabel | | int64 | |\n| reference | Text | | string | |\n| score | Tensor | | float32 | |\n\n- **Supervised keys** (See\n [`as_supervised` doc](https://www.tensorflow.org/datasets/api_docs/python/tfds/load#args)):\n `None`\n\n- **Figure**\n ([tfds.show_examples](https://www.tensorflow.org/datasets/api_docs/python/tfds/visualization/show_examples)):\n Not supported.\n\n- **Examples**\n ([tfds.as_dataframe](https://www.tensorflow.org/datasets/api_docs/python/tfds/as_dataframe)):\n\nDisplay examples... \n\n- **Citation**:\n\n @article{bulian-etal-2022-tomayto,\n title={Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation},\n author={Jannis Bulian and Christian Buck and Wojciech Gajewski and Benjamin Boerschinger and Tal Schuster},\n year={2022},\n eprint={2202.07654},\n archivePrefix={arXiv},\n primaryClass={cs.CL}\n }"]]