öğe

Açıklama :

ASSET, "ASSET: A Dataset for Tuning and Evaluation of Cümle Sadeleştirme Modelleri ile Çoklu Yeniden Yazma Dönüşümleri" bölümünde açıklandığı gibi, Cümle Sadeleştirme sistemlerini çoklu yeniden yazma dönüşümleriyle değerlendirmek için bir veri kümesidir. Derlem, her biri farklı annotators tarafından 10 kez basitleştirilmiş 2000 doğrulama ve 359 test orijinal cümlesinden oluşmaktadır. Derlem aynı zamanda çeşitli otomatik metin basitleştirme sistemlerinin çıktıları için anlam koruma, akıcılık ve basitlik gibi insan yargılarını da içerir.

Ek Belgeler : Belgeleri Keşfedin
Ana Sayfa : https://github.com/facebookresearch/asset
Kaynak kodu : tfds.datasets.asset.Builder
sürümler :
- 1.0.0 (varsayılan): İlk sürüm.
İndirme boyutu : 3.47 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
Denetlenen anahtarlar (Bkz as_supervised doc ): None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

varlık/basitleştirme (varsayılan yapılandırma)

Yapılandırma açıklaması : Her biri için 10 olası basitleştirmeyle hizalanmış bir dizi orijinal cümle.
Veri kümesi boyutu : 2.64 MiB
bölmeler :

Bölmek	örnekler
`'test'`	359
`'validation'`	2.000

Özellik yapısı :

FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})

Özellik belgeleri :

Özellik	Sınıf	Şekil	Dtipi
	ÖzelliklerDict
orijinal	Metin		sicim
basitleştirmeler	Sıra(Metin)	(Hiçbiri,)	sicim

Örnekler ( tfds.as_dataframe ):

varlık/derecelendirmeler

Yapılandırma açıklaması : Otomatik olarak üretilen metin sadeleştirmesinin insan derecelendirmeleri.
Veri kümesi boyutu : 1.44 MiB
bölmeler :

Bölmek	örnekler
`'full'`	4.500

Özellik yapısı :

FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})

Özellik belgeleri :

Özellik	Sınıf	Dtipi
	ÖzelliklerDict
Görünüş	SınıfEtiketi	int64
orijinal	Metin	sicim
orijinal_sentence_id	tensör	int32
değerlendirme	tensör	int32
basitleştirme	Metin	sicim
işçi_kimliği	tensör	int32

Örnekler ( tfds.as_dataframe ):

öğe Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

varlık/basitleştirme (varsayılan yapılandırma)

varlık/derecelendirmeler

öğe