Kullanım Kılavuzu
Neden sadece 3 sonuç görüntüleyebiliyorum?
Sadece üye olan kurumların ağından bağlandığınız da tüm sonuçları görüntüleyebilirsiniz. Üye olmayan kurumlar için kurum yetkililerinin başvurması durumunda 1 aylık ücretsiz deneme sürümü açmaktayız.
Benim olmayan çok sonuç geliyor?
Birçok kaynakça da atıflar "Soyad, İ" olarak gösterildiği için özellikle Soyad ve isminin baş harfi aynı olan akademisyenlerin atıfları zaman zaman karışabilmektedir. Bu sorun tüm dünyadaki atıf dizinlerinin sıkça karşılaştığı bir sorundur.
Sadece ilgili makaleme yapılan atıfları nasıl görebilirim?
Makalenizin ismini arattıktan sonra detaylar kısmına bastığınız anda seçtiğiniz makaleye yapılan atıfları görebilirsiniz.
 Görüntüleme 28
 İndirme 3
Collection and evaluation of lexical complexity data for Russian language using crowdsourcing
2022
Dergi:  
Vestnik Rossijskogo Universiteta Družby Narodov: Seriâ Lingvistika
Yazar:  
Özet:

Estimating word complexity with binary or continuous scores is a challenging task that has been studied for several domains and natural languages. Commonly this task is referred to as Complex Word Identification (CWI) or Lexical Complexity Prediction (LCP). Correct evaluation of word complexity can be an important step in many Lexical Simplification pipelines. Earlier works have usually presented methodologies of lexical complexity estimation with several restrictions: hand-crafted features correlated with word complexity, performed feature engineering to describe target words with features such as number of hypernyms, count of consonants, Named Entity tag, and evaluations with carefully selected target audiences. Modern works investigated the use of transforner-based models that afford extracting features from surrounding context as well. However, the majority of papers have been devoted to pipelines for the English language and few translated them to other languages such as German, French, and Spanish. In this paper we present a dataset of lexical complexity in context based on the Russian Synodal Bible collected using a crowdsourcing platform. We describe a methodology for collecting the data using a 5-point Likert scale for annotation, present descriptive statistics and compare results with analogous work for the English language. We evaluate a linear regression model as a baseline for predicting word complexity on handcrafted features, fastText and ELMo embeddings of target words. The result is a corpus consisting of 931 distinct words that used in 3,364 different contexts.

Anahtar Kelimeler:

2022
Yazar:  
0
2022
Yazar:  
Atıf Yapanlar
Bilgi: Bu yayına herhangi bir atıf yapılmamıştır.
Benzer Makaleler










Vestnik Rossijskogo Universiteta Družby Narodov: Seriâ Lingvistika

Alan :   Sosyal, Beşeri ve İdari Bilimler

Dergi Türü :   Uluslararası

Metrikler
Makale : 916
Atıf : 2.196
2023 Impact/Etki : 0.173
Vestnik Rossijskogo Universiteta Družby Narodov: Seriâ Lingvistika