Varlık İsmi Tanıma, Doğal Dil İşleme biliminin çalışma alanlarından biri olup, dokümanlarda geçen varlık isimlerini kişi, yer ve organizasyon olarak ayırmanın yanı sıra formül, tarih ve parasal ifadeleri de bulabilmeyi hedefleyen, son yıllarda farklı dillerde çalışmaların devam ettiği bir alandır. Kural Tabanlı Varlık İsmi Tanıma ise, birtakım sözlüksel kaynaklar ile kurallar oluşturup, yüksek doğrulukla Varlık İsmi Tanıma işleminin gerçeklenmesidir.Bu makalede farklı doküman türleri için tasarlanmış, Türkçe Kural Tabanlı bir Varlık İsmi Tanıma çalışmasından bahsedilmektedir. Varlıkları sınıflama ve etiketleme işlemi kişi, kurum ve yer isimleri ile tarih, para ve saat varlıkları olmak üzere toplam 6 farklı tür için gerçekleştirilmiştir. Varlık isimlerinin bulunup etiketlenebilmesi amacıyla her bir varlık türü için küçük boyutlu sözlükler kullanılarak kurallar oluşturulmuştur. Yapılan çalışmanın sonucunda kurum isimlerinden %86, yer isimlerinden %83, kişi isimlerinden ise %84 başarı elde edilmiştir. Sayısal varlık türlerinden ise tarih varlıklarından %92, saat varlıklarından %94 ve para varlıklarından %96 başarı elde edilerek tatmin edici sonuçlar alınmıştır.
Asset Name Recognition is one of the fields of study of the natural language processing science, a field where studies in different languages have been ongoing in recent years, with the aim of distinguishing the names of assets in documents as individuals, places and organizations, as well as to find formulas, dates and financial expressions. Rule-based Asset Name Recognition is the implementation of the Rule-based Asset Name Recognition process with a number of vocabulary sources and high accuracy.In this article, a Turkish Rule-based Asset Name Recognition is designed for different types of documents. Assets classification and labelling process is carried out for a total of 6 different types of assets, including people, institutions and location names and date, money and time assets. The rules are created using small dictionaries for each type of asset in order to find and label the asset names. As a result of the study, 86% of the company names, 83% of the place names, and 84% of the person names were successful. The number of assets were achieved by 92% of the historic assets, 94% of the hour assets and 96% of the monetary assets.
Alan : Mühendislik
Dergi Türü : Ulusal
Benzer Makaleler | Yazar | # |
---|
Makale | Yazar | # |
---|