  Citation Number 1
 Views 11
Anlamlı ve Benzer Olmayan Türkçe Metinler Üretmek için N-Gram Yöntemi ile İstatistiksel ve Kural Tabanlı Yaklaşımın Birlikte Kullanımı
Author :  
Abstract :

Metin üretme çalışmaları, mevcut cümlelerin analiz edilerek yeni bilgi çıkarımlarının yapıldığı, varolan bir bilgiden yola çıkarak bununla bağlantılı anlamlı bilgilerin elde edildiği sistemlerdir. Bu sistemler, özellikle internet üzerinden yapılan aramalarda girilen cümlelerin türetilerek kullanıcılara arama sonuçları ile ilgili daha anlamlı sonuçlar döndürebilmek gibi kolaylıklar sağlarlar. Bir metin üretici geliştirmek için, doğal dilin kaynaklarını tanımlayacak bir dilbilim teorisine ve bu kaynakları bilgisayar ortamında işleyecek bir yazılım aracına ihtiyaç vardır. Bu çalışmada, kaynak veri kümesindeki cümlelerden sınıf tabanlı n-gram modeli kullanılarak Türkçe dil yapısına uygun anlamlı ve yeni cümleler oluşturulması hedeflenmiştir. Cümle üretimini gerçekleştirmek için trigram modeli önerilmiş ve bu model kural tabanlı yaklaşım ile birlikte kullanılmak için geliştirilmiştir. Bu çalışmada kullanılan yöntem ile diğer kullanılan yöntemlerden farklı olarak, üçlü kelime grupları şeklinde ayrılan gruplardan belirlenen kurallar çerçevesinde, art arda ekleme yöntemiyle anlamlı ve farklı cümleler üretilmesi gerçekleştirilmiştir. Böylece kaynak metin dosyasındaki kelime ya da kelime gruplarından ilişkili olduğu grup sayısı kadar farklı cümleler birbirine bağlanarak yeni metinler oluşturulmuştur. 

Keywords :

Combining Statistical and Rule-Based Approach with N-Gram Method to Generate Meaningful and Dissimilar Turkish Texts
Author :  
Abstract :

Text generation studies are the systems which new knowledge inferences are made by analyzing the existing sentences and meaningful information is obtained from an existing knowledge. These systems provide convenience to users to return more meaningful results related to search results, especially on internet searches. To develop a text generator, there is a need for a linguistic theory to define the sources of natural language and a software tool to process these resources in computer environment. In this study, it is aimed to generate meaningful new Turkish sentences using class-based n-gram model from the sentences in the source data set. Trigram model has been proposed to generate sentences and this model has been developed for use with rule based approach. Unlike other methods, the method used in this study produced meaningful and different sentences with the successive addition method within the framework of the rules determined from the groups divided into triple word groups. Thus, new texts were generated by connecting different sentences from the word or word groups in the source text file as much as the number of the groups that associated with.

Keywords :