Bu çalışmada, çevrimiçi reklam platformlarında oluşturulan reklam metinlerinin sektöre göre otomatik olarak sınıflandırılması için Çift Yönlü Kodlayıcı Gösterimleri (BERT) modeli kullanılmıştır. Eğitim veri setimiz 44 farklı sektöre ait yaklaşık 101.000 adet, ilgili sektör isimleri ile etiketlenmiş reklam metninden oluşmaktadır. Sınıflandırma başarımının belirli sektörler için düşük olduğu gözlemlenmiştir. Bunun, ilgili eğitim veri setindeki aykırı bazı reklam metinlerinden kaynaklandığı gözlemlenmiştir. Bu sebeple sektör ve reklam metni uygunluğunu otomatik olarak tespit etmek ve veri seti için bir ön işleme gerçekleştirmek amacıyla doğal dil işleme (NLP) alanında güncel bir yöntem olan Sıfır-Atış Öğrenmesi yöntemi kullanılmıştır. Bu ön işleme çalışmasından sonra temizlenen veri seti ile tekrardan eğitilen BERT modelinin sınıflandırma başarımının önemli ölçüde arttığı gözlemlenmiştir.
In this study, the BERT model was used to automatically classify advertising texts created on online advertising platforms according to the industry. Our training data set consists of approximately 101,000 ads from 44 different sectors, labeled with relevant sector names. The success of classification has been observed to be low for certain sectors. This has been observed as a result of some contradictory advertising texts in the relevant training data set. Therefore, the Zero-Shoot Learning method, which is a current method in the field of natural language processing (NLP), has been used to automatically identify the suitability of the industry and advertising text and to perform a preliminary processing for the data set. After this preliminary processing work, it was observed that the classification success of the BERT model re-trained with the data set that was cleaned significantly increased.
Alan : Mühendislik
Dergi Türü : Ulusal
Benzer Makaleler | Yazar | # |
---|
Makale | Yazar | # |
---|