Futbol dünyada ve Türkiye'de en çok takip edilen sporlardan biridir. Futbolun bu yaygınlık durumu, bilgi teknolojilerinde kullanılmakta ve gelişen veri bilimi ile birlikte maç istatistikleri kolay bir biçimde saptanabilmektedir. Futbol müsabakalarında en çok ilgilenilen konu ise maç sonucudur. Maç sonucunu etkileyen birçok farklı kriter (atılan gol sayısı, takımın aldığı kart sayısı, hava durumu, deplasmanda oynamak vb.) bulunmaktadır. Bu çalışmada Türkiye Futbol Federasyonu Süper Ligi 2019-2020 ve 2020-2021 sezonlarında oynanan karşılaşmalardan elde edilen veriler kullanılmıştır. Takımların kazanma ve kaybetme durumları sınıflandırma ve karar ağacı yöntemleri ile modellenmesi ise çalışmanın temel amacını oluşturmaktadır. Oynanan maçlarda ev sahibi ve rakip takımın aldığı kırmızı veya sarı kartlar, takımlarda yer alan yabancı oyuncu sayıları ve atılan gol sayıları kategorik bir biçime getirilerek bağımsız değişkenler olarak belirlenmiştir. Bu değişkenlere bağlı olarak ev sahibi takımın kazanma veya kaybetme durumu Lojistik Regresyon ve Karar Ağacı (CART, QUEST ve CHAID) algoritmaları kullanılarak modellenmiştir. Çalışma kapsamında altı ayrı model oluşturulmuştur. Oluşturulan modellerin doğruluk yüzdeleri, duyarlılıkları, seçicilikleri ve F-skor değerleri karşılaştırılarak en iyi modelin karar ağaçlarından %67.6’lık doğruluk yüzdesi ile CART algoritması olduğuna karar verilmiştir. Bu modelde yer alan rakip kırmızı kart durumu ile ofansif ve defansif güçlerin takımın kazanmasında ya da kaybetmesinde önemli olduğu tespit edilmiştir. Ayrıca futbol verilerinin modellenmesinde makine öğrenim algoritmalarının kullanılabileceği de gösterilmiştir.
Football is one of the most followed sports in the world and in Turkey. This state of popularity of football is used in information technologies and with the developing data science, match statistics can be easily identified. The most important thing about football is the match. Many different criteria affecting the match result (the number of goals, the number of cards the team receives, the weather, playing on the move, etc.) there is. This study used the data obtained from the matches played by the Turkish Football Federation Super League in the 2019-2020 and 2020-2021 seasons. The team’s win and losing conditions are classified and modeled by decision-making methods, which are the main objective of the work. The red or yellow cards received by the host and the rival team in the games are determined as independent variables by categorizing the number of foreign players in the teams and the number of goals scored. Depending on these variables, the winning or losing status of the host team is modeled using the Logistic Regression and Decision Tree (CART, QUEST and CHAID) algorithms. There are six distinct models in the work. Comparing the accuracy percentages, sensitivity, selectivity and F-score values of the created models, it is determined that the best model is the CART algorithm with a accuracy percentage of 67.6% from the decision trees. In this model, the rival red card status and the offensive and defense forces are important in the team's victory or loss. It is also shown that machine learning algorithms can be used in the modeling of football data.
Alan : Spor Bilimleri
Dergi Türü : Uluslararası
Benzer Makaleler | Yazar | # |
---|
Makale | Yazar | # |
---|