Akran değerlendirmesinde elde edilen puanların geçerliği ve güvenirliği hakkında sağlam psikometrik dayanağı olan ve özellikle puanlayıcı etkisine değinen yeteri kadar çalışma bulunmamaktadır. Bu çalışmada puanlayıcı etkilerinden olan puanlayıcı katılık kaymasının (rater severity drift), akran değerlendirmede ne derece görüldüğü araştırılmıştır. Eğitim fakültesindeki bir ders kapsamında öğrenciler tarafından gerçekleştirilen sözlü sunum performansları aynı dersi alan 29 akran tarafından dereceli puanlama anahtarı kullanılarak puanlanmıştır. İlk üç gün iki sunum, dördüncü gün üç sunum olmak üzere toplam dokuz sunum dört ayrı günde gerçekleştirilmiştir. Puanlayıcı kayması iki farklı çok yüzeyli Rasch ölçme modeli (ayrı modeller ve kukla zaman ) yardımıyla incelenmiştir. Her gün için hesaplanan puanlayıcı kestirimlerinden standartlaştırılmış farklar indeksi ve kukla zaman modelinden etkileşim terimleri hesaplanmıştır. Puanlayıcı kayması analizinde, Gün-1 temel gün alınmış, Gün-1’den diğer günlere (Gün-2, 3 ve 4) değişimler incelenmiştir. Analizler genel olarak akran puanlayıcıların arkadaşlarını oldukça cömert bir biçimde puanladıklarını göstermiştir. Puanlayıcılar kendi aralarında kıyaslandığında ise katılık/cömertlik seviyelerinin birbirlerinden farklı olduğu görülmüştür. Sunumlar puanlayıcılar tarafından tutarlı bir şekilde niteliklerine göre sıralandırılmıştır. Puanlayıcı kaymasını incelemek için kullanılan iki yöntem benzer sonuçlar vermiştir. Gün-1 ve 2 arasında puanlayıcı kestirimlerinde bir farklılık görülmemektedir. Her ne kadar ortalamada puanlayıcılar daha cömert puanlama yapsa da, kaymalar istatistiksel olarak anlamlı değildir. Gün-1 ve 3 arasında puanlayıcıların kestirimlerinde önemli kaymaların olduğu puanlayıcıların oranı %38,10’dur. İki yönteme göre de puanlayıcılar ortalamada yaklaşık 0,14 logit kayma gösterip daha katı puanlama davranışı sergilemiştir. Gün-1 ve 4 arasında puanlayıcıların kestirimlerinde önemli kaymaların olduğu puanlayıcıların sayısı standartlaştırılmış farklar yöntemiyle üçgen, etkileşim terimi yöntemiyle birdir. Ortalamada iki yöntemle de puanlayıcılar daha katılaşmıştır. Ortalamada kaymanınyüksek olduğu Gün-4’tür.
There is not enough study on the validity and reliability of the points obtained in the co-evaluation, with a solid psychometric basis and specifically referring to the scoring effect. In this study, the ratio severity drift (rater severity drift), which has a score effect, has been studied how much it is seen in the co-evaluation. The oral presentation performance performed by students within a course at the Faculty of Education is scored by 29 colleagues who take the same course using the score key. The first three days two presentations, the fourth day three presentations, a total of nine presentations were performed in four separate days. The scalper is studied with the help of two different multi-level Rasch measurement models (different models and doll time). The standardized differences from the scoring cuts calculated for each day are calculated from the index and the interaction terms from the doll time model. In the scale shift analysis, the day-1 was taken on the basis day, and changes from day-1 to other days (day-2, 3 and 4) were studied. Analysis generally showed that fellow scorer scored their friends quite generously. When compared to each other, the levels of participation/guelty were different. The presentations are ranked consistently by the scorer according to their qualities. The two methods used to study the scatter shift gave similar results. There is no difference between 1 and 2 days. Although the average scores make more generous scores, the slides are not statistically meaningful. The ratio of scorers with significant shifts in scores between 1 and 3 days is 38.10%. According to the two methods, the scorer showed an average of about 0.14 logit switches and more rigorous scores behavior. The number of scorers with significant shifts in the scores of the scorer between day 1 and 4 is one by the method of standardized differences, the triangle by the method of interaction. On average, the two methods are more rigorous. On average, it is 4 days.
Alan : Eğitim Bilimleri; Hukuk; Sosyal, Beşeri ve İdari Bilimler
Dergi Türü : Uluslararası
Benzer Makaleler | Yazar | # |
---|
Makale | Yazar | # |
---|