מבחן Friedman: שלוש מדידות או יותר על אותם נבדקים, כשמדרגים בתוך כל אחד בנפרד

שלוש טיוטות של אותה עבודה. אותם שנים-עשר תלמידים, אותו מחוון, סולם של 1 עד 7. לפנייך שלוש עמודות של ציונים, וברור לך שמשהו השתפר לאורך הדרך. עכשיו צריך מבחן שיגיד את זה בלשון סטטיסטית.

למדת לא מזמן את מבחן Wilcoxon, שהשווה שתי מדידות על אותם נבדקים. המחשבה הראשונה היא להריץ אותו שלוש פעמים: טיוטה 1 מול 2, טיוטה 2 מול 3, טיוטה 1 מול 3. זה נראה הגיוני. אבל זאת בדיוק המלכודת שכבר פגשת.

למה לא שלושה Wilcoxon

לכל מבחן יש סיכון קטן לטעות, להכריז על הבדל שהוא בעצם רעש. מבחן אחד, הסיכון מבוקר. שלושה מבחנים על אותם נתונים, והסיכונים מצטברים. זה אותו שיקול שבגללו לא הרצת שלושה Mann-Whitney בKruskal-Wallis, רק שעכשיו המבנה מזווג.

הסדר הנכון מוכר לך. קודם שאלה אחת כוללת על שלוש הטיוטות יחד, ורק אם היא מובהקת ממשיכים לזוגות. מבחן Friedman הוא השאלה הכוללת הזאת, בגרסת הדירוגים, למדידות חוזרות. הוא המקבילה הלא פרמטרית של ANOVA במדידות חוזרות.

מה Friedman מדרג, וזה לא מה ש-Kruskal-Wallis דירג

כאן ההבדל החשוב ביותר, אז לאט. ב-Kruskal-Wallis לקחת את כל הנבדקים מכל הקבוצות, ערבבת אותם לשורה אחת ארוכה, ודירגת את כולם יחד. זה התאים, כי שם ישבו אנשים שונים בכל קבוצה.

כאן אסור לערבב. כל תלמיד נמדד שלוש פעמים, והציונים שלו שייכים לו. תלמיד חזק יקבל ציונים גבוהים בכל שלוש הטיוטות, תלמיד מתקשה יקבל נמוכים בכולן, וזה לא מה שמעניין אותנו. מה שמעניין הוא מה קרה בתוך כל תלמיד: האם הטיוטה השנייה שלו טובה מהראשונה שלו, האם השלישית טובה מהשנייה.

אז Friedman מדרג בתוך כל שורה בנפרד. קחי תלמיד אחד, הסתכלי רק על שלושת הציונים שלו, ותני להם דירוג: 1 לטיוטה החלשה ביותר שלו, 3 לחזקה ביותר שלו. תלמיד שעלה מ-3 ל-4 ל-5 מקבל דירוגים 1, 2, 3. כששתי טיוטות שלו שוות בערכן, הן מתחלקות בדירוג הממוצע, למשל תלמיד עם 4, 4, 6 מקבל 1.5, 1.5, 3.

עכשיו, אחרי שכל תלמיד דירג את הטיוטות של עצמו, מחשבים את ממוצע הדירוגים של כל טיוטה על פני כל התלמידים. הדירוג הממוצע של טיוטה 1 הוא 1.12, של טיוטה 2 הוא 1.92, ושל טיוטה 3 הוא 2.96. אם הטיוטות לא היו נבדלות, היינו מצפים ששלושתן יקבלו דירוג ממוצע סביב 2. בפועל הן פרושות כמעט מקצה לקצה.

מה המבחן מחזיר

מבחן Friedman מסכם את הפיזור של שלושת הדירוגים הממוצעים במספר אחד, Q. ככל שהדירוגים הממוצעים רחוקים זה מזה, Q גדול יותר.

Q(2) = 22.14, p < .001

ה-2 בסוגריים הוא דרגות החופש, מספר הטיוטות פחות אחת. ה-p אומר את הדבר הבא. אם איכות הכתיבה הייתה זהה בשלוש הטיוטות, ופערי הדירוג שראינו היו רעש, פיזור כל כך גדול של דירוגים ממוצעים היה מתקבל רק לעיתים נדירות מאוד, פחות מפעם באלף. לכן דוחים את ההנחה שאין הבדל.

כמה גדול ההבדל

כמו תמיד, מובהק זה לא אותו דבר כמו גדול. גודל האפקט של Friedman נקרא ה-W של קנדל, והוא יוצא 0.92.

ל-W יש פירוש יפה במיוחד דווקא כאן. הוא מודד עד כמה התלמידים מסכימים ביניהם על סדר הטיוטות. W קרוב ל-0 אומר שאין הסכמה, כל תלמיד סידר את הטיוטות שלו אחרת. W קרוב ל-1 אומר הסכמה כמעט מושלמת, כמעט כל תלמיד סידר את שלוש הטיוטות באותו סדר בדיוק. כאן 0.92, כלומר כמעט כולם טיפסו באותו כיוון: הטיוטה השלישית הכי חזקה, הראשונה הכי חלשה. שימי לב, W לא מודד את גודל השיפור, אלא עד כמה התלמידים עקביים זה עם זה בסדר שבו דירגו. זה אפקט גדול מאוד.

המבחן אמר שמשהו שונה, לא מה

שוב, זו נקודה שקל לפספס. Q מובהק אומר שלפחות אחת מהטיוטות נבדלת מהאחרות. הוא לא אומר אילו. ייתכן שכל הקפיצה מרוכזת בטיוטה האחרונה, וייתכן שכל מעבר תרם את שלו. כדי לדעת, ממשיכים לבדיקות המשך.

אחרי Friedman, בדיקות ההמשך הן פשוט מבחני Wilcoxon לדגימות מזווגות על כל זוג טיוטות, עם תיקון שמפצה על ריבוי ההשוואות. אלה אותם מבחנים מזווגים שכבר פגשת, לא הגרסה לקבוצות בלתי תלויות, כי כאן אותם תלמידים נמדדו שוב. הנה מה שהן מצאו:

השוואה	p מתוקן	מסקנה
טיוטה 1 מול טיוטה 2	.004	נבדלות
טיוטה 2 מול טיוטה 3	.002	נבדלות
טיוטה 1 מול טיוטה 3	.002	נבדלות

שלושתן נבדלות. כאן הסיפור שונה במקצת ממה שראית ב-Kruskal-Wallis, ששם שניים מהזוגות לא נבדלו זה מזה. אצלנו בכל מעבר בין הטיוטות נמדדה עלייה מובהקת, מהראשונה לשנייה, מהשנייה לשלישית, ומהראשונה לשלישית. זה לא תמיד כך, ובדיוק בשביל זה קיימות בדיקות ההמשך. הן שמראות לך אם ההבדל פרוש על כל המעברים או מרוכז באחד מהם. שימי לב לניסוח: הנתונים מראים עלייה לאורך הטיוטות, אבל סדר הטיוטות שלוב בזמן, בתרגול ובמשוב, והמבחן לבדו לא מבודד מה גרם לעלייה.

מה מותר לך להגיד

בדיוק כמו Wilcoxon ו-Kruskal-Wallis, Friedman לא מדבר בשפת הממוצעים אלא בשפת הדירוגים. לכן בפרק התוצאות את מתארת את החציונים (טיוטה 1 חציון 3, טיוטה 2 חציון 4, טיוטה 3 חציון 5) כתיאור, ואת המסקנה מנסחת כנטייה: איכות הכתיבה נטתה לעלות מטיוטה לטיוטה.

ויש כאן דקות אחת ששווה להכיר. כמו אחיו, Friedman לא בודק ישירות את החציונים. הוא בודק אם הדירוגים בתוך הנבדקים נוטים להיות שונים באופן שיטתי בין התנאים. כאן הדירוגים הממוצעים והחציונים מצביעים לאותו כיוון ברור, אז הקריאה הזאת, שלפיה הטיוטות המאוחרות גבוהות יותר, מבוססת. עדיין, שווה להציץ בנתונים עצמם לפני שמכריזים על כיוון.

איך מדווחים

איכות הכתיבה נבדלה בין שלוש הטיוטות, מבחן Friedman, Q(2) = 22.14, p < .001, W = .92 (W של קנדל). בדיקות המשך (Wilcoxon, תיקון Holm) הראו עלייה מובהקת בכל מעבר: מטיוטה 1 (חציון 3) לטיוטה 2 (חציון 4, p = .004), ומטיוטה 2 לטיוטה 3 (חציון 5, p = .002).

שורה אחת שאומרת את הכול: שיש הבדל, כמה הוא חזק, ואיפה בדיוק הוא נמצא.

מתי זה המבחן הנכון

Friedman הוא המבחן לשלוש מדידות או יותר על אותם נבדקים, תכנון מזווג, כשהמדד סדיר (כמו מחוון או ליקרט) או כשהמדגם קטן וההתפלגות לא נורמלית. זאת המקבילה הלא פרמטרית של ANOVA במדידות חוזרות.

תנאי אחד מעשי ששווה לזכור: המבחן הסטנדרטי דורש שכל נבדק יימדד בכל התנאים. תלמיד שחסרה לו אחת הטיוטות יוצא מהניתוח, בדומה לאופן שבו הפרשי האפס יצאו ב-Wilcoxon.

אם יש לך רק שתי מדידות על אותם נבדקים, חזרי לWilcoxon. ואם הקבוצות שלך בלתי תלויות, שלוש קבוצות של אנשים שונים, זה Kruskal-Wallis, לא Friedman.

ובזה נסגרת המשפחה. ארבעת המבחנים בנויים על אותו רעיון, דירוגים, ומה שמשתנה ביניהם הוא מה בדיוק מדורג. Mann-Whitney מדרג את כל הציונים משתי קבוצות יחד. Wilcoxon מחשב הפרש בכל זוג ומדרג את ההפרשים. Kruskal-Wallis מדרג את כולם משלוש קבוצות יחד. ו-Friedman מדרג בתוך כל נבדק את המדידות שלו. כל אחד מדרג בדיוק את מה שהתכנון שלו מאפשר. כשהממוצע לא מתאים, השאלה שנשארת היא מה הוגן לדרג, והתשובה תמיד נמצאת במבנה של הנתונים שלך.