מבחן Wilcoxon לדגימות מזווגות: לדרג את ההפרש בתוך כל זוג, לא את הציונים

הרצת התערבות בכיתה. מדדת מעורבות בקריאה לפני ההתערבות ואחריה, אותם תלמידים, אותו שאלון, סולם של 1 עד 7. עשית מבחן t מזווג, והמנחה עצר אותך: "המדגם קטן וההפרשים לא נורמליים, תעברי ל-Wilcoxon".

לא מזמן הבנת את מבחן Mann-Whitney, וגם הוא עבד עם דירוגים. עכשיו עוד מבחן של דירוגים. השאלה המתבקשת היא מה ההבדל. אם שניהם מדרגים, למה הם לא אותו דבר.

זאת בדיוק השאלה הנכונה. בואי נראה מה Wilcoxon מדרג, וזה לא מה ש-Mann-Whitney דירג.

שני מבחנים, שני דברים שונים שמדורגים

במבחן Mann-Whitney לוקחים את כל התלמידים משתי הקבוצות, מערבבים אותם לשורה אחת, ומדרגים את הציונים הגולמיים מהנמוך לגבוה. זה התאים כי הקבוצות היו בלתי תלויות, אנשים שונים בכל קבוצה.

כאן המבנה אחר. אין שתי קבוצות. יש קבוצה אחת שנמדדה פעמיים. כל תלמידה היא הביקורת של עצמה. ולכן אין שום טעם לערבב את כל הציונים יחד. מה שמעניין הוא מה קרה בתוך כל זוג: כמה זזה כל תלמידה מהמדידה הראשונה לשנייה.

אז Wilcoxon לא מדרג ציונים. הוא מדרג הפרשים.

איך זה עובד, צעד אחר צעד

קחי כל תלמידה וחשבי את ההפרש שלה, אחרי פחות לפני. תלמידה שעלתה מ-3 ל-5 קיבלה הפרש של 2+. תלמידה שירדה מ-6 ל-5 קיבלה הפרש של 1-. תלמידה שנשארה באותו מקום קיבלה 0.

וכאן הצעד הראשון שמפתיע: כל מי שקיבלה 0 יוצאת מהמבחן. אם לא היה אצלה שום שינוי, אין לה מה לתרום לשאלה לאיזה כיוון נטו השינויים. אצלנו שלוש תלמידות לא זזו, אז הן יורדות, ומתוך 16 נשארות 13. זה לא טריק. זה ההיגיון של המבחן. הוא בודק את מי שזז.

מבין 13 שנותרו, 12 עלו ואחת ירדה. כבר עכשיו התמונה נוטה חזק לכיוון אחד. אבל במבחן הזה צריך לשקלל גם את הגודל של כל שינוי, לא רק את הכיוון שלו.

אז דרגי את ההפרשים לפי הגודל המוחלט שלהם, בלי קשר לסימן. ההפרש הקטן ביותר מקבל דירוג 1, הגדול ביותר מקבל את הדירוג הגבוה. וכשכמה הפרשים שווים בגודלם, הם מתחלקים בדירוג הממוצע של המקומות שתפסו. אצלנו חמישה הפרשים בגודל 1 (ארבעה כלפי מעלה ואחד כלפי מטה) תופסים יחד את המקומות 1 עד 5, אז כל אחד מהם מקבל את הממוצע שלהם, 3.

ועכשיו סכמי בנפרד: כמה משקל של דירוג הצטבר אצל מי שעלו, וכמה אצל מי שירדה. אצל מי שעלו הצטברו 88 נקודות דירוג. אצל היחידה שירדה, 3 בלבד (אותו דירוג ממוצע שחישבנו זה עתה). שני המספרים יחד הם 91, וזה כל המשקל שיש לחלק.

הסטטיסטי שמדווח במבחן, W, הוא הקטן מבין שני סכומי הדירוגים. כלומר 3.

W = 3, p = .003

ה-p אומר את הדבר הבא. אם ההתערבות לא עשתה כלום, וכל שינוי שראינו היה רעש אקראי, חלוקה כל כך לא מאוזנת של משקל הדירוגים, כמעט הכול בצד אחד, הייתה מתקבלת רק לעיתים נדירות מאוד. לכן דוחים את ההנחה שאין שינוי.

כמה גדול השינוי

כמו תמיד, מובהק זה לא אותו דבר כמו גדול. אבל כאן יש מספר אחד שממחיש את התמונה בצורה אינטואיטיבית במיוחד. מתוך 91 נקודות הדירוג, 88 נמצאות בצד החיובי ו-3 בלבד בצד השלילי. כלומר כ-97% מהמשקל נטה כלפי מעלה, וכ-3% כלפי מטה.

גודל האפקט, מתאם דו-סדרתי של דירוגים (rank-biserial), הוא בדיוק ההפרש בין שני החלקים: 0.97 פחות 0.03, כלומר 0.93. כמעט כל התנועה הייתה כלפי מעלה. זה אפקט גדול מאוד.

מה מותר לך להגיד בעקבות המבחן

בדיוק כמו ב-Mann-Whitney, Wilcoxon לא מדבר בשפת הממוצעים. אפשר לחשב שהממוצע עלה בכ-1.3 נקודות ולציין את זה כתיאור, אבל זה לא מה שהמבחן בדק. המבחן אומר משהו צנוע וחזק יותר: השינויים נטו להיות חיוביים.

אז בפרק התוצאות את מתארת את החציונים (לפני 3.5, אחרי 5), ואת המסקנה מנסחת כנטייה: המעורבות נטתה לעלות לאחר ההתערבות. לא "עלתה בדיוק בכך וכך נקודות".

איך מדווחים

מעורבות התלמידים בקריאה עלתה לאחר ההתערבות (חציון לפני 3.5, אחרי 5), מבחן Wilcoxon לדגימות מזווגות, W = 3, p = .003, r = .93 (rank-biserial). שלוש תלמידות שלא הראו שינוי הוצאו מהניתוח.

שימי לב לשורה האחרונה. כשמדווחים Wilcoxon, מציינים כמה זוגות ירדו בגלל הפרש אפס, כי זה משנה את ה-N שעליו רץ המבחן בפועל. זאת לא הערת שוליים. זאת שקיפות שהוועדה מעריכה.

מתי זה המבחן הנכון

Wilcoxon הוא המבחן לשתי מדידות על אותם נבדקים, תכנון מזווג, כשההפרשים אינם נורמליים או כשהסולם סדיר והמדגם קטן. זאת המקבילה הלא פרמטרית של מבחן t מזווג.

אם הקבוצות שלך בלתי תלויות, אנשים שונים בכל אחת, חזרי לMann-Whitney. ואם יש לך שלוש מדידות או יותר על אותם נבדקים, Wilcoxon לבדו לא יספיק, ושם נכנס מבחן Friedman. אבל זה כבר לפוסט אחר.

הרעיון מאחורי כל זה פשוט. כשכל תלמידה נמדדת פעמיים, היא הביקורת הטובה ביותר של עצמה. Wilcoxon לוקח את זה ברצינות. הוא לא משווה אותך לאף אחת אחרת, הוא שואל רק כמה זזת ולאיזה כיוון. כשהנתונים סדירים והמדגם קטן, זאת השאלה הכי כנה שאפשר לשאול.