מבחן McNemar: השוואת לפני-אחרי כשהתשובה היא כן או לא

בנית התערבות. לימדת ארבעים מורות שיטת הערכה חדשה בסדנה, ורצית לדעת אם זה תפס. לפני הסדנה בדקת כמה מהן כבר משתמשות בשיטה בכיתה, כן או לא. אחרי הסדנה בדקת שוב. אותן ארבעים מורות, אותה שאלה.

לפני, חמש עשרה מתוך ארבעים. אחרי, עשרים ושבע. את רואה את העלייה בעיניים. עכשיו את צריכה מבחן שיגיד שהיא לא מקרית.

השם הראשון שעולה לך הוא חי בריבוע. בנית טבלה, הרצת, וקיבלת p של 0.19. לא מובהק. איך זה ייתכן, אם המספר קפץ מחמש עשרה לעשרים ושבע?

הרצת את המבחן הלא נכון. לא טעית בחישוב. פשוט מבחן חי בריבוע הרגיל לא בנוי למה שיש לך כאן: אותם אנשים, נמדדים פעמיים.

הנתונים: אותן מורות, שתי נקודות זמן

נסדר את הארבעים לפי מה שקרה אצל כל מורה. לא כמה ענו כן לפני וכמה אחרי, אלא איך כל אחת זזה מהפעם הראשונה לשנייה.

	אחרי: משתמשת	אחרי: לא
לפני: משתמשת	12	3
לפני: לא	15	10

קראי את הטבלה תא אחר תא. שתים עשרה מורות השתמשו בשיטה גם לפני וגם אחרי. עשר לא השתמשו לא לפני ולא אחרי. חמש עשרה לא השתמשו לפני, והתחילו אחרי. ושלוש השתמשו לפני, והפסיקו.

שימי לב מה הטבלה הזאת מתארת, ומה לא. זאת לא טבלה של שתי קבוצות שונות. אין כאן "קבוצת לפני" מול "קבוצת אחרי". יש כאן ארבעים מורות, וכל אחת תרמה זוג תשובות, מה שענתה בהתחלה ומה שענתה בסוף.

למה חי בריבוע הרגיל הוא הכלי הלא נכון

מבחן חי בריבוע של אי-תלות נבנה למצב אחר לגמרי: שתי קבוצות נפרדות של אנשים. ארבעים מורות שעברו סדנה, וארבעים אחרות שלא, ואת שואלת אם שיעור השימוש שונה בין הקבוצות. שם כל אדם נספר פעם אחת, והתצפיות בלתי תלויות זו בזו.

אצלך אין שתי קבוצות. יש קבוצה אחת שנמדדה פעמיים. התשובה של מורה "אחרי" קשורה הדוקות לתשובה שלה "לפני", כי זאת אותה מורה. המבחן הרגיל מניח שכל המספרים בטבלה הגיעו מאנשים שונים, וההנחה הזאת פשוט לא נכונה כאן.

וזאת גם הסיבה שהוא החזיר p לא מובהק. הוא בכלל לא בדק את מה שרצית. הוא שאל אם מי שהשתמשה לפני נוטה להשתמש גם אחרי, כלומר אם שתי נקודות הזמן קשורות. את לא רצית לדעת את זה. רצית לדעת אם השיעור הכולל עלה. שאלה אחרת, מבחן אחר.

מה McNemar באמת מסתכל עליו

מבחן McNemar מתחיל מתובנה אחת פשוטה: רוב המורות בטבלה לא יכולות לספר לך כלום על השאלה שלך.

קחי את שתים עשרה המורות שהשתמשו בשיטה לפני וגם אחרי. הן היו מסומנות "כן" בשתי המדידות בלי קשר למה שהסדנה עשתה. הן כבר היו שם. אותו דבר עם עשר המורות שלא השתמשו אף פעם. אלה שלא זזו, עשרים ושתיים מורות, פשוט נשארו במקומן. הן לא מעידות על שינוי, כי הן לא השתנו. הן עדיין נספרות בשיעור הכולל, לפני ואחרי. הן פשוט לא נכנסות למבחן עצמו.

מי שכן מספר לך משהו הוא מי שזז. חמש עשרה מורות שעברו מלא-משתמשת למשתמשת, ושלוש שעברו בכיוון ההפוך. בעגה הסטטיסטית קוראים לזוגות האלה "לא תואמים", כי התשובה בהם השתנתה בין שתי המדידות. רק הם נכנסים לחשבון.

טבלת 2 על 2 של לפני מול אחרי. שני התאים שבהם התשובה השתנתה, 15 שהתחילו ו-3 שהפסיקו, מודגשים בכחול. שני התאים של מי שלא השתנתה, 12 ו-10, אפורים ומסומנים כמתעלמים מהם.

בגרף את רואה את זה ישירות. שני התאים הכחולים הם מי שהשתנתה, והם היחידים שנספרים. שני התאים האפורים, מי שנשארה כמו שהיתה, יוצאים מהחשבון לגמרי. כל המבחן נשען על שני התאים המודגשים בכחול.

החשבון, על שמונה עשרה מורות בלבד

עכשיו השאלה מתחדדת. בין שמונה עשרה המורות שזזו, האם השינוי נטה לכיוון אחד מעבר למקריות?

אם לא היה שום שינוי שיטתי בשיעור השימוש, היינו מצפים שמי שמשנה את התשובה יתפזר פחות או יותר שווה: בערך כמה שמתחילות, כמה שמפסיקות. רעש לכאן ולכאן. אבל קיבלנו חמש עשרה מול שלוש. פי חמישה יותר התחילו מאשר הפסיקו. זה כבר לא נראה כמו רעש.

הנוסחה של McNemar בודקת בדיוק את חוסר האיזון הזה. ההפרש בין שני התאים בריבוע, חלקי הסכום שלהם: ההפרש בין חמש עשרה לשלוש בריבוע, חלקי שמונה עשרה. זה נותן χ²(1)=8.00, ו-p של 0.005. מובהק, וברור.

אלה אותם נתונים בדיוק שעליהם המבחן הרגיל החזיר p של 0.19. אבל הוא לא פספס שום אפקט. הוא פשוט לא שאל עליו. p של 0.19 לא אומר שלא היה שינוי בשיעור, הוא אומר שמי שהשתמשה לפני היא לא בהכרח אותה אחת שמשתמשת אחרי. שאלה אחרת לגמרי. McNemar הסתכל רק על מי שזז, ושאל את השאלה שבאמת רצית לשאול.

כשמספר המשתנות קטן

שימי לב שהמבחן רץ על שמונה עשרה מורות, לא על ארבעים. וכאן צריך לשים לב: כשמספר מי שהשתנה קטן ממש, נניח קומץ אנשים בודדים, הקירוב של חי בריבוע נעשה פחות מדויק.

במצב כזה עוברים לגרסה המדויקת של המבחן, שמחשבת את ההסתברות ישירות במקום להסתמך על הקירוב. אותו רעיון בדיוק כמו המבחן המדויק של פישר כשהתאים בטבלה קטנים. שמונה עשרה זה כבר מספיק כדי לסמוך על הקירוב, ובכל מקרה הגרסה המדויקת נותנת כאן p של 0.008, אותה מסקנה בדיוק.

אותה משפחה: לפני ואחרי על אותם אנשים

אם הרגשת שהמבנה הזה מוכר, זה לא במקרה. ראית אותו כבר. מבחן t מזווג משווה ממוצעים של אותם אנשים לפני ואחרי. מבחן Wilcoxon עושה את זה כשהנתונים דירוגיים. McNemar הוא בן המשפחה הזה, בשביל תשובה של כן או לא.

המשותף לשלושתם הוא העיקרון שראינו כאן. כשמודדים את אותם אנשים פעמיים, הזיווג בין שתי המדידות הוא מידע, לא מטרד. מבחן שמתעלם מהזיווג, ומתייחס לשתי המדידות כאילו באו מאנשים שונים, מאבד בדיוק את מה שמעניין אותך.

ועוד דבר אחד, כדי לא להגזים במסקנה. McNemar מראה שהשיעור השתנה בין שתי המדידות. הוא לא מוכיח לבדו שהסדנה היא שגרמה לשינוי. בלי קבוצת ביקורת שלא עברה את הסדנה, ייתכן שמשהו אחר קרה באותו פרק זמן. זאת לא סיבה להימנע מהמבחן, זאת סיבה לנסח בזהירות מה הוא הראה: שינוי מובהק לפני ואחרי, לא הוכחה לסיבה.

בפועל, ובדיווח

שני דברים שחשוב לזכור. ראשית, אם יש לך תשובת כן/לא שנמדדה פעמיים על אותם אנשים, חי בריבוע הרגיל הוא לא הכלי, כי הוא מניח שהמדידות בלתי תלויות. McNemar הוא הכלי, והוא מסתכל רק על מי שהשתנה. שנית, אם מספר המשתנים קטן, השתמשי בגרסה המדויקת.

ובפרק השיטות, משפט אחד מספיק: "נערך מבחן McNemar להשוואת שיעור השימוש בשיטה לפני הסדנה ואחריה. נמצא שינוי מובהק, χ²(1)=8.00, p=.005. יותר מורות עברו מאי-שימוש לשימוש (n=15) מאשר בכיוון ההפוך (n=3)." זהו.

ראית את הקפיצה מחמש עשרה לעשרים ושבע מההתחלה. היא היתה אמיתית כל הזמן. המבחן הראשון לא הראה אותה כי הוא הסתכל על השאלה הלא נכונה, וספר אנשים שלא השתנו כאילו יש להם מה לומר. ברגע שמסתכלים רק על מי שזז, ושואלים אם הוא זז לכיוון אחד יותר מהשני, מה שראית בעיניים מקבל את המספר שמגיע לו.