מבחן חי-בריבוע לאי-תלות: קשר בין שני משתנים קטגוריאליים, ומתי הוא לא תקף

הרצת ב-SPSS טבלת הצלבה (Crosstabs), קיבלת שורה שנקראת Pearson Chi-Square עם p-value, וכתבת שיש קשר בין שני המשתנים. ואז המנחה ענה משפט אחד: "בדקת את השכיחויות הצפויות?"

השאלה הזאת נשמעת טכנית, אבל מאחוריה עומד כל ההיגיון של המבחן. אם נבין מה השכיחויות הצפויות, נבין גם מה חי-בריבוע בעצם בודק, ומתי המספר שקיבלת לא אמין.

נעבור על זה לאט, עם דוגמה אחת.

השאלה שהמבחן שואל

מבחן חי-בריבוע לאי-תלות בודק שאלה אחת: האם שני משתנים קטגוריאליים קשורים זה לזה, או שהם בלתי תלויים.

נניח שבדקת שלוש שיטות הוראה (פרונטלית, עבודה בקבוצות, משולבת), ולכל תלמידה רשמת אם הגיעה לרמת מיומנות נדרשת או לא. 30 תלמידות בכל שיטה, 90 בסך הכול. הנתונים הם ספירות, לא ממוצעים, ולכן זה לא מקרה של ANOVA. זאת טבלה של מי-נמצא-איפה:

שיטה	הגיעה למיומנות	לא הגיעה	סה"כ
פרונטלית	12	18	30
עבודה בקבוצות	18	12	30
משולבת	23	7	30
סה"כ	53	37	90

הנתון הכולל: 53 מתוך 90 הגיעו למיומנות, כלומר 58.9%. זאת נקודת המוצא. אם לשיטה אין שום קשר למיומנות, היינו מצפים שבכל שיטה בנפרד יגיעו למיומנות בערך אותם 58.9%.

הלב של המבחן: צפוי מול נצפה

זה כל הרעיון. חי-בריבוע משווה בין מה שראית בפועל (נצפה) לבין מה שהיית מצפה לראות אילו לא היה קשר בכלל (צפוי).

הצפוי לכל תא מחושב פשוט: סך השורה כפול סך העמודה, חלקי N. לתא של "פרונטלית, הגיעה למיומנות": 30 כפול 53 חלקי 90, כלומר 17.67. כיוון שבכל שיטה יש בדיוק 30 תלמידות, הצפוי יוצא זהה בכל השורות:

שיטה	צפוי: הגיעה	צפוי: לא הגיעה
פרונטלית	17.67	12.33
עבודה בקבוצות	17.67	12.33
משולבת	17.67	12.33

עכשיו תסתכלי על הפער. בפרונטלית ציפינו ל-17.67 שיגיעו למיומנות, וראינו רק 12. במשולבת ציפינו לאותם 17.67, וראינו 23. הפערים האלה הם חומר הגלם של המבחן.

חי-בריבוע לוקח כל תא, מחשב את ההפרש בין נצפה לצפוי, מעלה בריבוע, ומחלק בצפוי. ואז מסכם את הכול. ככל שהנצפה רחוק מהצפוי, הסכום גדל.

לתא של "פרונטלית, הגיעה למיומנות": ההפרש הוא 12 פחות 17.67, בריבוע, חלקי 17.67. כלומר (12−17.67)² / 17.67 = 1.82. עושים את אותו דבר לכל ששת התאים ומסכמים. התוצאה:

χ²(2) = 8.35, p = .015

ה-2 בסוגריים הוא דרגות החופש: (מספר שורות פחות 1) כפול (מספר עמודות פחות 1), כלומר (3−1)(2−1) = 2. ה-p של .015 אומר שאם לשיטה ולמיומנות לא היה קשר באוכלוסייה, הסיכוי לקבל סטייה כוללת מהצפוי גדולה לפחות כמו זו שראינו הוא קלוש. הנתונים פשוט לא מתיישבים עם הנחת אי-התלות, ולכן דוחים אותה. יש קשר.

אפשר לראות את זה במבט אחד. הקו האדום הוא ה-58.9% שהיינו מצפים לו בכל שיטה אילו השיטה לא שינתה כלום:

פרונטלית הרבה מתחת לקו, משולבת הרבה מעליו. הפער הזה מהקו הוא בדיוק מה ש-p = .015 תופס.

מובהק זה לא חזק

ה-p אומר שקשה ליישב את הנתונים עם ההנחה שאין קשר. הוא לא אומר כמה הקשר חזק. זאת הבחנה שכבר פגשת אצל גודל אפקט, והיא חוזרת כאן בדיוק.

גודל האפקט של חי-בריבוע נקרא Cramér's V. הוא נע בין 0 (אין קשר) ל-1 (קשר מושלם). כאן:

V = 0.30

הספים האלה הם כלל אצבע מקובל לטבלה במבנה הזה: בערך 0.07 קטן, 0.21 בינוני, 0.35 גדול. V של 0.30 הוא קשר בינוני, נוטה לחזק. כלומר מעבר לכך שהנתונים מצביעים על קשר, הקשר הזה גם לא זניח בגודלו. תמיד דווחי את שניהם, p יחד עם V. ה-p לבד יכול להיות מובהק על קשר זעיר, פשוט כי המדגם גדול.

איזה תא מזיז את הכול

חי-בריבוע מובהק אומר "יש קשר", אבל לא אומר איפה. ברוח של מבחני post-hoc שמפרקים ANOVA מובהקת לזוגות, יש כלי שמפרק את הטבלה לתאים: שאריות מתוקננות מתואמות (adjusted standardized residuals). זו לא בדיקה זוגית פורמלית, אלא דרך אבחון שמראה אילו תאים חורגים במיוחד מהצפוי.

לכל תא מחושבת שארית: כמה הוא חורג מהצפוי, ביחידות תקן. שארית מעל 1.96 בערכה המוחלט מסמנת תא שבולט ביחס למודל אי-התלות. הנה הן:

שיטה	הגיעה	לא הגיעה
פרונטלית	−2.58	2.58
עבודה בקבוצות	0.15	−0.15
משולבת	2.42	−2.42

הסיפור מתחדד. הקשר נשען על שני קצוות: בפרונטלית הגיעו למיומנות הרבה פחות מהצפוי, ובמשולבת הרבה יותר. עבודה בקבוצות, עם שארית של 0.15, יושבת כמעט בדיוק על הצפוי. היא לא חלק מהסיפור, היא הרקע שעליו שתי האחרות בולטות.

ועכשיו לשאלה של המנחה

חי-בריבוע הוא קירוב. הנוסחה שלו מניחה שהשכיחויות הצפויות גדולות מספיק כדי שהקירוב יחזיק. כשהצפוי בתא קטן מדי, הקירוב נחלש, וה-p שמתקבל כבר לא אמין.

כלל האצבע המקובל (כלל Cochran): אף תא לא מתחת ל-1, ולא יותר מ-20% מהתאים מתחת ל-5. בדוגמה הגדולה למעלה הצפוי המינימלי היה 12.33, אז הכול תקין. אבל הנה מצב שונה.

נניח מחקר חלוץ קטן: 20 מורות, בדיקת קשר בין שלב בית הספר (יסודי / על-יסודי) לבין אימוץ שיטה חדשה (כן / לא).

שלב	אימצה	לא אימצה	סה"כ
יסודי	8	2	10
על-יסודי	3	7	10

הצפוי בעמודת "לא אימצה" יוצא 4.5 בשתי השורות. שני תאים מתוך ארבעה מתחת ל-5, כלומר 50% מהתאים. כלל Cochran מופר. וזה לא ניואנס תיאורטי. תראי מה קורה למסקנה:

מבחן	תוצאה	מסקנה ב-α = .05
חי-בריבוע (לא תקף כאן)	p = .025	מובהק
Fisher's exact (הנכון כאן)	p = .070	לא מובהק

אותם נתונים בדיוק, ושני המבחנים נופלים בשני צדדים שונים של הסף. אם היית מדווחת את חי-בריבוע, היית כותבת שיש קשר מובהק בין שלב בית הספר לאימוץ השיטה. המבחן הנכון אומר שאין מספיק עדות לזה. ההבדל הוא לא בנתונים, אלא במבחן שמתאים לגודל המדגם.

הפתרון לטבלת 2×2 כזאת הוא מבחן Fisher's exact. הוא מחשב את ההסתברות המדויקת במקום להסתמך על הקירוב, ולכן הוא תקף גם כשהספירות קטנות. בטבלה גדולה יותר עם תאים דלילים אפשר לאחד קטגוריות קרובות, אבל רק כשיש לכך היגיון תוכני ולא כתרגיל טכני, או להשתמש במבחנים מדויקים (exact) אם התוכנה מציעה אותם.

זה מה שהמנחה התכוון אליו. לא ביורוקרטיה. שאלה אם המבחן שבחרת בכלל תקף על הנתונים שלך.

מה לבדוק לפני שאת מדווחת

שלוש בדיקות, לפי הסדר:

ראשית, שכל תצפית נספרת פעם אחת. כל משתתפת בתא אחד בלבד, לא אותה משתתפת שמופיעה בכמה תאים. אחרת ההנחה של תצפיות בלתי תלויות נשברת, ושום מבחן לא יתקן את זה.

שנית, השכיחויות הצפויות. אם כלל Cochran מופר, עברי ל-Fisher (ב-2×2) או אחדי קטגוריות.

שלישית, גודל אפקט לצד ה-p. דווחי χ², דרגות חופש, N, ה-p, ו-V. כך נראית שורת הדיווח לדוגמה הגדולה:

χ²(2, N = 90) = 8.35, p = .015, V = .30. שיעור ההגעה למיומנות נע בין 40% בשיטה הפרונטלית ל-77% בשיטה המשולבת.

שורה אחת, והיא אומרת שלושה דברים: יש קשר, הוא בעוצמה בינונית, וזה הכיוון שלו. זה כל מה שצריך כדי שהטבלה תחזיק מול הוועדה.