מבחני post-hoc: באיזה זוג בדיוק נמצא ההבדל

אתמול הרצת ANOVA על ציוני מסוגלות עצמית של מורות משלושה שלבי גיל. F יצא 12.87, p יצא 0.0006, וההמלצה הייתה ברורה: יש הבדל מובהק בין הקבוצות. את כותבת את השורה הזאת בפרק הממצאים, ובדיוק כשאת חושבת שסיימת עם החלק הזה של הניתוח, המנחה שולחת הודעה: "יפה, אבל בין אילו שתי קבוצות בדיוק יושב ההבדל?"

וזה שולח אותך בחזרה. כי ל-ANOVA אין תשובה לזה. היא אמרה לך שמשהו זז. היא לא אמרה איפה.

הבעיה היא בדיוק הבעיה של אתמול

יש לך שלוש קבוצות. שלושה זוגות אפשריים: יסודי מול חט"ב, יסודי מול תיכון, חט"ב מול תיכון. הפיתוי לרוץ עכשיו שלושה מבחני t, אחד לכל זוג, חזק מאוד.

אבל זה בדיוק מה שאתמול אמרנו לא לעשות. שלושה מבחני t גולמיים על אותם נתונים מנפחים את שיעור הטעות הכולל הרבה מעבר ל-5%. זאת הסיבה שעשית ANOVA מלכתחילה.

אז איך פתאום מותר לעשות פה השוואות זוגיות?

התשובה היא שלא נריץ שלושה מבחני t גולמיים. נבצע השוואות זוגיות עם תיקון מובנה שמפצה על ריבוי המבחנים. המבחנים האלה נקראים מבחני post-hoc, "אחרי-המעשה". ברמת הרעיון הם פשוטים: השוואות זוגיות עם פיצוי שמשמר את שיעור הטעות הכולל. חלק מהם הם בעצם מבחני t עם p מתוקן. אחרים, כמו Tukey, בנויים מהיסוד עם התפלגות ייחוס אחרת.

הדוגמה

אותם נתונים מהפוסט על ANOVA: שש מורות מכל שלב גיל, ציוני מסוגלות עצמית בסולם 1-10.

שלב גיל	ממוצע	SD	n
יסודי	7.80	0.44	6
חט"ב	6.90	0.54	6
תיכון	6.40	0.46	6

שלושת ההפרשים הזוגיים:

יסודי מול חט"ב: 7.80 − 6.90 = +0.90
יסודי מול תיכון: 7.80 − 6.40 = +1.40
חט"ב מול תיכון: 6.90 − 6.40 = +0.50

שלושה הבדלים, שלושה גדלים שונים. עכשיו השאלה: אילו מהם גדולים מספיק כדי לעבור את הסף, בהינתן שיש כאן שלוש השוואות במקביל ולא אחת.

תיקון Bonferroni

השיטה הכי פשוטה והכי שמרנית. ההיגיון מאחוריה ישיר. אם הסף המקובל הוא α = 0.05 וקיים סיכון מצטבר כשרצים m מבחנים, פשוט נחלק את הסף לחלקים שווים בין המבחנים.

α_adjusted = α / m = 0.05 / 3 = 0.0167

במקום לדרוש p < 0.05 בכל מבחן, דורשים p < 0.0167. סף קפדני יותר. כל מבחן בודד עכשיו צריך להיות "מובהק יותר" כדי לעבור. מתוך שלושת המבחנים יחד, הסיכוי הכולל לפחות לטעות אחת חוזר להיות בקירוב 5%.

אפשר גם להפוך את הכיוון: במקום להוריד את הסף, להעלות את ה-p. p_bonf = p_raw × m. כך מקבלים ערך מתוקן שאפשר להשוות לסף הרגיל 0.05. שתי הדרכים שקולות.

נריץ את שלושת מבחני t על הנתונים שלנו. נקודה חשובה: ב-post-hoc אחרי ANOVA לא מריצים שלושה מבחני t נפרדים, אחד לכל זוג, עם השונות של אותו זוג בלבד. משתמשים בהערכת השונות הפנימית של כל שלוש הקבוצות יחד, זו שכבר חישבנו ב-ANOVA (MS_within = 0.235). זה אומדן יציב יותר של הרעש, ולכן דרגות החופש הן df = 15 ולא df = 10 שהיו מתקבלות במבחן t בודד בין שתי הקבוצות. במערך מאוזן, שגיאת התקן יוצאת זהה לכל זוג: SE = 0.280.

זוג	הפרש	t	p גולמי	p × 3 (Bonferroni)
יסודי − תיכון	+1.40	+5.01	0.0002	0.0005 ✓
יסודי − חט"ב	+0.90	+3.22	0.006	0.017 ✓
חט"ב − תיכון	+0.50	+1.79	0.094	0.282 ✗

שתי השוואות עוברות, אחת לא. הציון של מורות יסודי גבוה באופן מובהק גם מחט"ב וגם מתיכון. אבל בין חט"ב לתיכון, אחרי תיקון, אין מספיק ראיות.

שימי לב מה קרה בשורה השנייה. ה-p הגולמי היה 0.006, שזה הרבה מתחת ל-0.05. במבחן בודד זה היה נחשב מובהק מאוד. אחרי כפל ב-3, ה-p נהיה 0.017. עדיין מתחת ל-0.05, אבל קרוב משמעותית יותר לסף. גודל ההפרש בנתונים לא השתנה, הוא נשאר 0.90. מה שהשתנה הוא העוצמה של הראיה הסטטיסטית, בהינתן שבדקנו שלושה זוגות ולא אחד.

תיקון Tukey HSD

השיטה השנייה היא Tukey's Honestly Significant Difference, או HSD בקיצור. בניגוד ל-Bonferroni, היא לא תיקון של p קיים. היא מבחן בפני עצמו, שנבנה מהיסוד עבור המצב הזה: השוואת כל הזוגות אחרי ANOVA, בקבוצות בגודל שווה.

Tukey לא משתמש בהתפלגות t. הוא משתמש בהתפלגות אחרת, שנקראת studentized range distribution. ההתפלגות הזאת בנויה דווקא לשאלה "מה הסיכוי שהפרש בין הזוג הכי קיצוני, מתוך k קבוצות, יגיע לגודל מסוים תחת ההנחה שאין הבדל אמיתי?" היא לוקחת בחשבון את העובדה שיש כמה השוואות בו-זמנית, מבלי לחלק את α באופן מכני.

הנוסחה למבחן Tukey פשוטה. עבור כל זוג מחשבים מספר שנקרא q:

q = |M_i − M_j| / √(MS_within / n)

זה אותו רעיון של סיגנל חלקי רעש, רק שהמכנה הוא שגיאת התקן של ממוצע בודד ולא של ההפרש. אחר כך משווים את q להתפלגות studentized range עם k קבוצות ו-df_within דרגות חופש. אצלנו k = 3, df_within = 15. הסף הקריטי ל-α = 0.05 יוצא q_crit = 3.67.

זוג	הפרש	q	q קריטי	p (Tukey)
יסודי − תיכון	+1.40	7.08	3.67	0.0004 ✓
יסודי − חט"ב	+0.90	4.55	3.67	0.015 ✓
חט"ב − תיכון	+0.50	2.53	3.67	0.207 ✗

אותה תמונה. יסודי שונה משתי הקבוצות האחרות, חט"ב ותיכון לא נבדלות זו מזו.

אז מה ההבדל בין השניים?

Bar chart comparing p-values from raw t-tests, Bonferroni adjustment, and Tukey HSD for the three pairs

בדוגמה הזאת שתי השיטות הגיעו לאותן מסקנות, וה-p שלהן כמעט זהים. Bonferroni נותן 0.017 לזוג הגבולי, Tukey נותן 0.015. בנתונים אחרים, במקרה גבולי באמת, הפער הזה יכול להיות מכריע: זוג שעובר בקושי תחת Tukey יכול להיכשל תחת Bonferroni.

הסיבה היא ש-Bonferroni הוא תיקון כללי וגס. הוא שולט בשיעור הטעות המשפחתי בכל תרחיש, בלי שום הנחה על המבנה של המבחנים. זה יתרון, כי זה אומר שאפשר להשתמש בו כמעט תמיד. זה גם חיסרון, כי לעיתים קרובות הוא מתקן יותר מהנדרש. Tukey, לעומתו, בנוי ספציפית למשפחה של "כל הזוגות אחרי ANOVA חד-כיווני, בהנחה שתקפות מבחני ה-ANOVA מתקיימות". כשהנחות אלו מתקיימות, הוא לרוב מתקן מדויק יותר ולכן פחות שמרני באותה סיטואציה.

השורה התחתונה: עבור השוואות כל-זוג-מול-כל-זוג אחרי ANOVA חד-כיווני, Tukey הוא בדרך כלל הבחירה המומלצת. Bonferroni עובד גם פה, אבל יעיל יותר כשבודקים מספר השערות מתוכננות מראש שלא בהכרח מכסות את כל הזוגות.

התמונה

הדרך הכי שימושית לקרוא תוצאות Tukey היא לא דרך ה-p, אלא דרך רווחי הסמך של ההפרשים. עבור כל זוג, Tukey מוציא הפרש בין ממוצעים ורווח סמך 95% סביבו. אם הרווח חוצה את האפס, ההבדל לא מובהק. אם הוא לא חוצה, הוא מובהק.

חשוב לדעת: אלה רווחי סמך סימולטניים, לא רווחי הסמך הרגילים שראית בפוסט על CI. תיקון ריבוי ההשוואות מובנה בתוכם. לכן רוחב הרווח גדול מזה של רווח סמך רגיל באותם הנתונים, וכלל "חוצה אפס / לא חוצה אפס" כבר נותן לך תשובה לגבי המובהקות שמתחשבת בכך שיש לך שלוש השוואות.

Three pairwise mean differences with Tukey 95% confidence intervals

שלושת רווחי הסמך:

יסודי − תיכון: +1.40, 95% CI [+0.67, +2.13]. רחוק מאפס. הבדל ברור.
יסודי − חט"ב: +0.90, 95% CI [+0.17, +1.63]. הרווח לא חוצה אפס, אבל הגבול התחתון קרוב יחסית. הבדל קיים, אבל הוודאות לגבי גודלו רחבה.
חט"ב − תיכון: +0.50, 95% CI [−0.23, +1.23]. חוצה אפס. ההבדל יכול להיות כיוון אחד, יכול להיות כיוון אחר. הנתונים לא חד-משמעיים.

זו בדיוק התובנה שרווחי סמך מוסיפים. לא רק "האם", אלא "כמה". יסודי-תיכון הוא אפקט יציב. יסודי-חט"ב הוא הבדל אמיתי אבל קטן יחסית בהשוואה ליסודי-תיכון. חט"ב-תיכון לא חצה את הסף.

מה לכתוב בפרק הממצאים

אחרי ה-ANOVA, משפט אחד או שניים על ה-post-hoc. למשל:

"מבחני post-hoc של Tukey HSD הראו כי תחושת המסוגלות בקרב מורות יסודי (M = 7.80) הייתה גבוהה באופן מובהק מזו של מורות חט"ב (M = 6.90, p = .015) ושל מורות תיכון (M = 6.40, p < .001). ההבדל בין מורות חט"ב למורות תיכון לא היה מובהק (p = .207)."

שלושה דברים שכדאי להקפיד עליהם: לציין איזה מבחן post-hoc השתמשת בו (לא רק "post-hoc"), לדווח את ה-p המתוקן, ולציין את כיוון ההבדל באמצעות הממוצעים. אל תכתבי "יש הבדל מובהק בין הקבוצות" בלי לציין באיזה כיוון.

בקיצור

אחרי ANOVA שיצא מובהק, את יודעת שמשהו זז. כדי לדעת בדיוק איפה, צריך מבחן post-hoc. אלה השוואות זוגיות עם תיקון מובנה שמפצה על ריבוי המבחנים. Bonferroni מחלק את α במספר ההשוואות (פשוט, שמרני). Tukey HSD משתמש בהתפלגות ייעודית להשוואות כל-זוגות (פחות שמרני, מומלץ לרוב).

שתי השיטות עונות על אותה שאלה: ההפרש שאני רואה בין הזוג הזה, אחרי שאני לוקחת בחשבון את עצם זה שיש לי שלושה זוגות, גדול מספיק להיחשב לראיה? אם כן, מציינות את הזוג ואת כיוון ההפרש. אם לא, אומרות שאין מספיק ראיות לזוג הזה.

ה-ANOVA פותחת את הדלת. post-hoc אומר באיזה חדר בדיוק נמצא ההבדל.