ANCOVA: השוואת קבוצות במחקר לפני-אחרי, כשהן לא התחילו מאותו מקום

הרצת תוכנית בשתי כיתות. אחת קיבלה את ההתערבות שבנית, השנייה המשיכה כרגיל. מדדת לפני, מדדת אחרי, וכבר היה לך מושג מה הולך לצאת. ואז המנחה אמר משפט אחד שעצר אותך: "הקבוצות לא התחילו מאותו מקום. את לא יכולה פשוט להשוות את הציונים בסוף."

ישבת מול הנתונים ולא הבנת. הכיתה שקיבלה את התוכנית סיימה עם ממוצע גבוה יותר. מה הבעיה להשוות את הסוף? ואם לא את הסוף, אז מה כן.

המשפט של המנחה נשמע טכני. הוא לא. הוא בדיוק הסיבה שקיים מבחן בשם ANCOVA, ולמה דווקא הוא הכלי הנכון למחקר לפני-אחרי שלך.

שתי כיתות, נקודת פתיחה לא שווה

נעבוד עם מספרים. תוכנית להעלאת מסוגלות עצמית במתמטיקה אצל תלמידים. שתי כיתות, שלושים תלמידים בכל אחת. מדדנו מסוגלות עצמית בסולם של 0 עד 100, פעם לפני התוכנית ופעם אחריה.

וכאן הבעיה שהמנחה הצביע עליה. הכיתות לא היו זהות בהתחלה:

כיתה	ממוצע פתיחה
ביקורת (הוראה רגילה)	63.0
ניסויית (התוכנית החדשה)	56.3

הכיתה הניסויית פתחה נמוך יותר ב-6.7 נקודות. וזה לא רעש. מבחן t על ציוני הפתיחה מאשר שזה לא מקרי (t=2.97, p=.004). במחקר חינוכי זה קורה כל הזמן, כי כיתה היא כיתה. את לא מגרילה תלמידים לקבוצות, את מקבלת את הכיתות כמו שהן.

למה אי אפשר פשוט להשוות את הסוף

הדבר המתבקש הוא לקחת את ציוני הסוף ולהשוות אותם במבחן t לשתי קבוצות בלתי תלויות. בואי נעשה את זה.

הניסויית מסיימת עם 67.2, הביקורת עם 65.2. הפרש של שתי נקודות. ומבחן t מראה שההפרש לא מובהק (t=0.82, p=.42). לפי החשבון הזה, התוכנית כמעט לא עשתה כלום.

אבל תחשבי רגע מה באמת קרה כאן. הכיתה הניסויית התחילה 6.7 נקודות מאחור. היא לא רק סגרה את הפער, היא עקפה קצת. ההשוואה של הסוף מתעלמת מזה לגמרי. היא מודדת איפה כל כיתה סיימה, בלי לזכור מאיפה כל אחת יצאה.

וכשקבוצה אחת יצאה מאחור, "אותו ציון בסוף" לא אומר "אותו שיפור". ההשוואה של הסוף בולעת את ההתקדמות בתוך פער הפתיחה. הביקורת נראית טוב בסוף בעיקר כי היא התחילה טוב.

ההבדל בין הציונים? כיוון נכון, שאלה קצת אחרת

אז אולי הפתרון הוא לחשב כמה כל תלמיד השתפר, סוף פחות התחלה, ולהשוות את השיפור עצמו. זאת אינטואיציה טובה. היא כבר לוקחת בחשבון את נקודת הפתיחה. השיפור הממוצע בניסויית הוא 10.9 נקודות, בביקורת 2.2. הפרש גדול וברור.

ציוני שיפור הם לא טעות, והם תשובה סבירה לגמרי. אבל הם עונים על שאלה קצת אחרת: בכמה כל קבוצה השתנתה. אם זאת בדיוק השאלה המחקרית שלך, הם בחירה לגיטימית לחלוטין. ANCOVA שואל שאלה קרובה אך לא זהה: מה ההבדל בסוף אחרי שמתאימים את כל התלמידים לאותה נקודת פתיחה. זאת השאלה שהוועדה רגילה לראות, וזה הכלי המקובל. הוא משתמש בקשר שבין הפתיחה לסוף ישירות, במקום לצמצם אותו לכדי הפרש פשוט.

מה ANCOVA עושה: משווה מאותה נקודת פתיחה

הרעיון פשוט, גם אם השם מאיים. ANCOVA לוקח את ציון הפתיחה והופך אותו למשתנה מפקח (covariate). במקום לשאול "מי סיים גבוה יותר", הוא שואל שאלה אחרת: אילו שתי הכיתות היו מתחילות מאותה נקודה בדיוק, מי הייתה מסיימת גבוה יותר.

הוא עושה את זה דרך הקשר בין הפתיחה לסוף. אצלנו הקשר הזה חזק, r=0.68. מי שהתחיל גבוה נוטה לסיים גבוה, בשתי הכיתות. ANCOVA משתמש בקשר הזה כדי ליישר את שתי הקבוצות לאותו קו פתיחה, ואז משווה את הסוף המתוקן.

כשמיישרים, המספרים מספרים סיפור אחר לגמרי:

כיתה	סוף גולמי	סוף מתוקן
ביקורת	65.2	62.3
ניסויית	67.2	70.0

הניסויית, שהתחילה נמוך, מתוקנת כלפי מעלה ל-70.0. הביקורת, שהתחילה גבוה, מתוקנת כלפי מטה ל-62.3. זה לא שמחלקים נקודות למי שהתחיל נמוך. שני המספרים האלה הם פשוט התחזית של כל כיתה אילו שתיהן היו יוצאות מאותה נקודת פתיחה, הפתיחה הממוצעת של כל התלמידים יחד, בערך 60. הפער המתוקן הוא 7.7 נקודות לטובת התוכנית. לא שתיים. הוא היה שם כל הזמן, רק נקודת הפתיחה הסתירה אותו.

תרשים פיזור של ציוני לפני מול אחרי בשתי הכיתות, עם שני קווי רגרסיה מקבילים והפער המתוקן בנקודת הפתיחה המשותפת

בגרף את רואה את זה ישירות. כל נקודה היא תלמיד, הציר האופקי הוא הפתיחה והאנכי הוא הסוף. שני הקווים מקבילים, אחד לכל כיתה, והקו של הניסויית (הכחול) גבוה מזה של הביקורת לכל אורך הדרך. הקו המקווקו האנכי הוא נקודת הפתיחה המשותפת שבה ANCOVA משווה. שם, באותו מקום בדיוק, הכוכבים מסמנים את הסוף המתוקן של כל כיתה, והמרחק ביניהם הוא 7.7 הנקודות.

התוצאה, ותנאי אחד שחובה לבדוק

המבחן מאשר שהפער המתוקן מובהק: F(1,57)=21.45, p<.001, וגודל אפקט ηp²=0.27, שהוא אפקט גדול. אחרי שמפקחים על נקודת הפתיחה, נמצא הבדל מתוקן ברור לטובת קבוצת התוכנית.

אבל לפני שמדווחים, יש תנאי מרכזי אחד. הקשר בין הפתיחה לסוף צריך להיות דומה בשתי הקבוצות. בגרף, זה בדיוק מתבטא בכך שהקווים מקבילים. בודקים את זה דרך האינטראקציה בין הקבוצה לבין המשתנה המפקח, ורוצים שהיא לא תהיה מובהקת. אצלנו היא רחוקה מאוד ממובהקות (p=.90), כלומר אין שום עדות שהקווים לא מקבילים, וההנחה מתקיימת.

ועוד דבר אחד, כדי לא להגזים במסקנה. ANCOVA מפקח רק על מה שמדדת. הוא מתקן את פער הפתיחה במסוגלות, אבל הוא לא מחליף הקצאה אקראית. אם הכיתות נבדלות גם במשהו אחר שלא נמדד, המורה, הרקע, שעת השיעור, זה לא ייכנס לתיקון. זאת לא סיבה להימנע ממנו. זאת סיבה לנסח בזהירות מה הוא כן הראה. אם הקווים לא מקבילים, התמונה מסובכת יותר, וזה כבר לפוסט אחר.

בפועל, ובדיווח

שלושה דברים שחשוב לזכור. ראשית, אם יש לך מדידת לפני ומדידת אחרי בשתי קבוצות, נקודת הפתיחה היא לא מטרד, היא מידע. אל תזרקי אותה בכך שתשווי רק את הסוף. שנית, ANCOVA הוא הכלי שמכניס את הפתיחה פנימה כמשתנה מפקח, ומשווה את הקבוצות כאילו יצאו מאותו מקום. שלישית, בדקי תמיד את תנאי הקווים המקבילים לפני שאת מדווחת על התוצאה.

ובפרק השיטות, משפט אחד מספיק: "נערך ניתוח שונות עם משתנה מפקח (ANCOVA), כאשר ציון הסוף הוא המשתנה התלוי, הקבוצה היא המשתנה הבלתי תלוי, וציון הפתיחה משמש כמשתנה מפקח. לאחר פיקוח על ציוני הפתיחה נמצאה השפעה מובהקת לקבוצה, F(1,57)=21.45, p<.001, ηp²=0.27." זהו.

המנחה צדק. הקבוצות לא התחילו מאותו מקום. אבל זה לא אומר שאי אפשר להשוות אותן, אלא שצריך להשוות אותן נכון. ANCOVA נבנה בדיוק בשביל הרגע הזה, שבו נקודת פתיחה שונה מסתירה את מה שבאמת קרה. ברגע שמפקחים עליה, התוכנית שלך מפסיקה להיראות כאילו לא עשתה כלום, ומראה את מה שהיא באמת עשתה.