ANOVA דו-כיוונית: כשהמנחה ביקש לבדוק גם אינטראקציה

הגעת לפרק הבא של עבודת הגמר. את לא משווה רק בין שלבי גיל הפעם, כמו אצל המורות מהפוסט הקודם. את בודקת אם שיטת הוראה משפיעה על הבנת מתמטיקה, ואם זה תלוי בגיל התלמידים. שני גורמים, שני ערכים בכל אחד, ארבעה תאים בסך הכל. במחקר שלך, ארבעה תאים של גיל × שיטה, 8 תלמידים בכל תא. הגיל נקבע מראש, ההקצאה לשיטת ההוראה נעשתה בתוך כל גיל.

המנחה אמר: "תריצי ANOVA דו-כיוונית. תבדקי גם אינטראקציה."

שאלה ראשונה. למה לא שני מבחני ANOVA חד-כיווניים נפרדים, אחד לכל גורם.

למה דו-כיווני, ולא שני חד-כיווניים

שני חד-כיוונים נפרדים ייתנו לך תשובות לשתי שאלות. "האם שיטות ההוראה שונות בממוצע?" ו"האם שלבי הגיל שונים בממוצע?". כל אחת מהן יכולה לקבל תשובה "כן" או "לא", בנפרד. אבל יש שאלה שלישית שהן לא יכולות לענות עליה: "האם ההשפעה של שיטת ההוראה תלויה בגיל?".

זו שאלת האינטראקציה. היא נשאלת רק כשהגורמים מצולבים באותו ניתוח. ANOVA דו-כיוונית עושה את זה: היא לוקחת את שני הגורמים יחד, מפרקת את השונות לארבעה רכיבים (גורם א, גורם ב, אינטראקציה, שונות שיורית), ומספקת שלושה מבחני F, אחד לכל אפקט.

קודם המספרים, אחר כך המבחן

לפני שמריצים ANOVA, מסתכלים על הממוצעים. כל תא, ובשוליים גם הממוצע הכולל של כל שורה ושל כל עמודה:

	דיגיטלית	מעשית	ממוצע לפי גיל
כיתות ד'	62.98	79.29	71.14
כיתות ח'	82.36	77.19	79.77
ממוצע לפי שיטה	72.67	78.24	75.46

שתי שורות, שתי עמודות, ארבעה תאים. כל ממוצע הוא של 8 תלמידים. תוך כדי מבט אחד, הסיפור כבר נמצא שם: בכיתות ד' מעשית גבוה בהרבה מדיגיטלית, בכיתות ח' זה הפוך. אבל לפני שמסתמכים על ההבחנה הזאת, צריך מבחן.

טבלת ה-ANOVA

בנתונים שלך, שלושת המבחנים יצאו מובהקים:

אפקט	SS	df	F	p
גיל	597.02	1	19.55	< .001
שיטה	248.34	1	8.13	.008
גיל × שיטה	922.62	1	30.22	< .001
שונות שיורית	854.98	28

שלושתם מובהקים. אבל לא שלושתם באותו משקל.

מה האינטראקציה בודקת בדיוק

שורת האינטראקציה היא ההכי חזקה מבין השלוש (F = 30.22). אבל מה ה-F הזה בעצם בודק? תחזרי לטבלת הממוצעים למעלה.

בכיתות ד', ההפרש בין מעשית לדיגיטלית הוא 79.29 פחות 62.98, כלומר 16.31 נקודות לטובת מעשית. בכיתות ח', ההפרש הוא 77.19 פחות 82.36, כלומר מינוס 5.17 (יתרון לדיגיטלית). שני ההפרשים בכיוונים הפוכים.

מבחן ה-F של האינטראקציה שואל שאלה אחת: האם ההפרש בין השיטות בכיתות ד' שונה במידה מובהקת מההפרש בין השיטות בכיתות ח'? לא בכל המקרים שני הפרשים שנראים שונים בעין הם שונים גם סטטיסטית. כאן, F = 30.22, p < .001, אז התשובה: כן, ההבדל בין ההפרשים גדול מדי מכדי להיות רעש דגימה.

התוצאה הזו משתקפת בגרף:

Interaction plot: digital vs hands-on method by 4th and 8th grade

שני קווים שנחתכים. הכיוון של היתרון מתהפך בין הגילים. זו אינטראקציה צולבת, והיא הסיפור המרכזי במחקר שלך.

הערה חשובה: מבחן F של האינטראקציה אומר שההפרשים בכיתות ד' ובכיתות ח' שונים זה מזה. הוא לא מבחן רשמי לשאלה "האם בתוך כיתות ח' שתי השיטות שונות באופן מובהק זו מזו?". לזה צריך מבחני simple effects, שאינם נכללים בניתוח הבסיסי הזה. את יכולה לתאר את ההפרשים בתוך כל גיל בעזרת הממוצעים, כפי שעשינו למעלה, וזה תיאור. הטענה האינפרנציאלית היחידה שיש לך כרגע היא שההפרשים הללו שונים זה מזה.

למה הממוצע הכולל בשיטה הוא מטעה

אם תסכמי על פני הגיל ותחשבי ממוצע כללי לכל שיטה, תקבלי: דיגיטלית 72.67, מעשית 78.24. הפרש כללי של 5.57 נקודות לטובת מעשית.

זה מה שמופיע כשיש "אפקט ראשי לשיטה" בטבלת ה-ANOVA, וזה גם מה שמסתיר את הסיפור. במערך המאוזן הזה, עם 8 תלמידים בכל תא, ההפרש הזה, 5.57 נקודות, הוא בדיוק הממוצע של 16.31 (יתרון מעשית בכיתות ד') ושל מינוס 5.17 (יתרון דיגיטלית בכיתות ח'). זה מספר אחד שמורכב משני מספרים שמושכים לכיוונים שונים. (במערך לא-מאוזן הקשר הזה הופך מורכב יותר; כאן הוא ישיר.)

זה מה שאומרים כשמלמדים "כשיש אינטראקציה מובהקת, צריך להיזהר בפירוש האפקטים הראשיים". האפקט הראשי קיים סטטיסטית, אבל המשמעות שלו ("שיטה מעשית עדיפה") חלשה ומטעה כשהאינטראקציה אומרת את ההפך בחצי מהמדגם.

גודלי האפקט: η² לעומת partial η²

ה-F-ים אומרים לך אם האפקט מובהק. גודלי האפקט אומרים לך כמה. כאן partial η², שהזכרנו אותו בפוסט הקודם אבל לא נכנסנו לעומק, הופך למשמעותי.

אפקט	η²	partial η²	ω²
גיל	0.228	0.411	0.214
שיטה	0.095	0.225	0.082
גיל × שיטה	0.352	0.519	0.336

Bar chart of eta squared, partial eta squared, and omega squared for each effect

בשלושת המדדים, האינטראקציה היא האפקט הגדול ביותר. ההיררכיה עקבית.

אבל למה ה-η² וה-partial η² כל כך שונים? בפוסט הקודם הם היו זהים.

ההבדל בין η² ל-partial η², מבפנים

η² מחלק את שונות האפקט בשונות הכוללת. partial η² מחלק את שונות האפקט בסכום של שונות האפקט עצמו ושונות השיורית, בתוך המודל שכבר הותאם.

η²_grade = SS_grade / SS_total = 597.02 / 2622.96 = 0.228
partial η²_grade = SS_grade / (SS_grade + SS_residual) = 597.02 / (597.02 + 854.98) = 0.411

במכנה של η² יושבת כל השונות בנתונים, כולל זאת שמיוחסת לשיטה ולאינטראקציה. במכנה של partial η² יושבת רק שונות הגיל עצמה והשונות השיורית של המודל שכבר ניכינו ממנו את האפקטים האחרים. השונויות של שיטה ושל האינטראקציה לא מופיעות במכנה, ולכן partial η² גבוה יותר. שני המדדים מחושבים על אותו מודל, רק שואלים שאלות שונות.

במחקר עם גורם אחד, כמו ה-ANOVA החד-כיוונית מהפוסט הקודם, המכנים שווים. SS_total מורכב רק מ-SS_effect ו-SS_residual, אין SSים נוספים שיכנסו ב-η² אך לא ב-partial η². ולכן השניים יוצאים זהים. ברגע שיש שני גורמים, פיצול ה-SS משתנה, והשניים נפרדים.

סכום ה-η²-ים, וסכום ה-partial η²-ים

תסתכלי על הסכומים:

η²_grade + η²_method + η²_interaction = 0.674

partial η²_grade + partial η²_method + partial η²_interaction = 1.155

הסכום של ה-η²-ים פחות מ-1, וזה הגיוני. הם מחלקים עוגה אחת של שונות. כל פרוסה היא חלק מהשלם. השאר, כ-0.326, הוא חלקה של השונות השיורית. שלוש הפרוסות, יחד עם הרעש, משלימות את העוגה השלמה.

הסכום של ה-partial η²-ים עובר את 1. זה לא טעות. כל אחד מהם מחושב במכנה הקטן יותר (האפקט שלו פלוס השונות השיורית בלבד), ולא במכנה הכולל. אם שלושת האפקטים גדולים, המכנים שלהם יוצאים קטנים יחסית, והערכים האישיים יוצאים גדולים. שלושה ערכים גדולים יחסית יכולים יחד לעבור 1. partial η² לא נועד להתחבר לעוגה אחת.

שני המדדים עונים על שאלות שונות. η² עונה על "מה חלק האפקט מתוך השונות הכוללת בנתונים". partial η² עונה על "בתוך המודל הזה, מה חלק האפקט הזה מתוך הסכום של שונות-האפקט ושונות-שיורית". במחקר עם גורם אחד אין הבדל. במחקר עם שני גורמים, יש.

מה לדווח בפרק הממצאים

סדר הדיווח שעובד טוב במחקרים בחינוך: קודם האפקטים הראשיים, מיד אחריהם האינטראקציה, ואז דיון מילולי באינטראקציה אם היא מובהקת, מתוך הממוצעים הקבוצתיים.

"ANOVA דו-כיוונית בדקה את ההשפעה של שלב הגיל (כיתות ד' לעומת ח') ושיטת הוראה (דיגיטלית לעומת מעשית) על הבנת מתמטיקה. נמצא אפקט ראשי מובהק לשלב הגיל, F(1, 28) = 19.55, p < .001, partial η² = .41, ולשיטת ההוראה, F(1, 28) = 8.13, p = .008, partial η² = .23. בנוסף, האינטראקציה בין שלב הגיל לשיטה הייתה מובהקת, F(1, 28) = 30.22, p < .001, partial η² = .52. בכיתות ד' הציון הממוצע במעשית היה גבוה יותר (M = 79.29) מאשר בדיגיטלית (M = 62.98), בעוד בכיתות ח' המצב התהפך (דיגיטלית M = 82.36, מעשית M = 77.19)."

שלושה דברים שכדאי לשים לב אליהם. אחד, דווח partial η² ולא η². בעבודות בחינוך זאת המוסכמה כשהמודל הוא רב-גורמי, וגם SPSS מדפיס partial η² כברירת מחדל בפלט. אם תדווחי η² במחקר דו-כיווני, סביר שמנחה יבקש הסבר. שתיים, התיאור של האינטראקציה נשען על הממוצעים הקבוצתיים. כך הקוראת רואה את הסיפור, לא רק את ה-partial η². שלוש, הניסוח הוא תיאורי ("הציון הממוצע במעשית היה גבוה יותר"), לא אינפרנציאלי ("מעשית הייתה מובהקת בתוך כיתות ד'"). מבחנים פנימיים בתוך כל גיל הם simple effects, וצריך להריץ אותם בנפרד אם רוצים לטעון טענה כזו.

בקיצור

ANOVA דו-כיוונית עונה על שלוש שאלות במקום אחת: שני אפקטים ראשיים ואינטראקציה ביניהם. כשהאינטראקציה מובהקת, היא משנה את האופן שבו צריך לקרוא את האפקטים הראשיים. הממוצע הכולל של שיטה מסתיר את העובדה שהיתרון של שיטה אחת מתהפך בין הגילים.

η² ו-partial η² עונים על שאלות שונות. η² מודד את חלק האפקט מתוך השונות הכוללת. partial η² מודד את חלק האפקט מתוך הסכום של שונות-האפקט ושונות-שיורית, בתוך המודל המותאם. במחקר חד-כיווני הם שווים, במחקר רב-גורמי הם נבדלים. הסכום של partial η²-ים יכול לעבור 1 כי המכנים שלהם קטנים יותר, וזה לא טעות.

הצעד הבא, אם המחקר שלך מערב לא רק שני גורמים בין-נבדקיים אלא גם מדידה חוזרת על אותם תלמידים (התערבות שנמדדת פעם לפני ופעם אחרי), פותח דלת חדשה: מערך מעורב, group × time. נגיע אליו מחר.