ANOVA חוזרת חד-כיוונית: שלוש מדידות, אותם נבדקים, ומבחן Mauchly

שלוש מדידות, אותן 25 מורות. שבוע 1, שבוע 7, שבוע 13 של סמינר התזה. מדדת רמת מתח, רצית לראות איך היא משתנה לאורך הסמסטר. אותן נשים, שלוש נקודות זמן, ציון מתח בכל אחת.

המנחה אמר: "תריצי ANOVA חוזרת חד-כיוונית."

ואז הוסיף משהו על Mauchly. את מהנהנת בעומק הראוי. אין לך מושג מי זה Mauchly.

זה הפוסט שמסביר.

למה לא שלושה מבחני t מזווגים

שלושה מבחני t מזווגים יענו לך על שלוש שאלות. שבוע 1 מול 7. שבוע 1 מול 13. שבוע 7 מול 13. כל אחד בנפרד.

שתי בעיות מיידיות. ראשית, שלושה מבחנים על אותם נתונים מעלים את הסיכון המצטבר לטעות. כל מבחן ב-α = 0.05 מוסיף הסתברות, ושלושתם יחד עוברים את חמשת האחוזים שהצהרת עליהם בהתחלה. שנית, שלושת המבחנים מתעלמים מהשאלה המרכזית: "האם יש שינוי לאורך הזמן, באופן כללי?". כדי לטעון טענה כזאת, צריך מבחן אחד שמטפל בשלוש נקודות הזמן יחד.

ANOVA חוזרת חד-כיוונית עושה את זה. F אחד, p אחד, שאלה אחת.

מה הניתוח עושה

זוכרת את הANOVA החד-כיוונית הקלאסית, שמשווה בין שלוש קבוצות שונות של אנשים. אותו רעיון, אבל הפעם הקבוצות הן שלוש מדידות על אותם אנשים.

זה משנה את החישוב מהיסוד. במערך עם קבוצות עצמאיות, ההבדלים היציבים בין נבדקות נכנסים לתוך שונות השגיאה. במערך עם מדידה חוזרת, הניתוח מוציא את ההבדלים היציבים האלה החוצה ובוחן את אפקט הזמן מול השונות התוך-אישית שנותרה. התוצאה: מבחן F רגיש יותר מזה שהיה מתקבל אילו התייחסנו לנתונים כקבוצות עצמאיות.

הנתונים

זמן	M	SD
שבוע 1	44.62	12.74
שבוע 7	55.15	13.81
שבוע 13	67.76	14.91

המתח עולה לאורך הסמסטר. בערך 23 נקודות בין שבוע 1 לשבוע 13, על סולם 0-100. גם השונות בתוך כל נקודת זמן עולה: בשבוע 1 המורות יחסית דומות זו לזו (SD = 12.74), בשבוע 13 הן מתפזרות יותר (SD = 14.91). חלק נשאבות לתוך הלחץ, חלק מצליחות להחזיק את עצמן יחסית יציבות.

הגרף מראה את זה. כל קו אפור הוא מורה אחת. שלושת המעגלים הכחולים הם הממוצע הקבוצתי. רואים את העלייה. רואים גם כמה מהמורות לא עולות, או אפילו יורדות. הסיפור הוא לא אחיד, אבל הממוצע ברור.

המבחן הראשי

הפלט של ANOVA חוזרת חד-כיוונית, לפני שמסתכלים על תיקונים:

מקור	SS	df	MS	F	p	partial η²
זמן	6712.35	2	3356.17	49.31	< 0.001	0.673
שגיאה	3267.20	48	68.07

F(2, 48) = 49.31, p < 0.001 (לא-מתוקן). partial η² = 0.673, גודל אפקט גדול במונחים מקובלים בחינוך.

זה ה-p הלא-מתוקן. לפני שמדווחים אותו סופית, צריך לבדוק את הנחת הכדוריות.

כדוריות (sphericity)

בעולם של מדידה חוזרת, ההנחה המקבילה לשוויון שונויות במערך עצמאי נקראת כדוריות. הניסוח המעט מוזר: שונויות ההפרשים בין כל זוג נקודות זמן צריכות להיות שוות.

בנתונים שלך, יש שלושה זוגות אפשריים, ולכן שלוש שונויות של הפרשים:

הפרש	שונות
שבוע 7 פחות שבוע 1	65.87
שבוע 13 פחות שבוע 1	192.51
שבוע 13 פחות שבוע 7	150.02

אלה לא דומות זו לזו. השונות של ההפרש בין שבוע 7 לשבוע 1 קטנה יחסית (65.87), והשונות של ההפרש בין שבוע 13 לשבוע 1 כמעט פי שלושה ממנה (192.51).

הסיבה היא לא רק מרחק הזמן. שבוע 13 פחות שבוע 7 ושבוע 7 פחות שבוע 1 הם שני קטעים באותו אורך, אבל השונויות שלהם רחוקות: 150.02 לעומת 65.87. מה שקובע הוא מבנה הקורלציות בין הזמנים, וזה משקף את מה שראית בגרף: ככל שהסמסטר מתקדם, המורות מתפזרות זו מזו בקצב לא אחיד, וזמנים סמוכים נשארים קשורים יותר מזמנים מרוחקים. מבנה כזה מפר כדוריות.

למה זה חשוב: ה-F של ANOVA חוזרת מניח כדוריות. בלעדיה ה-p הלא-מתוקן יוצא ליברלי מדי, והסיכון לטעות מסוג ראשון חורג מ-5%.

מבחן Mauchly

זה המבחן הפורמלי לכדוריות. הוא בודק את השאלה "האם השונויות של ההפרשים שוות?" כהשערה אפסית. אם p < 0.05, ההשערה האפסית נדחית, והנחת הכדוריות נדחית גם היא. כלומר: יש הפרה.

בנתונים שלך, Mauchly יוצא:

W = 0.701, χ²(2) = 8.17, p = 0.017

p = 0.017 קטן מ-0.05. כדוריות מופרת. ה-F הלא-מתוקן שראית למעלה, F(2, 48) = 49.31, נשען על הנחה שלא מתקיימת.

תיקון Greenhouse-Geisser

הפתרון הסטנדרטי הוא לתקן את דרגות החופש של ה-F כלפי מטה. ככל שכדוריות מופרת יותר, התיקון אגרסיבי יותר. המקדם שמודד את חומרת ההפרה נקרא אפסילון (ε). הוא נע בין 1 (כדוריות מושלמת) ל-1/(k-1), כש-k הוא מספר התנאים. אצלך, עם 3 רמות, ε מינימלי הוא 0.5.

הערך שיצא: ε_GG = 0.770. הפרה בינונית.

התיקון מכפיל את שתי דרגות החופש של ה-F ב-ε:

df_corrected ≈ 2 × 0.770, 48 × 0.770 = 1.54, 36.95

ה-F עצמו לא משתנה (49.31). אבל הוא נבחן מול התפלגות עם דרגות חופש קטנות יותר, וזה מעלה את ה-p.

F(1.54, 36.95) = 49.31, p < 0.001 (Greenhouse-Geisser)

במקרה הזה, התיקון לא שינה את המסקנה. ה-p עדיין קטן בהרבה מ-0.05. הלא-מתוקן הוא 2.30 × 10⁻¹², המתוקן הוא 5.06 × 10⁻¹⁰. שני סדרי גודל, ובכל זאת שניהם נמוכים מאוד מהסף.

הדוגמה כאן מראה את המכניקה של התיקון, לא את ההשלכה החזקה ביותר שלו. במערך שבו F הלא-מתוקן בקושי מובהק (p ≈ 0.04), אותו תיקון יכול להעלות את p ל-0.06 ולשנות את המסקנה לחלוטין. את לא יכולה לדעת את זה מראש בלי לבדוק את Mauchly.

מה לדווח

שתי החלטות נפרדות, וכדאי לא לבלבל אותן.

הראשונה: את בדיקת הכדוריות תמיד מתעדים בפרק הממצאים. הקוראת לא יודעת שבדקת אם את לא כותבת. הדיווח של Mauchly (W, χ², p) הוא הוכחה שעשית את העבודה.

השנייה: איזו תוצאה לדווח. אם Mauchly מובהק (כמו במקרה שלך), מדווחים את ה-F המתוקן (Greenhouse-Geisser בדרך כלל). אם Mauchly לא מובהק, המוסכמה היא לדווח את ה-F הלא-מתוקן עם ציון שהבדיקה נעשתה. מבחן Mauchly לא-מובהק לא מהווה הוכחה לכדוריות, במיוחד במדגמים קטנים שבהם למבחן עצמו אין הרבה עוצמה. הוא רק אומר שלא נמצאה הפרה גלויה. עדיין מקובל לדווח לא-מתוקן במצב זה, אבל חלק מהחוקרים בוחרים לדווח על GG באופן עקבי בלי קשר ל-Mauchly, גישה שמרנית יותר.

אבל איזה זמן שונה מאיזה

F המובהק אומר שיש איזשהו הבדל בין שלוש נקודות הזמן. הוא לא אומר באיזה זוג. למחקר זה לא מספיק. צריך לדעת אילו זוגות שונים זה מזה, כדי לתאר את הדפוס.

השלב הבא הוא מבחני post-hoc מזווגים. עבור מערך חוזר, המבחנים הם t מזווגים, עם תיקון Bonferroni למספר ההשוואות. שלוש השוואות, אז כל p_unc מוכפל ב-3.

השוואה	M_diff (מאוחר פחות מוקדם)	\|t(24)\|	p (Bonferroni)	\|d\|
שבוע 1 מול שבוע 7	+10.53	6.49	< 0.001	0.79
שבוע 1 מול שבוע 13	+23.14	8.34	< 0.001	1.67
שבוע 7 מול שבוע 13	+12.61	5.15	< 0.001	0.88

שלוש ההשוואות מובהקות אחרי תיקון, והממוצעים עולים מ-44.62 ל-55.15 ל-67.76. כל קפיצה בזמן מוסיפה הבדל מובהק בכיוון של עלייה. הקפיצה הגדולה ביותר היא שבוע 1 לשבוע 13 (M_diff = 23.14, |d| = 1.67), והיא מורכבת משתי הקפיצות הקטנות יותר.

הערה אחת. מבחני post-hoc מראים אילו זוגות שונים, לא האם קצב השינוי שונה בין הקטעים או האם השינוי ליניארי. לזה צריך קונטרסטים מתוכננים או ניתוח מגמה, מבחנים נפרדים שלא נכללים בדיווח הסטנדרטי.

איך לכתוב את זה בפרק הממצאים

ANOVA חוזרת חד-כיוונית נערכה לבחינת השינוי ברמת המתח לאורך הסמסטר, בשלוש נקודות זמן (שבוע 1, שבוע 7, שבוע 13). מבחן Mauchly הצביע על הפרה של הנחת הכדוריות, W = .70, χ²(2) = 8.17, p = .017, ולכן יושם תיקון Greenhouse-Geisser (ε = .77). נמצא אפקט מובהק לזמן, F(1.54, 36.95) = 49.31, p < .001, partial η² = .67. השוואות זוגיות מתוקנות Bonferroni הראו עלייה מובהקת בכל קטע: שבוע 1 לעומת שבוע 7 (M_diff = 10.53, p < .001, |d| = 0.79), שבוע 7 לעומת שבוע 13 (M_diff = 12.61, p < .001, |d| = 0.88), ושבוע 1 לעומת שבוע 13 (M_diff = 23.14, p < .001, |d| = 1.67).

שלושה משפטים. הצהרת המבחן ובדיקת ההנחה, ה-F המתוקן עם גודל האפקט, ההשוואות הזוגיות.

הערה על Huynh-Feldt

SPSS ידפיס שני תיקונים, Greenhouse-Geisser ו-Huynh-Feldt. שניהם פועלים על אותו עיקרון, מכפילים את דרגות החופש ב-ε. ההבדל: GG הוא שמרני יותר, HF הוא ליברלי יותר. בחלק מהמקורות מופיע כלל אצבע שלפיו כשε < 0.75 מדווחים GG וכשε ≥ 0.75 מדווחים HF, אבל זה כלל בלבד, לא הסכמה גורפת. הרבה חוקרים מדווחים על GG באופן עקבי.

הכלל החשוב יותר: כשנדרש תיקון, בחרי מראש באיזה תיקון להשתמש (GG או HF), ודווחי עליו באופן עקבי בכל הניתוחים החוזרים בעבודה. אל תבחרי לכל מבחן את התיקון שמייצר את ה-p הקטן יותר.

בקיצור

ANOVA חוזרת חד-כיוונית בוחנת אם יש שינוי על פני מספר נקודות זמן, על אותם נבדקים. היא רגישה יותר מ-ANOVA עצמאית כי היא מוציאה את ההבדלים היציבים בין נבדקות מתוך השגיאה, ובוחנת את אפקט הזמן מול השונות התוך-אישית שנותרה.

היא מניחה כדוריות: שונויות ההפרשים בין זוגות הזמן שוות. מבחן Mauchly בודק את ההנחה. אם הוא מובהק, מתקנים את דרגות החופש בעזרת Greenhouse-Geisser או Huynh-Feldt. אם הוא לא מובהק, נהוג לדווח את ה-F הלא-מתוקן, אבל לציין שהבדיקה נערכה.

השלב הבא, אם רוצים לדעת איזו נקודת זמן שונה מאיזו, הוא מבחני t מזווגים עם תיקון Bonferroni. הם משלימים את ה-F, לא מחליפים אותו.

מתי ANOVA חוזרת מפסיקה להתאים

ANOVA חוזרת מניחה מערך מסודר: אותן נקודות זמן לכל הנבדקות, במרווחים שווים, ושורה שלמה לכל נבדקת. ברגע שהמרווחים בין המדידות לא שווים (מדידה אחרי שבוע, אחר כך אחרי חודשיים), שיש נקודות זמן חסרות לחלק מהמורות, או שהנתונים מקוננים (תלמידות בתוך כיתות בתוך בתי ספר), המבחן הזה כבר לא מתאים. הצעד הטבעי הוא מודל לינארי מעורב (linear mixed model), שמתמודד עם כל אלה ישירות. הרבה סטודנטיות מגלות את זה רק אחרי שהנתונים שלהן מפסיקים להתיישב עם ההנחות הנקיות.

ועוד נקודה שקל לפספס: ANOVA חוזרת דורשת שורה שלמה. נבדקת שחסרה לה אפילו מדידה אחת נשמטת מהניתוח כולו, וכך דרישת המקרים השלמים יכולה לכרסם ב-N בשקט, בלי שתשימי לב.