התוצאה לא יצאה מובהקת: איך לדווח על זה נכון

הרצת את הניתוח. ה-p יצא 0.12. את יושבת מול המסך וקוראת את המספר שוב. את מנסה להבין אם זה אומר שההתערבות לא עבדה, שעשית משהו לא נכון, או שיש דרך לכתוב על זה בלי שייראה כאילו המחקר נכשל. הוועדה ביום שלישי. את לא יודעת איפה להתחיל.

זה רגע שכמעט כל סטודנטית לתואר שני בחינוך עוברת לפחות פעם אחת. תוצאה לא מובהקת היא לא כישלון של המחקר. היא דורשת קריאה מדויקת.

הדוגמה

חקרת התערבות בת שישה שבועות לחיזוק אוצר מילים מתמטי בכיתות ז'. 20 תלמידות, מדידה לפני ומדידה אחרי, באותו מבחן סטנדרטי על סולם 0 עד 100. תכנון מזווג, כל תלמידה משווה את עצמה לעצמה.

הממוצע לפני: 50.82. הממוצע אחרי: 54.42. ההפרש הממוצע הוא 3.60 נקודות, סטיית התקן של ההפרש 9.73. מבחן t-מזווג מחזיר t(19) = 1.65, p = 0.115. מעל הסף של 0.05. (אם המספרים האלה צורמים, התחילי ממה זה p-value.)

עשרים זוגות פרה-פוסט עם הקו של הממוצע הקבוצתי. הממוצע הקבוצתי עלה ב-3.60 נקודות, t(19)=1.65, p=0.115

בגרף את רואה את 20 הזוגות. כמה תלמידות עלו, כמה ירדו, כמה כמעט לא זזו. הקו הכחול העבה הוא הממוצע הקבוצתי, והפער שלו הוא הפער של המחקר.

מה המספר הזה אומר ומה הוא לא אומר

מה שאת מתפתה להגיד: "ההתערבות לא עבדה. אין הבדל." מה שנכון להגיד: "אין די ראיות בנתונים שלי לדחות את השערת האפס של 'אין הבדל'."

זה לא משחק מילים. זאת אבחנה לוגית עם השלכות שונות לחלוטין על האופן שבו את כותבת.

מבחן סטטיסטי הוא לא הוכחה בכיוון אחד. הוא בוחן עד כמה הנתונים תואמים את השערת האפס. אם הם רחוקים ממנה (p קטן), את דוחה את השערת האפס. אם הם תואמים אותה בסבירות סבירה (p גדול), את לא דוחה אותה. אבל לא לדחות זה לא לקבל. את לא הוכחת שאין הבדל. את הראית שהנתונים שלך לא רחוקים מספיק מהאפס כדי לדחות אותו.

זאת לא דקדקנות אקדמית. זאת ההבחנה היחידה שמאפשרת לך לדווח על תוצאה לא מובהקת בכבוד, בלי לטעון יותר ממה שהראית.

שני סוגי טעויות, ובאיזו מהן בחרת להסתכן

כשתכננת את המחקר עשית בחירה, גם אם לא ראית אותה כך באותו רגע. בכל מבחן סטטיסטי יש שני סוגי טעויות:

טעות מסוג ראשון (Type I). לדחות את השערת האפס בטעות. להגיד "יש אפקט" כשבאמת אין. ה-α הוא הסף שאת קובעת מראש (כמעט תמיד 0.05): ההסתברות המקסימלית לטעות הזאת שאת מסכימה לקחת. זה גם הסף שאליו את משווה את ה-p.
טעות מסוג שני (Type II). לא לדחות את השערת האפס כשהיא בעצם לא נכונה. להחמיץ אפקט אמיתי. ה-β הוא ההסתברות לטעות הזאת, והוא נגזר מגודל המדגם, מגודל האפקט שאת מנסה לזהות, ומה-α. כוח המחקר הוא 1 − β.

הקהילה המדעית בחרה להציב את α נמוך, 0.05, כי המחיר של לטעון שיש אפקט כשאין נחשב כבד יותר מהמחיר של להחמיץ אפקט שכן קיים. זאת הבחירה שעומדת מאחורי הסף הזה. היא לא אמת מתמטית, היא נורמה.

שימי לב: כוח (1 − β) הוא לא מספר אחד למחקר. הוא תלוי בגודל האפקט שאת מנסה לזהות. למחקר אחד יש כוח גבוה לאפקטים גדולים, וכוח נמוך לאפקטים קטנים. אין "כוח של המחקר" בלי לציין גודל אפקט.

בתוצאה לא מובהקת, האפשרות שלא נשללה היא שהמחקר שלך לא היה רגיש מספיק לאפקטים בגודל שעשוי להיות באוכלוסייה. רווח הסמך וניתוח הרגישות לא מודדים סבירות של "טעות מסוג שני" במקרה הספציפי שלך. הם מראים דבר אחר ושימושי לא פחות: אילו אפקטים עדיין תואמים לנתונים שלך, ואילו גדלי אפקט המחקר היה מסוגל לזהות מלכתחילה.

מה הנתונים שלך באמת אומרים

רווח הסמך 95% של ההפרש הממוצע הוא [-0.96, +8.15]. במונחי גודל אפקט, Cohen's d_z = 0.37, ורווח הסמך המקורב לגודל האפקט (התקבל על ידי שינוי קנה מידה של רווח ההפרש לפי סטיית התקן של ההפרשים) הוא [-0.10, +0.84].

רווח הסמך 95% להפרש הממוצע חוצה את ה-0. המינימום לזיהוי בכוח 0.80 הוא 6.4 נקודות (d_z=0.66).

קראי את הרווח לאט. ההפרש הממוצע הוא 3.60, וההערכה הזאת תואמת לכל ערך בין ירידה קלה של כ-0.96 נקודה ועלייה של עד 8.15 נקודות. אפשרי שאין כל אפקט. אפשרי שיש אפקט קטן. אפשרי שיש אפקט בינוני, ואפילו כזה שמגיע לגבול ה"גדול" לפי קוהן. כל התרחישים האלה יושבים בתוך הרווח, וכולם תואמים את הנתונים שאספת.

זה בדיוק מה שתוצאה לא מובהקת אומרת. לא "אין אפקט". יש כאן "הנתונים שלי תואמים גם להיעדר הבדל וגם למגוון רחב של אפקטים חיוביים".

מה המחקר שלך יכול היה לזהות מלכתחילה

במבחן t-מזווג עם N = 20 ו-α = 0.05 דו-צדדי, גודל האפקט המינימלי שתוכלי לזהות בכוח של 0.80 הוא d_z ≈ 0.66. במונחי הסולם שלך זה הפרש ממוצע של כ-6.4 נקודות (0.66 כפול סטיית התקן של ההפרש). הקו הכתום בגרף השני מסמן את הסף הזה.

זה אומר שהמחקר היה רגיש בעיקר לאפקטים בגודל d_z ≥ 0.66 ומעלה. אפקטים קטנים, וגם חלק לא מבוטל מהאפקטים שנחשבים "בינוניים", נמצאים מתחת לסף הזה. במילים אחרות, חלק נכבד מהאפקטים שהספרות מצפה לראות בכלל לא היו מזוהים על ידי המחקר שלך בכוח סביר.

הערה זהירה על "כוח בדיעבד" עבור האפקט שנצפה במדגם: אם נניח שהאפקט האמיתי באוכלוסייה הוא בערך בגודל שנצפה (0.37), אז למחקר שלך היה כוח של כ-35% לזהות אותו. זאת אמירה מותנית: היא אומרת מה היה קורה אם זה היה גודל האפקט האמיתי, לא מה הסתברות שהתוצאה שקיבלת היא טעות מסוג שני. ההבחנה הזאת חשובה. חישוב כוח על האפקט שנצפה הוא פשוט תרגום אחר של ה-p, לא מידע חדש על המחקר. ניתוח הרגישות (סף 0.66 שצוין למעלה) הוא המידע השימושי.

זאת לא הצדקה רטרואקטיבית. זהו תיאור מדויק של גבולות הכלי שלך.

איך לכתוב את זה

בפרק הממצאים: דווחי על המספרים, בלי לפרש אותם כעת. "במבחן t-מזווג להפרש בין מדידת לפני (M = 50.82, SD = 12.74) למדידת אחרי (M = 54.42, SD = 13.72) נמצא הפרש ממוצע של 3.60 נקודות (SD = 9.73), t(19) = 1.65, p = .115, d_z = 0.37; 95% CI להפרש הממוצע [-0.96, 8.15]". כל המספרים שנמצאו, בלי תוספות וגם בלי הסתרות.

בפרק הדיון: כתבי משפט אחד שמתאר מה הראית, ומשפט שני שמתאר מה לא הראית.

הממצא הנוכחי תואם להיעדר אפקט וגם למגוון אפקטים חיוביים באוכלוסייה, מקטנים ועד אפקט שמתקרב לגבול ה"גדול" (רווח סמך 95% להפרש: [-0.96, +8.15]). בהינתן שהמחקר תוכנן לזהות אפקטים בגודל d_z ≥ 0.66 בכוח של 0.80, אפקטים קטנים יותר, וחלק מהבינוניים, עשויים להישאר לא מזוהים גם אם הם קיימים באוכלוסייה.

שני המשפטים האלה אומרים את האמת. הם לא מצטדקים על המחקר, ולא מציגים אותו כיותר ממה שהוא. הם מסבירים בדיוק מה הראית ומה היה ביכולת המדידה שלך לראות.

מה לענות לוועדה

אם ישאלו אותך בהגנה "האם ההתערבות עבדה?", התשובה אינה "כן" ואינה "לא". התשובה היא: "לא מצאתי מובהקות סטטיסטית להבדל. רווח הסמך אומר שההבדל באוכלוסייה תואם לכל ערך בין ירידה קלה של כנקודה לבין עלייה של כשמונה נקודות. המחקר היה רגיש בעיקר לאפקטים בגודל d_z ≥ 0.66, וחלק מהאפקטים הקטנים והבינוניים יכלו להישאר לא מזוהים. אם המטרה הייתה לטעון אקטיבית שאין אפקט בעל חשיבות מעשית, היה צריך להגדיר מראש סף של אפקט זניח ולתכנן מבחן שקילות. מה שאני כן יכולה לומר זה שהנתונים תואמים גם להיעדר אפקט וגם לאפקטים בטווח שהרווח מאפשר."

זאת תשובה שהוועדה תקבל יותר מ"לא עבד". היא מראה שאת קוראת את הנתונים שלך נכון, ויודעת מה הם יכולים להגיד ומה לא. זה גם תוכן שמתאים למחקר המשך, אם יוחלט להעמיק.

בקיצור

p לא מובהק לא אומר שאין אפקט. הוא אומר שעם המדגם שיש לך והפיזור שיש, אין די ראיות לדחות את השערת האפס. שתי האפשרויות, שאין כלום ושיש משהו שהמחקר שלך לא היה רגיש מספיק כדי לזהות, עדיין תואמות את הנתונים.

בכתיבה, דווחי על מה ראית, על מה הרווח הסמך מאפשר עוד, ועל מה המחקר שלך נועד לזהות מלכתחילה. בדיון, אל תהפכי תוצאה לא מובהקת ל"אין אפקט". בהגנה, ספרי על הגבול של הכלי שלך לפני שתפרשי את התוצאה שלו.

ככה תוצאה לא מובהקת הופכת מכישלון של המחקר לחלק לגיטימי שלו.