גודל אפקט: מה p-value לא מספר לך

את מריצה t-test על הנתונים שלך. p-value יוצא נמוך, מתחת ל-0.05. נשמה לרווחה. המחקר "מובהק". את מתכוננת לכתוב את פרק הממצאים בשקט.

שבוע אחרי, במפגש עם המנחה, היא עוברת על הדוח ומרימה עלייך עיניים. "הבנתי שהתוצאה מובהקת. אבל כמה גדול האפקט בפועל? לא מספיק להגיד שמשהו קיים. צריך להגיד כמה גדול הוא."

את עוצרת. לא חשבת על זה ככה. ה-t-test נתן לך p-value, לא נתן לך אפקט. איזה מספר בכלל עונה על השאלה הזו?

התשובה נקראת גודל אפקט, והיא הסיפור השני של כל ניתוח סטטיסטי. p-value עונה על שאלה אחת: האם הנתונים נותנים ראיה נגד "אין כלום"? גודל אפקט עונה על שאלה אחרת לגמרי: בהנחה שיש הבדל, כמה גדול הוא?

שתי שאלות שונות לחלוטין

p-value שואל: "אם בעצם אין שום הבדל בין הקבוצות, כמה סביר שהייתי רואה תוצאה קיצונית כמו זו, או יותר?" זו שאלה על ראיות. כשהתשובה היא "ממש לא סביר", זה ראיה נגד "אין הבדל". הסף המקובל: p קטן מ-0.05.

גודל אפקט שואל שאלה אחרת לגמרי: "בהנחה שיש הבדל, כמה הוא גדול?" זו שאלה על עוצמה. לא אם, אלא כמה.

שתי שאלות שונות. דוח סטטיסטי טוב עונה על שתיהן. רבים מדוחות הסטודנטיות עונים רק על הראשונה, ואז מתפלאות כשהמנחה מבקשת יותר.

Cohen's d: גודל האפקט של t-test

ב-t-test, המבחן שמשווה בין שתי קבוצות, גודל האפקט הנפוץ נקרא Cohen's d. הנוסחה פשוטה יותר ממה שהיא נראית:

d = (ממוצע קבוצה 1 פחות ממוצע קבוצה 2) חלקי סטיית התקן המאוחדת

המונה ברור: ההבדל בין הממוצעים. המכנה דורש רגע של הסבר.

סטיית תקן (SD) היא המרחק האופייני של נקודה בודדת מהממוצע. אם כל הציונים בקבוצה מרוכזים סביב 80, נגיד 79, 80, 81, סטיית התקן יוצאת קטנה (1 בדיוק). אם הציונים פזורים, 55, 80, 105, סטיית התקן יוצאת גדולה (25). היא מודדת את הרעש הטבעי בנתונים: בתוך כל קבוצה, גם כשאף שינוי לא קורה, ציונים משתנים. סטיית התקן מחזיקה את כל המרחב הזה במספר אחד.

עכשיו חזרה לנוסחה. Cohen's d מחלק את ההבדל בין הקבוצות ברעש הטבעי. זה יחס של אות לרעש: עד כמה ההבדל בין הקבוצות בולט, ביחס לפיזור הטבעי של הנתונים עצמם.

איך זה נראה בעיניים

ככל ש-d גדל, שתי ההתפלגויות מתרחקות זו מזו. כשהאפקט קטן, הן כמעט חופפות. כשהאפקט גדול, הקבוצות נראות כמעט כשתי אוכלוסיות שונות.

Cohen's d ברמות שונות: קטן, בינוני, גדול, וגדול מאוד

כללי האצבע של כהן:

d = 0.2 אפקט קטן
d = 0.5 אפקט בינוני
d = 0.8 אפקט גדול

חשוב לזכור: אלה כללי אצבע, לא חוקים. ברפואה, d של 0.2 יכול להיות עצום. תרופה שמורידה לחץ דם ב"אפקט קטן" על מיליוני חולים מונעת אירועים רבים. בפסיכולוגיה חברתית, לעומת זאת, אפקטים של 0.2 הם לעיתים טווח הנורמה, כי ההתנהגות האנושית מורכבת ורועשת, ורוב מה שאפשר לזהות בכלל נמצא שם. זה לא סימן לחולשת המחקר. זה אופי התחום. תמיד תפרשי את המספר בהקשר של התחום שלך והשאלה המעשית שלך.

אותו הבדל, סיפור אחר לגמרי

וכאן מגיעה הנקודה שבאמת שווה לזכור. אותו הבדל גולמי בדיוק יכול לתת ערך d שונה לחלוטין, תלוי ברעש הטבעי של הנתונים.

אותו הבדל של 5 נקודות, גודלי אפקט שונים לגמרי בהתאם לסטיית התקן

בשני הציורים יש אותו הבדל בין הממוצעים: חמש נקודות. השוני היחיד: בציור השמאלי סטיית התקן היא 10. בציור הימני היא 30.

בשמאלי, הפער של 5 נקודות בולט. הקבוצות ניתנות להבחנה. d = 5/10 = 0.50. אפקט בינוני.

בימני, אותן 5 נקודות טובעות בתוך הפיזור הרחב. הקבוצות נראות כמעט זהות. d = 5/30 ≈ 0.17. אפקט זעיר.

זה לב העניין של גודל אפקט: ההבדל הגולמי לבדו לא קובע את עוצמת ההשפעה. מה שקובע אותה זה ההבדל ביחס למה שכבר קיים בטבע של הנתונים.

מה לקחת מפה לעבודה שלך

קודם כל, כשאת מדווחת תוצאה של מבחן סטטיסטי, תדווחי על שני המספרים: p-value (האם יש ראיות לאפקט) וגודל אפקט (כמה גדול הוא). רוב כתבי העת היום דורשים את שניהם. רוב המנחות גם.

שנית, אל תתבלבלי בין "מובהק" ל"גדול". הם שני דברים שונים. אפקט יכול להיות מובהק וזעיר, אם המדגם גדול מספיק. אפקט יכול להיות גדול ולא מובהק, אם המדגם קטן. גודל אפקט הוא מה שחומק מהמספר הראשון ומשלים אותו.

שלישית, לכל מבחן סטטיסטי יש את גודל האפקט המתאים לו. ל-t-test יש את Cohen's d. ל-ANOVA יש את eta squared. לקורלציה יש את r עצמו. אם הניתוח שלך משתמש במבחן סטטיסטי, תבדקי איזה גודל אפקט מתאים לו, ותדווחי עליו.

התזה שלך לא מספרת סיפור שלם עד שאת עונה על שתי השאלות: האם הנתונים תומכים בקיום אפקט, וכמה גדול הוא. p-value עונה על הראשונה. גודל אפקט עונה על השנייה. שתיהן צריכות להופיע בדוח.