מה זה p-value? הסבר פשוט עם דוגמה אמיתית

אחיה בוטמן
אחיה בוטמן
4 דקות קריאה

אם הגעת לפה כי המנחה ביקש p-value מובהק והתחלת לחפש מה זה בכלל, את לא לבד. רוב הסטודנטיות בתזה מגיעות לרגע הזה. כולן יודעות שצריך p קטן מ-0.05. כולן יודעות שזה קשור למובהקות. אבל מה המספר באמת אומר? שם דברים נעשים מעורפלים.

זה לא כי המושג קשה. זה כי רוב ההסברים קופצים לנוסחאות, או נשארים ברמה של "הסיכוי שזה מקרה" בלי לתת אינטואיציה. בואי ננסה אחרת. דוגמה אחת, מההתחלה ועד הסוף, ונראה איך p-value נולד.

התרחיש

נניח שאת חוקרת אם תרגול מיינדפולנס משפיע על רמת החרדה. לא הנחת מראש שהוא יוריד את החרדה, ולא שהוא יעלה אותה, רק שיש בכלל הבדל בין הקבוצות. לקחת 6 משתתפים וחילקת אותם לשתיים: שלושה עברו תוכנית מיינדפולנס, שלושה לא. בסוף מדדת את רמת החרדה של כולם בשאלון סטנדרטי. ציון גבוה, יותר חרדה.

קבוצת מיינדפולנסקבוצת ביקורת
2738
3141
3847
ממוצע: 32.0ממוצע: 42.0

הבדל של 10 נקודות. קבוצת המיינדפולנס דיווחה על פחות חרדה. נראה מבטיח. אבל פה מתחילה הבעיה: שלושה אנשים בכל קבוצה, ובתוך כל קבוצה פיזור לא מבוטל. אצל המיינדפולנס ציון אחד היה 27 ואחר היה 38. אולי שלושת האנשים האלה פשוט היו רגועים יותר מלכתחילה. אולי שש אנשים אחרים היו נותנים תמונה אחרת לגמרי.

זו השאלה המרכזית של כל מבחן סטטיסטי: ההבדל שאני רואה הוא ראיה נגד "אין כלום", או שזה רעש שנובע מהמדגם הקטן?

השאלה שה-p-value עונה עליה

ה-p-value לא אומר אם ההשערה שלך נכונה. הוא לא מודד את גודל האפקט. הוא עונה על שאלה אחת מאוד ספציפית:

אם נניח לרגע שאין שום הבדל אמיתי בין הקבוצות, מה ההסתברות לקבל תוצאת מבחן קיצונית לפחות כמו זו שקיבלתי?

שימי לב למבנה. אנחנו לא שואלות "מה הסיכוי שמיינדפולנס עובד". אנחנו שואלות את ההפך: מניחות שהוא לא עובד, ובודקות כמה סביר שנקבל תוצאה כמו שלנו, או קיצונית יותר. אם התשובה היא "ממש לא סביר", זה ראיה נגד ההנחה שאין הבדל. זה לא הוכחה שההשערה המחקרית נכונה. זה אומר שקשה להחזיק את "אין כלום" מול הנתונים שראינו.

מאיפה המספר מגיע

אנחנו מריצות t-test. הוא מחשב ערך t: ההבדל בין הממוצעים, חלקי שגיאת התקן של ההפרש (SE). שגיאת התקן אומדת עד כמה ההפרש בין הממוצעים נוטה להשתנות מדגימה לדגימה. במדגמים קטנים היא גדולה. במדגמים גדולים היא קטנה.

במקרה שלנו, סטיית התקן המאוחדת של שתי הקבוצות יוצאת s_p ≈ 5.10, ושגיאת התקן יוצאת SE ≈ 4.16. ההבדל בין הממוצעים הוא 10. מחלקות: |t| = 10 / 4.16 ≈ 2.40.

אחרי שיש t, משווים אותו להתפלגות t עם 4 דרגות חופש (df = n₁ + n₂ − 2). שני זנבות, כי השאלה דו-צדדית: כל הבדל גדול, בכל כיוון, נספר.

התפלגות t עם השטח של ה-p-value מסומן באדום בשני הקצוות

העקום הכחול הוא כל ערכי ה-t האפשריים בעולם שאין בו אפקט. רוב הערכים מתרכזים סביב אפס. ערכים קיצוניים, חיוביים או שליליים, נדירים.

השטח האדום בשני הקצוות, מעבר ל-|t| = 2.40, הוא ה-p-value: 7.4%.

מתוך כל התוצאות האפשריות בעולם שבו אין אפקט, ב-7.4% מהפעמים היינו מקבלות תוצאה קיצונית כמו שלך, או יותר.

אז למה התוצאה "לא מובהקת"

הסף המקובל הוא p < 0.05. התוצאה שלנו, p = 0.074, לא עוברת אותו. בשפה הסטטיסטית: לא מובהק.

זה לא אומר שמיינדפולנס לא עובד. זה לא אומר שאין הבדל. זה אומר דבר אחד: עם שלושה אנשים בכל קבוצה והפיזור שיש, אין מספיק ראיות נגד "אין הבדל". הנתונים לא חד-משמעיים מספיק לחצות את הסף.

וזה מוביל אותנו לנקודה שבאמת שווה לזכור.

אותו הבדל, תשובה אחרת לגמרי

אותם ממוצעים בדיוק (32 ו-42). אותן סטיות תקן בדיוק (5.57 ו-4.58). אותו פיזור בתוך כל קבוצה. רק 30 בכל קבוצה במקום 3.

השוואה: n=3 לא מובהק, n=30 מובהק מאוד

בצד שמאל, המצב שלנו: |t| = 2.40, p = 0.074. לא מובהק. בצד ימין, אותם ממוצעים ואותו פיזור, רק עם 30 בכל קבוצה: |t| = 7.60, p < 0.001. מובהק מאוד.

מה השתנה? רק כמות האנשים. שגיאת התקן התכווצה מ-4.16 ל-1.32. עם 30 אנשים בכל קבוצה, הרבה יותר קשה להסביר הבדל של 10 נקודות במקרה. הנתונים מדברים בקול ברור יותר. הם לא "אמיתיים יותר" משל המדגם הקטן. רק יציבים יותר.

זו אולי התובנה הכי חשובה במאמר הזה: ה-p-value לא מודד את גודל האפקט. הוא מודד עד כמה האות בולט מתוך הרעש, בהתחשב במדגם שיש לך. אפקט גדול עם מדגם קטן יכול לעבור את הסף או לא לעבור. אפקט זעיר עם מדגם ענק יעבור אותו בקלות.

מה לקחת מפה לעבודה שלך

כשאת רואה p קטן ליד אחת ההשערות שלך, עכשיו את יודעת מה המספר אומר. הוא לא אומר שההשערה "נכונה". הוא אומר שעם המדגם שיש לך, קשה להסביר את הנתונים בהנחה שאין אפקט.

אם ה-p גבוה? זה לא כישלון. זה אומר שאין מספיק ראיות נגד "אין כלום". יכול להיות מדגם קטן. יכול להיות פיזור גדול. יכול להיות אפקט אמיתי קטן. יכול להיות שאין שום אפקט. ה-p לבדו לא מבחין בין האפשרויות האלה.

דווחי את הערך המדויק. כתבי p = 0.074, לא רק "לא מובהק". כשהערך זעיר מאוד, מקובל לכתוב p < 0.001 במקום עשרוני ארוך. ובמאמר הבא נדבר על מה ש-p לא יכול להגיד לך, גם כשהוא נמוך: גודל האפקט.

רוצה את זה כבר מאחורייך?

שולחים נתונים ומתודולוגיה, מקבלים דוח ממצאים מלא תוך 48 שעות.