רווח סמך 95%: לא רק האם, אלא כמה

אחיה בוטמן
אחיה בוטמן
5 דקות קריאה

המנחה כתב לך בשולי הטיוטה: "תכלולי גם רווחי סמך, לא רק p-value." את חוזרת לתוצאות שלך, רואה את ה-p-value, רואה משהו ב-SPSS שכתוב "95% Confidence Interval" עם שני מספרים בסוגריים, ולא לגמרי מבינה למה הוא מבקש את זה בנוסף. זה לא אותו דבר?

ההבדל בין שני הדיווחים הוא לא דקדוק. הם עונים על שתי שאלות שונות, וכל אחד מספר משהו שהשני לא מספר.

מה p-value עושה, ומה הוא לא

p-value עונה על שאלה אחת ספציפית: בהנחה שאין שום הבדל באוכלוסייה, מה הסיכוי לקבל תוצאה לפחות קיצונית כמו זאת שקיבלת? הוא סיכום של הראיות מול השערת אפס, שבפרקטיקה רוב החוקרים מצמצמים אותו להחלטה אחת: מובהק או לא מובהק.

הבעיה היא שזה כל מה שאפשר להפיק ממנו. הוא לא מספר לך כמה גדול ההבדל באמת באוכלוסייה. הוא לא מספר לך כמה את בטוחה בהערכה הזאת. p-value מכווץ את כל הסיפור לדיכוטומיה: הנתונים שלך עקביים עם השערת אפס או לא עקביים איתה. השאלה כמה גדול ההפרש, אם הוא קיים, נשארת פתוחה.

רווח סמך מחזיר לך את שני הדברים שהושמטו: הגודל המוערך, וגבולות אי-הוודאות סביבו.

הדוגמה

נניח שאת בודקת התערבות חדשה לייעול תכנון השיעורים. דגמת 30 מורות, מדדת לכל אחת כמה שעות בשבוע השקיעה בתכנון לפני ההתערבות, העברת את הסדנה, ומדדת שוב אחרי. אותן מורות, פעמיים. תכנון מזווג קלאסי.

הממוצעים: לפני M = 13.40, SD = 3.27, אחרי M = 10.41, SD = 5.94. אבל המבחן המזווג לא מסתכל על שני הממוצעים האלה ישירות. הוא מחשב לכל מורה את ההפרש האישי בין לפני לאחרי, ועובד על 30 ההפרשים האלה: M = 2.98, SD = 4.04, SE = 0.738. מתוך אלה מתקבלים גם הסטטיסטיקה וגם רווח הסמך.

t(29) = 4.04, p < .001, 95% CI [1.48, 4.49]

ה-p-value אומר שהנתונים שלך לא עקביים עם השערה שאין שום הבדל. אם בעצם אין השפעה באוכלוסייה, הסיכוי לקבל הפרש כל כך קיצוני הוא פחות מאחד מאלף. בסדר. הצלחת.

השאלה שעוד לא נענתה: בכמה?

מה רווח הסמך אומר

הצמד [1.48, 4.49] הוא טווח של ערכי השפעה שעקביים עם הנתונים שלך, תחת הנחות המודל. ערכים שנמצאים בתוך הטווח לא נדחים על ידי המבחן. ערכים מחוץ לו, כן. זה מה שרווח הסמך אומר, ובדיוק את זה.

1.48 שעות בשבוע: זה הגבול התחתון. ערכי השפעה קטנים יותר ממנו לא נתמכים היטב על ידי הנתונים תחת המודל. הקצה הנמוך ביותר של תחום ההשפעה שעקבי עם הנתונים הוא עדיין שעה וחצי חיסכון בשבוע, וזה לא מספר זניח עבור מורה.

4.49 שעות בשבוע: זה הגבול העליון. השפעות גדולות מהערך הזה גם הן לא מתיישבות היטב עם הנתונים. ארבע וחצי שעות חיסכון הן השפעה גדולה מאוד, וזה הקצה העליון של מה שהמחקר תומך בו.

הטווח עצמו, מ-1.48 עד 4.49, מתאר את אי-הוודאות שבהערכה. הוא אומר: השפעה אמיתית בין שעה וחצי לארבע וחצי שעות חיסכון בשבוע עקבית עם הנתונים. זה דיווח שמורה אחרת, או מנהלת בית ספר, יכולה לעבוד איתו.

שלושים סימנים אנכיים על ציר אופקי, כל סימן הוא ההפרש האישי של מורה אחת. נקודה כחולה גדולה ב-2.98 מסמנת את הממוצע. מתחתיה קטע אופקי מ-1.48 עד 4.49 מסומן כ-95% רווח סמך.

איך לקרוא את שני הקצוות

כשאת מסתכלת על רווח סמך, את שואלת שתי שאלות:

האם הוא כולל את אפס? אם כן, אפס הוא ערך עקבי עם הנתונים שלך, ולא ניתן לשלול שאין השפעה באוכלוסייה. אם לא, אפס לא נמצא בתוך הטווח, וההפרש שמצאת רחוק מאפס בכיוון מוגדר. בכל הנוגע לשאלה הצרה הזאת בלבד (האם אפס בפנים או בחוץ), כשמדובר במבחן דו-צדדי באותה רמת מובהקות (.05) ועל אותו מודל, רווח של 95% שאינו כולל אפס שקול ל-p < .05. מעבר לזה, רווח הסמך אומר משהו שה-p-value לא אומר: באיזה תחום של ערכים מדובר.

כמה הוא רחב? רווח צר אומר שיש לך הערכה מדויקת. רווח רחב אומר שהמדידה שלך לא הכריעה הרבה. ייתכן שהמדגם קטן מדי, ייתכן שהשונות בין משתתפות גדולה, ייתכן ששניהם.

אותה התערבות, אוכלוסייה רועשת יותר

נניח שמורה אחרת ערכה את אותה סדנה ב-30 מורות, אבל באוכלוסייה שלה השונות בין מורות הייתה הרבה יותר גדולה. חלקן שינו את שגרת התכנון שלהן בצורה דרמטית, חלקן בקושי. הנתונים שלה יצאו רועשים: M = 1.06, SD = 11.70 בהפרשים. גם הממוצע אצלה נראה אחרת, וזה חלק מהסיפור: כששונות הנתונים גדולה, ההערכה של הממוצע פחות יציבה ממדגם למדגם. אותה התערבות יכולה להניב כאן 1, שם 4, ובמקום אחר 6. הרעש פוגע גם בדיוק של ההערכה הנקודתית וגם ברוחב של רווח הסמך, ובסיפור שהוא יספר.

t(29) = 0.50, p = .62, 95% CI [-3.31, 5.43]

שני קטעים אופקיים. למעלה, מחקר א בכחול, ממוצע 2.98 ורווח [1.48, 4.49] רחוק מאפס. למטה, מחקר ב בכתום, ממוצע 1.06 ורווח [-3.31, 5.43] שכולל את אפס.

הפעם הרווח כולל את אפס. במילים אחרות: הנתונים שלה עקביים גם עם תרחיש שבו ההתערבות מורידה כמה שעות תכנון, וגם עם תרחיש שבה היא מוסיפה. p-value אצלה הוא 0.62. לא מובהק.

השאלה שמתבקשת היא לא "האם ההתערבות לא עבדה." אלא: הנתונים פשוט לא הספיקו כדי להכריע. רווח של כמעט תשע שעות, מ--3.31 עד 5.43, הוא לא תשובה. הוא יד שאומרת "אני לא יודעת." החוכמה בלראות את זה ככה היא לא לכתוב "לא נמצאה השפעה". לכתוב "המחקר לא היה ברמת דיוק שמאפשרת להכריע." זה הבדל גדול מבחינה מתודולוגית.

איך לדווח את זה בעבודה

ברגע שיש לך גם p-value וגם רווח סמך, יש לך מה לכתוב. הנוסחה הסטנדרטית בפסקת התוצאות נראית כך:

"ההתערבות הביאה לחיסכון מובהק בזמן התכנון השבועי (t(29) = 4.04, p < .001), עם הפרש ממוצע של 2.98 שעות ורווח סמך של 95% של [1.48, 4.49] שעות. ערכי השפעה בטווח זה עקביים עם הנתונים."

הפסקה הזאת מספרת ארבעה דברים בבת אחת: שיש אפקט, מה גודלו המוערך, מה גבולותיו, ובאיזו רמת ביטחון. את לא משאירה לקורא לחפש בין השורות.

אם הרווח אצלך כולל את אפס, הניסוח שונה אבל לא פחות לגיטימי:

"לא נמצאה עדות מובהקת להשפעת ההתערבות (t(29) = 0.50, p = .62), עם רווח סמך של 95% של [-3.31, 5.43] שעות. הרווח כולל את אפס, ובאותה נשימה גם ערכים גבוהים יחסית. שילוב זה מצביע על כך שהמדגם הנוכחי לא היה ברמת דיוק שמאפשרת להכריע, ויש מקום לשקול מחקר המשך עם n גדול יותר או עם שונות קטנה יותר בהפרשים האישיים."

זה דיווח אחראי. לא מתחבא מאחורי "לא מובהק". מספר את האמת על מה שהמחקר יכול ולא יכול להגיד.

מה לקחת מפה

שני המספרים שב-SPSS, או ב-R, או בכל מנתח אחר, ליד ה-p-value, הם לא קישוט. הם החצי השני של הסיפור. ה-p-value אומר אם הנתונים עקביים עם אפס, רווח הסמך אומר במרחב של איזה ערכים. כשמנחה מבקשת את שניהם, היא מבקשת ממך לדווח גם האם וגם כמה.

וכשהרווח שלך רחב, או כולל אפס, או שניהם, זה לא כישלון של המחקר. זה נתון. עבודת תזה שמדווחת בכנות שהמחקר לא הכריע היא עבודה ברמת מתודולוגיה גבוהה יותר מעבודה שכותבת "לא נמצאה השפעה" ועוצרת.

רוצה את זה כבר מאחורייך?

שולחים נתונים ומתודולוגיה, מקבלים דוח ממצאים מלא תוך 48 שעות.