המנחה אמר "המחקר שלך underpowered". מה זה אומר?

המנחה החזיר לך את הצעת המחקר עם הערה שלא ידעת איך לקרוא. "המחקר שלך underpowered". את לא בטוחה אם זה אומר שהמחקר פסול, שצריך להגדיל את המדגם, או שזו הערה שאפשר לעקוף בכמה משפטים בפרק המתודולוגיה. ואת חוששת שכל אחת מהאפשרויות תפיל לך את הלוחות זמנים.

הכוח הסטטיסטי הוא הכלי שעוזר לך להבין מה בדיוק אמרו לך, ומה אפשר לעשות עם זה. הוא לא פסק דין, הוא מד.

מה כוח סטטיסטי באמת אומר

הכוח הסטטיסטי הוא ההסתברות לזהות אפקט אמיתי כשהוא קיים. אם המחקר שלך בנוי כך שיש לו כוח של 0.80, זה אומר שאם באמת יש הבדל באוכלוסייה בגודל שאת מצפה לו, יש לך 80% סיכוי שתקבלי תוצאה מובהקת. כוח של 0.50 אומר שאת זורקת מטבע. כוח של 0.30 אומר שסביר שלא תזהי אפקט בגודל שאת מצפה לו, גם אם הוא באמת קיים. אפקטים גדולים יותר עדיין עשויים להופיע, אבל את המחקר את לא בנית בשבילם.

הכוח תלוי בארבעה גורמים, כל אחד מהם בשליטתך במידה שונה:

גודל המדגם (N). הגדול ביותר בשליטה.
גודל האפקט שאת מצפה לו (Cohen's d, d_z, r וכד'). זה לא משתנה שבחרת, זה הערכה תיאורטית. כן בשליטתך לבחור מחקרים מקדימים סבירים.
רמת המובהקות (α). כמעט תמיד 0.05. לא משחקים איתה.
תכנון המחקר (מזווג מול בלתי-תלוי, מספר משתנים מבוקרים, וכו'). תכנון יעיל מעלה כוח בלי להגדיל את המדגם.

הדוגמה

נניח שאת חוקרת התערבות חדשה לצמצום שחיקה אצל מורות. את מתכננת תכנון מזווג: 20 מורות, מדידה לפני ההתערבות ומדידה אחרי. את מצפה לאפקט בגודל בינוני, d_z = 0.50, על סמך מחקרים דומים בספרות.

כמה כוח יש למחקר הזה?

power = 0.57

זה אומר שגם אם ההתערבות שלך עובדת בדיוק כמו שצפית, יש לך 57% סיכוי לקבל תוצאה מובהקת. ב-43% מהמקרים, ההתערבות תעבוד אבל ה-p-value שלך יישב מעל 0.05, ויהיה קשה לדווח על המחקר כהצלחה. זאת לא כשלון של ההתערבות. זה מחסור בעדים.

עקומת כוח של מבחן t-מזווג עם גודל אפקט d_z=0.5 ורמת מובהקות 0.05 דו-צדדית. ציר ה-X גודל מדגם 5 עד 100, ציר ה-Y כוח 0 עד 1. נקודה אדומה מסמנת את N=20 בכוח 0.57. קו אופקי מקווקו מסמן את הסף של 0.80, וקו אנכי מסמן שמדגם של 34 דרוש כדי להגיע לשם.

העקומה הזו היא המפה שלך. כל נקודה עליה היא תכנון אחר עם אותו אפקט צפוי. הנקודה האדומה היא איפה את עומדת היום.

שלוש דרכים לזוז על העקומה

דרך ראשונה, להגדיל את ה-N. בשביל להגיע לכוח של 0.80 בתכנון מזווג עם d_z = 0.50, את צריכה N = 34. זה תוספת של 14 מורות. אם זה ישים, זאת התשובה הכי נקייה.

דרך שנייה, להבין מה ה-N הקיים בכלל מסוגל לזהות. את מקובעת ב-N=20? הסתכלי על העקומה הפוכה: עם N=20 ו-α=.05, האפקט המינימלי שיש לך כוח של 0.80 לזהות הוא d_z = 0.66. זה אפקט בינוני-גדול. המחקר שלך מסוגל לזהות בקלות סבירה רק אפקטים בגודל הזה ומעלה. אפקטים קטנים יחמקו ממנו כמעט תמיד, ואפקטים בינוניים יזוהו רק בחלק מהמקרים. זאת לא דרך להגדיל את הכוח, זאת דרך לדעת בדיוק מה המחקר שלך נועד לזהות, וכך לכתוב פרק ממצאים שמדבר אמת על הגבולות של עצמו.

עקומת רגישות של מבחן t-מזווג עם N=20 ורמת מובהקות 0.05 דו-צדדית. ציר ה-X גודל אפקט d_z מ-0.05 עד 1.0, ציר ה-Y כוח 0 עד 1. נקודה אדומה מציגה את d_z=0.5 בכוח 0.57, וקו אנכי מקווקו מציין שהאפקט המינימלי לכוח 0.80 הוא 0.66.

דרך שלישית, תכנון יעיל יותר. אם היית מנהלת גרסה בלתי-תלויה של אותו מחקר עם 20 מורות בקבוצת התערבות ו-20 בקבוצת ביקורת (40 בסך הכל), הכוח שלך היה יורד ל-0.34. זה כפול מהמשתתפות בתכנון המזווג, ועדיין פחות כוח. תכנון מזווג מנצל את הקורלציה הפנימית בין שתי המדידות באותה משתתפת. בלתי-תלוי מאבד את האינפורמציה הזאת.

הערה טכנית: d_z במזווג ו-d בבלתי-תלוי הם לא בדיוק אותה מטריקה (הם מתוקנים לסטיות תקן שונות), כך שההשוואה כאן היא איכותית, לא חשבונאית מדויקת. עיקר העיקר נשאר: למדגם שיועיל לך תכנון מזווג, יידרש לעיתים קרובות מדגם בלתי-תלוי גדול בהרבה כדי להגיע לאותו כוח.

אם הצוות שלך כבר אסף נתונים בתכנון בלתי-תלוי, זה לא משהו שאפשר לתקן בדיעבד. אבל אם את עוד בשלב התכנון, זה השיקול הכי משמעותי שיכול לחסוך לך את ההבדל בין מחקר שעובד למחקר שלא.

מה כותבים על זה בפרק המתודולוגיה

אם המנחה הצביע על underpowered בשלב התכנון, את עוד יכולה לפעול. כתבי במפורש את חישוב הכוח שעשית, את גודל האפקט שעליו ביססת את החישוב, ולמה בחרת אותו. תוסיפי משפט שמבהיר שאת מודעת למגבלה ושההסקה שלך תהיה מותנית בה.

אם איסוף הנתונים כבר מאחורייך והמדגם הקטן הוא עובדה, השיקול שונה. בעיקרון, חישוב כוח בדיעבד על תוצאה לא מובהקת הוא מהלך בעייתי, כי הוא לא נותן לך אינפורמציה חדשה: הכוח המחושב מתוך גודל האפקט שנצפה בפועל פשוט משחזר את ה-p-value בשפה אחרת. במקום זה, דווחי על האפקט המינימלי שהמחקר שלך היה רגיש אליו (sensitivity), ולא על הכוח שהיה לאפקט שלא נמצא. זה שונה.

זהירות: כוח נצפה (observed / post-hoc power). חישוב הכוח אחרי שקיבלת תוצאה לא מובהקת, מתוך גודל האפקט שנמדד בפועל, לא מסביר את ה-p-value ולא מוסיף עליו דבר. הוא מעגלי: כוח נצפה נמוך ו-p לא מובהק הם שתי דרכים לומר את אותה אמירה על אותם נתונים. הוא גם לא ראיה לכך שאין אפקט. במקום זה פני אל ניתוח רגישות (sensitivity), אל האפקט המינימלי שהמחקר שלך היה מסוגל לזהות, או אל רווח הסמך לאפקט שכן נצפה. שלושתם נקבעים מהתכנון, לא מהתוצאה, ולכן הם אומרים משהו אמיתי על גבולות הכלי שלך.

מה עושים עכשיו. השאלה הראשונה היא איפה את עומדת ביחס לאיסוף הנתונים. לפני האיסוף: הכוח הוא עדיין בשליטתך, אז הגדילי את ה-N או ייעלי את התכנון עד שהמספר יעמוד בציפייה שלך. אחרי האיסוף: הכוח כבר נקבע ולא ניתן לתקן אותו בדיעבד, אז דווחי רווח סמך וניתוח רגישות, ואל תטעני יותר ממה שהראית, בפרט אל תהפכי תוצאה לא מובהקת ל'אין אפקט'.

הניסוח שעובד טוב במצב הזה: "המחקר תוכנן לזהות אפקטים בגודל d_z ≥ 0.66 בכוח של 0.80. אפקטים קטנים מזה יכלו להישאר לא מזוהים. הממצא הלא מובהק עולה בקנה אחד גם עם היעדר אפקט וגם עם אפקט קטן באוכלוסייה."

בנוסף, דווחי גם רווח סמך לאפקט שכן נצפה בנתונים. רווח הסמך מראה אילו גדלי אפקט עדיין עולים בקנה אחד עם מה שמדדת בפועל, והוא משלים את ניתוח הרגישות. שניהם יחד נותנים לוועדה תמונה מלאה: מה ראית, ומה היה ניתן לראות. (ועל איך לכתוב על תוצאה לא מובהקת, ראי את הפוסט "התוצאה לא יצאה מובהקת: איך לדווח על זה נכון".)

הניסוח הזה מקבל אחריות בלי להתחנן על המחקר. הוא גם מאפשר לוועדה לדעת מה היה ניתן לזהות, ולא משאיר אותם להניח שהמדידה לא הראתה כלום.

בקיצור

"underpowered" אינו אבחנה רפואית. זה מד. הוא אומר לך מה הסיכוי שלך לקבל תוצאה מובהקת אם ההשערה שלך נכונה. תרגמי את זה למספר, החליטי אם המספר עומד בציפייה שלך, ובחרי איך לזוז: או להגדיל את ה-N, או לחשוב מחדש על תכנון המחקר, או להבין את הסקופ שלמחקר שלך כן יש כוח לזהות ולדווח עליו במפורש.

וכשאת כותבת את הפרק, אל תחביאי את הכוח. את יכולה לשמור עליו אם תכתבי עליו במפורש.