איזה מבחן להריץ? שלוש שאלות שמסמנות את הדרך

הנתונים שלך נקיים. ניקית, קודדת, בדקת ערכים חסרים, ויש לך קובץ מסודר. יש לך גם שאלת מחקר ברורה. ובכל זאת את תקועה על השאלה שנראית כאילו כל התואר תלוי בה: איזה מבחן אני בכלל מריצה?
שמעת את המשפטים המפחידים. "זה המבחן הלא נכון." "אי אפשר להריץ t-test על נתונים כאלה." הם נשמעים כמו אזהרה מוקדמת לכך שאת עומדת לעשות טעות שתעלה לך בוועדה, ואת לא בטוחה איך בכלל יודעים מראש מה ה"נכון".
אז נתחיל מהדבר החשוב ביותר. בחירת מבחן היא לא טבלת חיפוש שמחזירה תשובה אחת מחייבת. אין כפתור שמכריז "המבחן שלך הוא X ואין בלתו". מה שכן יש זה כמה שאלות, ושאלה אחר שאלה הן מצמצמות את השדה. מ-40 מבחנים אפשריים את מגיעה לשניים-שלושה מועמדים סבירים. ההכרעה הסופית ביניהם נשענת על שאלת המחקר ועל ההנחות של הנתונים, לא על ברירת מחדל נוקשה. השאלות לא מכתיבות. הן מסמנות את הדרך.
שלוש שאלות, בסדר הזה.
שאלה ראשונה: מה את בעצם שואלת?
זה המזלג הראשון, והוא גס בכוונה. כמעט כל שאלת מחקר כמותית נכנסת לאחת משלוש משפחות:
השוואה בין קבוצות. "האם המורות שעברו את ההתערבות שונות מאלה שלא?" יש לך קבוצות, ואת רוצה לדעת אם הן נבדלות במשהו.
קשר בין משתנים. "האם ככל שרמת השחיקה גבוהה יותר, כך תחושת המסוגלות נמוכה יותר?" אין כאן קבוצות, יש שני דברים שאת מודדת ורוצה לדעת אם הם נעים יחד.
חיזוי של תוצאה. "האם ותק, גיל ועומס יכולים לנבא את ציון השחיקה?" כמה משתנים שמנבאים, ומשתנה אחד שאת רוצה לחזות.
שימי לב למילה "קשר" ולמילה "חיזוי". מתאם בין שני משתנים שנמדדו באותו זמן הוא קשר, לא הוכחה שאחד גורם לשני. גם רגרסיה, כשהתכנון אינו ניסויי, מתארת ניבוי סטטיסטי ולא סיבתיות. את בוחרת מבחן לפי סוג השאלה, אבל את מנסחת את המסקנה לפי סוג התכנון.
שאלה שנייה: מה סוג המשתנה התלוי?
אחרי שזיהית את משפחת השאלה, המשתנה שעליו את עונה (המשתנה התלוי, התוצאה) קובע את ענף המשנה. כאן נכנס סולם המדידה של המשתנה, וזה אולי הגורם היחיד שהכי משנה את ההמשך.
בקירוב גס, ומדובר בנקודת התחלה ולא בחוק:
משתנה תלוי רציף (מרווח או יחס), כמו ציון שחיקה או ממוצע סולם, פותח בדרך כלל את הדלת למבחנים מבוססי ממוצעים. משתנה סדר (Likert בודד, דירוג), או רציף שמפר נורמליות בצורה משמעותית, מפנה לרוב למבחנים מבוססי דירוגים. משתנה קטגוריאלי (כן/לא, סוג בית ספר), שאי אפשר לחשב עליו ממוצע במובן הרגיל, מפנה למבחנים מבוססי שכיחויות.
זה לא מוחלט. סולם Likert מחובר מ-20 פריטים מתנהג לרוב כמו רציף בקירוב סביר, וזאת בדיוק נקודה שתלויה בנתונים שלך ובמה שמקובל בתחום שלך, לא בכלל אחיד.
כדאי גם להפריד בין שני דברים שמתערבבים בקלות. סולם המדידה של המשתנה התלוי קובע אילו משפחות מבחנים בכלל רלוונטיות. נורמליות, לעומת זאת, נבדקת על ההתפלגות בתוך הקבוצות או על שאריות המודל, לא על המשתנה הגולמי. ולכן משתנה רציף שיוצא קצת לא נורמלי לא עובר אוטומטית למבחן דירוגים. לפעמים המבחן הפרמטרי עדיין מתאים, ולפעמים יש פתרון פרמטרי אחר.
המפה: מהשאלה אל קומץ מועמדים
הטבלה הזו היא לב העניין. כל שורה היא מסלול נפוץ, נקודת התחלה סבירה, לא גזירת דין. הקליקי על המבחן כדי לקרוא עליו לעומק.
| השאלה | המשתנה התלוי | מבנה ההשוואה | מבחן נפוץ כנקודת התחלה |
|---|---|---|---|
| השוואת קבוצות | רציף | 2 קבוצות בלתי תלויות | t למדגמים בלתי תלויים |
| השוואת קבוצות | סדר / לא נורמלי | 2 קבוצות בלתי תלויות | Mann-Whitney |
| השוואת קבוצות | רציף | 2 מדידות על אותם נבדקים | t מזווג |
| השוואת קבוצות | סדר / לא נורמלי | 2 מדידות על אותם נבדקים | Wilcoxon signed-rank |
| השוואת קבוצות | רציף | 3+ קבוצות בלתי תלויות | ANOVA חד-כיוונית |
| השוואת קבוצות | סדר / לא נורמלי | 3+ קבוצות בלתי תלויות | Kruskal-Wallis |
| השוואת קבוצות | רציף | 3+ מדידות על אותם נבדקים | ANOVA במדידות חוזרות |
| השוואת קבוצות | סדר / לא נורמלי | 3+ מדידות על אותם נבדקים | Friedman |
| קשר בין משתנים | שני משתנים רציפים | זוג ערכים לכל נבדקת | Pearson או Spearman |
| קשר בין משתנים | שני משתנים קטגוריאליים | טבלת שכיחויות | חי בריבוע לאי-תלות |
| חיזוי תוצאה | תוצאה רציפה | מנבא אחד או יותר | רגרסיה לינארית |
| חיזוי תוצאה | תוצאה בינארית (כן/לא) | מנבא אחד או יותר | רגרסיה לוגיסטית |
| חיזוי תוצאה | תוצאה סדר (נמוך/בינוני/גבוה) | מנבא אחד או יותר | רגרסיה אורדינלית |
השוואת קבוצות: כמה, ואותם אנשים או לא
בתוך משפחת ההשוואה, שתי שאלות ממשיכות לצמצם. כמה קבוצות, ושתי הקבוצות הן אנשים שונים (בלתי תלויות) או אותם אנשים שנמדדו פעמיים (מזווגות).
שתי קבוצות של אנשים שונים, משתנה רציף, וההנחות מתקיימות בקירוב סביר: t בלתי תלוי הוא נקודת התחלה מקובלת. אותן נבדקות שנמדדו לפני ואחרי: t מזווג. כשהמשתנה סדר או חורג מנורמליות בצורה משמעותית, החלופות מבוססות הדירוגים (Mann-Whitney לבלתי תלויות, Wilcoxon למזווגות) מתאימות לרוב יותר.
שלוש קבוצות ומעלה פותחות את משפחת ה-ANOVA. אם ה-ANOVA יוצאת מובהקת, היא אומרת לך שיש הבדל איפשהו, ואז מבחני המשך בודקים אילו זוגות נבדלים. יש כאן ענפים נוספים שכדאי להכיר: תכנון מעורב כשיש גם קבוצה (התערבות מול ביקורת) וגם זמן (לפני ואחרי), ו-ANCOVA כשאת רוצה להשוות קבוצות תוך תיקון למשתנה רקע כמו ותק.
קשר בין שני משתנים
שני משתנים רציפים: מתאם, וההכרעה בין Pearson ל-Spearman נשענת על הסולם ועל הצורה, לא על העדפה. שני משתנים קטגוריאליים: חי בריבוע לאי-תלות, ואם השכיחויות הצפויות בתאים קטנות מאוד, מבחן פישר המדויק מתאים יותר. משתנה בינארי שנמדד פעמיים על אותם אנשים (לפני/אחרי, כן/לא): מבחן McNemar.
חיזוי תוצאה: משפחת הרגרסיה
כשהשאלה היא ניבוי או הסבר של תוצאה מתוך כמה מנבאים, סוג התוצאה קובע את סוג הרגרסיה. תוצאה רציפה מובילה לרגרסיה לינארית מרובה כשיש כמה מנבאים. תוצאה בינארית (השלימה את התואר או לא) מובילה לרגרסיה לוגיסטית. תוצאה סדר (רמת שחיקה נמוכה, בינונית, גבוהה) לרגרסיה אורדינלית.
שער ההנחות: זה שמכריע בין שני המועמדים
עד עכשיו השאלות הביאו אותך לקומץ מועמדים. השער האחרון, זה שלרוב מטה את הבחירה בין הגרסה הפרמטרית לחלופה, הוא ההנחות. וזה בדיוק המקום שבו "המבחן הנכון" אינו תכונה של התכנון בלבד אלא של הנתונים שלך.
המסלול הפרמטרי (t, ANOVA, רגרסיה לינארית) נשען על הנחות. נורמליות של השאריות או של ההפרשים, ומה לעשות כשנורמליות נדחית. שוויון שונויות בין הקבוצות, שנבדק לרוב במבחן Levene. וברגרסיה, אגד שלם של הנחות שכדאי לבדוק.
נקודה אחת ששווה לשמור קרוב. מבחן הנחות שיוצא לא מובהק אינו הוכחה שההנחה מתקיימת. הוא רק אומר שלא נמצאה עדות חזקה מספיק נגדה במדגם הזה. היעדר עדות נגד ההנחה אינו עדות בעד ההנחה. לכן הסתכלות על צורת ההתפלגות, על גודל המדגם ועל חריגים שווה לפחות כמו ה-p-value של מבחן ההנחות. והפרת הנחה לא תמיד שולחת ישר למבחן לא-פרמטרי. לפעמים פתרון פרמטרי כמו Welch, שמתאים לשונויות לא שוות, עונה טוב יותר.
מה לקחת מפה
אין עץ שצריך לשנן. יש שלוש שאלות, ואת שואלת אותן בסדר: איזה סוג שאלה (השוואה, קשר, חיזוי), מה סוג המשתנה התלוי, ומה מבנה ההשוואה. שלוש התשובות מצמצמות אותך לקומץ מועמדים, וההנחות עוזרות להכריע בין הפרמטרי ללא-פרמטרי.
שימי לב שבכל ענף היו "בדרך כלל" ו"נקודת התחלה". זה לא רכות מילולית. זה התוכן עצמו. מבחן הוא בחירה מתודולוגית שנגזרת מהשאלה ומהנתונים, לא פלט של מכונה. כשתדעי לנמק למה בחרת את מה שבחרת, השאלה "זה המבחן הנכון?" כבר לא מאיימת, כי יש לך תשובה.
וכשהמבחן רץ והתוצאה לפנייך, נשארת מלאכה אחת: לכתוב אותה נכון. על זה נדבר בדיווח התוצאות בעבודה.