המנחה אמר "אסור לחשב ממוצע על המשתנה הזה": ארבעת סולמות המדידה

אחיה בוטמן
אחיה בוטמן
6 דקות קריאה

המנחה הסתכל על הטבלה שלך ואמר משפט שנשמע פשוט: "את לא יכולה לחשב ממוצע על המשתנה הזה." או אולי: "זה משתנה אורדינלי, אסור להריץ עליו את המבחן הזה." הנהנת, רשמת, חזרת הביתה. ואז ישבת מול הנתונים שלך וחשבת: רגע, זה עמודה של מספרים. אני רואה את המספרים. למה פתאום אסור לי לחשב עליהם ממוצע?

ויש עוד דבר. ב-SPSS, בלשונית Variable View, יש עמודה ששמה Measure, ובה שלוש אפשרויות: Nominal, Ordinal, Scale. את כנראה לחצת עליהן פחות או יותר באקראי, כי אף אחד לא הסביר מה הן עושות.

הן עושות הרבה. הבחירה הזו, איזה סולם מדידה יש למשתנה, היא מה שמחליט בשקט אילו חישובים בכלל הגיוניים עליו, ולאן להתחיל כשבוחרים מבחן. בואי נלך דרך זה לאט.

השאלה האחת: מה המספרים באמת אומרים

כל ארבעת הסולמות נובעים משאלה אחת. כשאת כותבת מספר בתא בטבלה, מה המספר הזה מייצג? האם הוא רק תווית? האם יש לו סדר? האם המרחקים בין המספרים שווים? והאם יש לו אפס אמיתי? כל "כן" נוסף פותח עוד פעולה חשבונית שאפשר להצדיק.

כדי לראות את זה על נתונים, נשתמש בדוגמה קטנה: 40 מורות, עם ארבע עמודות. מגדר, בית ספר, שביעות רצון מההשתלמות בסולם 1-5, וותק בשנים. הנתונים האלה הומצאו עם זרע אקראי קבוע, כדי שהמספרים יהיו נקיים וניתנים לשחזור. נתונים אמיתיים תמיד מבולגנים יותר, אבל הרעיון נשאר.

סולם שמי (Nominal): המספרים הם רק שמות

בעמודת המגדר קידדת 1 לאישה ו-2 לגבר. את ה-1 וה-2 בחרת שרירותית. יכולת באותה מידה לקודד גבר כ-1 ואישה כ-2, או אישה כ-7. המספר הוא תווית, לא כמות.

עכשיו נראה למה הממוצע פה חסר משמעות. במדגם שלנו יש 23 נשים ו-17 גברים. אם תבקשי מ-SPSS ממוצע על עמודת המגדר, הוא ייתן לך mean = 1.43. המספר הזה אמיתי חישובית ושקרי מבחינה לוגית. מה זה "מגדר ממוצע של 1.43"? אין דבר כזה. אין אדם שהוא 43% מהדרך בין אישה לגבר. הממוצע הזה לא אומר כלום, כי הסדר בין 1 ל-2 כאן הוא מקרי.

מה כן הגיוני על סולם שמי? לספור. מדד המרכז המתאים הוא השכיח (mode), הקטגוריה הנפוצה ביותר. כאן השכיח הוא נשים, עם 23 מתוך 40 (57.5%). וכדאי תמיד לצרף לזה את פירוט השכיחויות המלא, לא רק את הקטגוריה המובילה. בעמודת בית הספר, שגם היא שמית (שלושה בתי ספר מקודדים 1/2/3), הפירוט הוא: בית ספר 1 עם 15 מורות (37.5%), בית ספר 2 עם 17 (42.5%), ובית ספר 3 עם 8 (20%). זאת התמונה השלמה של משתנה שמי.

סולם סדר (Ordinal): יש סדר, אין מרחקים שווים

עכשיו לעמודת שביעות הרצון. מורה דירגה את שביעות רצונה מההשתלמות בסולם של 1 (כלל לא מרוצה) עד 5 (מרוצה מאוד). כאן יש משהו שלא היה במגדר: סדר. 4 זה באמת יותר מ-3. מי שענתה 5 מרוצה יותר ממי שענתה 2. הסדר אמיתי.

אבל יש דבר אחד שאת לא יודעת. את לא יודעת שהמרחק בין 3 ל-4 שווה למרחק בין 1 ל-2. אולי הקפיצה מ"בינוני" ל"מרוצה" היא תהומית, והקפיצה מ"כלל לא" ל"מעט" קטנה. המספרים מסודרים, אבל הם לא סרגל. זה בדיוק מה שאומר "אורדינלי".

מדד המרכז הבטוח כאן הוא החציון (median), ולצדו השכיח. במדגם שלנו החציון של שביעות הרצון הוא 3.0, והשכיח גם הוא 3 (התשובה הנפוצה ביותר, 13 מורות). החציון הוא הערך האמצעי: סדרי את כל המורות לפי שביעות הרצון, והחציון הוא זה שעומד באמצע השורה. הוא לא מניח שום דבר על גודל המרחקים, רק שיש סדר.

תרשים עמודות של שכיחות שביעות הרצון בסולם ליקרט 1 עד 5: עמודה אחת ב-1, תשע ב-2, שלוש-עשרה ב-3, שתים-עשרה ב-4, וחמש ב-5. קו אנכי אדום מסמן את החציון 3.0 וקו ירוק מקווקו מסמן את הממוצע 3.27.

ומה עם הממוצע? כאן צריך לדבר בכנות, כי זו נקודת המחלוקת האמיתית. מבחינה חישובית הממוצע יוצא 3.27. הרבה חוקרים בחינוך ובמדעי החברה כן מחשבים ממוצע על פריטי ליקרט, במיוחד כשמדובר בציון מורכב שמחבר כמה פריטים יחד (למשל ממוצע של עשרה פריטי שביעות רצון), בתנאי שהפריטים באמת מודדים את אותו דבר, מה שבודקים עם מהימנות פנימית. זאת פרקטיקה מקובלת ולגיטימית בהקשרים רבים. הוויכוח הוא לא "מותר או אסור" באופן מוחלט, אלא על הפרשנות: כשאת מחשבת 3.27, את מתייחסת אל המרווחים בין הדרגות כאילו הם שווים, וזו הנחה שצריך להיות מודעת לה. על פריט בודד, החציון בטוח יותר. על ציון מורכב מהרבה פריטים, הממוצע נפוץ ומקובל. המנחה שלך אמר "אסור" כנראה כי הוא רצה שתתחילי מהזהיר. זו עמדה סבירה, אבל לא חוק טבע.

סולם רווח (Interval): מרחקים שווים, בלי אפס אמיתי

הסולם הבא מוסיף את מה שלאורדינלי חסר: מרחקים שווים. הדוגמה הקלאסית היא טמפרטורה במעלות צלזיוס. ההפרש בין 20° ל-21° זהה להפרש בין 30° ל-31°. מעלה אחת היא מעלה אחת בכל מקום על הסולם. כאן הממוצע הגיוני לחלוטין.

מה שעדיין חסר הוא אפס אמיתי. צלזיוס לא אומר "אין טמפרטורה", הוא רק נקודה מוסכמת (קיפאון המים). ולכן יחסים לא עובדים: 20° הוא לא "פי שניים חם" מ-10°. אפשר לחבר ולחסר על סולם רווח, אפשר לחשב ממוצע וסטיית תקן, אבל אי אפשר להגיד "פי שניים".

סולם יחס (Ratio): מרחקים שווים וגם אפס אמיתי

עמודת הוותק היא הסולם המלא. ותק נמדד בשנים, המרחקים שווים (שנה היא שנה), ויש אפס אמיתי: 0 שנות ותק אומר באמת "לא לימדה אף יום". זה משתנה יחס, וכאן כל הפעולות פתוחות.

אצלנו הוותק נע בין 1 ל-25 שנים. הממוצע M = 11.25 שנים, החציון 11.5, וסטיית התקן SD = 6.99. שימי לב שאת מדווחת מרכז וגם פיזור יחד. הממוצע לבדו אומר איפה האמצע, אבל לא כמה רחוקות זו מזו המורות. המספר היחיד אף פעם לא מספיק: מרכז בלי פיזור הוא חצי תמונה. ועל סולם יחס, בזכות האפס האמיתי, גם יחסים נכונים: מורה עם 20 שנות ותק באמת ותיקה פי שניים ממורה עם 10. רק כאן המשפט הזה הגיוני.

ארבעת הסולמות במבט אחד

הקושי האמיתי הוא להחזיק את כל הארבעה בראש בו-זמנית. הטבלה הזו עושה את זה:

הסולם מה המספרים אומרים דוגמה מדד מרכז מתאים מבחן טיפוסי
שמי (Nominal) תוויות בלבד, בלי סדר מגדר, בית ספר שכיח חי-בריבוע
סדר (Ordinal) מסודר, מרחקים לא ידועים שביעות רצון 1-5 חציון (ושכיח) Mann-Whitney, ספירמן
רווח (Interval) מרחקים שווים, בלי אפס אמיתי טמפרטורה ממוצע מבחן t, ANOVA
יחס (Ratio) מרחקים שווים וגם אפס אמיתי ותק, מספר תלמידים ממוצע מבחן t, רגרסיה

למה כל זה חשוב: הסולם מצביע על המבחן

זאת השורה התחתונה, וזו הסיבה שהמנחה עצר אותך. סולם המדידה של המשתנה הוא נקודת ההתחלה לבחירת המבחן הסטטיסטי. לא הכלל היחיד, אבל ההתחלה.

שני משתנים שמיים? בודקים קשר ביניהם עם מבחן חי-בריבוע, על טבלת שכיחויות. רוצה להשוות משתנה אורדינלי בין שתי קבוצות? מבחן Mann-Whitney, ולקשר בין שני משתנים אורדינליים מתאים מתאם ספירמן. משתנה תלוי שהוא רווח או יחס? נפתחת משפחת הכלים הפרמטריים: מבחן t, ANOVA, רגרסיה. ואם דווקא משתנה התוצאה שלך אורדינלי, יש כלי ייעודי, רגרסיה אורדינלית.

אל תתייחסי לזה כאל עץ החלטה נוקשה שמכתיב מבחן יחיד. צורת ההתפלגות, גודל המדגם, מבנה הנתונים, וכמובן ההנחה על הצורה הנורמלית, כולם משפיעים על הבחירה הסופית. הסולם הוא הצעד הראשון, זה שמצמצם את המגרש מעשרים מבחנים אפשריים לשלושה רלוונטיים.

אז בפעם הבאה שאת עומדת מול עמודה ב-SPSS ולא בטוחה מה ללחוץ ב-Measure, אל תלחצי באקראי. תשאלי את עצמך שאלה אחת: מה המספר הזה באמת אומר? תווית, סדר, מרחק, או כמות עם אפס אמיתי. התשובה היא חצי מהדרך לבחירת המבחן הנכון.

רוצה את זה כבר מאחורייך?

שולחים נתונים ומתודולוגיה, מקבלים דוח ממצאים מלא תוך 48 שעות.