יש לי 15 פריטים וצריך ציון אחד: ממוצע, סכום, או ציון גורם?

סיימת לאסוף נתונים. פתחת את קובץ ה-SPSS, ולפנייך טבלה: 120 שורות של סטודנטים, ובכל שורה 15 עמודות, Q1 עד Q15. אלה 15 הפריטים של שאלון המוטיבציה ללמידה שהעברת, כל אחד בסולם ליקרט מ-1 עד 5. שמונה הפריטים הראשונים מודדים מוטיבציה פנימית, שבעה הפריטים האחרונים מודדים מוטיבציה חיצונית.

ההשערה שלך מדברת על "מוטיבציה". לא על פריט 3 ולא על פריט 11. אבל בקובץ אין עמודה אחת שנקראת מוטיבציה. יש 15 עמודות. כדי להריץ מבחן t, מתאם, או רגרסיה, את צריכה מספר אחד לכל נבדקת לכל מושג. השלב הזה, מ-15 עמודות לציון אחד, חוסם אותך לפני שהתחלת בכלל לבדוק השערות. בואי נעבור אותו לאט.

מה בעצם את מנסה לבנות

הפעולה נקראת בניית ציון מרוכב (composite score). הרעיון פשוט: כל פריט בשאלון הוא מדידה רועשת ולא מושלמת של המושג. פריט בודד תופס רק פיסה ממנו, ומושפע גם מניסוח מקרי, מצב רוח רגעי, פרשנות אישית. כשאת מצרפת כמה פריטים לציון אחד, הרעש של פריט בודד מתקזז, ומה שמשותף לכולם, המושג עצמו, מתחזק.

לכן את לא בוחרת פריט "מייצג" אחד ולא מריצה את הניתוח 15 פעם. את מצרפת את הפריטים לציון אחד. השאלה היחידה שנשארת היא איך לצרף אותם, ועל זה בדיוק נדבר.

לפני הכול, נקודה אחת שאסור לפספס: אם יש בשאלון פריטים מנוסחים הפוך, צריך להפוך אותם לפני כל צירוף. פריט הפוך שלא הופך מושך את הציון לכיוון הלא נכון ושובר גם את המהימנות. לא נחזור על זה כאן, יש על כך מאמר נפרד על פריטים הפוכים. ההנחה בהמשך היא שכבר עברת את השלב הזה וכל הפריטים מצביעים לאותו כיוון.

ממוצע או סכום?

שתי הדרכים הנפוצות לצרף פריטים הן ממוצע וסכום. מבחינה מתמטית הן כמעט אותו דבר: הסכום שווה לממוצע כפול מספר הפריטים. אם הממוצע על 8 פריטים הוא 4.25, הסכום הוא 34. שני הציונים מתואמים בצורה מושלמת (r = 1.0), ולכן בניתוחים הנפוצים, כל עוד משתמשים באותם נבדקים ובאותם פריטים, הם יובילו לאותה מסקנה (אותו ערך p, אותו גודל אפקט). הסיבה פשוטה: הסכום הוא טרנספורמציה לינארית מושלמת של הממוצע, אותו ציון בקנה מידה אחר.

אז למה זה בכלל משנה? משנה בגלל הפרשנות והעמידות לחוסרים, לא בגלל הסטטיסטיקה.

	ממוצע פריטים	סכום פריטים
טווח הציון	נשאר 1 עד 5, כמו פריט בודד	משתנה לפי מספר הפריטים (8 עד 40)
פרשנות	"ממוצע 4.25 בסולם 1 עד 5" מובן מיד	"34" דורש לדעת שיש 8 פריטים
השוואה בין סולמות באורך שונה	אפשרית ישירות	לא אפשרית בלי תקנון
טיפול בחוסרים	מתקזז כמעט מעצמו (ראי בהמשך)	דורש תיקון ידני

הכלל המעשי: בעבודת תזה, ממוצע פריטים הוא ברירת המחדל הסבירה ברוב המקרים. הוא משאיר את הציון על אותו סולם 1 עד 5 שהמרואיינת הכירה, ומאפשר להשוות בין שני הסולמות שלך גם אם באחד 8 פריטים ובשני 7. הסכום שמור בעיקר למצב אחד: כשאת עובדת עם שאלון מתוקנן שיש לו ערכי חתך מפורסמים על הסכום (נפוץ בשאלונים קליניים), ואת רוצה להשוות את הנבדקת שלך לנורמות. אז את חייבת את הסכום, כי הנורמות מוגדרות עליו.

דוגמה מצורפת, שורה אחת מהקובץ

ניקח נבדקת אחת, ונסתכל על שמונת פריטי המוטיבציה הפנימית שלה (אחרי היפוך הפריטים ההפוכים):

פריט	1	2	3	4	5	6	7	8
תשובה	4	5	4	3	5	4	4	5

הסכום הוא 34. הממוצע הוא 34 חלקי 8, כלומר 4.25. זהו. זה הציון שייכנס לעמודה חדשה בקובץ, נקרא לה intrinsic_motivation, ועליו תריצי את הניתוחים. את חוזרת על אותו חישוב לכל 120 הנבדקות (ב-SPSS דרך Transform > Compute Variable עם הפונקציה MEAN), ובאותו אופן בונה את הציון השני, extrinsic_motivation, משבעת הפריטים האחרים.

תרשים עמודות של שמונה פריטי המוטיבציה הפנימית של נבדקת אחת (תשובות 4, 5, 4, 3, 5, 4, 4, 5 בסולם 1 עד 5), עם קו אופקי אדום המסמן את הממוצע 4.25. הסכום הוא 34.

עכשיו יש לך שתי עמודות במקום 15, ואת מוכנה לניתוח. לדוגמה, המתאם בין שני הסולמות יצא r = 0.34, 95% CI [0.17, 0.49] (n = 120). זה מתאם בעוצמה בינונית, וגם רווח הסמך כולו חיובי, כלומר שתי המוטיבציות נעות יחד במידה מתונה. שימי לב שזה קשר נצפה בלבד: אי אפשר להסיק ממנו שמוטיבציה אחת מחוללת את השנייה, רק שהן מתואמות במדגם הזה.

ההבדל שמתפוצץ דווקא כשחסר פריט

כאן נמצאת הנקודה שמבלבלת הכי הרבה אנשים, ושווה לעצור עליה. נניח שאותה נבדקת השאירה את פריט 8 ריק. נשארו לה 7 תשובות: 4, 5, 4, 3, 5, 4, 4.

אם את בונה את הציון בעזרת סכום, וה-SPSS מתייחס לתא הריק כאל אפס או פשוט מסכם את מה שיש, את מקבלת 29. שאר הנבדקות, שענו על כל 8 הפריטים, נמצאות סביב 34. הנבדקת הזאת תיראה פתאום נמוכה במוטיבציה, לא כי היא באמת נמוכה, אלא כי חסרה לה תשובה אחת. זאת הטיה שקטה ומסוכנת.

אם את בונה את הציון בעזרת ממוצע על הפריטים שכן נענו, את מקבלת 29 חלקי 7, כלומר 4.14. קרוב מאוד ל-4.25 המקורי. הממוצע "מתקנן את עצמו" אוטומטית לפי מספר הפריטים שזמינים, ולכן הוא הרבה יותר עמיד לחוסר בודד.

שני תרשימי עמודות זה לצד זה על אותה נבדקת, פעם עם כל 8 הפריטים ופעם כשפריט 8 חסר. בשיטת הסכום הציון צונח מ-34 ל-29 ונופל מתחת לעמיתות (סביב 34), בעוד שבשיטת הממוצע הציון כמעט לא זז: מ-4.25 ל-4.14. הסכום מעניש על פריט חסר, הממוצע מתקנן את עצמו.

ההבדל בקיצור: סכום מעניש על כל פריט חסר, ממוצע על פריטים זמינים לא. אם את בכל זאת חייבת סכום (בגלל נורמות), הדרך הנכונה היא לחשב את הממוצע על הזמין ואז להכפיל במספר הפריטים המלא. כאן: 4.14 כפול 8, בערך 33.1. זה נקרא הצמדה יחסית (proration).

כמה פריטים מותר שיחסרו לפני שהציון לא תקף

ההצמדה היחסית עובדת יפה כשחסר פריט אחד מתוך שמונה. היא מאבדת משמעות כשנבדקת ענתה על שניים מתוך שמונה: ממוצע על שני פריטים הוא מדידה רועשת מאוד של המושג, וההכפלה שלו ב-8 רק נראית כמו ציון שלם.

כלל אצבע נפוץ בספרות: חשבי ציון רק אם נענו לפחות כ-80% מהפריטים בסולם (יש חוקרים שמסתפקים ב"לפחות מחצית", זו החלטה שתלויה באורך הסולם ובמדיניות בתחום שלך). שימי לב לחשבון המדויק, כי כאן קל להתבלבל: בסולם של 8 פריטים, 80% הם 6.4 פריטים. מאחר שאי אפשר לענות על חלקי פריט, הסף מתעגל כלפי מעלה ומחייב לפחות 7 פריטים שנענו, כלומר מותר לחסר פריט אחד בלבד. נבדקת שחיסרה שניים נשארת עם 6 מתוך 8, שהם 75%, וזה כבר מתחת לסף. אם את רוצה בכל זאת להתיר חוסר של שני פריטים, את עוברת בפועל לסף רך יותר של 75%, וזו החלטה לגיטימית אבל כזו שצריך לרשום ולהצדיק במפורש, לא להחליק אותה כאילו היא עדיין "80%". מי שחסרים לה יותר מהסף שקבעת, הציון שלה בסולם הזה נשאר חסר (missing), והיא לא תיכנס לניתוח של אותו סולם.

שתי נקודות שחשוב לרשום לפרק השיטות:

איזה סף בחרת, ומה הוא אומר במספרים (למשל "ציון חושב לנבדקות שענו על לפחות 7 מתוך 8 פריטי הסולם, כלומר סף של 80% שעוגל כלפי מעלה").
כמה נבדקות ירדו בגלל הסף. אם מתוך 120 רק שתיים ירדו, זה זניח. אם ירדו 30, יש לך בעיית נתונים חסרים שדורשת התייחסות רצינית יותר, ולא מספיק לטאטא אותה לתוך חישוב הממוצע.

ב-SPSS אפשר לחבר את שני השלבים, הממוצע והסף, בפקודה אחת. בחלון Transform > Compute Variable כתבי MEAN.7(Q1 TO Q8). הספרה שאחרי הנקודה אומרת ל-SPSS לחשב את הממוצע רק אם נענו לפחות 7 מתוך 8 הפריטים, אחרת להשאיר את התא חסר. זה בדיוק סף ה-80% שעוגל כלפי מעלה, מובנה בתוך הפונקציה: נבדקת שחיסרה פריט אחד עדיין מקבלת ממוצע על שבעת הפריטים שנענו, ומי שחיסרה שניים נשארת חסרה. צריך את הסכום עם הצמדה יחסית? MEAN.7(Q1 TO Q8) * 8.

ציון אחד או כמה תת-סולמות?

שאלה שעולה כמעט תמיד: יש לי 15 פריטים, אולי פשוט אעשה ממוצע של כל ה-15 לציון "מוטיבציה" אחד וזהו?

התשובה תלויה במבנה של השאלון, לא בנוחות. אם השאלון נבנה תיאורטית משני ממדים נפרדים, מוטיבציה פנימית וחיצונית, ויש לכך תמיכה (מבנה גורמים מהמאמר המקורי, או ניתוח גורמים על הנתונים שלך), אז שני הממדים האלה הם שני דברים שונים. ממוצע אחד שמערבב אותם מטשטש בדיוק את ההבחנה שהשאלון נבנה כדי לתפוס. במקרה כזה בני שני ציונים נפרדים, ודווחי מהימנות לכל אחד בנפרד.

מתי כן ממוצע אחד? כשהסולם חד-ממדי, כלומר כל הפריטים מודדים מושג אחד (ויש לכך עדות, למשל α גבוהה לכלל הפריטים ומבנה גורם יחיד). היזהרי מהמלכודת ההפוכה: α גבוהה לבדה לא מוכיחה חד-ממדיות. אפשר לקבל α גבוהה גם כששני תת-מבנים מתואמים. ההחלטה כמה ציונים לבנות נשענת על מבנה הגורמים והתיאוריה, לא רק על מספר מהימנות אחד.

ומתי בכלל משתמשים בציון גורם?

אולי שמעת על האפשרות לשמור "ציון גורם" (factor score) ישירות מתוך ניתוח גורמים, במקום לחשב ממוצע ידני. ההבדל: ממוצע נותן לכל פריט משקל זהה. ציון גורם משקלל את הפריטים לפי העומסים שלהם, כך שפריט שמייצג את המושג חזק יותר תורם יותר לציון.

בתיאוריה זה מדויק יותר. בפועל, לעבודת תזה, יש לזה כמה מחירים שכדאי להכיר:

ציון הגורם מגיע מתוקנן (ממוצע 0, סטיית תקן 1), ולא נשאר על סולם 1 עד 5. "מינוס 0.8" קשה יותר להסביר לוועדה מאשר "ממוצע 3.2".
המשקלים תלויי מדגם. ציון הגורם שלך מחושב על המתאמים בדגימה שלך, ולכן הוא לא ניתן לשחזור מדויק במחקר אחר. ממוצע פריטים, לעומת זאת, מחושב בדיוק אותו דבר אצל כולם.
במרבית השאלונים, כשהעומסים של הפריטים דומים יחסית, הציון המשוקלל והממוצע הפשוט מתואמים מעל 0.95. כלומר טרחת על דיוק שכמעט לא שינה דבר.

לכן ההמלצה המקובלת לרוב עבודות התזה היא ממוצע פריטים (משקל שווה): שקוף, ניתן לשחזור, וקל להגנה. ציון גורם שמור למצב שבו העומסים שונים מאוד זה מזה וביצעת ניתוח גורמים מסודר שמצדיק אותו. אם המנחה לא ביקש ציון גורם במפורש, ממוצע פריטים כמעט תמיד הבחירה הנכונה.

מה לקחת מפה לעבודה שלך

הפכי קודם, צרפי אחר כך. ודאי שכל הפריטים ההפוכים הופכו לפני כל ממוצע או סכום.
ברירת מחדל: ממוצע פריטים. הוא משאיר את הציון על סולם 1 עד 5, מאפשר השוואה בין סולמות באורך שונה, ועמיד לחוסר פריט בודד. עברי לסכום רק אם את צריכה להשוות לנורמות מפורסמות.
בני ציון נפרד לכל תת-סולם. אם השאלון בנוי מכמה ממדים, אל תמזגי אותם לציון אחד. דווחי מהימנות לכל ציון בנפרד.
קבעי סף לחוסרים מראש, ובדקי אותו במספרים. כלל נפוץ: ציון מחושב רק למי שענתה על לפחות 80% מפריטי הסולם. בסולם של 8 פריטים זה אומר לפחות 7 פריטים, כלומר חוסר של פריט אחד לכל היותר. רשמי את הסף וכמה נבדקות ירדו בגללו.
ציון גורם הוא לא שדרוג אוטומטי. ברוב המקרים ממוצע פריטים נותן כמעט אותו דבר, והוא שקוף וניתן לשחזור. השאירי ציון גורם למצב שבאמת מצדיק אותו.
תעדי את ההחלטה. משפט אחד בפרק השיטות: "ציון כל סולם חושב כממוצע הפריטים שלו, לאחר היפוך הפריטים ההפוכים, עבור נבדקות שענו על לפחות 80% מהפריטים (לפחות 7 מתוך 8 בסולם המוטיבציה הפנימית)." זה כל מה שהוועדה צריכה כדי לדעת בדיוק מאיפה הגיע המספר שעליו רצו כל הניתוחים.