המנחה אמר "קודם תסדרי את הנתונים" ולא הסביר איך: לארגן קובץ ב-SPSS

פתחת את הקובץ ששמרת מהשאלון. עמודות על עמודות של תשובות, חלקן טקסט חופשי, חלקן ריקות, מישהי כתבה "כן" ומישהי כתבה "כן " עם רווח, ובשורה אחת בטעות יש שתי תשובות של אותה משתתפת. או שפתחת את SPSS וקיבלת שני מסכים ריקים, Data View ו-Variable View, ולא ברור מאיפה מתחילים. המנחה אמר "קודם תסדרי את הנתונים", ולא הסביר מה זה אומר.

זה השלב שכולם מניחים שכבר את יודעת. הוא קורה לפני כל מבחן, לפני כל גרף, לפני כל מספר. ואם הקובץ לא מסודר נכון, שום ניתוח שתריצי אחר כך לא יהיה אמין, כי הוא רץ על נתונים שבורים. אז בואי נלך דרך זה לאט.

הצורה שאליה מכוונים: שורה אחת לכל משתתפת

יש כלל אחד שמחזיק את כל השאר. כל שורה היא משתתפת אחת. כל עמודה היא משתנה אחד. משתנה הוא דבר אחד שמדדת אצל כולן: המגדר, הקבוצה, התשובה לפריט מסוים, ציון כולל. התא שבהצטלבות הוא הערך של אותה משתתפת באותו משתנה. זה הפורמט הרחב, שמתאים לרוב הניתוחים, ובסוף נראה יוצא דופן אחד שבו משתתפת מופיעה בכמה שורות.

זה נשמע מובן מאליו, אבל פה בדיוק קבצים מתפרקים. תשובות של אותה משתתפת מתפזרות על כמה שורות. נתון אחד נשבר לכמה עמודות. סכום או ממוצע נדחף לתוך הטבלה כאילו הוא עוד משתתפת. הנה איך נראית הצורה שאליה את מכוונת:

משתתפת	מגדר	קבוצה	פריט_3	ציון_שחיקה
`1`	`2`	`1`	`4`	`37`
`2`	`2`	`2`	`2`	`24`
`3`	`1`	`1`	`5`	`41`
`4`	`2`	`2`	`3`	`29`

ארבע משתתפות, ארבע שורות. כל מה שיודעים על משתתפת מסוימת נמצא בשורה שלה, ושום מקום אחר. הטבלה הזו היא הדוגמה נקייה בכוונה. בקובץ אמיתי יהיו עוד עמודות, ערכים חסרים, וכמה הפתעות. המבנה, לעומת זאת, נשאר אותו מבנה.

למה במגדר כתוב 1 ו-2 ולא "גבר" ו"אישה"

שמת לב שבעמודת המגדר יש מספרים, לא מילים. זה לא קישוט. תוכנות סטטיסטיקה עובדות הכי נוח עם מספרים, ולכן את מתרגמת כל קטגוריה למספר: גבר = 1, אישה = 2, או כן = 1, לא = 0. הפעולה הזו נקראת קידוד. נהוג להמיר משתנים קטגוריאליים למספרים כברירת מחדל, משתי סיבות: התוכנה מחשבת בנוחות על קודים מספריים, וקידוד עקבי מונע טעויות שקטות שבהן "אישה" ו"אישה " נספרות בטעות כשתי קבוצות שונות.

כדי שזה יחזיק, את שומרת מפתח קידוד, codebook, שמתעד מה כל מספר אומר. ב-SPSS המפתח הזה יושב במסך Variable View: לכל משתנה את נותנת שם נקי, מגדירה את ה-Measure שלו, ורושמת את ערכי הקידוד בעמודת Values.

Name	Measure	Values
`מגדר`	`Nominal`	`1 = גבר, 2 = אישה`
`קבוצה`	`Nominal`	`1 = התערבות, 2 = ביקורת`
`פריט_3`	`Ordinal`	`1 = כלל לא ... 5 = במידה רבה`
`ציון_שחיקה`	`Scale`	ציון רציף, ללא קידוד

עמודת ה-Measure היא אותו רעיון של סולמות המדידה, מיושם ישירות בתוכנה. נומינלי לקטגוריות בלי סדר (מגדר, קבוצה), אורדינלי לדירוג עם סדר אבל בלי מרחקים שווים (פריט ליקרט בודד), ו-Scale למשתנים כמותיים (גיל, או ציון כולל שמטפלים בו ככמותי). ההגדרה הזו לא דקורטיבית. היא משפיעה על אילו מבחנים וגרפים SPSS יציע לך, ועוזרת לך לזכור איך כל משתנה אמור להתנהג. וזכרי שקוד מספרי לקטגוריה הוא רק שם מקוצר: מגדר נשאר משתנה נומינלי גם כשהוא כתוב 1 ו-2, ואין שום היגיון בממוצע שלו.

הטעות השקטה: רווחים, איות, וכתיב לא עקבי

נניח שהשארת עמודה אחת כטקסט חופשי. עכשיו "כן", "כן " עם רווח בסוף, ו-"Yes" הן שלוש קטגוריות נפרדות בעיני התוכנה, למרות שכולן אומרות אותו דבר. כך גם "תל אביב" מול "תל-אביב", או תאריך שנכתב פעם 01/03 ופעם 1.3.26.

זאת מחלקה שלמה של טעויות שלא זורקות שום הודעת שגיאה. הניתוח ירוץ, יחזיר מספר, והמספר יהיה לא נכון כי הקבוצות התפצלו בלי שראית. לכן נוח לקודד קטגוריות למספרים מההתחלה: מספר אין לו רווח נסתר בסוף. אם יש לך עמודות טקסט, שווה לעבור עליהן פעם אחת ולאחד את הכתיב לפני שממשיכים.

שני דברים שכבר יש לך עליהם מאמר

תוך כדי הסידור תיתקלי בשני נושאים שלא נפרוס כאן מחדש, כי לכל אחד יש את המאמר שלו. הראשון הוא תאים ריקים. כדאי להחליט מראש איך מסמנים ערכים חסרים, ואם משתמשים בקוד כמו 999, להגדיר אותו בתוכנה כערך חסר כדי שלא ייכנס בטעות לחישובים. השני נוגע לשאלונים: אם יש לך פריטים הפוכים בסולם, צריך להפוך אותם לפני שמחשבים ציון כולל, אחרת הציון יסתור את עצמו. שניהם חלק מהכנת הקובץ, וכדאי לסגור אותם לפני שעוברים לניתוח.

רחב מול ארוך: מתי שורה אחת לא מספיקה

ברוב הניתוחים הצורה שראינו, שורה אחת לכל משתתפת, היא בדיוק מה שצריך. זה נקרא פורמט רחב, wide, כי כל המדידות של אותה משתתפת שוכבות זו לצד זו באותה שורה.

יש מצב נפוץ שבו נדרשת צורה אחרת. אם מדדת את אותן משתתפות כמה פעמים, למשל לפני התערבות ואחריה ובמעקב, חלק מהשיטות מבקשות פורמט ארוך, long: שורה אחת לכל מדידה, כך שלמשתתפת אחת יש כמה שורות, ועמודה מציינת באיזו נקודת זמן מדובר. אותו מידע, סידור אחר. הצורה הארוכה צצה בעיקר בתכנונים של מדידות חוזרות, כמו ANOVA במדידות חוזרות או תכנון מעורב של קבוצה לאורך זמן. אם המחקר שלך הוא חתך אחד בזמן, סביר שלא תצטרכי את זה בכלל. הבחירה בין רחב לארוך נגזרת מהתכנון ומהשיטה, לא מהעדפה אסתטית, ורוב התוכנות יודעות להמיר ביניהם.

מה לקחת מפה

הקובץ מסודר כשאפשר להסתכל עליו ולהגיד בביטחון: כל שורה היא בן אדם אחד, כל עמודה היא משתנה אחד עם שם נקי וסולם מדידה מוגדר, הקטגוריות מקודדות לפי מפתח עקבי, הערכים החסרים מסומנים, והפריטים ההפוכים כבר הופכו. זה לא זוהר, ואף אחד לא ישבח אותך עליו. אבל זה הקרקע שכל מספר אחרי זה עומד עליה.

וברגע שהקובץ נקי, השאלה משתנה. כבר לא "איך מסדרים", אלא "איזה מבחן בכלל מתאים לשאלה שלי". זה הצעד הבא, ויש לו מדריך משלו.