ניתוח גורמים, חלק א: איך יודעים שהשאלון מודד כמה ממדים ולא אחד

בנית שאלון. או יותר נכון, לקחת שאלון קיים, שישה פריטים על תחושת המורה בעבודה, וכתבת בפרק השיטות שהוא מודד שני דברים. רמת השחיקה הרגשית מצד אחד, ותחושת ההישג המקצועי מצד שני. שלושה פריטים לכל אחד.

כתבת את זה כי ככה היה כתוב במאמר שממנו לקחת את הכלי. וזה הגיוני. ואז המנחה שאל את השאלה שאי אפשר להתחמק ממנה: "מאיפה את יודעת שאלה באמת שני ממדים? אולי זה ממד אחד גדול. אולי שלושה. תריצי ניתוח גורמים ותראי."

ניתוח גורמים. עוד שם. ואת כבר יודעת לחשב אלפא של קרונבך, אז למה זה לא מספיק. בואי נלך דרך זה לאט, כי ברגע שמבינים מה זה גורם, כל השאר נופל למקום.

למה אלפא לא עונה על השאלה הזאת

אלפא של קרונבך מודדת עקביות פנימית של קבוצת פריטים שכבר הגדרת. כלי מצוין, אבל שימי לב למה שהוא מניח: שכבר החלטת מי הקבוצה. ואפילו אלפא גבוהה לא מוכיחה שהפריטים מודדים דבר אחד. היא מקבלת ממך את הקבוצה כנתון, ובודקת רק אם היא עקבית.

אלפא לא יודעת לבד אילו פריטים שייכים יחד. את מגישה לה שלושה פריטים ואומרת "אלה תת-סולם", והיא בודקת אם הם עקביים. היא לא יכולה להגיד לך אם בכלל יש שני תת-סולמות, או אחד, או שלושה. את ההחלטה הזאת היא מקבלת ממך כנתון.

השאלה של המנחה היא בדיוק השאלה שאלפא מדלגת עליה. לא "האם הפריטים שבחרתי עקביים", אלא "כמה דברים שונים השאלון הזה מודד, ואיזה פריט שייך לאיזה דבר". זאת השאלה שניתוח גורמים נברא בשבילה.

מה זה בכלל גורם

נתחיל מהתצפית הכי פשוטה. כשאת שואלת מישהי שלוש שאלות על תשישות רגשית, "אני מרגישה שחוקה בסוף יום", "אני מותשת בבוקר לפני העבודה", "העבודה שוחקת אותי", התשובות שלה לשלושתן נוטות לנוע יחד. מי שמסכימה מאוד עם הראשונה בדרך כלל מסכימה גם עם השתיים האחרות.

למה הן נעות יחד. לא במקרה. יש משהו אחד מתחת, תשישות רגשית, שאי אפשר למדוד ישירות, ושלוש השאלות הן שלושה חלונות אליו. הדבר הסמוי הזה, זה שגורם לפריטים לזוז יחד, הוא הגורם (factor).

זאת כל ההגדרה. גורם הוא משתנה חבוי שאת לא מודדת ישירות, אבל הוא מסביר למה אשכול של פריטים מתואם. את לא יכולה לשאול אדם "מה רמת התשישות הרגשית שלך בסולם" ולסמוך על המספר. אז את שואלת כמה שאלות שכל אחת נוגעת בקצה אחר של אותו דבר, והדבר המשותף שמושך את כולן הוא הגורם.

וכאן הרעיון שמניע את כל השיטה: אם שני פריטים נשלטים על ידי אותו גורם, הם יהיו מתואמים. אם הם נשלטים על ידי גורמים שונים, המתאם ביניהם יהיה חלש. כלומר מבנה הגורמים מותיר חתימה בתוך מטריצת המתאמים. ניתוח גורמים הוא הקריאה ההפוכה של החתימה הזאת: מהמתאמים, חזרה אל הגורמים שייצרו אותם.

החתימה שרואים בעין

הנה מטריצת המתאמים של ששת הפריטים, במדגם של 200 משיבות. שלושת פריטי התשישות מסומנים E, שלושת פריטי ההישג מסומנים A.

מטריצת מתאמים 6 על 6 של הפריטים E1 עד E3 ו-A1 עד A3. שני בלוקים על האלכסון צבועים בכחול בהיר וכהה, מתאמים בערך 0.5 בין פריטי ה-E לבין עצמם ובין פריטי ה-A לבין עצמם. כל התאים שמחוץ לבלוקים, בין E ל-A, חיוורים כמעט לבנים, מתאמים בערך 0.1. שני קווים סגולים מפרידים בין שני הבלוקים.

תראי מה קורה כאן בלי שום חישוב מתוחכם. שלושת פריטי ה-E מתואמים ביניהם יפה, בממוצע סביב 0.49. שלושת פריטי ה-A מתואמים ביניהם בערך באותה מידה, בממוצע 0.53. אבל בין שתי הקבוצות, פריט E מול פריט A, המתאם צונח לבערך 0.11.

שני ריבועים כחולים על האלכסון, וים חיוור סביבם. זה לא צירוף מקרים. ככה נראית מטריצת מתאמים כששני גורמים שונים עומדים בבסיסה. כל גורם מאיר את הפריטים שלו, וכמעט לא נוגע בפריטים של הגורם האחר. המתאם בין הקבוצות אינו אפס, הוא סביב 0.11, כי שני הגורמים עצמם קשורים מעט זה לזה. אבל הוא חלש בהרבה מהמתאם בתוך כל קבוצה, וזה הפער שמסגיר את המבנה.

העין שלך כבר עשתה כאן ניתוח גורמים. ראית שני אשכולות. ניתוח גורמים פשוט עושה את זה במספרים, בלי להישען על מה ש"נראה לנו", וכך אפשר לכתוב אותו בפרק השיטות ולהגן עליו.

כמה גורמים, ואילו פריטים

השיטה עונה על שתי שאלות בנפרד. קודם, כמה גורמים חבויים צריך כדי להסביר את כל המתאמים. ואז, איזה פריט נמשך לאיזה גורם.

לשאלה הראשונה יש מדד שנקרא ערך עצמי (eigenvalue), שאפשר לחשוב עליו כעל כמות המידע שכל גורם אפשרי תופס. כלל אצבע נפוץ, כלל קייזר, משווה כל ערך עצמי ל-1, כי 1 הוא בערך התרומה של פריט סטנדרטי בודד. גורם שמתחת לזה תופס פחות מפריט יחיד. בדוגמה שלנו ששת הערכים העצמיים הם 2.35, 1.72, ואז צניחה ל-0.56, 0.52, 0.46, 0.40. שניים גדולים מאחד, וכל השאר קטנים בהרבה. כלומר שני גורמים מספרים את הסיפור, בדיוק כמו שהעין ניחשה.

כלל קייזר הוא סימן ראשוני, לא הכרעה סופית. רבים היום אפילו לא רואים בו את השיטה העדיפה, ויש כלים שנחשבים אמינים יותר לבחירת מספר הגורמים, כמו תרשים scree וניתוח parallel. איך בוחרים את המספר בצורה מסודרת, ומה עושים כשהוא לא חד כמו פה, זה כבר הפוסט הבא. כאן מספיק לראות שהמספר יצא שניים, ולא אחד ולא שלושה.

לשאלה השנייה, איזה פריט שייך לאן, מסתכלים על הטעינויות (loadings). דרך שימושית לחשוב על טעינות היא כעל עוצמת הקשר בין הפריט לבין הגורם. קרובה ל-1 פירושה שהפריט נשען חזק על הגורם. קרובה ל-0 פירושה שהוא כמעט לא קשור אליו.

טבלת טעינויות. שש שורות לפריטים E1 עד E3 ו-A1 עד A3, שתי עמודות Factor 1 ו-Factor 2. פריטי ה-A טוענים חזק על Factor 1, בערך 0.64 עד 0.81, וכמעט אפס על Factor 2. פריטי ה-E טוענים חזק על Factor 2, בערך 0.68 עד 0.74, וכמעט אפס על Factor 1.

הטבלה הזאת מתקבלת אחרי שבחרנו פתרון של שני גורמים וסובבנו אותו כדי שיהיה קריא יותר (כאן בשיטה שנקראת varimax, על זה בפוסט הבא). וזאת בדיוק התמונה שרוצים לראות. כל פריט נשען חזק על גורם אחד. פריטי ה-A טוענים סביב 0.64 עד 0.81 על הגורם הראשון. פריטי ה-E טוענים סביב 0.68 עד 0.74 על הגורם השני. הטעינויות המשניות קטנות, הגבוהה שבהן היא 0.19, כך שאין פריט שמושך חזק לשני הכיוונים. למבנה הנקי הזה קוראים מבנה פשוט, והוא הסימן שהפריטים באמת נחלקים לשתי קבוצות ברורות.

וכאן הערה חשובה. הדוגמה הזאת נקייה במיוחד, וזה בכוונה, כדי שהרעיון ייראה בבירור. נתונים אמיתיים כמעט תמיד מבולגנים יותר. פריט שטוען 0.45 על גורם אחד ו-0.35 על השני. גורמים שקשורים ביניהם לא מעט. פריט עיקש שלא מתיישב יפה לאף קבוצה. אם זאת התמונה שתקבלי, לא טעית בכלום. ככה נראים רוב הנתונים, והקריאה של תמונה פחות נקייה היא חלק ממה שמחכה בפוסט הבא.

שימי לב לדבר אחד שמבלבל בהתחלה. התוכנה קראה לקבוצת ה-A "גורם 1" ולקבוצת ה-E "גורם 2", בסדר הפוך מהאינטואיציה. זה לא אומר כלום. ניתוח גורמים מוצא את הקבוצות, אבל הוא לא יודע ש"תשישות" היא תשישות. את נותנת לגורמים את השמות, לפי הפריטים שטוענים עליהם. השיטה מספקת את המבנה, המשמעות היא שלך.

איפה אלפא חוזרת לתמונה

עכשיו אפשר לראות את סדר הפעולות הנכון. ניתוח גורמים בא קודם, ומציע מבנה: כמה ממדים נראים בנתונים, ואיזה פריט קשור בעיקר לכל אחד. רק אחרי שהמבנה הזה בידיים, אלפא נכנסת ובודקת את המהימנות בתוך כל תת-סולם בנפרד.

תראי למה הסדר חשוב. אם תכריחי את כל ששת הפריטים להיות סולם אחד, האלפא יוצאת 0.69, ערך גבולי שאפשר להתפתות לדווח עליו ולהמשיך הלאה. אבל הנה העיקר: גם אם היא הייתה יוצאת 0.85, היא עדיין לא הייתה אומרת לך אם מתחת מסתתר ממד אחד או שניים. זאת פשוט לא השאלה שאלפא עונה עליה. כשמפרידים לפי המבנה שניתוח הגורמים הציע, האלפא של פריטי התשישות לבדם יוצאת 0.74, ושל פריטי ההישג 0.77. במדגם הזה גם הטעינויות וגם האלפא בתוך כל קבוצה תומכות בפרשנות של שני תת-סולמות.

בלי ניתוח הגורמים לא היית יודעת לעשות את ההפרדה הזאת מתוך הנתונים עצמם. היית מסתמכת רק על מה שכתב מחבר השאלון המקורי. ניתוח הגורמים הוא מה שמאפשר לך לכתוב שהנתונים שלך תמכו במבנה שני הממדים, ולא רק ש"ככה נכתב במקור".

מה צריך לזכור מפה

גורם הוא הדבר החבוי שגורם לפריטים לנוע יחד. תשישות, חרדה, מסוגלות, כל מושג שאי אפשר למדוד ישירות ואת ניגשת אליו דרך כמה שאלות. הפריטים מתואמים כי הם חולקים אותו, וניתוח גורמים מפענח את המתאמים לאחור כדי לומר כמה גורמים חבויים יש, ואיזה פריט שייך לכל אחד.

זה מה שעונה למנחה. לא "בחרתי פריטים עקביים", אלא "בדקתי בנתונים עצמם, נמצאה עדות לשני ממדים, והפריטים נחלקים אליהם נקי".

ועוד דבר ששווה לדעת מראש. מה שעשינו כאן הוא הסוג החוקר של ניתוח גורמים, exploratory, שנותן לנתונים להציע את המבנה. יש גם סוג מאשש, confirmatory, או בקיצור CFA, שבו את מגדירה את המבנה מראש ובודקת אם הנתונים תואמים לו. זה כלי אחר, עם שאלה אחרת, והוא מגיע בהמשך הסדרה.

מה שדילגנו עליו כאן בכוונה הוא איך קוראים את הפלט המלא. האם המדגם בכלל מתאים לניתוח גורמים, כמה משיבות צריך, איך בוחרים את מספר הגורמים כשהוא לא נחתך יפה, ומה ההבדל בין סוגי הסיבוב של הצירים. כל אלה הם החלק השני בסדרה, שבו נשב מול פלט אמיתי ונקרא אותו שורה אחר שורה. כאן רצינו רק דבר אחד: שתדעי מה זה גורם, ולמה מטריצת מתאמים עם שני ריבועים כחולים היא כל הסיפור.