מתאם חלקי: כשהמנחה ביקש לבדוק קשר "אחרי שליטה על" משתנה אחר

בדקת את הקשר בין מסוגלות עצמית של מורות לבין שביעות הרצון שלהן בעבודה. דגמת 80 מורות, כל אחת מילאה שני שאלונים, והרצת מתאם פירסון. יצא לך r = 0.45, p < .001. קשר חיובי, בינוני, מובהק. רשמת את זה בפרק הממצאים והרגשת שהפרק הזה סגור.

ואז המנחה החזיר הערה: "יפה. אבל שימי לב שגם המסוגלות וגם שביעות הרצון עולות עם הגיל. תבדקי את הקשר ביניהן אחרי שאת מפקחת על הגיל." את קוראת את המשפט שוב. "מפקחת על הגיל". לא הוצאת אף אחת מהמדגם, כולן באותו ניתוח. אז על מה בדיוק הוא מבקש לפקח, ובמה זה שונה מהמתאם שכבר חישבת?

מה המנחה בעצם ביקש

ההערה שלו נשמעת טכנית, אבל מאחוריה יש חשש מחקרי מאוד מוחשי. אולי הקשר שמצאת בין מסוגלות לשביעות רצון הוא לא קשר ישיר ביניהן, אלא בבואה של משהו שלישי שמושך את שתיהן יחד. מורות ותיקות ומבוגרות יותר נוטות גם להרגיש מסוגלות יותר וגם להיות מרוצות יותר. אם זה המצב, חלק מ-0.45 הוא פשוט "גיל", לא "הקשר בין שני המשתנים עצמם".

מתאם חלקי (partial correlation) עונה בדיוק על השאלה הזאת: מה נשאר מהקשר בין שני משתנים, אחרי שמוציאים משניהם את מה שאפשר להסביר באמצעות משתנה שלישי. במילים של המנחה, "אחרי שמפקחים על הגיל". התוצאה היא עדיין מספר בין -1 ל-1, בדיוק כמו פירסון, כך שאפשר לקרוא אותו באותו אופן. ההבדל הוא במה שנכנס לחישוב.

שימי לב לניסוח הזהיר. "מה נשאר מהקשר", לא "הקשר האמיתי" ולא "האם הגיל גורם". המחקר שלך מתאמי: מדדת שלושה משתנים אצל אותן מורות, לא הקצית אף אחת לתנאי. מתאם חלקי מנקה מהקשר את החלק הליניארי של הגיל, אבל הוא לא הופך אותו לקשר סיבתי. הוא רק עונה על שאלה מתאמית מדויקת יותר.

מאיפה המספר מגיע: נוסחה של שלושה מתאמים

יש דרך אחת לחשב מתאם חלקי שעוברת דרך שאריות, וזה בדיוק המנגנון שכבר מפורק צעד-צעד במאמר על רגרסיה מרובה, בקטע על added-variable plot: מרגרסים כל אחד משני המשתנים על הגיל, שומרים את השאריות (החלק שהגיל לא מסביר אצל כל מורה), ומחשבים פירסון בין שתי השאריות. המתאם החלקי הוא בדיוק המתאם של מה שנשאר משני המשתנים אחרי שמורידים מהם את טביעת הגיל. אם המהלך הזה עדיין לא יושב לך, שם הוא מצויר במלואו. כאן מספיק לדעת שזה מה שקורה מתחת למכסה המנוע במסך SPSS תחת Analyze > Correlate > Partial.

אבל את לא חייבת להריץ שתי רגרסיות כדי לקבל את המספר. מה שמייחד את המתאם החלקי הוא שיש לו נוסחה ישירה, סימטרית, שדורשת רק את שלושת המתאמים הגולמיים שכבר יש לך ביד, ומחזירה מספר אחד נקי בסקאלה המוכרת של פירסון:

r(xy.z) = ( r(xy) − r(xz)·r(yz) ) / √( (1 − r(xz)²)(1 − r(yz)²) )

בלי להיבהל מהאותיות: x ו-y הם שני המשתנים שמעניינים אותך, z הוא המשתנה שמפקחים עליו. המונה לוקח את הקשר הגולמי r(xy) ומחסיר ממנו את החלק שעובר דרך z, כלומר את מכפלת שני המתאמים של x ושל y עם z. המכנה מנרמל בחזרה לסקאלת המתאם, בין -1 ל-1. שימי לב כמה הנוסחה סימטרית ב-x וב-y: היא לא קובעת מי מנבא את מי, רק "כמה הם קשורים מעבר ל-z". זה בדיוק האופי של מתאם חלקי, ומה שמבדיל אותו מרגרסיה.

הדוגמה, מההתחלה

נכניס מספרים. אלה שלושת המתאמים הגולמיים בנתונים שלך:

זוג	מתאם פירסון
מסוגלות (x) ושביעות רצון (y)	`0.45`
מסוגלות (x) וגיל (z)	`0.55`
שביעות רצון (y) וגיל (z)	`0.50`

שני המתאמים האחרונים מאשרים את החשש של המנחה: הגיל קשור גם למסוגלות (0.55) וגם לשביעות הרצון (0.50). יש לו על מה להישען. נציב בנוסחה:

r(xy.z) = (0.45 − 0.55·0.50) / √((1 − 0.55²)(1 − 0.50²))
= (0.45 − 0.275) / √(0.6975 · 0.75)
= 0.175 / 0.7233 = 0.24

המתאם החלקי הוא 0.24. הקשר לא נעלם, אבל הוא ירד כמעט בחצי, מ-0.45 ל-0.24. חלק נכבד ממה שראית קודם היה באמת הגיל שמושך את שני המשתנים יחד. מה שנשאר, 0.24, הוא הקשר בין מסוגלות לשביעות רצון בקרב מורות מאותו גיל.

תרשים השוואה עם רווחי סמך: המתאם הגולמי בפירסון r = 0.45 (רווח סמך 95% [0.26, 0.61]) לעומת המתאם החלקי לאחר פיקוח על הגיל r = 0.24 (רווח סמך 95% [0.02, 0.44]). הקשר נחלש והקצה התחתון של הרווח כמעט נוגע באפס.

איך לקרוא את המספר

בדיוק כמו שלא מדווחים p-value לבד, גם כאן צריך גודל אפקט ורווח סמך, לא רק את ההכרעה אם זה מובהק. הנה שתי השורות זו לצד זו:

מתאם	r	r² (שונות משותפת)	95% CI	p
גולמי (פירסון)	`0.45`	`0.20`	`[0.26, 0.61]`	`< .001`
חלקי (פיקוח על גיל)	`0.24`	`0.058`	`[0.02, 0.44]`	`.031`

שלושה דברים לקרוא כאן.

גודל האפקט ירד מבינוני לקטן. המתאם החלקי הוא 0.24, שמתורגם לכ-6% שונות משותפת (r² = 0.058), לעומת 20% בקשר הגולמי. כלומר, אחרי שמורידים את הגיל, החפיפה הייחודית בין מסוגלות לשביעות רצון צנועה הרבה יותר ממה שנראה בהתחלה.

תרשים עמודות של שונות משותפת: בקשר הגולמי r² = 0.20 (20%), ולאחר פיקוח על הגיל המתאם החלקי נותן r² = 0.058 (כ-6%). גודל האפקט מתכווץ מבינוני לקטן.

זה עדיין מובהק, אבל בקושי. p = .031 חוצה את הסף, אך שימי לב לרווח הסמך: [0.02, 0.44]. הקצה התחתון כמעט נוגע באפס. במילים אחרות, הנתונים עקביים גם עם קשר חלקי כמעט אפסי וגם עם קשר בינוני. דרגות החופש למבחן הזה הן n − 2 − 1 = 77 (מחסירים עוד אחד על כל משתנה שמפקחים עליו), והתוצאה היא t(77) = 2.19.

איך זה נכתב בפרק הממצאים. משהו כמו: "נמצא מתאם חיובי בינוני בין מסוגלות עצמית לשביעות רצון (r = .45). לאחר פיקוח על הגיל, הקשר נחלש לכדי מתאם חלקי חיובי קטן ומובהק (r(partial) = .24, p = .031, 95% CI [.02, .44]), ממצא שמרמז כי חלק מהקשר הגולמי משותף עם הגיל." זה דיווח הוגן. הוא לא מסתיר שהקשר התכווץ, ולא מנפח אותו בחזרה.

הטעות הנפוצה: "לפקח על הגיל" זה לא "להשוות בני אותו גיל"

כאן נופלות הכי הרבה סטודנטיות, אז נעצור על זה. כשכתוב "בקרב מורות מאותו גיל", קל לדמיין שמתאם חלקי לוקח את המדגם, מחלק אותו לקבוצות גיל, ובודק את הקשר בתוך כל קבוצה. זה לא מה שקורה, וההבדל חשוב.

אילו היית מחלקת לקבוצות גיל, היית מצמצמת את המדגם וזורקת מידע. מתאם חלקי עושה משהו אחר לגמרי: הוא משאיר את כל 80 המורות בפנים, ומכל אחת מהן מוריד את החלק הצפוי לפי גילה, בשני המשתנים. הוא לא בורר מי "מאותו גיל", הוא מנכה את מגמת הגיל מכולן בבת אחת, ואז קושר את מה שנשאר.

וכאן מגיע הסייג שחייבים להגיד בקול: הניכוי הזה הוא ליניארי בלבד. מתאם חלקי מסיר מהמשתנים רק את החלק של הגיל שמסתדר על קו ישר. אם הקשר של הגיל עם המסוגלות מתעקל (למשל עולה עד אמצע הקריירה ואז מתמתן), חלק מהגיל יישאר בשאריות גם אחרי הפיקוח, ויישאר בתוצאה. "פיקחתי על הגיל" פירושו תמיד "פיקחתי על החלק הליניארי של הגיל שמדדתי", לא יותר מזה.

ועוד הבחנה דקה ששווה להכיר בשם, כי מנחים שואלים עליה. מתאם חלקי מוריד את הגיל משני המשתנים. יש קרוב משפחה שנקרא מתאם חצי-חלקי (semi-partial / part), שמוריד את הגיל רק מאחד מהם. שניהם לגיטימיים, אבל הם עונים על שאלות שונות, ו-SPSS מדווח את החצי-חלקי דווקא בפלט של הרגרסיה. אם ביקשו ממך "מתאם חלקי", ברירת המחדל היא זה שמנכה משניהם, וזה מה שתקבלי במסך Partial.

מתאם חלקי או רגרסיה מרובה?

אם הגעת עד כאן, אולי כבר עלתה המחשבה: רגע, זה לא בדיוק מה שרגרסיה מרובה עושה כשהיא מחזיקה משתנה קבוע? התשובה היא כן, הם בני משפחה קרובים, ולא במקרה. מבחן המובהקות של מתאם חלקי בין x ל-y בפיקוח על z זהה למבחן המובהקות של x כמנבא ברגרסיה של y על x ו-z. אותו t, אותו p. הם מסתכלים על אותה חפיפה ייחודית, רק מדווחים אותה במטבע אחר.

אז מתי כל אחד.

מתאם חלקי מתאים כשיש לך זוג אחד של משתנים שמעניין אותך, את רוצה לנקות ממנו גורם מבלבל אחד או שניים, והשאלה שלך סימטרית: "האם x ו-y קשורים מעבר ל-z", בלי לקבוע מי מנבא את מי. היתרון שלו הוא שהוא נותן לך מספר אחד נקי בסקאלת המתאם המוכרת, -1 עד 1, שקל להשוות לקשר הגולמי שכבר דיווחת.
רגרסיה מרובה מתאימה כשהשאלה היא ניבוי של משתנה תלות אחד מכמה מנבאים, את רוצה מקדם לכל מנבא ביחידות המקוריות, ערך חזוי, R² לכל המודל, או לבדוק אינטראקציה. ברגע שיש יותר ממשתנה תלות אחד בראש, או שאת רוצה לדעת "בכמה משתנה Y לכל יחידת X", עברת לטריטוריה של רגרסיה.

כלל אצבע פשוט: אם ההערה של המנחה הייתה "תבדקי את הקשר בין השניים אחרי שמנקים את הגיל", מתאם חלקי עונה עליה ישירות ובמינימום מכניזם. אם ההערה הייתה "תבני מודל שמנבא שביעות רצון", זאת כבר בקשה לרגרסיה.

מה לקחת מפה לעבודה שלך

"לפקח על Z" פירושו להוריד את Z משני המשתנים, ולקשור את מה שנשאר. לא לחלק לקבוצות, לא לזרוק נתונים. כל המדגם נשאר בפנים, רק מגמת המשתנה המפקח מנוכה.
תמיד הציגי את הגולמי ואת החלקי זה לצד זה. הסיפור המעניין הוא דווקא בהפרש: כאן 0.45 שהפך ל-0.24. אם המתאם החלקי כמעט שווה לגולמי, המשתנה המפקח לא הזיז כלום, וגם זה ממצא ששווה לדווח.
דווחי גודל אפקט ורווח סמך, לא רק p. מתאם חלקי קטן עם CI שכמעט נוגע באפס מספר סיפור שונה לגמרי ממתאם חלקי קטן עם CI הדוק. במדגם שלך, [0.02, 0.44] אומר "קשר אמיתי אבל צנוע ולא ודאי", וכך כדאי לנסח.
שמרי על שפה מתאמית. פיקוח סטטיסטי על הגיל לא הופך את התכנון לניסויי. הוא מנכה את החלק הליניארי של מה שמדדת, ולא יותר. אם נשארו גורמים מבלבלים שלא נמדדו, או שהקשר עם Z מתעקל, הם עדיין בפנים.
אם השאלה היא ניבוי ולא "קשר נקי בין זוג", עברי לרגרסיה. מתאם חלקי ורגרסיה מרובה נשענים על אותה חפיפה ייחודית, אז הבחירה היא לפי איזו שאלה את שואלת ובאיזה מטבע נוח לך לדווח, לא לפי איזה מהם "חזק יותר".