מהימנות בין שופטים: למה 88% הסכמה לא הספיקו למנחה

קידדת תצפיות. ישבת על חמישים קטעים מתוך שיעורים מצולמים, ולכל קטע סימנת אם הופיעה בו שאלה מעוררת חשיבה, כן או לא. כדי להראות שזה לא רק הפרשנות הסובייקטיבית שלך, נתת לעמיתה לקודד את אותם חמישים קטעים בעצמה, בלי לראות מה סימנת.

הסתכלת על התוצאה והרגשת הקלה. מתוך חמישים קטעים, הסכמתן על ארבעים וארבעה. שמונים ושמונה אחוז. כתבת בפרק השיטות "אחוז ההסכמה בין השופטות עמד על 88%", והמשכת הלאה.

ואז המנחה כתב בשוליים: "אחוז הסכמה לא מספיק. תוסיפי קאפא."

קאפא. עוד מילה. ולמה בכלל 88% הסכמה זה לא מספיק טוב, אם הסכמתן על כמעט הכול. בואי נלך דרך זה לאט.

מה אחוז ההסכמה מפספס

הנה הטבלה שלכן, קטע אחר קטע. השורות הן מה שאת סימנת, העמודות הן מה שהעמיתה סימנה.

טבלת 2 על 2. השורות הן הקידוד של שופטת A, העמודות של שופטת B, כל אחת כן או לא. שני תאי האלכסון, 9 קטעים ששתיהן סימנו כן ו-35 ששתיהן סימנו לא, צבועים ירוק ומסומנים agree. שני תאי האי-הסכמה, 3 ו-3, צבועים אדום ומסומנים disagree. מתחת כתוב Agreement שווה 9 ועוד 35 שווה 44 מתוך 50 שווה 88 אחוז.

תשע פעמים שתיכן אמרתן כן. שלושים וחמש פעמים שתיכן אמרתן לא. אלה ארבעים וארבע ההסכמות, והן באמת 88% מהקטעים.

אבל שימי לב לדבר אחד. השאלה המעוררת מופיעה רק במיעוט הקטעים. ברוב הקטעים פשוט אין כזאת, ולכן שתיכן, בנפרד, נוטות לסמן "לא" שוב ושוב. מתוך חמישים, כל אחת מכן סימנה "כן" רק שתים עשרה פעמים.

וכאן נכנס החלק שאחוז ההסכמה לא רואה. כששתי שופטות מסמנות "לא" ברוב המקרים, הן יסכימו ביניהן הרבה גם בלי שום כישרון משותף. רק כי שתיהן אומרות "לא" כל הזמן. חלק מ-88% ההסכמה שלכן הוא אמיתי, ניתוח משותף של אותו קטע. וחלק ממנו הוא פשוט מזל.

כמה הסכמה הייתן מקבלות מהמקריות לבד

אפשר לחשב את זה. כל אחת מכן סימנה "כן" בערך ברבע מהקטעים (12 מתוך 50), ו"לא" בשלושת הרבעים הנותרים. אם שתיכן הייתן מפזרות את הסימונים האלה באקראי, בלי להסתכל בכלל על הקטע, כמה הייתן מסכימות?

שימי לב שזה לא פיזור של חצי-חצי. כל אחת שומרת על שיעור ה"כן" שלה (רבע מהקטעים), רק בלי קשר לקטע הספציפי. במצב כזה שתיכן הייתן מסמנות "כן" על אותו קטע בערך ב-6% מהמקרים (רבע כפול רבע), ו"לא" על אותו קטע בערך ב-58% מהמקרים (שלושה רבעים כפול שלושה רבעים). יחד, הסכמה אקראית של בערך 64%.

זה המספר שמשנה הכול. עוד לפני שהסתכלתן על קטע אחד, הרצפה של ההסכמה ביניכן הייתה כבר 64%, רק מעצם זה ש"כן" מופיע במיעוט הקטעים. אז 88% לא נמדדים מאפס. הם נמדדים מ-64%.

קאפא: כמה מההסכמה שמעבר למקרה באמת תפסתן

זאת בדיוק השאלה שקאפא (Cohen's kappa) עונה עליה. לא "על כמה הסכמתן", אלא "מתוך כל ההסכמה שהייתה אפשרית מעבר למקריות, כמה ממנה באמת השגתן".

הרעיון פשוט כשרואים אותו מצויר. ההסכמה האקראית מכסה 64% מהדרך. נשאר רווח של 36% בין המקריות לבין הסכמה מושלמת. זה כל מה שהיה לכן להרוויח. אתן הגעתן ל-88%, כלומר עליתן 24 נקודות אחוז מעל המקריות. השאלה של קאפא היא איזה חלק מהרווח של 36% מילאתן.

פס אופקי מ-0 עד 100 אחוז. החלק עד 64 אחוז אפור ומסומן expected by chance. החלק בין 64 ל-88 אחוז כחול ומסומן what you earned. החלק בין 88 ל-100 אחוז בהיר ומסומן still disagreed. מעל החלק הכחול והבהיר חץ דו-כיווני עם הכיתוב room above chance שווה 0.365. מתחת כתוב kappa שווה earned חלקי room שווה 0.245 חלקי 0.365 שווה 0.67.

החשבון הוא בדיוק זה. ההסכמה שמעבר למקרה (0.245) חלקי כל הרווח שהיה מעבר למקרה (0.365). היחס יוצא 0.67.

זאת קאפא. לא 0.88, אלא 0.67. כדי להגיע אליה, קאפא מורידה את ההסכמה שהמזל היה נותן לבדו, אותם 64%, ומותחת מחדש את מה שנשאר על פני הרווח שבאמת היה אפשר להרוויח. ככה 0.88 הופך ל-0.67.

שווה לקרוא את הנוסחה פעם אחת במילים, כי היא מסתתרת מאחורי כל זה. קאפא היא ההסכמה שנצפתה פחות ההסכמה הצפויה במקרה, חלקי אחד פחות ההסכמה הצפויה במקרה. המונה הוא מה שהרווחתן מעבר למזל. המכנה הוא מה שהיה אפשר להרוויח. היחס ביניהם הוא קאפא.

איך קוראים את המספר

קאפא נעה בדרך כלל בין 0 ל-1. אפס פירושו שלא עשיתן טוב יותר ממזל. אחד פירושו הסכמה מושלמת. יש גם אזור שלילי, כשההסכמה גרועה אפילו מהמקרה, אבל אצל שתי מקודדות שעבדו ברצינות הוא נדיר.

הסולם הנפוץ ביותר להמרת קאפא למילים הוא של Landis ו-Koch:

קאפא	פירוש מקובל
0 עד 0.20	קלושה
0.21 עד 0.40	בינונית-נמוכה (fair)
0.41 עד 0.60	בינונית (moderate)
0.61 עד 0.80	ניכרת (substantial)
0.81 עד 1.00	כמעט מושלמת

קאפא של 0.67 נופלת באזור ה"ניכרת". זאת מהימנות טובה, ובהחלט כזאת שאפשר לדווח עליה בראש מורם. אז למה כל המהומה. כי 88% נשמע כמו "כמעט מושלם", ובאמת 0.67 הוא סיפור אחר, מדויק יותר. המנחה לא ביקש קאפא כדי להכשיל אותך. הוא ביקש אותה כי היא רואה את מה שאחוז ההסכמה לבדו מחמיץ.

הערה אחת על הסולם הזה: אלה כללי אצבע, לא חוקי טבע. הם נפוצים מאוד בספרות, אבל הגבול בין "בינונית" ל"ניכרת" אינו קדוש. דווחי את הערך עצמו תמיד, לא רק את המילה.

אותו 88% בדיוק, קאפא אחרת לגמרי

כאן מגיע הדבר שהכי חשוב להבין, וגם הכי קל לפספס. אחוז ההסכמה לבדו לא רק מנפח את התמונה. הוא גם לא יציב. אותו 88% הסכמה יכול להסתיר קאפא טובה או קאפא בינונית, תלוי בדבר אחד: כמה נדירה הקטגוריה.

שתי טבלאות 2 על 2 זו לצד זו, שתיהן עם 88 אחוז הסכמה גולמית. בטבלה השמאלית התנהגות מופיעה בערך ב-24 אחוז מהמקרים, התאים 9, 3, 3, 35, וקאפא שווה 0.67. בטבלה הימנית ההתנהגות נדירה יותר, בערך 10 אחוז, התאים 2, 3, 3, 42, וקאפא שווה 0.33. אותה הסכמה גולמית, קאפא שונה לגמרי.

שתי הטבלאות מראות 88% הסכמה. בשתיהן שתי השופטות נחלקו על שישה קטעים בדיוק. ההבדל היחיד הוא כמה פעמים הקטגוריה סומנה בכלל. משמאל סימנתן "כן" בערך ברבע מהקטעים, וקאפא יוצאת 0.67. מימין ה"כן" נדיר הרבה יותר, בערך עשירית מהקטעים, ואותו 88% מתכווץ לקאפא של 0.33.

למה. כי ככל שהקטגוריה נדירה יותר, ההסכמה האקראית גבוהה יותר מלכתחילה. כששתיכן אומרות "לא" כמעט תמיד, הרצפה האקראית מטפסת ל-82%, ונשאר רווח זעיר של 18% להרוויח בו. שש אי-ההסכמות, שמשמאל היו טיפה בים, מימין הן חלק גדול מהמעט שבכלל קרה.

זה לא באג. זאת בדיוק הסיבה שקאפא קיימת. כשהקטגוריה נדירה, הסכמה גבוהה היא קלה וזולה, וקאפא דורשת ממך להוכיח שההסכמה אמיתית ולא רק תוצר של הנדירות. אם הקטגוריה שלך נדירה והקאפא יצאה נמוכה למרות הסכמה גבוהה, זה לא אומר שהקידוד שלך גרוע. זה אומר שצריך יותר מקרים מהקטגוריה הנדירה כדי לבסס מהימנות, וכדאי לומר את זה במפורש בדיווח.

וכשהקטגוריות מדורגות

קאפא רגילה מתייחסת לכל אי-הסכמה כאל אותו דבר. אבל לפעמים הקטגוריות שלך מסודרות בסולם, נמוך-בינוני-גבוה, ואז יש הבדל בין החמצה קרובה לרחוקה. אחת סימנה "בינוני" והשנייה "גבוה" זה לא כמו אחת "נמוך" והשנייה "גבוה".

למצב הזה יש קאפא משוקללת (weighted kappa), שנותנת לאי-הסכמות קרובות עונש קטן יותר מאשר לרחוקות. אם הקידוד שלך הוא בכן/לא, זה לא רלוונטי. אם הוא בסולם מדורג, שווה לבדוק את הגרסה המשוקללת, כי הרגילה מענישה החמצה של קטגוריה אחת בדיוק כמו החמצה של שלוש.

וקאפא היא לא הכלי היחיד. אם קידדו אצלך יותר משני שופטים, או שיש סימונים חסרים, יש מדד שמתמודד עם זה ישירות, אלפא של קריפנדורף (Krippendorff's α), ובמחקר איכותני הוא נפוץ מאוד. לשתי שופטות וקטגוריות פשוטות, קאפא היא ברירת המחדל, ובה נתמקד כאן.

וכשמה שדירגתן הוא מספר, לא קטגוריה

קאפא עובדת על קטגוריות. כן/לא, או נמוך/בינוני/גבוה. אבל לפעמים שתי השופטות לא מסמנות קטגוריה, אלא נותנות ציון. שתי בודקות שנותנות לכל חיבור ציון מ-0 עד 100, שני מאבחנים שמדרגים חומרה בסולם רציף. שם קאפא לא מתאימה, ויש לה אחות שכן: מקדם המהימנות התוך-מחלקתי, ICC.

ה-ICC שואל שאלה דומה לקאפא, עד כמה מדידות של שופטים שונים מתיישבות זו עם זו, אבל הוא מגיע אליה בדרך אחרת, דרך פירוק השונות בין החיבורים לבין הבודקות. ויש לו דקוּת אחת ששווה להכיר. נניח ששתי בודקות דירגו שנים עשר חיבורים. המתאם ביניהן יוצא 0.996, כמעט מושלם. נראה מצוין. אבל המתאם בודק רק אם הן דירגו באותו סדר, לא אם נתנו אותם ציונים. ואם בודקת אחת מחמירה באופן שיטתי ונותנת בעקביות בערך 11 נקודות פחות, הסדר נשמר אבל הציונים לא תואמים.

ה-ICC, בגרסה שבודקת התאמה מוחלטת ולא רק עקביות, רואה את הפער הזה. על אותם נתונים הוא יוצא 0.79, נמוך בהרבה מהמתאם, כי הוא מעניש את ההפרש השיטתי שהמתאם התעלם ממנו. וזה ההיגיון המשותף לקאפא ול-ICC, גם אם המנגנון שונה: שניהם מסרבים להתרשם ממספר שנראה טוב מהסיבה הלא נכונה. קאפא לא נותנת קרדיט על הסכמה שהיא מזל, וה-ICC לא נותן קרדיט על סדר משותף שמסתיר פער שיטתי בציונים.

הנקודה המעשית: כשתבחרי ICC בתוכנה, היא תציע לך כמה גרסאות. בשביל מהימנות בין שופטים, את רוצה את זו שבודקת הסכמה מוחלטת (absolute agreement), לא רק עקביות, ובגרסת שופט יחיד אם אחת מכן עתידה לקודד את השאר לבד. זאת בחירה שמשנה את המספר, בדיוק כמו בדוגמה.

איך לדווח

בפרק השיטות, משפט אחד שמתעד את מי שקידד, על כמה, ובאיזו מהימנות. "שני שופטים בלתי תלויים קידדו את 50 הקטעים. ההסכמה ביניהם הייתה גבוהה, קאפא של כהן = 0.67, 95% CI [0.43, 0.91], ברמה הניכרת לפי Landis ו-Koch." אם הקידוד היה בסולם מספרי, החליפי את קאפא ב-ICC, וציַני את הגרסה. "מהימנות בין השופטים נבדקה במקדם תוך-מחלקתי (ICC, התאמה מוחלטת) = 0.79."

שמת לב שצירפתי גם רווח סמך. כדאי. עם 50 קטעים האומדן עצמו לא יציב כסלע, ורווח הסמך כאן, מ-0.43 עד 0.91, נמתח על פני שלוש מהרמות של Landis ו-Koch. ובדיוק לכן התווית המילולית היא תיאור, לא ציון, ולכן שווה לדווח את הערך ואת רווח הסמך, ולא רק את המילה.

הסיבה שמדווחים את זה בכלל היא לא פורמליות. Cronbach's α מראה שהפריטים בשאלון מודדים יחד דבר אחד, ותוקף מראה שהם מודדים את הדבר הנכון. מהימנות בין שופטים עונה על שאלה שלישית: שהקידוד שלך הוא לא רק העין שלך. שמישהו אחר, עם אותם כללים, היה רואה אותו דבר.

88% ההסכמה שלך תמיד היו אמיתיים. קאפא לא מחקה אותם. היא רק הפרידה את החלק שהרווחת מהחלק שהיה מגיע גם במזל, ואמרה לך באיזה אחוז, מתוך מה שהיה אפשר, באמת ראיתן את אותו דבר.