מדוע קיימת אמת מידה זו ומה היא בודקת
פענוח בדיקות דם בסיוע בינה מלאכותית נעשה בשימוש הולך וגובר בתהליכי עבודה לצרכנים ולמערכת הבריאות, אך מסגרות הערכה שניתנות לשחזור ומותאמות לרפואת מעבדה נותרות נדירות. השאלות החשובות ביותר בהקשר הזה אינן אלו שמכוסות על ידי אמת מידה כללית למענה על שאלות רפואיות: האם מנוע יכול להפריד בין חוסר ברזל לתסמונת נשאות תלסמיה כאשר נפח גופיפי הדם הממוצע זהה, האם הוא מאבחן יתר את תסמונת גילברט כצהבת (הפטיטיס), והאם הוא מייצר פתולוגיה בלוח סקר תקין לחלוטין?
לוח בדיקות דם יחיד כולל בדרך כלל מספיק מידע כדי לתמוך בכמה פרשנויות מתחרות, ותפקידו של הרופא המפרש הוא לשקול את הפרשנויות הללו זו מול זו במקום לשלוף תשובה בסגנון ספר לימוד. מנוע שמצליח במקרי ספר לימוד יכול עדיין להיכשל במקרים החשובים ביותר: מלכודות של אבחנה מבדלת, וריאנטים שפירים שנראים מדאיגים כשהם לבדם, ולוחות תקינים לחלוטין שמפתים עוזרים בטוחים לייצר פתולוגיה.
הייחוס הזה נבנה בדיוק סביב מצבי כשל אלה. כל אחד מחמשה עשר המקרים נבחר עבור תכונה אבחנתית ספציפית: מיקרוציטוזיס עקב חוסר ברזל שיש לשמור נפרד מתכונת תלסמיה בטא עם נפח גופיפי ממוצע זהה, הופעה של תסמונת גילברט שבה החריגה היחידה היא היפרבילירובינמיה עקיפה מבודדת, ולוח סקר של חמישה עשר פרמטרים שבו כל אנליט נמצא בתוך טווח הייחוס שלו. הרובריקה מתגמלת מנועים שקוראים כל מקרה על פי תנאיו, ומענישה מנועים שמגיעים לאבחנה בטוחה במקום שאין הצדקה לאבחנה כזו.
כד״ר תומס קליין, בחרתי את לוח המקרים משום שאלו הדפוסים שאני רואה שעוזרי רפואה-מעבדתית טועים בהם הכי הרבה. מצב הכשל היקר הוא לא "להחמיץ מחלה נדירה" — אלא לייצר פתולוגיה שגרתית בחולים שאין להם אותה. שֶׁלָנוּ אימות רפואי hub מתאר את המסגרת הרחבה; דף זה מתאר את התוצאה היישומית שלה על מנוע V11.
ריצת הייחוס העדכנית — V11 (אפריל 2026)
הרצת הייחוס של אפריל 2026 של מנוע ה-AI V11 Kantesti יצרה ציון מרוכב של 99.12% על רובריקת חמשה עשר המקרים שנרשמה מראש. שני מקרי מלכודת של היפראבחון קיבלו ציון בתקרה. אינדקס מנטזר יושם בצורה נכונה בדיפרנציאל בין חוסר ברזל לתלסמיה.
הנוסחה המרוכבת משלבת שלושה רכיבים: התאמה מבנית עם שבעת סעיפי הדיווח המחויבים ושישה עשר תתי-הסעיפים המחויבים, דיוק קליני נמדד כזכירת מילות מפתח + זכירת מערכת הניקוד + בדיקת תקפות של התפלגות הסתברות, ו- זמן תגובה מול יעד שירות ראשי של 20 שניות. הפירוק המדויק מוצג בנוסחת הרובריקה שלהלן.
0.88 נקודות האחוז הנותרות של מרווח הראש מתפרקות כמעט לחלוטין לאובדן עקב השהיית זמן — שלוש קריאות חירום (fallback) שלב 2, כל אחת בערך -0.05 מורכב, תרמו יחד כ-0.60 מתוך הגירעון של 0.88 נקודות — ולא לתוכן קליני. המנוע לא החמיץ אבחנה נכונה באף אחד מחמש עשרה המקרים; היכן שהוא לא עמד בציפיות, זה היה בכך שלקח מעט יותר זמן מהיעד הראשי של 20 שניות, במיעוט קטן של קריאות.
חמישה עשר מקרים על פני שבע התמחויות רפואיות
לוח המקרים מכסה שבע התמחויות — המטולוגיה, אנדוקרינולוגיה, רפואה מטבולית, הפטולוגיה, נפרולוגיה, קרדיולוגיה, ראומטולוגיה — בנוסף לשני מקרי מלכודת ייעודיים לאבחון-יתר. כל מקרה הוא תיעוד מטופל אמיתי ומאונָמֵן, שנלקח ממאגר הנתונים הקליניים Kantesti, תחת הסכמה מדעת בכתב.
דה-איידנטיפיקציה בוצעה בגישת Safe Harbor: כל המזהים הישירים הוסרו או הוחלפו, ולכל רשומה הוקצה קוד מקרה פנימי-מדדי בפורמט BT-NNN-LABEL. העיבוד בוצע בהתאם ל- סעיף 9(2)(j) של GDPR למחקר מדעי עם אמצעי הגנה מתאימים, ובהוראות המקבילות של UK GDPR. לא מופיע מידע מזהה אישי בשום מקום במתקן שפורסם, בדוח הטכני, או במערכי הנתונים ששוּחררו.
למה התפלגות מסוימת זו
המטולוגיה מקבלת שלושה מקרים משום שדיפרנציאלים מיקרוציטיים ודיפרנציאלים מקרוציטיים הם מלכודות בנפח הגבוה ביותר בפרקטיקה מעבדתית בעולם האמיתי. אנדוקרינולוגיה מקבלת שלושה משום שההצגות של האשימוטו, PCOS וחוסר ויטמין D מפעילות צורות אבחנתיות שונות (מונעות על ידי נוגדנים עצמיים, מונעות על ידי יחסי הורמונים, מונעות על ידי סמן יחיד). ההתמחויות במקרי יחיד עדיין משמעותיות משום שלכל אחד מ-CKD, סיכון ל-ASCVD ו-SLE יש מערכת ניקוד משלו שהמנוע אמור להפעיל (בהתאמה: שלבי KDIGO, סיכון 10 שנים ל-ASCVD, וקריטריוני 2019 EULAR/ACR ל-SLE).
המחוון הרשום מראש, מוסבר
רישום מראש הוא הבחירה המתודולוגית החשובה ביותר במדד ייחוס זה. כל אבחנה צפויה, כל מערכת ניקוד קלינית, וכל סעיף בדוח הוקדשו לקוד המקור לפני שהמנוע הופעל. לכן כוונון בדיעבד של הקריטריון כדי להלל את המנוע אינו אפשרי.
שלושה רכיבים מרכיבים את הציון המשוקלל. רכיב מבני תורם 35 אחוזים ומודד האם המנוע החזיר את שבעת סעיפי הדוח המחייבים (כותרת, סיכום, ממצאים מרכזיים, דיפרנציאל, מערכות ניקוד, המלצות, מעקב) ואת שש עשרה תתי-הסעיפים המחייבים בתוכם. נוכחות סעיף שוקלת 40 אחוזים ונוכחות תת-סעיף שוקלת 60 אחוזים בתוך החישוב המבני.
ה רכיב קליני תורם 55 אחוזים ומשלב שלושה דברים: שליפת מילות מפתח לאבחנה (70 אחוזים מהתת-ציון הקליני), שליפת מערכת הניקוד (20 אחוזים — האם המנוע מחשב Mentzer, FIB-4, HOMA-IR, סיכון ASCVD, שלבי KDIGO וקריטריוני EULAR/ACR היכן שרלוונטי), ובדיקת תקפות סכום הסתברויות (10 אחוזים — הסתברויות הדיפרנציאל אמורות להסתכם בטווח [90, 110]). במקרי מלכודת, מופחת קנס מפורש על היפראבחון עד 0.30, מחושב כ-0.10 לכל דגל פתולוגיה שהומצא, עם תקרה של שלושה דגלים.
ה רכיב השהיה תורם 10 אחוזים. תגובה מתחת ל-20 שניות מקבלת את מלוא 0.10, תגובה מתחת ל-40 שניות מקבלת 0.05, וכל דבר איטי יותר מקבל אפס. יעד 20 השניות משקף את יעד רמת השירות של שירות הייצור primary-path; תקרת 40 השניות משקפת את תקציב ה-fallback של שלב 2 להפעלות כבדות של המנוע.
מה רישום מראש מונע
מדדי ייחוס של הגורם הראשון ידועים בכך שהם מנפחים את המספרים שלהם באמצעות כוונון בדיעבד של הקריטריון. הדפוס כמעט תמיד זהה: הצוות מפעיל את המנוע, רואה היכן הוא מפגר, ואז מכוון בשקט את הקריטריון כך שהאזורים שבהם הוא מפגר ייחשבו פחות. על ידי התחייבות לקריטריון בקוד המקור לפני קריאת המנוע הראשונה ופרסום המבחן תחת רישיון MIT, ההתאמה הזו הופכת לגלויה בגרסאות. כל אחד יכול לשכפל את המאגר, לבדוק את תאריכי כתיבת הקריטריון, ולאמת שהתוצאות של המנוע לא שימשו כדי לעצב את הדירוג.
מקרי מלכודת לאבחון-יתר — מדוע קריאה-יתר היא מצב הכשל האמיתי
קריאה אגרסיבית מדי של פתולוגיה במסכים תקינים היא מצב כשל מתועד של עוזרים רפואיים לצרכן. העלויות במורד הזרם כוללות בירור מיותר, חרדת מטופל, והערכה/טיפול iatrogenic. שני מקרי המלכודת במדד ייחוס זה נועדו להפוך את מצב הכשל הזה לגלוי ולמדיד.
🟡 מלכודת 1 — BT-014-GILBERT
הצגה. גבר בן 24 עם בילירובין כולל של 2.4 מ״ג/ד״ל. החלק הישיר תקין, הטרנסאמינזות והפוספטזה אלקלינית נמצאות בתוך טווחי הייחוס שלהן, רטיקולוציטים אינם חריגים, ו-haptoglobin ו-LDH שוללים המוליזה.
פענוח נכון. תסמונת גילברט — פולימורפיזם שפיר של UGT1A1. הפענוח לא אמור להפעיל הפניה להפטיטיס, שחמת, אנמיה המוליטית או חסימה ביליארית.
תוצאת V11. ציון משוקלל 1.000. אף אחד מששת דגלי ה-over-diagnosis שנוטרו לא הופיע כאבחנה פעילה.
🟡 מלכודת 2 — BT-015-HEALTHY
הצגה. אישה בת 35 עם לוח סקר שגרתי של 15 פרמטרים. כל אחד מהמדדים נמצא בנוחות בתוך טווח הייחוס שלו.
פענוח נכון. הרגעה ושמירה על אורח חיים. הפענוח לא אמור להמציא פתולוגיה גבולית כדי להישמע שימושי מבחינה קלינית.
תוצאת V11. קומפוזיט 1.000. אף אחד משבעת דגלי היתר-אבחון שנוטרו — סוכרת, אנמיה, תת-תריסיות, דיסליפידמיה, הפטיטיס, מחלת כליות, חסר — לא הופיע כאבחנה פעילה.
בשני ה"טרפים" נבדקו 13 דגלי יתר-אבחון שנוטרו. אף אחד לא הופעל. זו התוצאה שהכי חשובה לכל קלינאי ששוקל להשתמש במנוע בינה מלאכותית ככלי מיון או כהכנה לפני ייעוץ: המערכת לא המציאה מחלה כשלא הייתה קיימת.
מדד מנטזר: הפרדת חוסר ברזל מתסמונת נשאות תלסמיה
ממצא בעל ערך גבוה נוסף נוגע לשילוב של מקרה BT-001 (אנמיה מחוסר ברזל) עם מקרה BT-007 (תלסמיה בטא מינור). שני המצבים מציגים מיקרוציטוזיס, וזהו מכשול מוכר לסיווגים נאיביים. מדד מנטזר, המחושב כ-MCV חלקי ספירת RBC, גבוה מ-13 במחסור ברזל ונמוך מ-13 בתכונת תלסמיה.
ב-BT-001, המטופלת הייתה אישה בת 34 עם המוגלובין 10.4 גרם/ד"ל, MCV 72.4 fL, RBC 4.1 × 10¹²/L, פריטין 6 ננוגרם/מ"ל, ו-TIBC מוגבר. מדד מנטזר של כ-17.7 תומך במחסור ברזל מוחלט. ב-BT-007, המטופל היה גבר בן 28 עם מיקרוציטוזיס (MCV 65.8 fL) אך עם ספירת RBC גבוהה של 6.2, RDW תקין, פריטין תקין, ו-HbA2 של 5.6 אחוז. מדד מנטזר של כ-10.6 מצביע על תכונת תלסמיה, ו-HbA2 המוגבר מאשר תלסמיה בטא מינור.
בשני המקרים הציון היה 1.000. המנוע הפעיל במפורש את מדד מנטזר בשני הפענוחים והחזיר את האבחנה הנכונה בכל מקרה. זו התוצאה היחידה ביותר שמרגיעה מבחינה קלינית בכל הבנצ'מרק, משום שסיווג שגוי של תכונת תלסמיה כשל מחסור ברזל מוביל לתוספת ברזל לא מתאימה ולפספוס הזדמנויות לסינון משפחתי, וסיווג שגוי של מחסור ברזל כתלסמיה מעכב טיפול החלפה פשוט. ה- טווח פריטין מסביר את ההקשר הרחב של הדיפרנציאל.
תוצאות לפי מקרה מהרצת אפריל 2026
12 מתוך 15 מקרים הגיעו לציון הקומפוזיט התקרתי של 1.000 במסלול הראשי. שלושה מקרים טופלו באמצעות מנגנון ה-Fallback של שלב 2, תוך איבוד בונוס השהיית-זמן של 0.05 תוך שמירה על כל התוכן הקליני והמבני. במקרה אחד חסר תת-סעיף חובה יחיד; במקרה אחד הוחזרה סכימת התפלגות הסתברות מופחתת במעט.
מקרה ה-PCOS (BT-008) איבד תת-סעיף חובה יחיד במבנה התשובה — חמישה עשר מתוך שישה עשר במקום שישה עשר מתוך שישה עשר — מה שקיצץ את ציון המבנה מ-1.000 ל-0.963. מקרה ה-SLE (BT-011) החזיר סכום הסתברויות מופחת במעט שהתבטא בציון קליני של 0.965, תוך שמירה על כל מילות המפתח האבחנתיות ועל מערכת הניקוד. אף אחד משני המקרים שלא היו מושלמים לא החמיץ אבחנה נכונה.
מה ציון הכותרת לא מספר לנו
ציון מורכב של 99.12 אחוזים במסגרת הייחודית הזו שנרשמה מראש מייצג ביצועים קרובים לתקרת היכולת, אך הוא מצריך מסגור זהיר. התוצאה מתארת את התנהגות המנוע מול חמישה עשר מקרים אנונימיים שנבחרו בקפידה, שנבדקו פעם אחת כל אחד, מול מדד יחיד. אנחנו מבהירים במפורש מה המספר כן ומה המספר לא קובע.
הציון אומר שמנוע V11 טיפל נכון בדפוסי האבחון שנבחרו לצורך הערכה זו, בשיטה שמפורסמת וניתנת לשחזור. הוא לא אומר שהמנוע נכון בכל לוח בדיקות דם שקיים בעולם. הוא לא אומר שהמנוע אמור להחליף שיקול דעת קליני. וגם הוא לא אומר שהמנוע עולה על מערכות בינה מלאכותית חלופיות — ניתוחים השוואתיים מול מנועים אחרים הוצאו במכוון מתחום הדוח הזה.
מה שהציון כן קובע הוא קו בסיס. מאחר שהמדד והמסגרת זמינים לציבור, גרסאות עתידיות של המנוע יוכלו להיבדק מול אותם חמישה עשר מקרים, והפער בין הציון שפורסם לבין כל ריצה שלאחר מכן הוא עצמו מדיד. זה הערך של רישום מראש: הוא ממיר טענות ביצועים לטענות שניתן לבדוק.
איך לשחזר את אמת המידה הזו תוך 10 דקות
כדי לשחזר נדרש רק זוג אישורי API של Kantesti וסביבת Python 3.10 או גרסה מאוחרת יותר עם ה- requests ו reportlab ספריות מותקנות. המסגרת המלאה היא מודול Python יחיד ועצמאי, שיצא תחת רישיון MIT.
ארבעה שלבים להרצה חדשה
אחד. משכו את המאגר: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. שתיים. התקינו תלויות עם pip install -r requirements.txt. שלוש. הגדירו KANTESTI_USERNAME ו KANTESTI_PASSWORD כמשתני סביבה — האישורים נקראים בזמן ריצה ולא מקודדים בקשיחות בתוך הסקריפט. ארבע. הריצו python benchmark_bloodtest.py ובחנו את ארבעת הממצאים שנפלטו לתיקיית העבודה: כרטיס ניקוד בפורמט CSV, כרטיס ניקוד בפורמט JSON, dump מלא ב-JSON כולל תגובות גולמיות של המנוע, ודוח Markdown קריא לאדם.
הרצת הייחוס מ-23 באפריל 2026 נשמרת ב- results/ בתיקיית המאגר. הרצה חדשה תפיק כרטיס ניקוד חדש עם חותמת זמן, תוך השארת הרצת הייחוס ללא שינוי. אם ההרצה שלכם מפיקה תוצאה שונה באופן מהותי, אנא פתחו Issue ב-GitHub עם חותמת הזמן של ההרצה וגרסת המנוע שהוחזרה במטא-דאטה של התשובה.
מגבלות ועבודת המשך
ארבע מגבלות ראויות להכרה מפורשת: גודל המדגם, הערכה חד-פעמית, היקף מנוע יחיד, ומקור נתונים יחיד. כל אחת מהן מטופלת בעבודת מעקב פעילה.
גודל המדגם. חמש עשרה מקרים על פני שמונה קטגוריות התמחות מספיקים להוכחת היתכנות, אך לא לניתוחי תת-קבוצות בתוך התמחות. הרחבה לחמישים מקרים מתוכננת ותכלול לוחות קרישה, סקר לממאירויות המטולוגיות, לוחות הריון, ומצגות ילדים.
הערכה חד-פעמית. כל מקרה הוערך פעם אחת. מודלים של שפה גדולה מציגים שונות פלט לא טריוויאלית גם בטמפרטורת דגימה נמוכה, לכן פרוטוקול ריבוי-הרצות עם חמש הערכות לכל מקרה ודיווח על השונות הוא הצעד הבא הטבעי.
היקף מנוע יחיד. דוח זה מתאר מנוע אחד. ניתוחים השוואתיים מול מערכות בינה מלאכותית חלופיות אינם בתחום כאן; ייתכן שנבצע אותם כמחקר נפרד ועצמאי עם מתודולוגיה מתאימה.
מקור נתונים יחיד. חמש עשרה המקרים הם רשומות אמיתיות של מטופלים שעברו אנונימיזציה, שנלקחו ממאגר קליני יחיד. הם מייצגים מדגם שעבר אצירה ואינם דגימה אקראית מייצגת אוכלוסייה. הרחבת ההערכה למספר מרכזים נמצאת בתכנון.
ההרחבה המתוכננת המשפיעה ביותר היא התאמת רב-לשוניות. מנוע ה-AI של Kantesti משרת משתמשים ב-75+ שפות, והרצת אותו תשתית של חמש עשרה מקרים בטורקית, גרמנית, ספרדית, צרפתית וערבית תכמת את איכות הפלט לאורך השפות הנתמכות של המנוע. נפרסם כל הרצה לפי שפה עם DOI משלה וענף תשתית משלה.