מדוע קיימת אמת מידה זו ומה היא בודקת

פענוח בדיקות דם בסיוע בינה מלאכותית נעשה בשימוש הולך וגובר בתהליכי עבודה לצרכנים ולמערכת הבריאות, אך מסגרות הערכה שניתנות לשחזור ומותאמות לרפואת מעבדה נותרות נדירות. השאלות החשובות ביותר בהקשר הזה אינן אלו שמכוסות על ידי אמת מידה כללית למענה על שאלות רפואיות: האם מנוע יכול להפריד בין חוסר ברזל לתסמונת נשאות תלסמיה כאשר נפח גופיפי הדם הממוצע זהה, האם הוא מאבחן יתר את תסמונת גילברט כצהבת (הפטיטיס), והאם הוא מייצר פתולוגיה בלוח סקר תקין לחלוטין?

תרשים זרימה של הרובריקה שנרשמה מראש, המציג כיצד מנוע ה-Kantesti AI — עדכון ה-V11 השני, ציון 99.80% על 100,000 מקרים — מוערך מול קריטריוני ניקוד קפואים
איור 1: ארכיטקטורת הייחוס שמאחורי ה־ ציון מרוכב 99.80% ב־V11 עדכון שני 100,000-מקרים — כל מקרה, כל מילות מפתח, כל מערכת ניקוד מקובעים בקוד המקור לפני שהמנוע רואה ולו PDF אחד, והרובריקה זהה לחלוטין ברמת הבייט למהדורה הראשונית של V11. כוונון רובריקה בדיעבד אינו אפשרי מעצם התכנון.

לוח בדיקות דם יחיד כולל בדרך כלל מספיק מידע כדי לתמוך בכמה פרשנויות מתחרות, ותפקידו של הרופא המפרש הוא לשקול את הפרשנויות הללו זו מול זו במקום לשלוף תשובה בסגנון ספר לימוד. מנוע שמצליח במקרי ספר לימוד יכול עדיין להיכשל במקרים החשובים ביותר: מלכודות של אבחנה מבדלת, וריאנטים שפירים שנראים מדאיגים כשהם לבדם, ולוחות תקינים לחלוטין שמפתים עוזרים בטוחים לייצר פתולוגיה.

הייחוס הזה נבנה בדיוק סביב מצבי כשל אלה. כל אחד מחמשה עשר המקרים נבחר עבור תכונה אבחנתית ספציפית: מיקרוציטוזיס עקב חוסר ברזל שיש לשמור נפרד מתכונת תלסמיה בטא עם נפח גופיפי ממוצע זהה, הופעה של תסמונת גילברט שבה החריגה היחידה היא היפרבילירובינמיה עקיפה מבודדת, ולוח סקר של חמישה עשר פרמטרים שבו כל אנליט נמצא בתוך טווח הייחוס שלו. הרובריקה מתגמלת מנועים שקוראים כל מקרה על פי תנאיו, ומענישה מנועים שמגיעים לאבחנה בטוחה במקום שאין הצדקה לאבחנה כזו.

כד״ר תומס קליין, בחרתי את לוח המקרים משום שאלו הדפוסים שאני רואה שעוזרי רפואה-מעבדתית טועים בהם הכי הרבה. מצב הכשל היקר הוא לא "להחמיץ מחלה נדירה" — אלא לייצר פתולוגיה שגרתית בחולים שאין להם אותה. שֶׁלָנוּ אימות רפואי ה-hub מתאר את המסגרת הרחבה יותר; עמוד זה מתאר את הוכחת הקונספט הראשונית של V11 ואת V11 עדכון שני, שהרחיבו אותה ל-100,000 מקרי בדיקה סינתטיים שנלקחו ממערך מקרים סינתטי המשתרע על פני 127 תוויות מדינה — תוך שימוש באותו רובריק ניקוד, זהה ברמת הבייטים, ללא אפשרות לכוונון בדיעבד.

הרצת הייחוס העדכנית ביותר — V11 עדכון שני (26 באפריל 2026)

הרצת הייחוס של V11 עדכון שני מ־26 באפריל 2026 יצרה ציון מורכב של 99.80% על אותה רובריקה שנרשמה מראש ששימשה במהדורה הראשונית של V11, הוערכה על 100,000 מקרים סינתטיים מתוך מערך המקרים הסינתטיים של Kantesti ומשתרעים על 127 תוויות מדינה ועל שפות 75+. כל מקרה הושלם במסלול הראשי של המנוע; הפעלות של דגל היפר־אבחון במקרי מלכודת נותרו ב־ 0 / 87,412. ההרצה המקורית של V11 מ־23 באפריל 2026 כיסתה 15 מקרים שנבחרו ידנית (ציון מורכב 99.12%) ואישרה את הרובריקה; עדכון שני שומר על אותה רובריקה זהה לחלוטין ברמת הבייט ומרחיב את ההערכה לקוהורט בקנה מידה אוכלוסייתי.

מרוכב 99.80% 100,000 מתוך 100,000 המקרים קיבלו ציון
1.000 ציון מבני
0.996 ציון קליני
13.26 s זמן השהיה ממוצע
0 / 87,412 מלכודות של חיובי-שווא

הנוסחה המרוכבת משלבת שלושה רכיבים: התאמה מבנית עם שבעת סעיפי הדיווח המחויבים ושישה עשר תתי-הסעיפים המחויבים, דיוק תוכן נמדד כזכירת מילות מפתח + זכירת מערכת הניקוד + בדיקת תקפות של התפלגות הסתברות, ו- זמן תגובה מול יעד רמת השירות במסלול הראשי. הפירוק המדויק מוצג בנוסחת הרובריקה להלן — אף אחד מהמשקלים או תתי־הרובריקות הללו לא שונה בעדכון השני.

מרוכב = 0.35 × מבני + 0.55 × קליני + 0.10 × השהיית זמן (Latency)

0.20 נקודות האחוז הנותרות של מרווח הראש decompose כמעט כולו לתת־ציון קליני — חלק קטן מהמקרים (בעיקר בהפטולוגיה ובריאומטולוגיה) היה חסר מילת מפתח אחת ממערכת הניקוד הצפויה בפרשנות של המנוע, למרות שהתוכן האבחוני היה נכון. אף מקרה בקוהורט של 100,000 המקרים בעדכון השני לא החמיץ את האבחנה עצמה. זמן ההשהיה השתפר מממוצע של 20.17 s במהדורה הראשונית של V11 ל־13.26 s בעדכון השני, המשקף אופטימיזציות של מנוע הייצור בין שתי ההרצות; הרובריקה, קוד הניקוד ו־endpoint ה־API לא השתנו.

ציונים מרוכבים לכל תווית נעו בין 0.9971 ל-0.9985 על פני 30 תוויות המדינות הנפוצות ביותר. הזנב הארוך של 97 תוויות נוספות (≈7,300 מקרים יחד) לא הראה הידרדרות שיטתית. התוויות השכיחות ביותר לפי מספר מקרים היו ארצות הברית (10,500), ברזיל (9,500), ספרד (9,000), איטליה (8,000), גרמניה (7,800), צרפת (7,400), פורטוגל (5,800), Türkiye (3,400), הממלכה המאוחדת (2,900), ומקסיקו (2,500).

מ-15 מקרים ל-100,000: התפתחות הקוהורט על פני 127 תוויות מדינה

פאנל המקרים המקורי של V11 כיסה שבע התמחויות — המטולוגיה, אנדוקרינולוגיה, רפואה מטבולית, הפטולוגיה, נפרולוגיה, קרדיולוגיה, ראומטולוגיה — בנוסף לשני מקרי מלכודת ייעודיים לאבחון-יתר, כאשר כל מקרה הוא פאנל בדיקות דם שנוצר באופן סינתטי. עדכון V11 השני מרחיב את ההערכה ל- 100,000 מקרים סינתטיים על פני 127 תוויות מדינה, מחולקים בין שמונה התמחויות (שבע המקוריות ועוד תיבת רפואה פנימית ייעודית שסופגת את תת־קבוצת המלכודת). אותה רובריקה לניקוד מוחלת זהה לחלוטין ברמת הבייט בשתי ההרצות.

עיצוב לוח המקרים הראשוני של V11 — חמישה עשר מקרי בדיקות דם סינתטיים על פני שבע התמחויות רפואיות ועוד שני מקרי מלכודת להיפר-אבחון; אותה רובריקה השיגה ציון קומפוזיטי של 99.80% על 100,000 מקרים ב-V11 Second Update
איור 2: עיצוב לוח המקרים הראשוני של V11 בהמטולוגיה, אנדוקרינולוגיה, רפואה מטבולית, הפטולוגיה, נפרולוגיה, קרדיולוגיה, ראומטולוגיה, בנוסף לשני מקרי מלכודת — תסמונת גילברט ומערך סקר תקין לחלוטין. עדכון שני שומר על אותה רובריקה זהה לחלוטין ברמת הבייט תוך הרחבת הקוהורט ל־100,000 מקרים שנלקחו ממאגר ה־Kantesti SQL.

מאחר שכל המקרים נוצרים באופן סינתטי, אין מזהים אמיתיים להסיר ואין מעורבים נתונים אישיים. כל מקרה סינתטי נושא קוד מקרה פנימי למדד (BT-NNN-LABEL בערכת ההתחלה של V11, גרסה יציבה case_uid בעדכון השני). לא מופיעים נתונים אישיים בשום מקום במתקן שפורסם, בדוח הטכני, או במערכי הנתונים שיצאו.

V11 מהדורה ראשונית — 15 מקרים שנבחרו ידנית

לוח המקרים של V11 המקורי נבחר ידנית על ידי ד״ר תומאס קליין כדי לתרגל דפוסי אבחון שהעוזרים ברפואת מעבדה נוטים לטעות בהם לרוב. כל אחד מחמשה עשר המקרים נבחר עבור תכונת אבחון ייעודית, כמפורט להלן.

המטולוגיה (3) BT-001, BT-006, BT-007 אנמיה מחוסר ברזל · חוסר ב-B12 · בטא-תלסמיה קלה
אנדוקרינולוגיה (3) BT-002, BT-008, BT-012 דלקת בלוטת התריס של האשימוטו · PCOS עם עמידות לאינסולין · חוסר חמור בוויטמין D
מטבולי (2) BT-003, BT-013 סוכרת סוג 2 עם תסמונת מטבולית · היפראוריצמיה עם סיכון לגאוט
הפטולוגיה (2) BT-004, BT-009 כבד שומני לא-אלכוהולי (NAFLD) / NASH · דלקת כבד נגיפית חריפה
נפרולוגיה · קרדיולוגיה · ראומטולוגיה (3) BT-005, BT-010, BT-011 מחלת כליות כרונית שלב 3 · דיסליפידמיה אטרוגנית · זאבת אדמנתית מערכתית
מקרי מלכודת (2) BT-014, BT-015 תסמונת גילברט (היפרבילירובינמיה עקיפה מבודדת) · מסך מבוגרים תקין לחלוטין

למה התפלגות מסוימת זו

המטולוגיה מקבלת שלושה מקרים משום שדיפרנציאלים מיקרוציטיים ודיפרנציאלים מקרוציטיים הם מלכודות בנפח הגבוה ביותר בפרקטיקה מעבדתית בעולם האמיתי. אנדוקרינולוגיה מקבלת שלושה משום שההצגות של האשימוטו, PCOS וחוסר ויטמין D מפעילות צורות אבחנתיות שונות (מונעות על ידי נוגדנים עצמיים, מונעות על ידי יחסי הורמונים, מונעות על ידי סמן יחיד). ההתמחויות במקרי יחיד עדיין משמעותיות משום שלכל אחד מ-CKD, סיכון ל-ASCVD ו-SLE יש מערכת ניקוד משלו שהמנוע אמור להפעיל (בהתאמה: שלבי KDIGO, סיכון 10 שנים ל-ASCVD, וקריטריוני 2019 EULAR/ACR ל-SLE).

V11 עדכון שני — 100,000 מקרים סינתטיים על פני 127 תוויות מדינה

עדכון שני מחליף את ה-Python הליטרלי הקשיח של V11 המקורי עם 15 מקרים, בערכת מקרים סינתטית גדולה יותר שנוצרת באופן תכנותי. מערך המקרים נטען בתחילת כל ריצה והתצורה נרשמת לשקיפות. התפלגות הקוהורט לפי תחום תוכן מוצגת להלן.

אנדוקרינולוגיה 23,900 מקרים (23.9%) בלוטת התריס, PCOS, ויטמין D, ציר גונאדלי, יותרת המוח
רפואה מטבולית 21,900 מקרים (21.9%) T2DM, תסמונת מטבולית, לוחות שומנים, היפראוריצמיה
המטולוגיה 15,400 מקרים (15.4%) דיפרנציאל מיקרוציטי ומקרוציטי, B12/פולאט, בדיקות ברזל
הפטולוגיה 12,400 מקרים (12.4%) NAFLD/NASH, הפטיטיס ויראלית, FIB-4, כולסטזיס
רפואה פנימית (כולל תת-קבוצת trap) 9,000 מקרים (9.0%) מצגות מעורבות ו-8,723 מקרים ייעודיים של מלכודת היפראבחון
קרדיולוגיה 7,500 מקרים (7.5%) סיכון ל-ASCVD, דיסליפידמיה אטרוגנית, hs-CRP
ראומטולוגיה 6,000 מקרים (6.0%) SLE, RA, וסקוליטיס, לוחות נוגדנים עצמיים (קריטריונים EULAR/ACR)
נפרולוגיה 4,000 מקרים (4.0%) שלביות CKD (KDIGO), מגמות eGFR, הפרעת אלקטרוליטים

התפלגות תוויות מדינה סינתטיות — 10 התוויות המובילות

100,000 המקרים הסינתטיים נושאים 127 תוויות מדינה (ISO 3166-1 alpha-2) כדי לבחון טיפול בלוקאל. הקצאת תווית: אירופה 57.7%, אמריקה 25.4%, אסיה-פסיפיק 6.2%, תוויות בשם המזרח התיכון/אפריקה 3.4%, וזנב ארוך של 97 תוויות נוספות בשילוב של בערך 7.3%. עשר התוויות השכיחות ביותר לפי מספר מקרים הן ארצות הברית (10,500), ברזיל (9,500), ספרד (9,000), איטליה (8,000), גרמניה (7,800), צרפת (7,400), פורטוגל (5,800), Türkiye (3,400), הממלכה המאוחדת (2,900), ומקסיקו (2,500). ציונים מרוכבים לכל תווית נעו בין 0.9971 ל-0.9985. ספירות תווית אלו הן תכונות של המקרים שנוצרו, המשמשות להפעלת טיפול בלוקאל — הן אינן משתמשים אמיתיים ואינן כיסוי גאוגרפי בעולם האמיתי.

המחוון הרשום מראש, מוסבר

רישום מראש הוא הבחירה המתודולוגית החשובה ביותר במדד ייחוס זה. כל אבחנה צפויה, כל מערכת ניקוד קלינית, וכל סעיף בדוח הוקדשו לקוד המקור לפני שהמנוע הופעל. לכן כוונון בדיעבד של הקריטריון כדי להלל את המנוע אינו אפשרי.

שלושה רכיבים מרכיבים את הציון המשוקלל. רכיב מבני תורם 35 אחוזים ומודד האם המנוע החזיר את שבעת סעיפי הדוח המחייבים (כותרת, סיכום, ממצאים מרכזיים, דיפרנציאל, מערכות ניקוד, המלצות, מעקב) ואת שש עשרה תתי-הסעיפים המחייבים בתוכם. נוכחות סעיף שוקלת 40 אחוזים ונוכחות תת-סעיף שוקלת 60 אחוזים בתוך החישוב המבני.

ה רכיב קליני תורם 55 אחוזים ומשלב שלושה דברים: שליפת מילות מפתח לאבחנה (70 אחוזים מהתת-ציון הקליני), שליפת מערכת הניקוד (20 אחוזים — האם המנוע מחשב Mentzer, FIB-4, HOMA-IR, סיכון ASCVD, שלבי KDIGO וקריטריוני EULAR/ACR היכן שרלוונטי), ובדיקת תקפות סכום הסתברויות (10 אחוזים — הסתברויות הדיפרנציאל אמורות להסתכם בטווח [90, 110]). במקרי מלכודת, מופחת קנס מפורש על היפראבחון עד 0.30, מחושב כ-0.10 לכל דגל פתולוגיה שהומצא, עם תקרה של שלושה דגלים.

ה רכיב השהיה תורם 10 אחוזים. תגובה מתחת ל-20 שניות מקבלת את מלוא 0.10, תגובה מתחת ל-40 שניות מקבלת 0.05, וכל דבר איטי יותר מקבל אפס. יעד 20 השניות משקף את יעד רמת השירות של שירות הייצור primary-path; תקרת 40 השניות משקפת את תקציב ה-fallback של שלב 2 להפעלות כבדות של המנוע.

צילום מסך סופי של סביבת אמת המידה של Kantesti ברישיון MIT בזמן ריצה ופולטת ציונים לכל מקרה — אותה סביבת הרצה, שכעת מונעת באמצעות SQL, הפיקה את ציון 99.80% בהרצת 100,000 המקרים של עדכון ה-V11 השני
איור 3: סביבת ההרצה בפועל — אותו מנוע שהפיק קומפוזיט 99.80% בקוהורט של 100,000 מקרים ב-V11 Second Update. כל מקרה מעובד ל-PDF ‏A4, מועלה ל-endpoint הייצור של v11, ומדורג מול ה-rubric הקפוא. ה-Second Update הוסיף loader של מקרי SQL פרמטריים; דגימה אקראית מרובדת של תגובות גולמיות מהמנוע (n = 201) נשמרת לצד ה-scorecard המצטבר.

מה רישום מראש מונע

מדדי ייחוס של הגורם הראשון ידועים בכך שהם מנפחים את המספרים שלהם באמצעות כוונון בדיעבד של הקריטריון. הדפוס כמעט תמיד זהה: הצוות מפעיל את המנוע, רואה היכן הוא מפגר, ואז מכוון בשקט את הקריטריון כך שהאזורים שבהם הוא מפגר ייחשבו פחות. על ידי התחייבות לקריטריון בקוד המקור לפני קריאת המנוע הראשונה ופרסום המבחן תחת רישיון MIT, ההתאמה הזו הופכת לגלויה בגרסאות. כל אחד יכול לשכפל את המאגר, לבדוק את תאריכי כתיבת הקריטריון, ולאמת שהתוצאות של המנוע לא שימשו כדי לעצב את הדירוג.

מקרי מלכודת לאבחון-יתר — מדוע קריאה-יתר היא מצב הכשל האמיתי

קריאה אגרסיבית מדי של פתולוגיה במסכים תקינים היא מצב כשל מתועד של עוזרים רפואיים לצרכן. העלויות במורד הזרם כוללות בירור מיותר, חרדת מטופל, והערכה/טיפול iatrogenic. שני מקרי המלכודת במדד ייחוס זה נועדו להפוך את מצב הכשל הזה לגלוי ולמדיד.

השוואה זה לצד זה של בינה מלאכותית נאיבית שמייצרת הפטיטיס על פאנל של תסמונת גילברט מול מנוע Kantesti שמזהה נכון את פולימורפיזם UGT1A1 השפיר — מתודולוגיה שהתרחבה לאפס חיוביות שגויות בכל 87,412 הזדמנויות לדגל מלכודת בעדכון ה-V11 השני אמת המידה 99.80%
איור 4: עיצוב מקרי ה”מלכודת” מהשחרור הראשוני של V11 — מנוע שמסמן בביטחון את תסמונת גילברט כהפטיטיס, או שמייצר פתולוגיה גבולית על מסך תקין לחלוטין, מקבל קנס ולא פרס על כך שנשמע קליני. המתודולוגיה הזו הוגדלה ל- 0 / 87,412 false-positives במהלך הרצת ה-V11 Second Update של 100,000 מקרים שהניבה את ציון הקומפוזיט 99.80%.

🟡 מלכודת 1 — BT-014-GILBERT

הצגה. גבר בן 24 עם בילירובין כולל של 2.4 מ״ג/ד״ל. החלק הישיר תקין, הטרנסאמינזות והפוספטזה אלקלינית נמצאות בתוך טווחי הייחוס שלהן, רטיקולוציטים אינם חריגים, ו-haptoglobin ו-LDH שוללים המוליזה.

פענוח נכון. תסמונת גילברט — פולימורפיזם שפיר של UGT1A1. הפענוח לא אמור להפעיל הפניה להפטיטיס, שחמת, אנמיה המוליטית או חסימה ביליארית.

תוצאת V11. ציון משוקלל 1.000. אף אחד מששת דגלי ה-over-diagnosis שנוטרו לא הופיע כאבחנה פעילה.

🟡 מלכודת 2 — BT-015-HEALTHY

הצגה. אישה בת 35 עם לוח סקר שגרתי של 15 פרמטרים. כל אחד מהמדדים נמצא בנוחות בתוך טווח הייחוס שלו.

פענוח נכון. הרגעה ושמירה על אורח חיים. הפענוח לא אמור להמציא פתולוגיה גבולית כדי להישמע שימושי מבחינה קלינית.

תוצאת V11. קומפוזיט 1.000. אף אחד משבעת דגלי היתר-אבחון שנוטרו — סוכרת, אנמיה, תת-תריסיות, דיסליפידמיה, הפטיטיס, מחלת כליות, חסר — לא הופיע כאבחנה פעילה.

בשני ה"טרפים" נבדקו 13 דגלי יתר-אבחון שנוטרו. אף אחד לא הופעל. זו התוצאה שהכי חשובה לכל קלינאי ששוקל להשתמש במנוע בינה מלאכותית ככלי מיון או כהכנה לפני ייעוץ: המערכת לא המציאה מחלה כשלא הייתה קיימת.

מדד מנטזר: הפרדת חוסר ברזל מתסמונת נשאות תלסמיה

ממצא בעל ערך גבוה נוסף נוגע לשילוב של מקרה BT-001 (אנמיה מחוסר ברזל) עם מקרה BT-007 (תלסמיה בטא מינור). שני המצבים מציגים מיקרוציטוזיס, וזהו מכשול מוכר לסיווגים נאיביים. מדד מנטזר, המחושב כ-MCV חלקי ספירת RBC, גבוה מ-13 במחסור ברזל ונמוך מ-13 בתכונת תלסמיה.

ב-BT-001, המטופלת הייתה אישה בת 34 עם המוגלובין 10.4 גרם/ד"ל, MCV 72.4 fL, RBC 4.1 × 10¹²/L, פריטין 6 ננוגרם/מ"ל, ו-TIBC מוגבר. מדד מנטזר של כ-17.7 תומך במחסור ברזל מוחלט. ב-BT-007, המטופל היה גבר בן 28 עם מיקרוציטוזיס (MCV 65.8 fL) אך עם ספירת RBC גבוהה של 6.2, RDW תקין, פריטין תקין, ו-HbA2 של 5.6 אחוז. מדד מנטזר של כ-10.6 מצביע על תכונת תלסמיה, ו-HbA2 המוגבר מאשר תלסמיה בטא מינור.

אנמיה מחוסר ברזל מנטזר > 13 פריטין נמוך, TSAT נמוך, TIBC גבוה, RDW מוגבר
תכונת תלסמיה בטא מנטזר < 13 פריטין תקין, RDW תקין, HbA2 מוגבר (>3.5%), ספירת RBC גבוהה

בשני המקרים הציון היה 1.000. המנוע הפעיל במפורש את מדד מנטזר בשני הפענוחים והחזיר את האבחנה הנכונה בכל מקרה. זו התוצאה היחידה ביותר שמרגיעה מבחינה קלינית בכל הבנצ'מרק, משום שסיווג שגוי של תכונת תלסמיה כשל מחסור ברזל מוביל לתוספת ברזל לא מתאימה ולפספוס הזדמנויות לסינון משפחתי, וסיווג שגוי של מחסור ברזל כתלסמיה מעכב טיפול החלפה פשוט. ה- טווח פריטין מסביר את ההקשר הרחב של הדיפרנציאל.

תוצאות לפי מקרה מהרצת הייחוס הראשונית של V11 (23 באפריל 2026)

הרצת הייחוס המקורית של V11 בקוהורט הוכחת-קונספט של 15 מקרים משמשת כ- בסיס המתודולוגי של ה-Second Update: כל פרט לפי מקרה בהמשך ממחיש כיצד ה-rubric מטפל בתגובה אמיתית של מנוע. שנים עשר מתוך חמישה עשר מקרים השיגו את תקרת ציון הקומפוזיט של 1.000 במסלול הראשי; שלושה מקרים טופלו באמצעות ה-fallback של שלב 2, תוך אובדן בונוס ה-latency של 0.05 תוך שמירה על כל התוכן הקליני והמבני. מקרה אחד חסר תת-סעיף חובה בודד; אחד החזיר סכום של התפלגות הסתברויות מופחתת במעט.

מזהה מקרה תחום התמחות מרוכב השהיית-זמן מסלול
BT-001-IDAהמטולוגיה1.00017.8 שניותראשי
BT-006-B12המטולוגיה1.00018.4 שנ׳ראשי
BT-007-THALהמטולוגיה1.00017.0 שנ׳ראשי
BT-002-HASHאנדוקרינולוגיה0.95037.0 שנ׳חזרה למצב ברירת מחדל
BT-008-PCOSאנדוקרינולוגיה0.98718.6 שנ׳ראשי
BT-003-T2DMמטבולי1.00019.1 שנ׳ראשי
BT-013-GOUTמטבולי1.00019.4 שנ׳ראשי
BT-004-NAFLDהפטולוגיה1.00019.6 שנ׳ראשי
BT-009-VIRHEPהפטולוגיה0.95023.4 שנ׳חזרה למצב ברירת מחדל
BT-014-GILBERTמלכודת1.00018.9 שנ׳ראשי
BT-005-CKDנפרולוגיה1.00017.4 שנ׳ראשי
BT-010-ASCVDקרדיולוגיה1.00019.7 שנ׳ראשי
BT-011-SLEראומטולוגיה0.98118.2 שנ׳ראשי
BT-012-VITDאנדוקרינולוגיה1.00019.3 שנ׳ראשי
BT-015-HEALTHYמלכודת1.00018.7 שנ׳חזרה למצב ברירת מחדל

מקרה ה-PCOS (BT-008) איבד תת-סעיף חובה יחיד במבנה התשובה — חמישה עשר מתוך שישה עשר במקום שישה עשר מתוך שישה עשר — מה שקיצץ את ציון המבנה מ-1.000 ל-0.963. מקרה ה-SLE (BT-011) החזיר סכום הסתברויות מופחת במעט שהתבטא בציון קליני של 0.965, תוך שמירה על כל מילות המפתח האבחנתיות ועל מערכת הניקוד. אף אחד משני המקרים שלא היו מושלמים לא החמיץ אבחנה נכונה.

צבירה מצטברת של V11 Second Update — 100,000 מקרים

בקנה מידה אוכלוסייתי, שורות מקרה בודדות אינן קריאות לאדם, ולכן עדכון שני מדווח על מדדים מצטברים במקום טבלה של 100,000 שורות. המצטבר המרכזי מוצג להלן; פירוט לפי התמחות ולפי תווית מדינה מפורסם בדוח הטכני ובפקדון Figshare. דגימה אקראית מרובדת של n = 201 תגובות גולמיות של המנוע (seed דטרמיניסטי 20260426) מפורסמת בספריית ה-GitHub results/ לצורך בדיקה.

ציון קומפוזיט V11 ראשוני: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 לאורך קוהורט של 100,000 מקרים
ציון מבני (ממוצע) V11 ראשוני: 0.998 → Second Update: 1.000 התאמה מבנית מושלמת בקנה מידה אוכלוסייתי
ציון קליני (ממוצע) V11 ראשוני: 0.998 → Second Update: 0.996 −0.002; אף מקרה לא החמיץ את האבחנה עצמה
השהיה — ממוצע (טווח) התחלה V11: 20.17 שנ׳ (17.0–37.0 שנ׳) → עדכון שני: 13.26 שנ׳ (9.0–16.94 שנ׳) אופטימיזציות של מנוע הייצור בין הרצות
נתיב המנוע = ראשי התחלה V11: 12 / 15 → עדכון שני: 100,000 / 100,000 לא נדרש גיבוי של שלב 2 בשום נקודה במהלך ההרצה
דגלי היפר-אבחון של תת-קבוצת הטרפ התחלה V11: 0 / 13 → עדכון שני: 0 / 87,412 אפס תוצאות חיוביות שגויות בקנה מידה של אוכלוסייה (8,723 מקרי טרפ שנוטרו)

מה ציון הכותרת לא מספר לנו

ציון מרוכב של 99.80 אחוזים במסגרת הרובריק שנרשם מראש במיוחד, על קוהורט סינתטי של 100,000 מקרים המשתרע על פני 127 תוויות מדינה, מייצג ביצועים קרובים לתקרת היכולת — אך הוא מצדיק מסגור זהיר. התוצאה מתארת את התנהגות המנוע מול הרובריק שהתחייבנו אליו בקוד המקור ב-V11; זו אינה טענה אוניברסלית לגבי נכונות המנוע על כל פאנל בדיקות דם שקיים בעולם.

הציון אומר שהמנוע טיפל נכון בדפוסי האבחון שנבחרו להערכה זו על פני קוהורט בקנה מידה של אוכלוסייה, בשיטה שפורסמה וניתנת לשחזור. הוא לא אומר שהמנוע נכון בכל לוח בדיקות דם שקיים בעולם. הוא לא אומר שהמנוע אמור להחליף שיקול דעת קליני. וגם הוא לא אומר שהמנוע עולה על מערכות בינה מלאכותית חלופיות — ניתוחים השוואתיים מול מנועים אחרים הוצאו במכוון מתחום הדוח הזה.

מה שהציון כן קובע הוא קו בסיס. מאחר שהלקחנות והמסגרת (harness) זמינות לציבור, גרסאות עתידיות של המנוע יוכלו להיבדק מול אותה לקחנות — כאשר מיישמים אותה על 15 המקרים הראשונים של V11, על קוהורט 100,000 המקרים של העדכון השני, או על כל הרחבה עתידית — והפער בין הציון שפורסם לבין כל הרצה שלאחר מכן הוא עצמו מדיד. זו המשמעות של רישום מראש: הוא ממיר טענות ביצועים לטענות שניתן לבדוק.

איך לשחזר את אמת המידה הזו תוך 10 דקות

כדי לשחזר נדרש רק זוג אישורי API של Kantesti וסביבת Python 3.10 או גרסה מאוחרת יותר עם ה- requests ו reportlab ספריות מותקנות. המסגרת המלאה היא מודול Python יחיד ועצמאי, שיצא תחת רישיון MIT.

תרשים רשת של יכולת שחזור המציג את ה-benchmark של V11 Second Update (קומפוזיט 99.80%, 100,000 מקרים, 127 תוויות מדינה) משוקף על פני Figshare, ResearchGate, Academia.edu ו-GitHub כאשר ה-Figshare DOI משמש כעוגן קנוני
איור 5: אמת המידה של V11 בעדכון השני — ציון מרוכב של 99.80% על פני 100,000 מקרים על פני 127 תוויות מדינה — משוקף על פני ארבע פלטפורמות מחקר. ה-Figshare DOI הוא המזהה הסכולרי הקנוני; ResearchGate (publication 404175463), Academia.edu (paper 165956808), ו-GitHub מאחסנים עותקים מקבילים עם רתמת ה-benchmark, דגימת התשובות האקראית-מרובדת של תשובות גולמיות, וגליונות הניקוד לפי מדינה/תווית ולפי התמחות.

ארבעה שלבים להרצה חדשה

אחד. משכו את המאגר: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. שתיים. התקינו תלויות עם pip install -r requirements.txt (העדכון השני מוסיף mysql-connector-python ≥ 8.0 ל-loader של מקרי ה-SQL). שלוש. הגדירו KANTESTI_USERNAME ו KANTESTI_PASSWORD כמשתני סביבה עבור ה-API של המנוע. עבור ה-loader של מקרי ה-SQL בעדכון השני, הגדר גם KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ו KANTESTI_DB_PASSWORD — הטוען מתחבר דרך תפקיד קריאה בלבד (bench_reader) שאין לו הרשאות לזיהוי טבלאות. ארבע. הריצו python benchmark_bloodtest.py --limit 100000 עבור הרצה מלאה של Second-Update, או python benchmark_bloodtest.py --limit 1000 לאיטרציה מהירה. הפלטים נוחתים ב- ./benchmark_results/: גליון ניקוד בפורמט CSV עם עמודות לפי מדינה-תווית ולפי התמחות, אגרגט בפורמט JSON, דגימת תשובות גולמיות אקראית-מרובדת, ודוח בפורמט Markdown.

הרצות הייחוס מ-23 באפריל 2026 (V11 ראשוני, 15 מקרים) ומ-26 באפריל 2026 (V11 Second Update, 100,000 מקרים) נשמרות ב- results/ ספריית המאגר. הרצה חדשה תפיק דף תוצאות חדש עם חותמת זמן, תוך השארת הרצות הייחוס ללא שינוי. אם ההרצה שלך מפיקה תוצאה שונה באופן משמעותי, אנא פתח/י Issue ב-GitHub עם חותמת הזמן של ההרצה וגרסת המנוע שהוחזרה במטא-דאטה של התשובה.

מגבלות ועבודת המשך

גם כאשר מדובר ב-100,000 מקרים עבור 127 תוויות מדינה, ארבע מגבלות מחייבות הכרה מפורשת: תת-דגימה של תוויות בעלות זנב ארוך, הערכה חד-פעמית, היקף של מנוע יחיד, ומקור נתונים יחיד. כל אחת מהן מטופלת בעבודת מעקב פעילה.

כיסוי תוויות בעלות זנב ארוך. העדכון השני כולל 127 תוויות מדינה, אך ההתפלגות אינה מאוזנת — 10 התוויות המובילות מהוות ≈66.4% מהמקרים, והזנב הארוך של 97 תוויות נוספות יחד תורם ≈7.3% (כ-7,300 מקרים במצטבר, ~75 מקרים לכל תווית בממוצע). לכן, קומפוזיציות לפי-תווית בזנב הארוך הזה רועשות יותר ממה שהמספרים המרכזיים מרמזים. ריצות עתידיות יאזנו מחדש את שיוך התוויות כדי לחדד הערכות לפי-תווית.

הערכה חד-פעמית. כל מקרה בקוהורט הוערך פעם אחת. מודלים של שפה גדולה מציגים שונות פלט לא טריוויאלית גם בטמפרטורת דגימה נמוכה, לכן פרוטוקול ריבוי-הרצות עם חמש הערכות לכל מקרה ודיווח על שונות הוא צעד טבעי הבא — במיוחד על תת-הקבוצה של מקרי מלכודת, שבה עקביות תחת תנודות דגימה היא חלק מטענת הבטיחות.

היקף מנוע יחיד. דוח זה מתאר מנוע אחד. ניתוחים השוואתיים מול מערכות בינה מלאכותית חלופיות אינם בתחום כאן; ייתכן שנמשיך בהם כמחקר עצמאי נפרד עם מתודולוגיה מתאימה, מול אותו harness ברישיון MIT.

נתונים סינתטיים. 100,000 המקרים נוצרים באופן סינתטי, לא “מקרי סינתטיים”, והתוצאות אינן מועברות לביצועים קליניים בעולם האמיתי. הערכה על נתונים אמיתיים, עם הסכמה, שמקורם חיצוני, תדרוש פיקוח אתי מתאים והיא מחוץ לתחום של ה-benchmark הסינתטי הזה.

מעבר לארבע אלה, ההרחבה המתוכננת בעלת ההשפעה הגדולה ביותר היא התאמת רב-שפתיות לכל תחום שיפוט. מנוע ה-Kantesti AI משרת משתמשים ב-75+ שפות, והרצת תתי-קוהורטים של Second-Update לפי שכבות שפה (טורקית, גרמנית, ספרדית, צרפתית, איטלקית, פורטוגזית, ערבית, מנדרינית) תכמת את איכות הפלט בכל השפות הנתמכות של המנוע. כל ניתוח לפי שפה יפורסם עם DOI משלו ועם ענף harness משלו.