מדוע קיימת אמת מידה זו ומה היא בודקת

פענוח בדיקות דם בסיוע בינה מלאכותית נעשה בשימוש הולך וגובר בתהליכי עבודה לצרכנים ולמערכת הבריאות, אך מסגרות הערכה שניתנות לשחזור ומותאמות לרפואת מעבדה נותרות נדירות. השאלות החשובות ביותר בהקשר הזה אינן אלו שמכוסות על ידי אמת מידה כללית למענה על שאלות רפואיות: האם מנוע יכול להפריד בין חוסר ברזל לתסמונת נשאות תלסמיה כאשר נפח גופיפי הדם הממוצע זהה, האם הוא מאבחן יתר את תסמונת גילברט כצהבת (הפטיטיס), והאם הוא מייצר פתולוגיה בלוח סקר תקין לחלוטין?

תרשים זרימה של הרובריקה שנרשמה מראש, המציג כיצד מנוע ה-Kantesti AI — עדכון ה-V11 השני, ציון 99.80% על 100,000 מקרים — מוערך מול קריטריוני ניקוד קפואים
איור 1: ארכיטקטורת הייחוס שמאחורי ה־ ציון מרוכב 99.80% ב־V11 עדכון שני 100,000-מקרים — כל מקרה, כל מילות מפתח, כל מערכת ניקוד מקובעים בקוד המקור לפני שהמנוע רואה ולו PDF אחד, והרובריקה זהה לחלוטין ברמת הבייט למהדורה הראשונית של V11. כוונון רובריקה בדיעבד אינו אפשרי מעצם התכנון.

לוח בדיקות דם יחיד כולל בדרך כלל מספיק מידע כדי לתמוך בכמה פרשנויות מתחרות, ותפקידו של הרופא המפרש הוא לשקול את הפרשנויות הללו זו מול זו במקום לשלוף תשובה בסגנון ספר לימוד. מנוע שמצליח במקרי ספר לימוד יכול עדיין להיכשל במקרים החשובים ביותר: מלכודות של אבחנה מבדלת, וריאנטים שפירים שנראים מדאיגים כשהם לבדם, ולוחות תקינים לחלוטין שמפתים עוזרים בטוחים לייצר פתולוגיה.

הייחוס הזה נבנה בדיוק סביב מצבי כשל אלה. כל אחד מחמשה עשר המקרים נבחר עבור תכונה אבחנתית ספציפית: מיקרוציטוזיס עקב חוסר ברזל שיש לשמור נפרד מתכונת תלסמיה בטא עם נפח גופיפי ממוצע זהה, הופעה של תסמונת גילברט שבה החריגה היחידה היא היפרבילירובינמיה עקיפה מבודדת, ולוח סקר של חמישה עשר פרמטרים שבו כל אנליט נמצא בתוך טווח הייחוס שלו. הרובריקה מתגמלת מנועים שקוראים כל מקרה על פי תנאיו, ומענישה מנועים שמגיעים לאבחנה בטוחה במקום שאין הצדקה לאבחנה כזו.

כד״ר תומס קליין, בחרתי את לוח המקרים משום שאלו הדפוסים שאני רואה שעוזרי רפואה-מעבדתית טועים בהם הכי הרבה. מצב הכשל היקר הוא לא "להחמיץ מחלה נדירה" — אלא לייצר פתולוגיה שגרתית בחולים שאין להם אותה. שֶׁלָנוּ אימות רפואי מתאר את המסגרת הרחבה יותר; עמוד זה מתאר את הוכחת הקונספט הראשונית של V11 ואת ה־V11 עדכון שני שהרחיב אותה ל־100,000 מקרים אנונימיים שנלקחו ממאגר קליני מבוסס SQL המשתרע על פני 127 מדינות — תוך שימוש באותה רובריקה לניקוד, זהה לחלוטין ברמת הבייט, ללא אפשרות לכוונון בדיעבד.

הרצת הייחוס העדכנית ביותר — V11 עדכון שני (26 באפריל 2026)

הרצת הייחוס של V11 עדכון שני מ־26 באפריל 2026 יצרה ציון מורכב של 99.80% על אותה רובריקה שנרשמה מראש ששימשה במהדורה הראשונית של V11, הוערכה על 100,000 מקרים אנונימיים שנלקחו מתוך מאגר קליני מבוסס SQL של Kantesti ומשתרעים על 127 מדינות ועל שפות 75+. כל מקרה הושלם במסלול הראשי של המנוע; הפעלות של דגל היפר־אבחון במקרי מלכודת נותרו ב־ 0 / 87,412. ההרצה המקורית של V11 מ־23 באפריל 2026 כיסתה 15 מקרים שנבחרו ידנית (ציון מורכב 99.12%) ואישרה את הרובריקה; עדכון שני שומר על אותה רובריקה זהה לחלוטין ברמת הבייט ומרחיב את ההערכה לקוהורט בקנה מידה אוכלוסייתי.

מרוכב 99.80% 100,000 מתוך 100,000 המקרים קיבלו ציון
1.000 ציון מבני
0.996 ציון קליני
13.26 s זמן השהיה ממוצע
0 / 87,412 מלכודות של חיובי-שווא

הנוסחה המרוכבת משלבת שלושה רכיבים: התאמה מבנית עם שבעת סעיפי הדיווח המחויבים ושישה עשר תתי-הסעיפים המחויבים, דיוק קליני נמדד כזכירת מילות מפתח + זכירת מערכת הניקוד + בדיקת תקפות של התפלגות הסתברות, ו- זמן תגובה מול יעד רמת השירות במסלול הראשי. הפירוק המדויק מוצג בנוסחת הרובריקה להלן — אף אחד מהמשקלים או תתי־הרובריקות הללו לא שונה בעדכון השני.

מרוכב = 0.35 × מבני + 0.55 × קליני + 0.10 × השהיית זמן (Latency)

0.20 נקודות האחוז הנותרות של מרווח הראש decompose כמעט כולו לתת־ציון קליני — חלק קטן מהמקרים (בעיקר בהפטולוגיה ובריאומטולוגיה) היה חסר מילת מפתח אחת ממערכת הניקוד הצפויה בפרשנות של המנוע, למרות שהתוכן האבחוני היה נכון. אף מקרה בקוהורט של 100,000 המקרים בעדכון השני לא החמיץ את האבחנה עצמה. זמן ההשהיה השתפר מממוצע של 20.17 s במהדורה הראשונית של V11 ל־13.26 s בעדכון השני, המשקף אופטימיזציות של מנוע הייצור בין שתי ההרצות; הרובריקה, קוד הניקוד ו־endpoint ה־API לא השתנו.

ציונים מורכבים לפי מדינה נעו בין 0.9971 (הודו) ל־0.9985 (שוויץ) בקרב 30 המדינות המיוצגות ביותר. הזנב הארוך של 97 מדינות נוספות (≈7,300 מקרים יחד) לא הראה הידרדרות שיטתית. התורמים המובילים לפי מספר מקרים היו ארצות הברית (10,500), ברזיל (9,500), ספרד (9,000), איטליה (8,000), גרמניה (7,800), צרפת (7,400), פורטוגל (5,800), Türkiye (3,400), הממלכה המאוחדת (2,900), ומקסיקו (2,500).

מ-15 מקרים ל-100,000: התפתחות הקוהורט ברחבי 127 מדינות

לוח המקרים המקורי של V11 כיסה שבע התמחויות — המטולוגיה, אנדוקרינולוגיה, רפואה מטבולית, הפטולוגיה, נפרולוגיה, קרדיולוגיה, ראומטולוגיה — בנוסף לשני מקרי מלכודת ייעודיים להיפר־אבחון, כאשר כל מקרה הוא רשומת מטופל אמיתית ומאנונימית שנלקחה ממאגר הנתונים הקליניים Kantesti תחת הסכמה מדעת בכתב. עדכון שני של V11 מרחיב את ההערכה ל־ 100,000 מקרים אנונימיים על פני 127 מדינות, מחולקים בין שמונה התמחויות (שבע המקוריות ועוד תיבת רפואה פנימית ייעודית שסופגת את תת־קבוצת המלכודת). אותה רובריקה לניקוד מוחלת זהה לחלוטין ברמת הבייט בשתי ההרצות.

עיצוב פאנל המקרים של V11 ראשוני — חמישה עשר מקרים של בדיקות דם אנונימיות על פני שבע התמחויות רפואיות, בתוספת שני מקרים של מלכודת היפר-אבחון; אותה רובריקה הגיעה לציון 99.80% על 100,000 מקרים בעדכון ה-V11 השני
איור 2: עיצוב לוח המקרים הראשוני של V11 בהמטולוגיה, אנדוקרינולוגיה, רפואה מטבולית, הפטולוגיה, נפרולוגיה, קרדיולוגיה, ראומטולוגיה, בנוסף לשני מקרי מלכודת — תסמונת גילברט ומערך סקר תקין לחלוטין. עדכון שני שומר על אותה רובריקה זהה לחלוטין ברמת הבייט תוך הרחבת הקוהורט ל־100,000 מקרים שנלקחו ממאגר ה־Kantesti SQL.

דה־איידנטיפיקציה בוצעה בגישת Safe Harbor: כל המזהים הישירים הוסרו או הוחלפו, ולכל רשומה הוקצה קוד מקרה פנימי של הייחוס בפורמט BT-NNN-LABEL (V11 ראשוני) או מזהה מקרה אנונימי יציב case_uid עבור עדכון שני. העיבוד בוצע בהתאם ל־ סעיף 9(2)(j) של GDPR למחקר מדעי עם אמצעי הגנה מתאימים, ובהוראות המקבילות של UK GDPR. לא מופיע מידע מזהה אישי בשום מקום במתקן שפורסם, בדוח הטכני, או במערכי הנתונים ששוּחררו.

V11 מהדורה ראשונית — 15 מקרים שנבחרו ידנית

לוח המקרים של V11 המקורי נבחר ידנית על ידי ד״ר תומאס קליין כדי לתרגל דפוסי אבחון שהעוזרים ברפואת מעבדה נוטים לטעות בהם לרוב. כל אחד מחמשה עשר המקרים נבחר עבור תכונת אבחון ייעודית, כמפורט להלן.

המטולוגיה (3) BT-001, BT-006, BT-007 אנמיה מחוסר ברזל · חוסר ב-B12 · בטא-תלסמיה קלה
אנדוקרינולוגיה (3) BT-002, BT-008, BT-012 דלקת בלוטת התריס של האשימוטו · PCOS עם עמידות לאינסולין · חוסר חמור בוויטמין D
מטבולי (2) BT-003, BT-013 סוכרת סוג 2 עם תסמונת מטבולית · היפראוריצמיה עם סיכון לגאוט
הפטולוגיה (2) BT-004, BT-009 כבד שומני לא-אלכוהולי (NAFLD) / NASH · דלקת כבד נגיפית חריפה
נפרולוגיה · קרדיולוגיה · ראומטולוגיה (3) BT-005, BT-010, BT-011 מחלת כליות כרונית שלב 3 · דיסליפידמיה אטרוגנית · זאבת אדמנתית מערכתית
מקרי מלכודת (2) BT-014, BT-015 תסמונת גילברט (היפרבילירובינמיה עקיפה מבודדת) · מסך מבוגרים תקין לחלוטין

למה התפלגות מסוימת זו

המטולוגיה מקבלת שלושה מקרים משום שדיפרנציאלים מיקרוציטיים ודיפרנציאלים מקרוציטיים הם מלכודות בנפח הגבוה ביותר בפרקטיקה מעבדתית בעולם האמיתי. אנדוקרינולוגיה מקבלת שלושה משום שההצגות של האשימוטו, PCOS וחוסר ויטמין D מפעילות צורות אבחנתיות שונות (מונעות על ידי נוגדנים עצמיים, מונעות על ידי יחסי הורמונים, מונעות על ידי סמן יחיד). ההתמחויות במקרי יחיד עדיין משמעותיות משום שלכל אחד מ-CKD, סיכון ל-ASCVD ו-SLE יש מערכת ניקוד משלו שהמנוע אמור להפעיל (בהתאמה: שלבי KDIGO, סיכון 10 שנים ל-ASCVD, וקריטריוני 2019 EULAR/ACR ל-SLE).

עדכון שני ל-V11 — 100,000 מקרים אנונימיים ב-127 מדינות

העדכון השני מחליף את ה-15 מקרים המקודדים בקוד הקשיח של V11 המקורי בשאילתת SQL פרמטרית לקריאה בלבד מול מאגר ה-Kantesti הקליני (anonymised_blood_panels). השאילתה מסננת לפי consent_research = 1 AND released_for_benchmark = 1 ומודפסת בראש כל הרצת Benchmark לצורך שקיפות. התפלגות הקבוצה לפי התמחות מוצגת להלן.

אנדוקרינולוגיה 23,900 מקרים (23.9%) בלוטת התריס, PCOS, ויטמין D, ציר גונאדלי, יותרת המוח
רפואה מטבולית 21,900 מקרים (21.9%) T2DM, תסמונת מטבולית, לוחות שומנים, היפראוריצמיה
המטולוגיה 15,400 מקרים (15.4%) דיפרנציאל מיקרוציטי ומקרוציטי, B12/פולאט, בדיקות ברזל
הפטולוגיה 12,400 מקרים (12.4%) NAFLD/NASH, הפטיטיס ויראלית, FIB-4, כולסטזיס
רפואה פנימית (כולל תת-קבוצת trap) 9,000 מקרים (9.0%) מצגות מעורבות ו-8,723 מקרים ייעודיים של מלכודת היפראבחון
קרדיולוגיה 7,500 מקרים (7.5%) סיכון ל-ASCVD, דיסליפידמיה אטרוגנית, hs-CRP
ראומטולוגיה 6,000 מקרים (6.0%) SLE, RA, וסקוליטיס, לוחות נוגדנים עצמיים (קריטריונים EULAR/ACR)
נפרולוגיה 4,000 מקרים (4.0%) שלביות CKD (KDIGO), מגמות eGFR, הפרעת אלקטרוליטים

התפלגות גאוגרפית — 10 המדינות המובילות

הקוהורט משתרע על פני 127 מדינות (ISO 3166-1 alpha-2). אירופה תורמת 57.7%, אמריקה 25.4%, אסיה-פסיפיק 6.2%, רשומות בשם המזרח התיכון/אפריקה 3.4%, וזנב ארוך של 97 מדינות נוספות בשילוב של בערך 7.3%. עשרת התורמים הגדולים ביותר הם ארצות הברית (10,500), ברזיל (9,500), ספרד (9,000), איטליה (8,000), גרמניה (7,800), צרפת (7,400), פורטוגל (5,800), Türkiye (3,400), הממלכה המאוחדת (2,900), ומקסיקו (2,500). ציוני קומפוזיט לפי מדינה נעו בין 0.9971 (הודו) ל-0.9985 (שוויץ).

המחוון הרשום מראש, מוסבר

רישום מראש הוא הבחירה המתודולוגית החשובה ביותר במדד ייחוס זה. כל אבחנה צפויה, כל מערכת ניקוד קלינית, וכל סעיף בדוח הוקדשו לקוד המקור לפני שהמנוע הופעל. לכן כוונון בדיעבד של הקריטריון כדי להלל את המנוע אינו אפשרי.

שלושה רכיבים מרכיבים את הציון המשוקלל. רכיב מבני תורם 35 אחוזים ומודד האם המנוע החזיר את שבעת סעיפי הדוח המחייבים (כותרת, סיכום, ממצאים מרכזיים, דיפרנציאל, מערכות ניקוד, המלצות, מעקב) ואת שש עשרה תתי-הסעיפים המחייבים בתוכם. נוכחות סעיף שוקלת 40 אחוזים ונוכחות תת-סעיף שוקלת 60 אחוזים בתוך החישוב המבני.

ה רכיב קליני תורם 55 אחוזים ומשלב שלושה דברים: שליפת מילות מפתח לאבחנה (70 אחוזים מהתת-ציון הקליני), שליפת מערכת הניקוד (20 אחוזים — האם המנוע מחשב Mentzer, FIB-4, HOMA-IR, סיכון ASCVD, שלבי KDIGO וקריטריוני EULAR/ACR היכן שרלוונטי), ובדיקת תקפות סכום הסתברויות (10 אחוזים — הסתברויות הדיפרנציאל אמורות להסתכם בטווח [90, 110]). במקרי מלכודת, מופחת קנס מפורש על היפראבחון עד 0.30, מחושב כ-0.10 לכל דגל פתולוגיה שהומצא, עם תקרה של שלושה דגלים.

ה רכיב השהיה תורם 10 אחוזים. תגובה מתחת ל-20 שניות מקבלת את מלוא 0.10, תגובה מתחת ל-40 שניות מקבלת 0.05, וכל דבר איטי יותר מקבל אפס. יעד 20 השניות משקף את יעד רמת השירות של שירות הייצור primary-path; תקרת 40 השניות משקפת את תקציב ה-fallback של שלב 2 להפעלות כבדות של המנוע.

צילום מסך סופי של סביבת אמת המידה של Kantesti ברישיון MIT בזמן ריצה ופולטת ציונים לכל מקרה — אותה סביבת הרצה, שכעת מונעת באמצעות SQL, הפיקה את ציון 99.80% בהרצת 100,000 המקרים של עדכון ה-V11 השני
איור 3: סביבת ההרצה בפועל — אותו מנוע שהפיק קומפוזיט 99.80% בקוהורט של 100,000 מקרים ב-V11 Second Update. כל מקרה מעובד ל-PDF ‏A4, מועלה ל-endpoint הייצור של v11, ומדורג מול ה-rubric הקפוא. ה-Second Update הוסיף loader של מקרי SQL פרמטריים; דגימה אקראית מרובדת של תגובות גולמיות מהמנוע (n = 201) נשמרת לצד ה-scorecard המצטבר.

מה רישום מראש מונע

מדדי ייחוס של הגורם הראשון ידועים בכך שהם מנפחים את המספרים שלהם באמצעות כוונון בדיעבד של הקריטריון. הדפוס כמעט תמיד זהה: הצוות מפעיל את המנוע, רואה היכן הוא מפגר, ואז מכוון בשקט את הקריטריון כך שהאזורים שבהם הוא מפגר ייחשבו פחות. על ידי התחייבות לקריטריון בקוד המקור לפני קריאת המנוע הראשונה ופרסום המבחן תחת רישיון MIT, ההתאמה הזו הופכת לגלויה בגרסאות. כל אחד יכול לשכפל את המאגר, לבדוק את תאריכי כתיבת הקריטריון, ולאמת שהתוצאות של המנוע לא שימשו כדי לעצב את הדירוג.

מקרי מלכודת לאבחון-יתר — מדוע קריאה-יתר היא מצב הכשל האמיתי

קריאה אגרסיבית מדי של פתולוגיה במסכים תקינים היא מצב כשל מתועד של עוזרים רפואיים לצרכן. העלויות במורד הזרם כוללות בירור מיותר, חרדת מטופל, והערכה/טיפול iatrogenic. שני מקרי המלכודת במדד ייחוס זה נועדו להפוך את מצב הכשל הזה לגלוי ולמדיד.

השוואה זה לצד זה של בינה מלאכותית נאיבית שמייצרת הפטיטיס על פאנל של תסמונת גילברט מול מנוע Kantesti שמזהה נכון את פולימורפיזם UGT1A1 השפיר — מתודולוגיה שהתרחבה לאפס חיוביות שגויות בכל 87,412 הזדמנויות לדגל מלכודת בעדכון ה-V11 השני אמת המידה 99.80%
איור 4: עיצוב מקרי ה”מלכודת” מהשחרור הראשוני של V11 — מנוע שמסמן בביטחון את תסמונת גילברט כהפטיטיס, או שמייצר פתולוגיה גבולית על מסך תקין לחלוטין, מקבל קנס ולא פרס על כך שנשמע קליני. המתודולוגיה הזו הוגדלה ל- 0 / 87,412 false-positives במהלך הרצת ה-V11 Second Update של 100,000 מקרים שהניבה את ציון הקומפוזיט 99.80%.

🟡 מלכודת 1 — BT-014-GILBERT

הצגה. גבר בן 24 עם בילירובין כולל של 2.4 מ״ג/ד״ל. החלק הישיר תקין, הטרנסאמינזות והפוספטזה אלקלינית נמצאות בתוך טווחי הייחוס שלהן, רטיקולוציטים אינם חריגים, ו-haptoglobin ו-LDH שוללים המוליזה.

פענוח נכון. תסמונת גילברט — פולימורפיזם שפיר של UGT1A1. הפענוח לא אמור להפעיל הפניה להפטיטיס, שחמת, אנמיה המוליטית או חסימה ביליארית.

תוצאת V11. ציון משוקלל 1.000. אף אחד מששת דגלי ה-over-diagnosis שנוטרו לא הופיע כאבחנה פעילה.

🟡 מלכודת 2 — BT-015-HEALTHY

הצגה. אישה בת 35 עם לוח סקר שגרתי של 15 פרמטרים. כל אחד מהמדדים נמצא בנוחות בתוך טווח הייחוס שלו.

פענוח נכון. הרגעה ושמירה על אורח חיים. הפענוח לא אמור להמציא פתולוגיה גבולית כדי להישמע שימושי מבחינה קלינית.

תוצאת V11. קומפוזיט 1.000. אף אחד משבעת דגלי היתר-אבחון שנוטרו — סוכרת, אנמיה, תת-תריסיות, דיסליפידמיה, הפטיטיס, מחלת כליות, חסר — לא הופיע כאבחנה פעילה.

בשני ה"טרפים" נבדקו 13 דגלי יתר-אבחון שנוטרו. אף אחד לא הופעל. זו התוצאה שהכי חשובה לכל קלינאי ששוקל להשתמש במנוע בינה מלאכותית ככלי מיון או כהכנה לפני ייעוץ: המערכת לא המציאה מחלה כשלא הייתה קיימת.

מדד מנטזר: הפרדת חוסר ברזל מתסמונת נשאות תלסמיה

ממצא בעל ערך גבוה נוסף נוגע לשילוב של מקרה BT-001 (אנמיה מחוסר ברזל) עם מקרה BT-007 (תלסמיה בטא מינור). שני המצבים מציגים מיקרוציטוזיס, וזהו מכשול מוכר לסיווגים נאיביים. מדד מנטזר, המחושב כ-MCV חלקי ספירת RBC, גבוה מ-13 במחסור ברזל ונמוך מ-13 בתכונת תלסמיה.

ב-BT-001, המטופלת הייתה אישה בת 34 עם המוגלובין 10.4 גרם/ד"ל, MCV 72.4 fL, RBC 4.1 × 10¹²/L, פריטין 6 ננוגרם/מ"ל, ו-TIBC מוגבר. מדד מנטזר של כ-17.7 תומך במחסור ברזל מוחלט. ב-BT-007, המטופל היה גבר בן 28 עם מיקרוציטוזיס (MCV 65.8 fL) אך עם ספירת RBC גבוהה של 6.2, RDW תקין, פריטין תקין, ו-HbA2 של 5.6 אחוז. מדד מנטזר של כ-10.6 מצביע על תכונת תלסמיה, ו-HbA2 המוגבר מאשר תלסמיה בטא מינור.

אנמיה מחוסר ברזל מנטזר > 13 פריטין נמוך, TSAT נמוך, TIBC גבוה, RDW מוגבר
תכונת תלסמיה בטא מנטזר < 13 פריטין תקין, RDW תקין, HbA2 מוגבר (>3.5%), ספירת RBC גבוהה

בשני המקרים הציון היה 1.000. המנוע הפעיל במפורש את מדד מנטזר בשני הפענוחים והחזיר את האבחנה הנכונה בכל מקרה. זו התוצאה היחידה ביותר שמרגיעה מבחינה קלינית בכל הבנצ'מרק, משום שסיווג שגוי של תכונת תלסמיה כשל מחסור ברזל מוביל לתוספת ברזל לא מתאימה ולפספוס הזדמנויות לסינון משפחתי, וסיווג שגוי של מחסור ברזל כתלסמיה מעכב טיפול החלפה פשוט. ה- טווח פריטין מסביר את ההקשר הרחב של הדיפרנציאל.

תוצאות לפי מקרה מהרצת הייחוס הראשונית של V11 (23 באפריל 2026)

הרצת הייחוס המקורית של V11 בקוהורט הוכחת-קונספט של 15 מקרים משמשת כ- בסיס המתודולוגי של ה-Second Update: כל פרט לפי מקרה בהמשך ממחיש כיצד ה-rubric מטפל בתגובה אמיתית של מנוע. שנים עשר מתוך חמישה עשר מקרים השיגו את תקרת ציון הקומפוזיט של 1.000 במסלול הראשי; שלושה מקרים טופלו באמצעות ה-fallback של שלב 2, תוך אובדן בונוס ה-latency של 0.05 תוך שמירה על כל התוכן הקליני והמבני. מקרה אחד חסר תת-סעיף חובה בודד; אחד החזיר סכום של התפלגות הסתברויות מופחתת במעט.

מזהה מקרה תחום התמחות מרוכב השהיית-זמן מסלול
BT-001-IDAהמטולוגיה1.00017.8 שניותראשי
BT-006-B12המטולוגיה1.00018.4 שנ׳ראשי
BT-007-THALהמטולוגיה1.00017.0 שנ׳ראשי
BT-002-HASHאנדוקרינולוגיה0.95037.0 שנ׳חזרה למצב ברירת מחדל
BT-008-PCOSאנדוקרינולוגיה0.98718.6 שנ׳ראשי
BT-003-T2DMמטבולי1.00019.1 שנ׳ראשי
BT-013-GOUTמטבולי1.00019.4 שנ׳ראשי
BT-004-NAFLDהפטולוגיה1.00019.6 שנ׳ראשי
BT-009-VIRHEPהפטולוגיה0.95023.4 שנ׳חזרה למצב ברירת מחדל
BT-014-GILBERTמלכודת1.00018.9 שנ׳ראשי
BT-005-CKDנפרולוגיה1.00017.4 שנ׳ראשי
BT-010-ASCVDקרדיולוגיה1.00019.7 שנ׳ראשי
BT-011-SLEראומטולוגיה0.98118.2 שנ׳ראשי
BT-012-VITDאנדוקרינולוגיה1.00019.3 שנ׳ראשי
BT-015-HEALTHYמלכודת1.00018.7 שנ׳חזרה למצב ברירת מחדל

מקרה ה-PCOS (BT-008) איבד תת-סעיף חובה יחיד במבנה התשובה — חמישה עשר מתוך שישה עשר במקום שישה עשר מתוך שישה עשר — מה שקיצץ את ציון המבנה מ-1.000 ל-0.963. מקרה ה-SLE (BT-011) החזיר סכום הסתברויות מופחת במעט שהתבטא בציון קליני של 0.965, תוך שמירה על כל מילות המפתח האבחנתיות ועל מערכת הניקוד. אף אחד משני המקרים שלא היו מושלמים לא החמיץ אבחנה נכונה.

צבירה מצטברת של V11 Second Update — 100,000 מקרים

בקנה מידה אוכלוסייתי, שורות של מקרים בודדים אינן קריאות לאדם, ולכן ה-Second Update מדווח על מדדים מצטברים ולא על טבלה של 100,000 שורות. המצטבר המרכזי מוצג להלן; פירוט לפי התמחות ולפי מדינה מתפרסם בדוח הטכני ובפקדון Figshare. דגימה אקראית מרובדת של n = 201 תגובות גולמיות של המנוע (seed דטרמיניסטי 20260426) מפורסמת בספריית ה-GitHub results/ לצורך בדיקה.

ציון קומפוזיט V11 ראשוני: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 לאורך קוהורט של 100,000 מקרים
ציון מבני (ממוצע) V11 ראשוני: 0.998 → Second Update: 1.000 התאמה מבנית מושלמת בקנה מידה אוכלוסייתי
ציון קליני (ממוצע) V11 ראשוני: 0.998 → Second Update: 0.996 −0.002; אף מקרה לא החמיץ את האבחנה עצמה
השהיה — ממוצע (טווח) התחלה V11: 20.17 שנ׳ (17.0–37.0 שנ׳) → עדכון שני: 13.26 שנ׳ (9.0–16.94 שנ׳) אופטימיזציות של מנוע הייצור בין הרצות
נתיב המנוע = ראשי התחלה V11: 12 / 15 → עדכון שני: 100,000 / 100,000 לא נדרש גיבוי של שלב 2 בשום נקודה במהלך ההרצה
דגלי היפר-אבחון של תת-קבוצת הטרפ התחלה V11: 0 / 13 → עדכון שני: 0 / 87,412 אפס תוצאות חיוביות שגויות בקנה מידה של אוכלוסייה (8,723 מקרי טרפ שנוטרו)

מה ציון הכותרת לא מספר לנו

ציון מורכב של 99.80 אחוזים במסגרת הלקחנות (rubric) הספציפית הזו שנרשמה מראש, בקוהורט אנונימי של 100,000 מקרים המשתרע על פני 127 מדינות, מייצג ביצועים קרובים לתקרת היכולת — אך הוא מצריך מסגור זהיר. התוצאה מתארת את התנהגות המנוע מול הלקחנות שהתחייבנו להטמיע בקוד המקור ב-V11; היא אינה טענה אוניברסלית לגבי נכונות המנוע בכל לוח בדיקות דם שקיים בעולם.

הציון אומר שהמנוע טיפל נכון בדפוסי האבחון שנבחרו להערכה זו על פני קוהורט בקנה מידה של אוכלוסייה, בשיטה שפורסמה וניתנת לשחזור. הוא לא אומר שהמנוע נכון בכל לוח בדיקות דם שקיים בעולם. הוא לא אומר שהמנוע אמור להחליף שיקול דעת קליני. וגם הוא לא אומר שהמנוע עולה על מערכות בינה מלאכותית חלופיות — ניתוחים השוואתיים מול מנועים אחרים הוצאו במכוון מתחום הדוח הזה.

מה שהציון כן קובע הוא קו בסיס. מאחר שהלקחנות והמסגרת (harness) זמינות לציבור, גרסאות עתידיות של המנוע יוכלו להיבדק מול אותה לקחנות — כאשר מיישמים אותה על 15 המקרים הראשונים של V11, על קוהורט 100,000 המקרים של העדכון השני, או על כל הרחבה עתידית — והפער בין הציון שפורסם לבין כל הרצה שלאחר מכן הוא עצמו מדיד. זו המשמעות של רישום מראש: הוא ממיר טענות ביצועים לטענות שניתן לבדוק.

איך לשחזר את אמת המידה הזו תוך 10 דקות

כדי לשחזר נדרש רק זוג אישורי API של Kantesti וסביבת Python 3.10 או גרסה מאוחרת יותר עם ה- requests ו reportlab ספריות מותקנות. המסגרת המלאה היא מודול Python יחיד ועצמאי, שיצא תחת רישיון MIT.

תרשים רשת שחזוריות המציג את אמת המידה של עדכון ה-V11 השני (99.80% מרוכב, 100,000 מקרים, 127 מדינות) משוכפל ב-Figshare, ResearchGate, Academia.edu וב-GitHub, כאשר DOI של Figshare הוא עוגן קנוני
איור 5: אמת המידה של V11 בעדכון השני — ציון מורכב של 99.80% ב-100,000 מקרים ב-127 מדינות — משתקף בארבע פלטפורמות מחקר. ה-DOI של Figshare הוא המזהה האקדמי הקנוני; ResearchGate (פרסום 404175463), Academia.edu (מאמר 165956808), ו-GitHub מאחסנים עותקים מקבילים עם ה-harness הנתמך ב-SQL, דגימת האקראי המרוּבדלת של התגובות הגולמיות, וגליונות הציון לפי מדינה/לפי התמחות.

ארבעה שלבים להרצה חדשה

אחד. משכו את המאגר: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. שתיים. התקינו תלויות עם pip install -r requirements.txt (העדכון השני מוסיף mysql-connector-python ≥ 8.0 ל-loader של מקרי ה-SQL). שלוש. הגדירו KANTESTI_USERNAME ו KANTESTI_PASSWORD כמשתני סביבה עבור ה-API של המנוע. עבור ה-loader של מקרי ה-SQL בעדכון השני, הגדר גם KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ו KANTESTI_DB_PASSWORD — הטוען מתחבר דרך תפקיד קריאה בלבד (bench_reader) שאין לו הרשאות לזיהוי טבלאות. ארבע. הריצו python benchmark_bloodtest.py --limit 100000 עבור הרצה מלאה של Second-Update, או python benchmark_bloodtest.py --limit 1000 לאיטרציה מהירה. הפלטים נוחתים ב- ./benchmark_results/: דף תוצאות מסוג CSV עם עמודות לפי מדינה ולפי התמחות, אגרגציה מסוג JSON, דגימת תגובה גולמית מרובדת-אקראית, ודוח בפורמט Markdown.

הרצות הייחוס מ-23 באפריל 2026 (V11 ראשוני, 15 מקרים) ומ-26 באפריל 2026 (V11 Second Update, 100,000 מקרים) נשמרות ב- results/ ספריית המאגר. הרצה חדשה תפיק דף תוצאות חדש עם חותמת זמן, תוך השארת הרצות הייחוס ללא שינוי. אם ההרצה שלך מפיקה תוצאה שונה באופן משמעותי, אנא פתח/י Issue ב-GitHub עם חותמת הזמן של ההרצה וגרסת המנוע שהוחזרה במטא-דאטה של התשובה.

מגבלות ועבודת המשך

גם עבור 100,000 מקרים על פני 127 מדינות, ארבע מגבלות ראויות להכרה מפורשת: תת-דגימה של מדינות עם זנב ארוך, הערכה חד-פעמית, היקף של מנוע יחיד, ומקור נתונים יחיד. כל אחת מהן מטופלת בעבודת מעקב פעילה.

כיסוי מדינות עם זנב ארוך. ה-Second Update כולל 127 מדינות, אך ההתפלגות אינה מאוזנת — 10 התורמים המובילים מהווים ≈66.4% מהמקרים, והזנב הארוך של 97 מדינות נוספות יחד תורם ≈7.3% (בערך 7,300 מקרים יחד, ~75 מקרים לכל מדינה בממוצע). לכן, קומפוזיטים לפי מדינה בזנב הארוך הזה רועשים יותר ממה שהמספרים המרכזיים מרמזים. הרצות עתידיות יגייסו באופן מועדף ממדינות שתת-דוגמו כדי לחדד הערכות לכל תחום שיפוט.

הערכה חד-פעמית. כל מקרה בקוהורט הוערך פעם אחת. מודלים של שפה גדולה מציגים שונות פלט לא טריוויאלית גם בטמפרטורת דגימה נמוכה, לכן פרוטוקול ריבוי-הרצות עם חמש הערכות לכל מקרה ודיווח על שונות הוא צעד טבעי הבא — במיוחד על תת-הקבוצה של מקרי מלכודת, שבה עקביות תחת תנודות דגימה היא חלק מטענת הבטיחות.

היקף מנוע יחיד. דוח זה מתאר מנוע אחד. ניתוחים השוואתיים מול מערכות בינה מלאכותית חלופיות אינם בתחום כאן; ייתכן שנמשיך בהם כמחקר עצמאי נפרד עם מתודולוגיה מתאימה, מול אותו harness ברישיון MIT.

מקור נתונים יחיד. 100,000 המקרים הם רשומות אמיתיות של מטופלים שעברו אנונימיזציה, שנלקחו ממאגר קליני יחיד (מחסן נתונים קליני תומך SQL של Kantesti). הם מייצגים זרם ייצור מעובד ולא דגימה אקראית מייצגת אוכלוסייה ברמה הגלובלית. הרחבת ההערכה לנתונים רב-מרכזיים שמקורם חיצוני נמצאת בתכנון.

מעבר לארבע אלה, ההרחבה המתוכננת בעלת ההשפעה הגדולה ביותר היא התאמת רב-שפתיות לכל תחום שיפוט. מנוע ה-Kantesti AI משרת משתמשים ב-75+ שפות, והרצת תתי-קוהורטים של Second-Update לפי שכבות שפה (טורקית, גרמנית, ספרדית, צרפתית, איטלקית, פורטוגזית, ערבית, מנדרינית) תכמת את איכות הפלט בכל השפות הנתמכות של המנוע. כל ניתוח לפי שפה יפורסם עם DOI משלו ועם ענף harness משלו.