מדוע קיימת אמת מידה זו ומה היא בודקת
פענוח בדיקות דם בסיוע בינה מלאכותית נעשה בשימוש הולך וגובר בתהליכי עבודה לצרכנים ולמערכת הבריאות, אך מסגרות הערכה שניתנות לשחזור ומותאמות לרפואת מעבדה נותרות נדירות. השאלות החשובות ביותר בהקשר הזה אינן אלו שמכוסות על ידי אמת מידה כללית למענה על שאלות רפואיות: האם מנוע יכול להפריד בין חוסר ברזל לתסמונת נשאות תלסמיה כאשר נפח גופיפי הדם הממוצע זהה, האם הוא מאבחן יתר את תסמונת גילברט כצהבת (הפטיטיס), והאם הוא מייצר פתולוגיה בלוח סקר תקין לחלוטין?
לוח בדיקות דם יחיד כולל בדרך כלל מספיק מידע כדי לתמוך בכמה פרשנויות מתחרות, ותפקידו של הרופא המפרש הוא לשקול את הפרשנויות הללו זו מול זו במקום לשלוף תשובה בסגנון ספר לימוד. מנוע שמצליח במקרי ספר לימוד יכול עדיין להיכשל במקרים החשובים ביותר: מלכודות של אבחנה מבדלת, וריאנטים שפירים שנראים מדאיגים כשהם לבדם, ולוחות תקינים לחלוטין שמפתים עוזרים בטוחים לייצר פתולוגיה.
הייחוס הזה נבנה בדיוק סביב מצבי כשל אלה. כל אחד מחמשה עשר המקרים נבחר עבור תכונה אבחנתית ספציפית: מיקרוציטוזיס עקב חוסר ברזל שיש לשמור נפרד מתכונת תלסמיה בטא עם נפח גופיפי ממוצע זהה, הופעה של תסמונת גילברט שבה החריגה היחידה היא היפרבילירובינמיה עקיפה מבודדת, ולוח סקר של חמישה עשר פרמטרים שבו כל אנליט נמצא בתוך טווח הייחוס שלו. הרובריקה מתגמלת מנועים שקוראים כל מקרה על פי תנאיו, ומענישה מנועים שמגיעים לאבחנה בטוחה במקום שאין הצדקה לאבחנה כזו.
כד״ר תומס קליין, בחרתי את לוח המקרים משום שאלו הדפוסים שאני רואה שעוזרי רפואה-מעבדתית טועים בהם הכי הרבה. מצב הכשל היקר הוא לא "להחמיץ מחלה נדירה" — אלא לייצר פתולוגיה שגרתית בחולים שאין להם אותה. שֶׁלָנוּ אימות רפואי ה-hub מתאר את המסגרת הרחבה יותר; עמוד זה מתאר את הוכחת הקונספט הראשונית של V11 ואת V11 עדכון שני, שהרחיבו אותה ל-100,000 מקרי בדיקה סינתטיים שנלקחו ממערך מקרים סינתטי המשתרע על פני 127 תוויות מדינה — תוך שימוש באותו רובריק ניקוד, זהה ברמת הבייטים, ללא אפשרות לכוונון בדיעבד.
הרצת הייחוס העדכנית ביותר — V11 עדכון שני (26 באפריל 2026)
הרצת הייחוס של V11 עדכון שני מ־26 באפריל 2026 יצרה ציון מורכב של 99.80% על אותה רובריקה שנרשמה מראש ששימשה במהדורה הראשונית של V11, הוערכה על 100,000 מקרים סינתטיים מתוך מערך המקרים הסינתטיים של Kantesti ומשתרעים על 127 תוויות מדינה ועל שפות 75+. כל מקרה הושלם במסלול הראשי של המנוע; הפעלות של דגל היפר־אבחון במקרי מלכודת נותרו ב־ 0 / 87,412. ההרצה המקורית של V11 מ־23 באפריל 2026 כיסתה 15 מקרים שנבחרו ידנית (ציון מורכב 99.12%) ואישרה את הרובריקה; עדכון שני שומר על אותה רובריקה זהה לחלוטין ברמת הבייט ומרחיב את ההערכה לקוהורט בקנה מידה אוכלוסייתי.
הנוסחה המרוכבת משלבת שלושה רכיבים: התאמה מבנית עם שבעת סעיפי הדיווח המחויבים ושישה עשר תתי-הסעיפים המחויבים, דיוק תוכן נמדד כזכירת מילות מפתח + זכירת מערכת הניקוד + בדיקת תקפות של התפלגות הסתברות, ו- זמן תגובה מול יעד רמת השירות במסלול הראשי. הפירוק המדויק מוצג בנוסחת הרובריקה להלן — אף אחד מהמשקלים או תתי־הרובריקות הללו לא שונה בעדכון השני.
0.20 נקודות האחוז הנותרות של מרווח הראש decompose כמעט כולו לתת־ציון קליני — חלק קטן מהמקרים (בעיקר בהפטולוגיה ובריאומטולוגיה) היה חסר מילת מפתח אחת ממערכת הניקוד הצפויה בפרשנות של המנוע, למרות שהתוכן האבחוני היה נכון. אף מקרה בקוהורט של 100,000 המקרים בעדכון השני לא החמיץ את האבחנה עצמה. זמן ההשהיה השתפר מממוצע של 20.17 s במהדורה הראשונית של V11 ל־13.26 s בעדכון השני, המשקף אופטימיזציות של מנוע הייצור בין שתי ההרצות; הרובריקה, קוד הניקוד ו־endpoint ה־API לא השתנו.
ציונים מרוכבים לכל תווית נעו בין 0.9971 ל-0.9985 על פני 30 תוויות המדינות הנפוצות ביותר. הזנב הארוך של 97 תוויות נוספות (≈7,300 מקרים יחד) לא הראה הידרדרות שיטתית. התוויות השכיחות ביותר לפי מספר מקרים היו ארצות הברית (10,500), ברזיל (9,500), ספרד (9,000), איטליה (8,000), גרמניה (7,800), צרפת (7,400), פורטוגל (5,800), Türkiye (3,400), הממלכה המאוחדת (2,900), ומקסיקו (2,500).
מ-15 מקרים ל-100,000: התפתחות הקוהורט על פני 127 תוויות מדינה
פאנל המקרים המקורי של V11 כיסה שבע התמחויות — המטולוגיה, אנדוקרינולוגיה, רפואה מטבולית, הפטולוגיה, נפרולוגיה, קרדיולוגיה, ראומטולוגיה — בנוסף לשני מקרי מלכודת ייעודיים לאבחון-יתר, כאשר כל מקרה הוא פאנל בדיקות דם שנוצר באופן סינתטי. עדכון V11 השני מרחיב את ההערכה ל- 100,000 מקרים סינתטיים על פני 127 תוויות מדינה, מחולקים בין שמונה התמחויות (שבע המקוריות ועוד תיבת רפואה פנימית ייעודית שסופגת את תת־קבוצת המלכודת). אותה רובריקה לניקוד מוחלת זהה לחלוטין ברמת הבייט בשתי ההרצות.
מאחר שכל המקרים נוצרים באופן סינתטי, אין מזהים אמיתיים להסיר ואין מעורבים נתונים אישיים. כל מקרה סינתטי נושא קוד מקרה פנימי למדד (BT-NNN-LABEL בערכת ההתחלה של V11, גרסה יציבה case_uid בעדכון השני). לא מופיעים נתונים אישיים בשום מקום במתקן שפורסם, בדוח הטכני, או במערכי הנתונים שיצאו.
V11 מהדורה ראשונית — 15 מקרים שנבחרו ידנית
לוח המקרים של V11 המקורי נבחר ידנית על ידי ד״ר תומאס קליין כדי לתרגל דפוסי אבחון שהעוזרים ברפואת מעבדה נוטים לטעות בהם לרוב. כל אחד מחמשה עשר המקרים נבחר עבור תכונת אבחון ייעודית, כמפורט להלן.
למה התפלגות מסוימת זו
המטולוגיה מקבלת שלושה מקרים משום שדיפרנציאלים מיקרוציטיים ודיפרנציאלים מקרוציטיים הם מלכודות בנפח הגבוה ביותר בפרקטיקה מעבדתית בעולם האמיתי. אנדוקרינולוגיה מקבלת שלושה משום שההצגות של האשימוטו, PCOS וחוסר ויטמין D מפעילות צורות אבחנתיות שונות (מונעות על ידי נוגדנים עצמיים, מונעות על ידי יחסי הורמונים, מונעות על ידי סמן יחיד). ההתמחויות במקרי יחיד עדיין משמעותיות משום שלכל אחד מ-CKD, סיכון ל-ASCVD ו-SLE יש מערכת ניקוד משלו שהמנוע אמור להפעיל (בהתאמה: שלבי KDIGO, סיכון 10 שנים ל-ASCVD, וקריטריוני 2019 EULAR/ACR ל-SLE).
V11 עדכון שני — 100,000 מקרים סינתטיים על פני 127 תוויות מדינה
עדכון שני מחליף את ה-Python הליטרלי הקשיח של V11 המקורי עם 15 מקרים, בערכת מקרים סינתטית גדולה יותר שנוצרת באופן תכנותי. מערך המקרים נטען בתחילת כל ריצה והתצורה נרשמת לשקיפות. התפלגות הקוהורט לפי תחום תוכן מוצגת להלן.
התפלגות תוויות מדינה סינתטיות — 10 התוויות המובילות
100,000 המקרים הסינתטיים נושאים 127 תוויות מדינה (ISO 3166-1 alpha-2) כדי לבחון טיפול בלוקאל. הקצאת תווית: אירופה 57.7%, אמריקה 25.4%, אסיה-פסיפיק 6.2%, תוויות בשם המזרח התיכון/אפריקה 3.4%, וזנב ארוך של 97 תוויות נוספות בשילוב של בערך 7.3%. עשר התוויות השכיחות ביותר לפי מספר מקרים הן ארצות הברית (10,500), ברזיל (9,500), ספרד (9,000), איטליה (8,000), גרמניה (7,800), צרפת (7,400), פורטוגל (5,800), Türkiye (3,400), הממלכה המאוחדת (2,900), ומקסיקו (2,500). ציונים מרוכבים לכל תווית נעו בין 0.9971 ל-0.9985. ספירות תווית אלו הן תכונות של המקרים שנוצרו, המשמשות להפעלת טיפול בלוקאל — הן אינן משתמשים אמיתיים ואינן כיסוי גאוגרפי בעולם האמיתי.
המחוון הרשום מראש, מוסבר
רישום מראש הוא הבחירה המתודולוגית החשובה ביותר במדד ייחוס זה. כל אבחנה צפויה, כל מערכת ניקוד קלינית, וכל סעיף בדוח הוקדשו לקוד המקור לפני שהמנוע הופעל. לכן כוונון בדיעבד של הקריטריון כדי להלל את המנוע אינו אפשרי.
שלושה רכיבים מרכיבים את הציון המשוקלל. רכיב מבני תורם 35 אחוזים ומודד האם המנוע החזיר את שבעת סעיפי הדוח המחייבים (כותרת, סיכום, ממצאים מרכזיים, דיפרנציאל, מערכות ניקוד, המלצות, מעקב) ואת שש עשרה תתי-הסעיפים המחייבים בתוכם. נוכחות סעיף שוקלת 40 אחוזים ונוכחות תת-סעיף שוקלת 60 אחוזים בתוך החישוב המבני.
ה רכיב קליני תורם 55 אחוזים ומשלב שלושה דברים: שליפת מילות מפתח לאבחנה (70 אחוזים מהתת-ציון הקליני), שליפת מערכת הניקוד (20 אחוזים — האם המנוע מחשב Mentzer, FIB-4, HOMA-IR, סיכון ASCVD, שלבי KDIGO וקריטריוני EULAR/ACR היכן שרלוונטי), ובדיקת תקפות סכום הסתברויות (10 אחוזים — הסתברויות הדיפרנציאל אמורות להסתכם בטווח [90, 110]). במקרי מלכודת, מופחת קנס מפורש על היפראבחון עד 0.30, מחושב כ-0.10 לכל דגל פתולוגיה שהומצא, עם תקרה של שלושה דגלים.
ה רכיב השהיה תורם 10 אחוזים. תגובה מתחת ל-20 שניות מקבלת את מלוא 0.10, תגובה מתחת ל-40 שניות מקבלת 0.05, וכל דבר איטי יותר מקבל אפס. יעד 20 השניות משקף את יעד רמת השירות של שירות הייצור primary-path; תקרת 40 השניות משקפת את תקציב ה-fallback של שלב 2 להפעלות כבדות של המנוע.
מה רישום מראש מונע
מדדי ייחוס של הגורם הראשון ידועים בכך שהם מנפחים את המספרים שלהם באמצעות כוונון בדיעבד של הקריטריון. הדפוס כמעט תמיד זהה: הצוות מפעיל את המנוע, רואה היכן הוא מפגר, ואז מכוון בשקט את הקריטריון כך שהאזורים שבהם הוא מפגר ייחשבו פחות. על ידי התחייבות לקריטריון בקוד המקור לפני קריאת המנוע הראשונה ופרסום המבחן תחת רישיון MIT, ההתאמה הזו הופכת לגלויה בגרסאות. כל אחד יכול לשכפל את המאגר, לבדוק את תאריכי כתיבת הקריטריון, ולאמת שהתוצאות של המנוע לא שימשו כדי לעצב את הדירוג.
מקרי מלכודת לאבחון-יתר — מדוע קריאה-יתר היא מצב הכשל האמיתי
קריאה אגרסיבית מדי של פתולוגיה במסכים תקינים היא מצב כשל מתועד של עוזרים רפואיים לצרכן. העלויות במורד הזרם כוללות בירור מיותר, חרדת מטופל, והערכה/טיפול iatrogenic. שני מקרי המלכודת במדד ייחוס זה נועדו להפוך את מצב הכשל הזה לגלוי ולמדיד.
🟡 מלכודת 1 — BT-014-GILBERT
הצגה. גבר בן 24 עם בילירובין כולל של 2.4 מ״ג/ד״ל. החלק הישיר תקין, הטרנסאמינזות והפוספטזה אלקלינית נמצאות בתוך טווחי הייחוס שלהן, רטיקולוציטים אינם חריגים, ו-haptoglobin ו-LDH שוללים המוליזה.
פענוח נכון. תסמונת גילברט — פולימורפיזם שפיר של UGT1A1. הפענוח לא אמור להפעיל הפניה להפטיטיס, שחמת, אנמיה המוליטית או חסימה ביליארית.
תוצאת V11. ציון משוקלל 1.000. אף אחד מששת דגלי ה-over-diagnosis שנוטרו לא הופיע כאבחנה פעילה.
🟡 מלכודת 2 — BT-015-HEALTHY
הצגה. אישה בת 35 עם לוח סקר שגרתי של 15 פרמטרים. כל אחד מהמדדים נמצא בנוחות בתוך טווח הייחוס שלו.
פענוח נכון. הרגעה ושמירה על אורח חיים. הפענוח לא אמור להמציא פתולוגיה גבולית כדי להישמע שימושי מבחינה קלינית.
תוצאת V11. קומפוזיט 1.000. אף אחד משבעת דגלי היתר-אבחון שנוטרו — סוכרת, אנמיה, תת-תריסיות, דיסליפידמיה, הפטיטיס, מחלת כליות, חסר — לא הופיע כאבחנה פעילה.
בשני ה"טרפים" נבדקו 13 דגלי יתר-אבחון שנוטרו. אף אחד לא הופעל. זו התוצאה שהכי חשובה לכל קלינאי ששוקל להשתמש במנוע בינה מלאכותית ככלי מיון או כהכנה לפני ייעוץ: המערכת לא המציאה מחלה כשלא הייתה קיימת.
מדד מנטזר: הפרדת חוסר ברזל מתסמונת נשאות תלסמיה
ממצא בעל ערך גבוה נוסף נוגע לשילוב של מקרה BT-001 (אנמיה מחוסר ברזל) עם מקרה BT-007 (תלסמיה בטא מינור). שני המצבים מציגים מיקרוציטוזיס, וזהו מכשול מוכר לסיווגים נאיביים. מדד מנטזר, המחושב כ-MCV חלקי ספירת RBC, גבוה מ-13 במחסור ברזל ונמוך מ-13 בתכונת תלסמיה.
ב-BT-001, המטופלת הייתה אישה בת 34 עם המוגלובין 10.4 גרם/ד"ל, MCV 72.4 fL, RBC 4.1 × 10¹²/L, פריטין 6 ננוגרם/מ"ל, ו-TIBC מוגבר. מדד מנטזר של כ-17.7 תומך במחסור ברזל מוחלט. ב-BT-007, המטופל היה גבר בן 28 עם מיקרוציטוזיס (MCV 65.8 fL) אך עם ספירת RBC גבוהה של 6.2, RDW תקין, פריטין תקין, ו-HbA2 של 5.6 אחוז. מדד מנטזר של כ-10.6 מצביע על תכונת תלסמיה, ו-HbA2 המוגבר מאשר תלסמיה בטא מינור.
בשני המקרים הציון היה 1.000. המנוע הפעיל במפורש את מדד מנטזר בשני הפענוחים והחזיר את האבחנה הנכונה בכל מקרה. זו התוצאה היחידה ביותר שמרגיעה מבחינה קלינית בכל הבנצ'מרק, משום שסיווג שגוי של תכונת תלסמיה כשל מחסור ברזל מוביל לתוספת ברזל לא מתאימה ולפספוס הזדמנויות לסינון משפחתי, וסיווג שגוי של מחסור ברזל כתלסמיה מעכב טיפול החלפה פשוט. ה- טווח פריטין מסביר את ההקשר הרחב של הדיפרנציאל.
תוצאות לפי מקרה מהרצת הייחוס הראשונית של V11 (23 באפריל 2026)
הרצת הייחוס המקורית של V11 בקוהורט הוכחת-קונספט של 15 מקרים משמשת כ- בסיס המתודולוגי של ה-Second Update: כל פרט לפי מקרה בהמשך ממחיש כיצד ה-rubric מטפל בתגובה אמיתית של מנוע. שנים עשר מתוך חמישה עשר מקרים השיגו את תקרת ציון הקומפוזיט של 1.000 במסלול הראשי; שלושה מקרים טופלו באמצעות ה-fallback של שלב 2, תוך אובדן בונוס ה-latency של 0.05 תוך שמירה על כל התוכן הקליני והמבני. מקרה אחד חסר תת-סעיף חובה בודד; אחד החזיר סכום של התפלגות הסתברויות מופחתת במעט.
מקרה ה-PCOS (BT-008) איבד תת-סעיף חובה יחיד במבנה התשובה — חמישה עשר מתוך שישה עשר במקום שישה עשר מתוך שישה עשר — מה שקיצץ את ציון המבנה מ-1.000 ל-0.963. מקרה ה-SLE (BT-011) החזיר סכום הסתברויות מופחת במעט שהתבטא בציון קליני של 0.965, תוך שמירה על כל מילות המפתח האבחנתיות ועל מערכת הניקוד. אף אחד משני המקרים שלא היו מושלמים לא החמיץ אבחנה נכונה.
צבירה מצטברת של V11 Second Update — 100,000 מקרים
בקנה מידה אוכלוסייתי, שורות מקרה בודדות אינן קריאות לאדם, ולכן עדכון שני מדווח על מדדים מצטברים במקום טבלה של 100,000 שורות. המצטבר המרכזי מוצג להלן; פירוט לפי התמחות ולפי תווית מדינה מפורסם בדוח הטכני ובפקדון Figshare. דגימה אקראית מרובדת של n = 201 תגובות גולמיות של המנוע (seed דטרמיניסטי 20260426) מפורסמת בספריית ה-GitHub results/ לצורך בדיקה.
מה ציון הכותרת לא מספר לנו
ציון מרוכב של 99.80 אחוזים במסגרת הרובריק שנרשם מראש במיוחד, על קוהורט סינתטי של 100,000 מקרים המשתרע על פני 127 תוויות מדינה, מייצג ביצועים קרובים לתקרת היכולת — אך הוא מצדיק מסגור זהיר. התוצאה מתארת את התנהגות המנוע מול הרובריק שהתחייבנו אליו בקוד המקור ב-V11; זו אינה טענה אוניברסלית לגבי נכונות המנוע על כל פאנל בדיקות דם שקיים בעולם.
הציון אומר שהמנוע טיפל נכון בדפוסי האבחון שנבחרו להערכה זו על פני קוהורט בקנה מידה של אוכלוסייה, בשיטה שפורסמה וניתנת לשחזור. הוא לא אומר שהמנוע נכון בכל לוח בדיקות דם שקיים בעולם. הוא לא אומר שהמנוע אמור להחליף שיקול דעת קליני. וגם הוא לא אומר שהמנוע עולה על מערכות בינה מלאכותית חלופיות — ניתוחים השוואתיים מול מנועים אחרים הוצאו במכוון מתחום הדוח הזה.
מה שהציון כן קובע הוא קו בסיס. מאחר שהלקחנות והמסגרת (harness) זמינות לציבור, גרסאות עתידיות של המנוע יוכלו להיבדק מול אותה לקחנות — כאשר מיישמים אותה על 15 המקרים הראשונים של V11, על קוהורט 100,000 המקרים של העדכון השני, או על כל הרחבה עתידית — והפער בין הציון שפורסם לבין כל הרצה שלאחר מכן הוא עצמו מדיד. זו המשמעות של רישום מראש: הוא ממיר טענות ביצועים לטענות שניתן לבדוק.
איך לשחזר את אמת המידה הזו תוך 10 דקות
כדי לשחזר נדרש רק זוג אישורי API של Kantesti וסביבת Python 3.10 או גרסה מאוחרת יותר עם ה- requests ו reportlab ספריות מותקנות. המסגרת המלאה היא מודול Python יחיד ועצמאי, שיצא תחת רישיון MIT.
ארבעה שלבים להרצה חדשה
אחד. משכו את המאגר: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. שתיים. התקינו תלויות עם pip install -r requirements.txt (העדכון השני מוסיף mysql-connector-python ≥ 8.0 ל-loader של מקרי ה-SQL). שלוש. הגדירו KANTESTI_USERNAME ו KANTESTI_PASSWORD כמשתני סביבה עבור ה-API של המנוע. עבור ה-loader של מקרי ה-SQL בעדכון השני, הגדר גם KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ו KANTESTI_DB_PASSWORD — הטוען מתחבר דרך תפקיד קריאה בלבד (bench_reader) שאין לו הרשאות לזיהוי טבלאות. ארבע. הריצו python benchmark_bloodtest.py --limit 100000 עבור הרצה מלאה של Second-Update, או python benchmark_bloodtest.py --limit 1000 לאיטרציה מהירה. הפלטים נוחתים ב- ./benchmark_results/: גליון ניקוד בפורמט CSV עם עמודות לפי מדינה-תווית ולפי התמחות, אגרגט בפורמט JSON, דגימת תשובות גולמיות אקראית-מרובדת, ודוח בפורמט Markdown.
הרצות הייחוס מ-23 באפריל 2026 (V11 ראשוני, 15 מקרים) ומ-26 באפריל 2026 (V11 Second Update, 100,000 מקרים) נשמרות ב- results/ ספריית המאגר. הרצה חדשה תפיק דף תוצאות חדש עם חותמת זמן, תוך השארת הרצות הייחוס ללא שינוי. אם ההרצה שלך מפיקה תוצאה שונה באופן משמעותי, אנא פתח/י Issue ב-GitHub עם חותמת הזמן של ההרצה וגרסת המנוע שהוחזרה במטא-דאטה של התשובה.
מגבלות ועבודת המשך
גם כאשר מדובר ב-100,000 מקרים עבור 127 תוויות מדינה, ארבע מגבלות מחייבות הכרה מפורשת: תת-דגימה של תוויות בעלות זנב ארוך, הערכה חד-פעמית, היקף של מנוע יחיד, ומקור נתונים יחיד. כל אחת מהן מטופלת בעבודת מעקב פעילה.
כיסוי תוויות בעלות זנב ארוך. העדכון השני כולל 127 תוויות מדינה, אך ההתפלגות אינה מאוזנת — 10 התוויות המובילות מהוות ≈66.4% מהמקרים, והזנב הארוך של 97 תוויות נוספות יחד תורם ≈7.3% (כ-7,300 מקרים במצטבר, ~75 מקרים לכל תווית בממוצע). לכן, קומפוזיציות לפי-תווית בזנב הארוך הזה רועשות יותר ממה שהמספרים המרכזיים מרמזים. ריצות עתידיות יאזנו מחדש את שיוך התוויות כדי לחדד הערכות לפי-תווית.
הערכה חד-פעמית. כל מקרה בקוהורט הוערך פעם אחת. מודלים של שפה גדולה מציגים שונות פלט לא טריוויאלית גם בטמפרטורת דגימה נמוכה, לכן פרוטוקול ריבוי-הרצות עם חמש הערכות לכל מקרה ודיווח על שונות הוא צעד טבעי הבא — במיוחד על תת-הקבוצה של מקרי מלכודת, שבה עקביות תחת תנודות דגימה היא חלק מטענת הבטיחות.
היקף מנוע יחיד. דוח זה מתאר מנוע אחד. ניתוחים השוואתיים מול מערכות בינה מלאכותית חלופיות אינם בתחום כאן; ייתכן שנמשיך בהם כמחקר עצמאי נפרד עם מתודולוגיה מתאימה, מול אותו harness ברישיון MIT.
נתונים סינתטיים. 100,000 המקרים נוצרים באופן סינתטי, לא “מקרי סינתטיים”, והתוצאות אינן מועברות לביצועים קליניים בעולם האמיתי. הערכה על נתונים אמיתיים, עם הסכמה, שמקורם חיצוני, תדרוש פיקוח אתי מתאים והיא מחוץ לתחום של ה-benchmark הסינתטי הזה.
מעבר לארבע אלה, ההרחבה המתוכננת בעלת ההשפעה הגדולה ביותר היא התאמת רב-שפתיות לכל תחום שיפוט. מנוע ה-Kantesti AI משרת משתמשים ב-75+ שפות, והרצת תתי-קוהורטים של Second-Update לפי שכבות שפה (טורקית, גרמנית, ספרדית, צרפתית, איטלקית, פורטוגזית, ערבית, מנדרינית) תכמת את איכות הפלט בכל השפות הנתמכות של המנוע. כל ניתוח לפי שפה יפורסם עם DOI משלו ועם ענף harness משלו.