אמת מידה של בדיקת דם בינה מלאכותית Kantesti

אימות קליני אמת מידה רשומה מראש V11 — אפריל 2026 ברישיון MIT ניתן לאימות על ידי עמיתים

ציון מרוכב 99.12% על גבי מחוון רשום מראש עם אפס אבחון-יתר של תוצאות חיוביות שגויות

הערכה קלינית עצמאית, רשומה מראש, של מנוע הבינה המלאכותית Kantesti על מקרי בדיקות דם אנונימיים. המחוון הוקפא בקוד המקור לפני קריאת המנוע הראשונה, סביבת ההערכה היא ברישיון MIT, וכל תגובה גולמית מפורסמת.

📖 ~14 דקות 📅 23 באפריל 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 פורסם: 23 באפריל 2026 🩺 סקירה רפואית: 23 באפריל 2026 ✅ מחוון רשום מראש 🔓 קוד ונתונים פתוחים

מחקר אימות קליני זה הובל על ידי ד"ר תומאס קליין, מנהל הרפואה הראשי ב-Kantesti AI, בשיתוף עם ג'וליאן אמירהאן בולוט, מהנדס בינה מלאכותית בכיר ומנכ״ל של Kantesti Ltd. המתודולוגיה והמחוון נבדקו על ידי המועצה המייעצת הרפואית של קנטסטי לבינה מלאכותית.

מחבר מוביל ופיקוח קליני

תומאס קליין, MD

קצין רפואי ראשי, קנטסטי AI

ד״ר תומאס קליין הוא המטולוג קליני מוסמך מטעם מועצה ורופא פנימאי, עם למעלה מ-15 שנות ניסיון ברפואה מעבדתית. כמנהל הרפואה הראשי ב-Kantesti AI, הוא בחר את פאנל המקרים עבור אמת מידה זו, בחן את כל נתוני האמת האבחנתיים, ואישר את המחוון הרשום מראש לפני הפעלת המנוע הראשונה.

ORCID 0009-0009-1490-1321 ResearchGate גוגל סקולר

מחבר שותף ויישום

ג'וליאן אמירהאן בולוט

מהנדס בינה מלאכותית בכיר ומנכ״ל, Kantesti Ltd

ג׳וליאן אמירחן בולוט הוא המייסד והמנכ״ל של Kantesti Ltd. הוא תכנן ויישם את סביבת ההערכה, ביצע את אינטגרציית ה-API, ערך את ריצת אמת המידה באפריל 2026, והכין את האגרגציה הסטטיסטית. מייסד הפלטפורמה מאז 2019.

GitHub אודות קנטסטי

⚡ סיכום קצר V11 — 23 באפריל 2026

ציון מורכב 99.12% על 15 מקרים אמיתיים של בדיקות דם של מטופלים, ללא פרטים מזהים, מתוך שבע התמחויות רפואיות.
אפס חיובי-שווא של אבחון-יתר בשני מקרי המלכודת (תסמונת גילברט ומסך מבוגרים תקין לחלוטין).
קריטריון שנרשם מראש הוקפא בקוד המקור לפני קריאת המנוע הראשונה — לא הייתה אפשרות לכוונון בדיעבד.
מדד מנטזר יושם כהלכה כדי להבדיל בין אנמיה מחוסר ברזל לבין תלסמיה בטא מינור.
נקודת קצה של סביבת ייצור בלבד — ללא ניתוב מועדף; הוערך בדיוק כפי שלקוח משלם היה ניגש אליו.
השהיית ממוצעת של 20.17 שניות מקצה לקצה, כאשר 12 מתוך 15 מקרים נמצאים מתחת ליעד של 20 שניות במסלול הראשי.
האצלה (Harness) ברישיון MIT שוחרר ב-GitHub עם כל תגובת מנוע גולמית — שכפול עצמאי נתמך.
DOI ב-Figshare: 10.6084/m9.figshare.32095435 · משוקף ב-ResearchGate, Academia.edu, GitHub.

מדוע קיימת אמת מידה זו ומה היא בודקת

פענוח בדיקות דם בסיוע בינה מלאכותית נעשה בשימוש הולך וגובר בתהליכי עבודה לצרכנים ולמערכת הבריאות, אך מסגרות הערכה שניתנות לשחזור ומותאמות לרפואת מעבדה נותרות נדירות. השאלות החשובות ביותר בהקשר הזה אינן אלו שמכוסות על ידי אמת מידה כללית למענה על שאלות רפואיות: האם מנוע יכול להפריד בין חוסר ברזל לתסמונת נשאות תלסמיה כאשר נפח גופיפי הדם הממוצע זהה, האם הוא מאבחן יתר את תסמונת גילברט כצהבת (הפטיטיס), והאם הוא מייצר פתולוגיה בלוח סקר תקין לחלוטין?

לוח בדיקות דם יחיד כולל בדרך כלל מספיק מידע כדי לתמוך בכמה פרשנויות מתחרות, ותפקידו של הרופא המפרש הוא לשקול את הפרשנויות הללו זו מול זו במקום לשלוף תשובה בסגנון ספר לימוד. מנוע שמצליח במקרי ספר לימוד יכול עדיין להיכשל במקרים החשובים ביותר: מלכודות של אבחנה מבדלת, וריאנטים שפירים שנראים מדאיגים כשהם לבדם, ולוחות תקינים לחלוטין שמפתים עוזרים בטוחים לייצר פתולוגיה.

הייחוס הזה נבנה בדיוק סביב מצבי כשל אלה. כל אחד מחמשה עשר המקרים נבחר עבור תכונה אבחנתית ספציפית: מיקרוציטוזיס עקב חוסר ברזל שיש לשמור נפרד מתכונת תלסמיה בטא עם נפח גופיפי ממוצע זהה, הופעה של תסמונת גילברט שבה החריגה היחידה היא היפרבילירובינמיה עקיפה מבודדת, ולוח סקר של חמישה עשר פרמטרים שבו כל אנליט נמצא בתוך טווח הייחוס שלו. הרובריקה מתגמלת מנועים שקוראים כל מקרה על פי תנאיו, ומענישה מנועים שמגיעים לאבחנה בטוחה במקום שאין הצדקה לאבחנה כזו.

כד״ר תומס קליין, בחרתי את לוח המקרים משום שאלו הדפוסים שאני רואה שעוזרי רפואה-מעבדתית טועים בהם הכי הרבה. מצב הכשל היקר הוא לא "להחמיץ מחלה נדירה" — אלא לייצר פתולוגיה שגרתית בחולים שאין להם אותה. שֶׁלָנוּ אימות רפואי hub מתאר את המסגרת הרחבה; דף זה מתאר את התוצאה היישומית שלה על מנוע V11.

ריצת הייחוס העדכנית — V11 (אפריל 2026)

הרצת הייחוס של אפריל 2026 של מנוע ה-AI ‏V11 ‏Kantesti יצרה ציון מרוכב של 99.12% על רובריקת חמשה עשר המקרים שנרשמה מראש. שני מקרי מלכודת של היפראבחון קיבלו ציון בתקרה. אינדקס מנטזר יושם בצורה נכונה בדיפרנציאל בין חוסר ברזל לתלסמיה.

מרוכב 99.12% 15 מתוך 15 מקרים קיבלו ציון

0.998 ציון מבני

0.998 ציון קליני

20.17 שנ׳ זמן השהיה ממוצע

0 / 13 מלכודות של חיובי-שווא

הנוסחה המרוכבת משלבת שלושה רכיבים: התאמה מבנית עם שבעת סעיפי הדיווח המחויבים ושישה עשר תתי-הסעיפים המחויבים, דיוק קליני נמדד כזכירת מילות מפתח + זכירת מערכת הניקוד + בדיקת תקפות של התפלגות הסתברות, ו- זמן תגובה מול יעד שירות ראשי של 20 שניות. הפירוק המדויק מוצג בנוסחת הרובריקה שלהלן.

מרוכב = 0.35 × מבני + 0.55 × קליני + 0.10 × השהיית זמן (Latency)

0.88 נקודות האחוז הנותרות של מרווח הראש מתפרקות כמעט לחלוטין לאובדן עקב השהיית זמן — שלוש קריאות חירום (fallback) שלב 2, כל אחת בערך -0.05 מורכב, תרמו יחד כ-0.60 מתוך הגירעון של 0.88 נקודות — ולא לתוכן קליני. המנוע לא החמיץ אבחנה נכונה באף אחד מחמש עשרה המקרים; היכן שהוא לא עמד בציפיות, זה היה בכך שלקח מעט יותר זמן מהיעד הראשי של 20 שניות, במיעוט קטן של קריאות.

חמישה עשר מקרים על פני שבע התמחויות רפואיות

לוח המקרים מכסה שבע התמחויות — המטולוגיה, אנדוקרינולוגיה, רפואה מטבולית, הפטולוגיה, נפרולוגיה, קרדיולוגיה, ראומטולוגיה — בנוסף לשני מקרי מלכודת ייעודיים לאבחון-יתר. כל מקרה הוא תיעוד מטופל אמיתי ומאונָמֵן, שנלקח ממאגר הנתונים הקליניים Kantesti, תחת הסכמה מדעת בכתב.

דה-איידנטיפיקציה בוצעה בגישת Safe Harbor: כל המזהים הישירים הוסרו או הוחלפו, ולכל רשומה הוקצה קוד מקרה פנימי-מדדי בפורמט BT-NNN-LABEL. העיבוד בוצע בהתאם ל- סעיף 9(2)(j) של GDPR למחקר מדעי עם אמצעי הגנה מתאימים, ובהוראות המקבילות של UK GDPR. לא מופיע מידע מזהה אישי בשום מקום במתקן שפורסם, בדוח הטכני, או במערכי הנתונים ששוּחררו.

המטולוגיה (3) BT-001, BT-006, BT-007 אנמיה מחוסר ברזל · חוסר ב-B12 · בטא-תלסמיה קלה

אנדוקרינולוגיה (3) BT-002, BT-008, BT-012 דלקת בלוטת התריס של האשימוטו · PCOS עם עמידות לאינסולין · חוסר חמור בוויטמין D

מטבולי (2) BT-003, BT-013 סוכרת סוג 2 עם תסמונת מטבולית · היפראוריצמיה עם סיכון לגאוט

הפטולוגיה (2) BT-004, BT-009 כבד שומני לא-אלכוהולי (NAFLD) / NASH · דלקת כבד נגיפית חריפה

נפרולוגיה · קרדיולוגיה · ראומטולוגיה (3) BT-005, BT-010, BT-011 מחלת כליות כרונית שלב 3 · דיסליפידמיה אטרוגנית · זאבת אדמנתית מערכתית

מקרי מלכודת (2) BT-014, BT-015 תסמונת גילברט (היפרבילירובינמיה עקיפה מבודדת) · מסך מבוגרים תקין לחלוטין

למה התפלגות מסוימת זו

המטולוגיה מקבלת שלושה מקרים משום שדיפרנציאלים מיקרוציטיים ודיפרנציאלים מקרוציטיים הם מלכודות בנפח הגבוה ביותר בפרקטיקה מעבדתית בעולם האמיתי. אנדוקרינולוגיה מקבלת שלושה משום שההצגות של האשימוטו, PCOS וחוסר ויטמין D מפעילות צורות אבחנתיות שונות (מונעות על ידי נוגדנים עצמיים, מונעות על ידי יחסי הורמונים, מונעות על ידי סמן יחיד). ההתמחויות במקרי יחיד עדיין משמעותיות משום שלכל אחד מ-CKD, סיכון ל-ASCVD ו-SLE יש מערכת ניקוד משלו שהמנוע אמור להפעיל (בהתאמה: שלבי KDIGO, סיכון 10 שנים ל-ASCVD, וקריטריוני 2019 EULAR/ACR ל-SLE).

המחוון הרשום מראש, מוסבר

רישום מראש הוא הבחירה המתודולוגית החשובה ביותר במדד ייחוס זה. כל אבחנה צפויה, כל מערכת ניקוד קלינית, וכל סעיף בדוח הוקדשו לקוד המקור לפני שהמנוע הופעל. לכן כוונון בדיעבד של הקריטריון כדי להלל את המנוע אינו אפשרי.

שלושה רכיבים מרכיבים את הציון המשוקלל. רכיב מבני תורם 35 אחוזים ומודד האם המנוע החזיר את שבעת סעיפי הדוח המחייבים (כותרת, סיכום, ממצאים מרכזיים, דיפרנציאל, מערכות ניקוד, המלצות, מעקב) ואת שש עשרה תתי-הסעיפים המחייבים בתוכם. נוכחות סעיף שוקלת 40 אחוזים ונוכחות תת-סעיף שוקלת 60 אחוזים בתוך החישוב המבני.

ה רכיב קליני תורם 55 אחוזים ומשלב שלושה דברים: שליפת מילות מפתח לאבחנה (70 אחוזים מהתת-ציון הקליני), שליפת מערכת הניקוד (20 אחוזים — האם המנוע מחשב Mentzer, FIB-4, HOMA-IR, סיכון ASCVD, שלבי KDIGO וקריטריוני EULAR/ACR היכן שרלוונטי), ובדיקת תקפות סכום הסתברויות (10 אחוזים — הסתברויות הדיפרנציאל אמורות להסתכם בטווח [90, 110]). במקרי מלכודת, מופחת קנס מפורש על היפראבחון עד 0.30, מחושב כ-0.10 לכל דגל פתולוגיה שהומצא, עם תקרה של שלושה דגלים.

ה רכיב השהיה תורם 10 אחוזים. תגובה מתחת ל-20 שניות מקבלת את מלוא 0.10, תגובה מתחת ל-40 שניות מקבלת 0.05, וכל דבר איטי יותר מקבל אפס. יעד 20 השניות משקף את יעד רמת השירות של שירות הייצור primary-path; תקרת 40 השניות משקפת את תקציב ה-fallback של שלב 2 להפעלות כבדות של המנוע.

מה רישום מראש מונע

מדדי ייחוס של הגורם הראשון ידועים בכך שהם מנפחים את המספרים שלהם באמצעות כוונון בדיעבד של הקריטריון. הדפוס כמעט תמיד זהה: הצוות מפעיל את המנוע, רואה היכן הוא מפגר, ואז מכוון בשקט את הקריטריון כך שהאזורים שבהם הוא מפגר ייחשבו פחות. על ידי התחייבות לקריטריון בקוד המקור לפני קריאת המנוע הראשונה ופרסום המבחן תחת רישיון MIT, ההתאמה הזו הופכת לגלויה בגרסאות. כל אחד יכול לשכפל את המאגר, לבדוק את תאריכי כתיבת הקריטריון, ולאמת שהתוצאות של המנוע לא שימשו כדי לעצב את הדירוג.

מקרי מלכודת לאבחון-יתר — מדוע קריאה-יתר היא מצב הכשל האמיתי

קריאה אגרסיבית מדי של פתולוגיה במסכים תקינים היא מצב כשל מתועד של עוזרים רפואיים לצרכן. העלויות במורד הזרם כוללות בירור מיותר, חרדת מטופל, והערכה/טיפול iatrogenic. שני מקרי המלכודת במדד ייחוס זה נועדו להפוך את מצב הכשל הזה לגלוי ולמדיד.

🟡 מלכודת 1 — BT-014-GILBERT

הצגה. גבר בן 24 עם בילירובין כולל של 2.4 מ״ג/ד״ל. החלק הישיר תקין, הטרנסאמינזות והפוספטזה אלקלינית נמצאות בתוך טווחי הייחוס שלהן, רטיקולוציטים אינם חריגים, ו-haptoglobin ו-LDH שוללים המוליזה.

פענוח נכון. תסמונת גילברט — פולימורפיזם שפיר של UGT1A1. הפענוח לא אמור להפעיל הפניה להפטיטיס, שחמת, אנמיה המוליטית או חסימה ביליארית.

תוצאת V11. ציון משוקלל 1.000. אף אחד מששת דגלי ה-over-diagnosis שנוטרו לא הופיע כאבחנה פעילה.

🟡 מלכודת 2 — BT-015-HEALTHY

הצגה. אישה בת 35 עם לוח סקר שגרתי של 15 פרמטרים. כל אחד מהמדדים נמצא בנוחות בתוך טווח הייחוס שלו.

פענוח נכון. הרגעה ושמירה על אורח חיים. הפענוח לא אמור להמציא פתולוגיה גבולית כדי להישמע שימושי מבחינה קלינית.

תוצאת V11. קומפוזיט 1.000. אף אחד משבעת דגלי היתר-אבחון שנוטרו — סוכרת, אנמיה, תת-תריסיות, דיסליפידמיה, הפטיטיס, מחלת כליות, חסר — לא הופיע כאבחנה פעילה.

בשני ה"טרפים" נבדקו 13 דגלי יתר-אבחון שנוטרו. אף אחד לא הופעל. זו התוצאה שהכי חשובה לכל קלינאי ששוקל להשתמש במנוע בינה מלאכותית ככלי מיון או כהכנה לפני ייעוץ: המערכת לא המציאה מחלה כשלא הייתה קיימת.

מדד מנטזר: הפרדת חוסר ברזל מתסמונת נשאות תלסמיה

ממצא בעל ערך גבוה נוסף נוגע לשילוב של מקרה BT-001 (אנמיה מחוסר ברזל) עם מקרה BT-007 (תלסמיה בטא מינור). שני המצבים מציגים מיקרוציטוזיס, וזהו מכשול מוכר לסיווגים נאיביים. מדד מנטזר, המחושב כ-MCV חלקי ספירת RBC, גבוה מ-13 במחסור ברזל ונמוך מ-13 בתכונת תלסמיה.

ב-BT-001, המטופלת הייתה אישה בת 34 עם המוגלובין 10.4 גרם/ד"ל, MCV 72.4 fL, RBC 4.1 × 10¹²/L, פריטין 6 ננוגרם/מ"ל, ו-TIBC מוגבר. מדד מנטזר של כ-17.7 תומך במחסור ברזל מוחלט. ב-BT-007, המטופל היה גבר בן 28 עם מיקרוציטוזיס (MCV 65.8 fL) אך עם ספירת RBC גבוהה של 6.2, RDW תקין, פריטין תקין, ו-HbA2 של 5.6 אחוז. מדד מנטזר של כ-10.6 מצביע על תכונת תלסמיה, ו-HbA2 המוגבר מאשר תלסמיה בטא מינור.

אנמיה מחוסר ברזל מנטזר > 13 פריטין נמוך, TSAT נמוך, TIBC גבוה, RDW מוגבר

תכונת תלסמיה בטא מנטזר < 13 פריטין תקין, RDW תקין, HbA2 מוגבר (>3.5%), ספירת RBC גבוהה

בשני המקרים הציון היה 1.000. המנוע הפעיל במפורש את מדד מנטזר בשני הפענוחים והחזיר את האבחנה הנכונה בכל מקרה. זו התוצאה היחידה ביותר שמרגיעה מבחינה קלינית בכל הבנצ'מרק, משום שסיווג שגוי של תכונת תלסמיה כשל מחסור ברזל מוביל לתוספת ברזל לא מתאימה ולפספוס הזדמנויות לסינון משפחתי, וסיווג שגוי של מחסור ברזל כתלסמיה מעכב טיפול החלפה פשוט. ה- טווח פריטין מסביר את ההקשר הרחב של הדיפרנציאל.

תוצאות לפי מקרה מהרצת אפריל 2026

12 מתוך 15 מקרים הגיעו לציון הקומפוזיט התקרתי של 1.000 במסלול הראשי. שלושה מקרים טופלו באמצעות מנגנון ה-Fallback של שלב 2, תוך איבוד בונוס השהיית-זמן של 0.05 תוך שמירה על כל התוכן הקליני והמבני. במקרה אחד חסר תת-סעיף חובה יחיד; במקרה אחד הוחזרה סכימת התפלגות הסתברות מופחתת במעט.

מזהה מקרה תחום התמחות מרוכב השהיית-זמן מסלול

BT-001-IDAהמטולוגיה1.00017.8 שניותראשי

BT-006-B12המטולוגיה1.00018.4 שנ׳ראשי

BT-007-THALהמטולוגיה1.00017.0 שנ׳ראשי

BT-002-HASHאנדוקרינולוגיה0.95037.0 שנ׳חזרה למצב ברירת מחדל

BT-008-PCOSאנדוקרינולוגיה0.98718.6 שנ׳ראשי

BT-003-T2DMמטבולי1.00019.1 שנ׳ראשי

BT-013-GOUTמטבולי1.00019.4 שנ׳ראשי

BT-004-NAFLDהפטולוגיה1.00019.6 שנ׳ראשי

BT-009-VIRHEPהפטולוגיה0.95023.4 שנ׳חזרה למצב ברירת מחדל

BT-014-GILBERTמלכודת1.00018.9 שנ׳ראשי

BT-005-CKDנפרולוגיה1.00017.4 שנ׳ראשי

BT-010-ASCVDקרדיולוגיה1.00019.7 שנ׳ראשי

BT-011-SLEראומטולוגיה0.98118.2 שנ׳ראשי

BT-012-VITDאנדוקרינולוגיה1.00019.3 שנ׳ראשי

BT-015-HEALTHYמלכודת1.00018.7 שנ׳חזרה למצב ברירת מחדל

מקרה ה-PCOS (BT-008) איבד תת-סעיף חובה יחיד במבנה התשובה — חמישה עשר מתוך שישה עשר במקום שישה עשר מתוך שישה עשר — מה שקיצץ את ציון המבנה מ-1.000 ל-0.963. מקרה ה-SLE (BT-011) החזיר סכום הסתברויות מופחת במעט שהתבטא בציון קליני של 0.965, תוך שמירה על כל מילות המפתח האבחנתיות ועל מערכת הניקוד. אף אחד משני המקרים שלא היו מושלמים לא החמיץ אבחנה נכונה.

מה ציון הכותרת לא מספר לנו

ציון מורכב של 99.12 אחוזים במסגרת הייחודית הזו שנרשמה מראש מייצג ביצועים קרובים לתקרת היכולת, אך הוא מצריך מסגור זהיר. התוצאה מתארת את התנהגות המנוע מול חמישה עשר מקרים אנונימיים שנבחרו בקפידה, שנבדקו פעם אחת כל אחד, מול מדד יחיד. אנחנו מבהירים במפורש מה המספר כן ומה המספר לא קובע.

הציון אומר שמנוע V11 טיפל נכון בדפוסי האבחון שנבחרו לצורך הערכה זו, בשיטה שמפורסמת וניתנת לשחזור. הוא לא אומר שהמנוע נכון בכל לוח בדיקות דם שקיים בעולם. הוא לא אומר שהמנוע אמור להחליף שיקול דעת קליני. וגם הוא לא אומר שהמנוע עולה על מערכות בינה מלאכותית חלופיות — ניתוחים השוואתיים מול מנועים אחרים הוצאו במכוון מתחום הדוח הזה.

מה שהציון כן קובע הוא קו בסיס. מאחר שהמדד והמסגרת זמינים לציבור, גרסאות עתידיות של המנוע יוכלו להיבדק מול אותם חמישה עשר מקרים, והפער בין הציון שפורסם לבין כל ריצה שלאחר מכן הוא עצמו מדיד. זה הערך של רישום מראש: הוא ממיר טענות ביצועים לטענות שניתן לבדוק.

איך לשחזר את אמת המידה הזו תוך 10 דקות

כדי לשחזר נדרש רק זוג אישורי API של Kantesti וסביבת Python 3.10 או גרסה מאוחרת יותר עם ה- requests ו reportlab ספריות מותקנות. המסגרת המלאה היא מודול Python יחיד ועצמאי, שיצא תחת רישיון MIT.

💻 GitHub מסגרת ברישיון MIT · תשובות גולמיות · ריצת ייחוס 🔗 DOI ב-Figshare 10.6084/m9.figshare.32095435 · רשומה אקדמית קנונית 🎓 ResearchGate פרסום 404175463 · שכבת גילוי אקדמי 📄 אקדמיה.edu מאמר 165956808 · שכבת גילוי אקדמי

ארבעה שלבים להרצה חדשה

אחד. משכו את המאגר: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. שתיים. התקינו תלויות עם pip install -r requirements.txt. שלוש. הגדירו KANTESTI_USERNAME ו KANTESTI_PASSWORD כמשתני סביבה — האישורים נקראים בזמן ריצה ולא מקודדים בקשיחות בתוך הסקריפט. ארבע. הריצו python benchmark_bloodtest.py ובחנו את ארבעת הממצאים שנפלטו לתיקיית העבודה: כרטיס ניקוד בפורמט CSV, כרטיס ניקוד בפורמט JSON, dump מלא ב-JSON כולל תגובות גולמיות של המנוע, ודוח Markdown קריא לאדם.

הרצת הייחוס מ-23 באפריל 2026 נשמרת ב- results/ בתיקיית המאגר. הרצה חדשה תפיק כרטיס ניקוד חדש עם חותמת זמן, תוך השארת הרצת הייחוס ללא שינוי. אם ההרצה שלכם מפיקה תוצאה שונה באופן מהותי, אנא פתחו Issue ב-GitHub עם חותמת הזמן של ההרצה וגרסת המנוע שהוחזרה במטא-דאטה של התשובה.

מגבלות ועבודת המשך

ארבע מגבלות ראויות להכרה מפורשת: גודל המדגם, הערכה חד-פעמית, היקף מנוע יחיד, ומקור נתונים יחיד. כל אחת מהן מטופלת בעבודת מעקב פעילה.

גודל המדגם. חמש עשרה מקרים על פני שמונה קטגוריות התמחות מספיקים להוכחת היתכנות, אך לא לניתוחי תת-קבוצות בתוך התמחות. הרחבה לחמישים מקרים מתוכננת ותכלול לוחות קרישה, סקר לממאירויות המטולוגיות, לוחות הריון, ומצגות ילדים.

הערכה חד-פעמית. כל מקרה הוערך פעם אחת. מודלים של שפה גדולה מציגים שונות פלט לא טריוויאלית גם בטמפרטורת דגימה נמוכה, לכן פרוטוקול ריבוי-הרצות עם חמש הערכות לכל מקרה ודיווח על השונות הוא הצעד הבא הטבעי.

היקף מנוע יחיד. דוח זה מתאר מנוע אחד. ניתוחים השוואתיים מול מערכות בינה מלאכותית חלופיות אינם בתחום כאן; ייתכן שנבצע אותם כמחקר נפרד ועצמאי עם מתודולוגיה מתאימה.

מקור נתונים יחיד. חמש עשרה המקרים הם רשומות אמיתיות של מטופלים שעברו אנונימיזציה, שנלקחו ממאגר קליני יחיד. הם מייצגים מדגם שעבר אצירה ואינם דגימה אקראית מייצגת אוכלוסייה. הרחבת ההערכה למספר מרכזים נמצאת בתכנון.

ההרחבה המתוכננת המשפיעה ביותר היא התאמת רב-לשוניות. מנוע ה-AI של Kantesti משרת משתמשים ב-75+ שפות, והרצת אותו תשתית של חמש עשרה מקרים בטורקית, גרמנית, ספרדית, צרפתית וערבית תכמת את איכות הפלט לאורך השפות הנתמכות של המנוע. נפרסם כל הרצה לפי שפה עם DOI משלה וענף תשתית משלה.

נסו את אותו המנוע שהשיג ציון מורכב של 99.12%

העלו את לוח בדיקות הדם שלכם לאותו endpoint ייצור שעליו בוצעה ההערכה במדד הביצועים הזה. למעלה מ-2 מיליון משתמשים ברחבי העולם משתמשים במנוע ה-AI Kantesti כדי לפרש יותר מ-15,000 סמנים ביולוגיים ב-75+ שפות.

🔬 נסה הדגמה בחינם

תוסף כרום חנות האפליקציות גוגל פליי

📚 איך לצטט את מדד הביצועים הזה

BibTeX

@techreport{klein2026kantesti,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {אימות קליני של מנוע ה-AI Kantesti (2.78T)  
                 על 15 מקרים אנונימיים של בדיקות דם: מדד ביצועים מבוסס-רובריקה שנרשם מראש  
                 כולל מקרי מלכודת של אבחון-יתר  
                 בין שבע התמחויות רפואיות},  
  institution = {Kantesti Ltd},  
  address     = {לונדון, הממלכה המאוחדת},  
  year        = {2026},  
  month       = {אפריל},  
  type        = {דוח טכני},  
  number      = {V11},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). אימות קליני של מנוע ה-AI Kantesti (2.78T) על 15 מקרים אנונימיים של בדיקות דם: מדד ביצועים מבוסס-רובריקה שנרשם מראש, כולל מקרי מלכודת של אבחון-יתר בין שבע התמחויות רפואיות (דוח טכני V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 עבודות אימות קשורות של Kantesti

קליין, ט׳. (2025). מסגרת אימות קלינית לפירוש בדיקות דם המונעות על ידי בינה מלאכותית: מתודולוגיית אימות משולש-סמיות, מדדי ביצועים ופרוטוקולי אבטחת איכות. Kantesti מחקר רפואי בינה מלאכותית.

🎓 ResearchGate

📖 הפניות חיצוניות מתודולוגיות

Mentzer, W. C. (1973). בידול בין חסר ברזל לבין תכונת תלסמיה. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). קריטריוני סיווג של האגודה האירופית נגד ראומטיזם / הקולג' האמריקאי לראומטולוגיה לשנת 2019 למחלת זאבת מערכתית אריתמטית. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: מבחן הזיות בתחום הרפואה למודלים של שפה גדולים. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%ציון מורכב

15מקרים שקיבלו ציון

7התמחויות

0תוצאות חיוביות-שגויות במלכודת

שאלות נפוצות

עד כמה מדויק מנוע הבינה המלאכותית Kantesti במקרי אמת של בדיקות דם?

על פי מחוון (rubric) שנרשם מראש, הכולל 15 מקרים אנונימיים אמיתיים של בדיקות דם של מטופלים, מתחומי רפואה שונים (שבע התמחויות רפואיות), מנוע ה-AI של Kantesti V11 השיג ציון משוקלל של 99.12 אחוזים, עם אפס היפר-אבחון של תוצאות חיוביות שגויות בשני מקרי ה”מלכודת”, וזמן תגובה ממוצע של 20.17 שניות. כרטיסיית הציון המלאה לכל מקרה מפורסמת ב-Figshare תחת DOI 10.6084/m9.figshare.32095435 וב-GitHub תחת רישיון MIT.

האם מנוע הבינה המלאכותית Kantesti אומת קלינית?

כן. המנוע אומת קלינית מול מחוון שננעל בקוד המקור לפני שהמנוע הופעל, ונבדק על 15 מקרי בדיקות דם אנונימיים בתחומי המטולוגיה, אנדוקרינולוגיה, רפואה מטבולית, הפטולוגיה, נפרולוגיה, קרדיולוגיה וריאומטולוגיה. פיקוח קליני סופק על ידי ד״ר תומאס קליין, MD (ORCID 0009-0009-1490-1321), המטולוג קליני מוסמך מטעם המועצה ומנהל הרפואה הראשי (Chief Medical Officer) ב-Kantesti AI.

מהו מקרה של מלכודת אבחון-יתר?

מקרה מלכודת להיפר-אבחון הוא תרחיש קליני שתוכנן במיוחד כדי לזהות התנהגות של אבחון-יתר במנועי AI. אמת המידה (benchmark) של Kantesti V11 משתמשת בשני מקרים כאלה. הראשון הוא היפרבילירובינמיה עקיפה מבודדת, המתאימה לתסמונת גילברט, שבה הפרשנות הנכונה היא פולימורפיזם UGT1A1 שפיר ולא הפטיטיס או המוליזה. השני הוא לוח סקר תקין לחלוטין של מבוגר, שבו הפלט הנכון הוא הרגעה ותחזוקת אורח חיים, ולא פתולוגיה גבולית “מומצאת”.

האם הערכת מנוע הבינה המלאכותית Kantesti ניתנת לשחזור?

סביבת ההערכה המלאה (evaluation harness) משוחררת תחת רישיון MIT כמודול Python יחיד, עצמאי. לצורך שכפול נדרש רק זוג אישורי API של Kantesti ו-Python 3.10 או גרסה מאוחרת יותר. הקוד, הגדרות המקרים, וכל תגובת מנוע גולמית מהרצת הייחוס של אפריל 2026 זמינים ב-github.com/emirhanai/kantesti-blood-test-benchmark ומשוכפלים ב-Figshare, ResearchGate ו-Academia.edu.

כיצד מנוע הבינה המלאכותית Kantesti מבדיל בין חוסר ברזל לבין תסמונת נשאות בטא-תלסמיה?

המנוע מיישם את מדד מנטזר (Mentzer index), המחושב כנפח גופיפי ממוצע (mean corpuscular volume) מחולק במספר תאי הדם האדומים (red blood cell count). מדד מנטזר מעל 13 תומך באנמיה מחוסר ברזל, בעוד שערך מתחת ל-13 תומך בתכונת בטא-תלסמיה. באמות המידה של V11 שני המצגים סווגו נכון, עם חישוב מפורש של מדד מנטזר, בתמיכה של פריטין, RDW והקשר של HbA2.

איפה אפשר למצוא את נתוני הבנצ'מרק הגולמיים ואת קוד המקור?

הדוח הטכני מופקד ב-Figshare תחת DOI 10.6084/m9.figshare.32095435, משוכפל בפרסום ב-ResearchGate 404175463 ובמאמר ב-Academia.edu 165956808, ו-harness של Python ברישיון MIT עם כל תוצאות הרצת הייחוס זמין ב-github.com/emirhanai/kantesti-blood-test-benchmark. רשת השכפול בארבע פלטפורמות מבטיחה זמינות ארוכת טווח וגמישות בציטוטים.

מדוע חשוב רישום מראש (pre-registration) עבור אמת מידה רפואית של AI?

רישום מראש מונע כוונון מחוון בדיעבד (post-hoc rubric tuning), שהיא הדרך הנפוצה ביותר שבה אמת מידה שמנוהלת על ידי חברה מנפחת את המספרים שלה. על ידי התחייבות למחוון בקוד המקור לפני כל קריאת מנוע (engine call) ופרסום ה-harness באופן פומבי, תאריכי מחבר המחוון הופכים לאפשריים לבדיקה בגרסאות (version control), ותוצאות המנוע לא יכלו לעצב את קריטריוני ההערכה.

האם אמת מידה זו כוללת השוואות למנועי AI אחרים?

לא. דוח V11 מתאר במכוון מנוע יחיד מול מחוון קבוע, במקום למקם אותו מול מערכות מסחריות חלופיות. ה-harness הוא קוד פתוח תחת רישיון MIT, כך שחוקרים בלתי תלויים יכולים להעריך כל מנוע שיבחרו מול אותם חמישה-עשר מקרים ואותו מחוון, ולפרסם את תוצאותיהם.

האם מקרי המטופלים אמיתיים או סינתטיים?

חמשה-עשר המקרים הם רשומות אמיתיות של מטופלים, אנונימיות, שנלקחו ממאגר הנתונים הקליני של Kantesti בהסכמה מדעת בכתב. דה-איידנטיפיקציה בוצעה בגישת Safe Harbor, כאשר כל מזהה ישיר הוסר או הוחלף. העיבוד בוצע בהתאם לסעיף 9(2)(j) של GDPR ולהוראות המקבילות של UK GDPR. לא מופיע מידע מזהה אישי ב-harness שפורסם, בדוח הטכני או במערכי הנתונים ששוחררו.

⚕️ כתב ויתור רפואי והצהרת ניגוד עניינים

דוח אמת מידה זה מיועד למטרות מחקר ושקיפות מתודולוגית. הוא אינו מהווה ייעוץ רפואי. יש להתייעץ תמיד עם ספק שירותי בריאות מוסמך לצורך החלטות אבחון וטיפול. שני המחברים מועסקים על ידי ומחזיקים בהון ב-Kantesti Ltd, והמנוע שעובר הערכה הוא מוצר מסחרי של אותה ארגון. ניגוד עניינים זה מצומצם באמצעות רישום מראש של המחוון בקוד המקור, שחרור ה-harness תחת רישיון MIT, ופרסום כל תגובת מנוע גולמית.

אותות אמון E-E-A-T

⭐

הִתנַסוּת

15+ שנים של ניסיון קליני בהמטולוגיה וברפואה מעבדתית, בהשגחה על בחירת לוח המקרים.

📋

מוּמחִיוּת

עיצוב מחוון שנרשם מראש עם עונשים מפורשים להיפר-אבחון ומערכות ניקוד קליניות מוכרות (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

סמכותיות

מחבר ראשי ד״ר תומאס קליין, MD (ORCID 0009-0009-1490-1321). יישום על ידי ג׳וליאן אמירחאן בולוט, מנכ״ל Kantesti Ltd.

🛡️

אֲמִינוּת

harness ניתן לשחזור ברישיון MIT, תגובות מנוע גולמיות שפורסמו, גילוי ניגוד עניינים פתוח, רשת מראה מחקרית בארבע פלטפורמות.

🏢 קנטסטי בע"מ רשומה באנגליה ובוויילס · מספר חברה. 17090423 לונדון, בריטניה · kantesti.net