Γιατί υπάρχει αυτό το σημείο αναφοράς και τι ελέγχει
Η ανάλυση αίματος με AI χρησιμοποιείται όλο και περισσότερο σε καταναλωτικές και κλινικές ροές εργασίας, ωστόσο τα αναπαραγώγιμα πλαίσια αξιολόγησης που είναι προσαρμοσμένα στη εργαστηριακή ιατρική παραμένουν σπάνια. Οι ερωτήσεις που έχουν τη μεγαλύτερη σημασία σε αυτό το πλαίσιο δεν είναι αυτές που καλύπτονται από γενικά benchmarks ιατρικής ερωταπαντήσεων: μπορεί μια μηχανή να διαχωρίσει τη σιδηροπενία από το χαρακτηριστικό της θαλασσαιμίας όταν ο μέσος όγκος ερυθρών αιμοσφαιρίων είναι ταυτόσημος, υπερδιαγιγνώσκει το σύνδρομο Gilbert ως ηπατίτιδα, και δημιουργεί παθολογία σε έναν πλήρως φυσιολογικό πίνακα ελέγχου;
Μια μεμονωμένη εξέταση αίματος συνήθως περιέχει αρκετό σήμα για να υποστηρίξει αρκετές ανταγωνιστικές ερμηνείες, και το έργο του κλινικού που ερμηνεύει είναι να σταθμίσει αυτές τις ερμηνείες μεταξύ τους, αντί να αναζητήσει μια απάντηση τύπου σχολικού βιβλίου. Μια μηχανή που τα πάει καλά σε περιπτώσεις τύπου σχολικού βιβλίου μπορεί να αποτύχει στις περιπτώσεις που έχουν τη μεγαλύτερη σημασία: στις παγίδες της διαφορικής διάγνωσης, στις καλοήθεις παραλλαγές που φαίνονται ανησυχητικές όταν εξετάζονται μεμονωμένα, και στις πλήρως φυσιολογικές εξετάσεις που παρασύρουν τους σίγουρους βοηθούς να «κατασκευάσουν» παθολογία.
Αυτό το benchmark χτίστηκε ακριβώς γύρω από αυτές τις λειτουργίες αποτυχίας. Κάθε μία από τις δεκαπέντε περιπτώσεις επιλέχθηκε για μια συγκεκριμένη διαγνωστική ιδιότητα: μια μικροκυττάρωση λόγω έλλειψης σιδήρου που πρέπει να διατηρείται διακριτή από ένα χαρακτηριστικό β-θαλασσαιμίας με πανομοιότυπο μέσο όγκο ερυθρών αιμοσφαιρίων, μια παρουσίαση συνδρόμου Gilbert όπου η μόνη ανωμαλία είναι μια απομονωμένη έμμεση υπερβιλιρυθριναιμία, και ένα πάνελ προσυμπτωματικού ελέγχου δεκαπέντε παραμέτρων στο οποίο κάθε αναλυτής βρίσκεται εντός των τιμών αναφοράς του. Η αξιολόγηση επιβραβεύει τις μηχανές που διαβάζουν κάθε περίπτωση με τους δικούς της όρους και τιμωρεί τις μηχανές που καταλήγουν σε μια σίγουρη διάγνωση όταν δεν δικαιολογείται κάτι τέτοιο.
Ως Thomas Klein, MD, επέλεξα το πάνελ περιπτώσεων επειδή αυτά είναι τα μοτίβα που βλέπω ότι οι βοηθοί εργαστηριακής ιατρικής κάνουν λάθος πιο συχνά. Η δαπανηρή μορφή αποτυχίας δεν είναι "η παράλειψη μιας σπάνιας νόσου" — είναι η κατασκευή συνήθους παθολογίας σε ασθενείς που δεν τη διαθέτουν. Μας Ιατρική Επικύρωση το hub περιγράφει το ευρύτερο πλαίσιο· αυτή η σελίδα περιγράφει την αρχική απόδειξη-εννοίας του V11 και τη V11 Δεύτερη Ενημέρωση που την κλιμάκωσε σε 100.000 συνθετικά περιστατικά που αντλήθηκαν από ένα σύνολο συνθετικών περιστατικών που καλύπτει 127 ετικέτες χωρών — χρησιμοποιώντας το ίδιο πλαίσιο βαθμολόγησης, byte-identical, χωρίς επιτρεπόμενη μεταγενέστερη προσαρμογή (post-hoc tuning).
Τελευταία εκτέλεση αναφοράς — V11 Second Update (26 Απριλίου 2026)
Η εκτέλεση αναφοράς της V11 Second Update της 26ης Απριλίου 2026 παρήγαγε σύνθετη βαθμολογία 99.80% στην ίδια προ-καταχωρισμένη ρουμπρίκα που χρησιμοποιήθηκε στην αρχική κυκλοφορία της V11, αξιολογημένη σε 100.000 συνθετικά περιστατικά που αντλήθηκαν από το συνθετικό σύνολο περιστατικών Kantesti και καλύπτουν 127 ετικέτες χωρών και τις γλώσσες 75+. Κάθε περιστατικό ολοκληρώθηκε στην κύρια διαδρομή του κινητήρα· οι ενεργοποιήσεις της σημαίας υπερ-διάγνωσης σε περιστατικά-παγίδες παρέμειναν στο 0 / 87,412. Η αρχική εκτέλεση της V11 στις 23 Απριλίου 2026 κάλυψε 15 χειροκίνητα επιλεγμένα περιστατικά (σύνθετη 99.12%) και επικύρωσε τη ρουμπρίκα· η Second Update διατηρεί αυτή τη ρουμπρίκα ταυτοσήμαντη σε επίπεδο byte και επεκτείνει την αξιολόγηση σε πληθυσμιακή κλίμακα.
Ο σύνθετος τύπος συνδυάζει τρία στοιχεία: δομική συμμόρφωση με τις επτά υποχρεωτικές ενότητες αναφοράς και τις δεκαέξι υποχρεωτικές υποενότητες, ακρίβεια περιεχομένου μετρούμενη ως ανάκληση λέξεων-κλειδιών συν ανάκληση του συστήματος βαθμολόγησης συν έναν έλεγχο εγκυρότητας της κατανομής πιθανοτήτων, και καθυστέρηση απόκρισης έναντι του στόχου επιπέδου υπηρεσίας της κύριας διαδρομής. Η ακριβής ανάλυση εμφανίζεται στον τύπο της ρουμπρίκας παρακάτω — κανένα από αυτά τα βάρη ή υπο-ρουμπρίκες δεν τροποποιήθηκε για τη Second Update.
Τα υπόλοιπα 0,20 ποσοστιαίες μονάδες περιθωρίου αποσυντίθενται σχεδόν εξ ολοκλήρου στη κλινική υπο-βαθμολογία — ένα μικρό ποσοστό περιστατικών (κυρίως σε Ηπατολογία και Ρευματολογία) είχε μία αναμενόμενη λέξη-κλειδί του συστήματος βαθμολόγησης που απουσίαζε από την ερμηνεία του κινητήρα, παρότι το διαγνωστικό περιεχόμενο ήταν σωστό. Κανένα περιστατικό στην ομάδα 100.000 περιστατικών της Second Update δεν έχασε την ίδια τη διάγνωση. Η καθυστέρηση βελτιώθηκε από έναν μέσο όρο 20,17 s στην αρχική κυκλοφορία της V11 σε 13,26 s στη Second Update, αντανακλώντας βελτιστοποιήσεις του κινητήρα παραγωγής μεταξύ των δύο εκτελέσεων· η ρουμπρίκα, ο κώδικας βαθμολόγησης και το τελικό σημείο API παραμένουν αμετάβλητα.
Οι ανά-ετικέτα σύνθετες βαθμολογίες κυμάνθηκαν από 0,9971 έως 0,9985 στις 30 πιο αντιπροσωπευμένες ετικέτες χωρών. Η «μακριά ουρά» των 97 επιπλέον ετικετών (≈7.300 περιστατικά συνολικά) δεν έδειξε συστηματική υποβάθμιση. Οι πιο συχνές ετικέτες ανά πλήθος περιστατικών ήταν οι Ηνωμένες Πολιτείες (10.500), η Βραζιλία (9.500), η Ισπανία (9.000), η Ιταλία (8.000), η Γερμανία (7.800), η Γαλλία (7.400), η Πορτογαλία (5.800), η Türkiye (3.400), το Ηνωμένο Βασίλειο (2.900) και το Μεξικό (2.500).
Από 15 περιστατικά έως 100.000: εξέλιξη της συλλογής σε 127 ετικέτες χωρών
Ο αρχικός πίνακας περιστατικών του V11 κάλυπτε επτά ειδικότητες — αιματολογία, ενδοκρινολογία, μεταβολική ιατρική, ηπατολογία, νεφρολογία, καρδιολογία, ρευματολογία — καθώς και δύο ειδικά περιστατικά-παγίδες υπερ-διάγνωσης, με κάθε περιστατικό να είναι ένας συνθετικά παραγόμενος πίνακας αιματολογικών εξετάσεων. Η V11 Δεύτερη Ενημέρωση επεκτείνει την αξιολόγηση σε 100.000 συνθετικά περιστατικά σε 127 ετικέτες χωρών, κατανεμημένα σε οκτώ ειδικότητες (οι αρχικές επτά συν ένας ειδικός «κουβάς» εσωτερικής παθολογίας που απορροφά το υποσύνολο των παγίδων). Η ίδια ρουμπρίκα βαθμολόγησης εφαρμόζεται ταυτοσήμαντα σε επίπεδο byte και στις δύο εκτελέσεις.
Επειδή όλα τα περιστατικά παράγονται συνθετικά, δεν υπάρχουν πραγματικοί αναγνωριστικοί προς αφαίρεση και δεν εμπλέκονται προσωπικά δεδομένα. Κάθε συνθετικό περιστατικό φέρει έναν κωδικό περιστατικού εσωτερικό της δοκιμής αναφοράς (BT-NNN-LABEL στο αρχικό σύνολο του V11, ένα σταθερό case_uid στη Δεύτερη Ενημέρωση). Δεν εμφανίζονται προσωπικά δεδομένα πουθενά στο δημοσιευμένο εργαλείο αξιολόγησης, στην τεχνική αναφορά ή στα δημοσιευμένα σύνολα δεδομένων.
αρχική κυκλοφορία V11 — 15 χειροκίνητα επιλεγμένα περιστατικά
Η αρχική ενότητα περιπτώσεων V11 επιμελήθηκε χειροκίνητα ο Δρ. Thomas Klein, ώστε να καλύπτει τα διαγνωστικά πρότυπα που οι βοηθοί εργαστηριακής ιατρικής συχνά ερμηνεύουν λανθασμένα. Κάθε μία από τις δεκαπέντε περιπτώσεις επιλέχθηκε για μια συγκεκριμένη διαγνωστική ιδιότητα, όπως παρατίθεται παρακάτω.
Γιατί αυτή η συγκεκριμένη κατανομή
Η Αιματολογία παίρνει τρεις περιπτώσεις επειδή οι μικροκυτταρικές διαφορικές και οι μακροκυτταρικές διαφορικές είναι οι παγίδες υψηλού όγκου στην πραγματική εργαστηριακή πρακτική. Η Ενδοκρινολογία παίρνει τρεις επειδή οι εκδηλώσεις της θυρεοειδίτιδας Hashimoto, του PCOS και της έλλειψης βιταμίνης D ασκούν διαφορετικά διαγνωστικά «σχήματα» (οδηγούμενα από αυτοαντισώματα, οδηγούμενα από λόγους ορμονών, οδηγούμενα από έναν μόνο δείκτη). Οι ειδικότητες μίας μόνο περίπτωσης παραμένουν ουσιαστικές, επειδή το καθένα από τα CKD, τον κίνδυνο ASCVD και το SLE έχει το δικό του σύστημα βαθμολόγησης που πρέπει να επικαλεστεί η μηχανή (στάδιο KDIGO, 10ετής κίνδυνος ASCVD, και κριτήρια 2019 EULAR/ACR για SLE αντίστοιχα).
V11 Δεύτερη Ενημέρωση — 100.000 συνθετικά περιστατικά σε 127 ετικέτες χωρών
Η Δεύτερη Ενημέρωση αντικαθιστά το αρχικό V11 hard-coded 15-περιστατικών Python literal με ένα μεγαλύτερο, προγραμματικά παραγόμενο σύνολο συνθετικών περιστατικών. Το σύνολο περιστατικών φορτώνεται στην αρχή κάθε εκτέλεσης και η διαμόρφωση καταγράφεται για διαφάνεια. Η κατανομή της συλλογής ανά θεματική ενότητα παρουσιάζεται παρακάτω.
Κατανομή συνθετικών ετικετών χωρών — κορυφαίες 10 ετικέτες
Οι 100.000 συνθετικές περιπτώσεις φέρουν 127 ετικέτες χωρών (ISO 3166-1 alpha-2) για να δοκιμαστεί ο χειρισμός locale. Ανάθεση ετικέτας: Ευρώπη 57,7%, οι Αμερικές 25,4%, Ασία-Ειρηνικός 6,2%, ονομασμένες ετικέτες Μέση Ανατολή/Αφρική 3,4% και μια «μακριά ουρά» 97 επιπλέον ετικετών περίπου 7,3% συνολικά. Οι δέκα πιο συχνές ετικέτες ανά πλήθος περιστατικών είναι οι Ηνωμένες Πολιτείες (10.500), η Βραζιλία (9.500), η Ισπανία (9.000), η Ιταλία (8.000), η Γερμανία (7.800), η Γαλλία (7.400), η Πορτογαλία (5.800), η Türkiye (3.400), το Ηνωμένο Βασίλειο (2.900) και το Μεξικό (2.500). Οι ανά-ετικέτα σύνθετες βαθμολογίες κυμάνθηκαν από 0,9971 έως 0,9985. Αυτά τα πλήθη ετικετών είναι ιδιότητες των παραγόμενων περιπτώσεων που χρησιμοποιούνται για να δοκιμαστεί ο χειρισμός locale — δεν είναι πραγματικοί χρήστες και δεν αντιπροσωπεύουν πραγματική γεωγραφική κάλυψη.
Η προεγγεγραμμένη βαθμολογική κλίμακα, εξηγημένη
Η προ-εγγραφή είναι η πιο σημαντική μεθοδολογική επιλογή σε αυτό το benchmark. Κάθε αναμενόμενη διάγνωση, κάθε κλινικό σύστημα βαθμολόγησης και κάθε ενότητα κάθε αναφοράς δεσμεύτηκαν σε κώδικα πηγής πριν κληθεί η μηχανή. Η εκ των υστέρων (post-hoc) προσαρμογή του rubric για να κολακεύει τη μηχανή είναι επομένως αδύνατη.
Τρία στοιχεία συνθέτουν τη σύνθετη βαθμολογία. Το δομικό στοιχείο συνεισφέρει 35 τοις εκατό και μετρά αν η μηχανή επέστρεψε τις επτά υποχρεωτικές ενότητες της αναφοράς (κεφαλίδα, σύνοψη, βασικά ευρήματα, διαφορική, συστήματα βαθμολόγησης, συστάσεις, παρακολούθηση) και τις δεκαέξι υποχρεωτικές υποενότητες μέσα σε αυτές. Η παρουσία ενότητας ζυγίζει 40 τοις εκατό και η παρουσία υποενότητας ζυγίζει 60 τοις εκατό μέσα στον δομικό υπολογισμό.
Ο το κλινικό στοιχείο συνεισφέρει 55 τοις εκατό και συνδυάζει τρία πράγματα: ανάκληση διάγνωσης-λέξης-κλειδιού (70 τοις εκατό του κλινικού υπο-σκορ), ανάκληση συστήματος βαθμολόγησης (20 τοις εκατό — η μηχανή υπολογίζει Mentzer, FIB-4, HOMA-IR, κίνδυνο ASCVD, στάδιο KDIGO, κριτήρια EULAR/ACR όπου είναι σχετικό), και έναν έλεγχο εγκυρότητας αθροίσματος πιθανοτήτων (10 τοις εκατό — οι πιθανότητες της διαφορικής πρέπει να αθροίζουν εντός του διαστήματος [90, 110]). Για περιπτώσεις παγίδας, αφαιρείται μια ρητή ποινή υπερ-διάγνωσης έως 0.30, υπολογισμένη ως 0.10 ανά κατασκευασμένη σημαία παθολογίας, με ανώτατο όριο τρεις σημαίες.
Ο το στοιχείο λανθάνουσας απόκρισης (latency) συνεισφέρει 10 τοις εκατό. Μια απόκριση κάτω από 20 δευτερόλεπτα κερδίζει το πλήρες 0.10, μια απόκριση κάτω από 40 δευτερόλεπτα κερδίζει 0.05, και οτιδήποτε πιο αργό κερδίζει μηδέν. Ο στόχος των 20 δευτερολέπτων αντανακλά τον πρωτεύοντα στόχο υπηρεσίας παραγωγής για primary-path· το ανώτατο όριο των 40 δευτερολέπτων αντανακλά τον προϋπολογισμό εναλλακτικής λύσης (fallback) για βαριές κλήσεις της μηχανής στη Φάση 2.
Τι αποτρέπει η προ-εγγραφή
Τα benchmarks πρώτου φορέα είναι διαβόητα για τον διογκωμένο αριθμό τους μέσω εκ των υστέρων (post-hoc) προσαρμογής του rubric. Το μοτίβο είναι σχεδόν πάντα το ίδιο: η ομάδα τρέχει τη μηχανή, βλέπει πού υποαποδίδει, και μετά προσαρμόζει αθόρυβα το rubric ώστε οι περιοχές που υποαποδίδουν να μετρούν λιγότερο. Με το να δεσμεύσεις το rubric σε κώδικα πηγής πριν από την πρώτη κλήση της μηχανής και να δημοσιεύσεις το harness με άδεια MIT, αυτή η προσαρμογή γίνεται ορατή στον έλεγχο εκδόσεων. Ο καθένας μπορεί να κάνει clone το αποθετήριο, να ελέγξει τις ημερομηνίες συγγραφής του rubric και να επαληθεύσει ότι τα αποτελέσματα της μηχανής δεν χρησιμοποιήθηκαν για να διαμορφώσουν τη βαθμολόγηση.
Περιπτώσεις παγίδας υπερδιάγνωσης — γιατί η υπερβολική κλήση είναι η πραγματική λειτουργική αποτυχία
Η επιθετική υπερ-ονομασία παθολογίας σε φυσιολογικές οθόνες είναι ένα τεκμηριωμένο μοτίβο αποτυχίας ιατρικών βοηθών που απευθύνονται σε καταναλωτές. Το κόστος της στην πορεία περιλαμβάνει περιττές διερευνήσεις, άγχος ασθενούς και ιατρογενή διερεύνηση. Οι δύο περιπτώσεις παγίδας σε αυτό το benchmark έχουν σχεδιαστεί για να κάνουν αυτό το μοτίβο ορατό και βαθμολογήσιμο.
🟡 Παγίδα 1 — BT-014-GILBERT
Παρουσίαση. Ένας 24χρονος άνδρας με ολική χολερυθρίνη 2.4 mg/dL. Το άμεσο κλάσμα είναι φυσιολογικό, οι τρανσαμινάσες και η αλκαλική φωσφατάση βρίσκονται εντός των αντίστοιχων τιμών αναφοράς, οι δικτυοερυθροκύτταροι δεν παρουσιάζουν κάτι αξιοσημείωτο και η απτοσφαιρίνη και η LDH αποκλείουν την αιμόλυση.
Σωστή ερμηνεία. Σύνδρομο Gilbert — μια καλοήθης πολυμορφία UGT1A1. Η ερμηνεία δεν πρέπει να επικαλείται ηπατίτιδα, κίρρωση, αιμολυτική αναιμία ή απόφραξη των χοληφόρων.
Αποτέλεσμα V11. Σύνθετο 1.000. Καμία από τις έξι παρακολουθούμενες σημαίες υπερ-διάγνωσης δεν εμφανίστηκε ως ενεργή διάγνωση.
🟡 Παγίδα 2 — BT-015-HEALTHY
Παρουσίαση. Μια 35χρονη γυναίκα με μια ρουτίνα πάνελ προσυμπτωματικού ελέγχου δεκαπέντε παραμέτρων. Κάθε αναλυτής βρίσκεται άνετα εντός του αντίστοιχου εύρους αναφοράς.
Σωστή ερμηνεία. Διαβεβαίωση και διατήρηση τρόπου ζωής. Η ερμηνεία δεν πρέπει να κατασκευάζει οριακή παθολογία για να φαίνεται κλινικά χρήσιμη.
Αποτέλεσμα V11. Σύνθετο 1.000. Κανένας από τους επτά δείκτες υπερδιάγνωσης που παρακολουθήθηκαν — διαβήτης, αναιμία, υποθυρεοειδισμός, δυσλιπιδαιμία, ηπατίτιδα, νεφρική νόσος, έλλειψη — δεν εμφανίστηκε ως ενεργή διάγνωση.
Και στις δύο παγίδες ελέγχθηκαν δεκατρείς δείκτες υπερδιάγνωσης που παρακολουθήθηκαν. Κανένας δεν ενεργοποιήθηκε. Αυτό είναι το αποτέλεσμα που έχει τη μεγαλύτερη σημασία για κάθε κλινικό που σκέφτεται να χρησιμοποιήσει μια μηχανή AI ως εργαλείο διαλογής ή προ-διαβούλευσης: το σύστημα δεν επινόησε νόσο εκεί όπου δεν υπήρχε.
Δείκτης Mentzer: διαχωρισμός της ανεπάρκειας σιδήρου από το χαρακτηριστικό της θαλασσαιμίας
Ένα δεύτερο εύρημα υψηλής αξίας αφορά τη σύζευξη της περίπτωσης BT-001 (σιδηροπενική αναιμία) με την περίπτωση BT-007 (β-μεσογειακή αναιμία, ελάσσων). Και οι δύο παρουσιάζουν μικροκυττάρωση και αποτελούν ένα καλά γνωστό σκόπελο για αφελείς ταξινομητές. Ο δείκτης Mentzer, που υπολογίζεται ως MCV διαιρούμενο με τον αριθμό RBC, υπερβαίνει το 13 στη σιδηροπενία και πέφτει κάτω από το 13 στη μεσογειακή ιδιότητα.
Στο BT-001, η ασθενής ήταν γυναίκα 34 ετών με αιμοσφαιρίνη 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, φερριτίνη 6 ng/mL και αυξημένο TIBC. Ο δείκτης Mentzer περίπου 17,7 υποστηρίζει απόλυτη σιδηροπενία. Στο BT-007, ο ασθενής ήταν άνδρας 28 ετών με μικροκυττάρωση (MCV 65,8 fL) αλλά υψηλό αριθμό RBC 6,2, φυσιολογικό RDW, φυσιολογική φερριτίνη και HbA2 5,6 τοις εκατό. Ο δείκτης Mentzer περίπου 10,6 δείχνει μεσογειακή ιδιότητα και η αυξημένη HbA2 επιβεβαιώνει β-μεσογειακή αναιμία, ελάσσων.
Και οι δύο περιπτώσεις σημείωσαν 1.000. Η μηχανή χρησιμοποίησε ρητά τον δείκτη Mentzer και στις δύο ερμηνείες και επέστρεψε τη σωστή διάγνωση σε κάθε περίπτωση. Αυτό είναι το μοναδικό αποτέλεσμα με τη μεγαλύτερη κλινική καθησυχαστικότητα σε ολόκληρο το benchmark, επειδή η λανθασμένη ταξινόμηση της μεσογειακής αναιμίας, ελάσσων, ως σιδηροπενίας οδηγεί σε ακατάλληλη χορήγηση σιδήρου και σε χαμένες ευκαιρίες οικογενειακού ελέγχου, ενώ η λανθασμένη ταξινόμηση της σιδηροπενίας ως μεσογειακής αναιμίας καθυστερεί την απλή θεραπευτική αντικατάσταση. Το δικό μας οδηγός για το εύρος φερριτίνης εξηγεί το ευρύτερο διαφορικό πλαίσιο.
Αποτελέσματα ανά περίπτωση από την αρχική αναφορά V11 (23 Απριλίου 2026)
Η αρχική αναφορά V11 στην κοόρτη απόδειξης-εννοίας 15 περιπτώσεων χρησιμεύει ως η μεθοδολογική βάση της Second Update: κάθε λεπτομέρεια ανά περίπτωση παρακάτω δείχνει πώς το κριτήριο χειρίζεται μια πραγματική απόκριση μηχανής. Δώδεκα από τις δεκαπέντε περιπτώσεις πέτυχαν το ανώτατο σύνθετο σκορ 1.000 στην κύρια διαδρομή· τρεις περιπτώσεις εξυπηρετήθηκαν μέσω του εναλλακτικού μηχανισμού Phase 2, χάνοντας το μπόνους καθυστέρησης 0.05 ενώ διατηρώντας όλο το κλινικό και δομικό περιεχόμενο. Μία περίπτωση έλειπε από μία μόνο υποχρεωτική υποενότητα· μία επέστρεψε ένα οριακά μειωμένο άθροισμα της κατανομής πιθανοτήτων.
Η περίπτωση PCOS (BT-008) έχασε μία μόνο υποχρεωτική υποενότητα στη δομή της απόκρισης — δεκαπέντε από δεκαέξι αντί για δεκαέξι από δεκαέξι — γεγονός που μείωσε τη δομική βαθμολογία από 1,000 σε 0,963. Η περίπτωση SLE (BT-011) επέστρεψε ένα οριακά μειωμένο άθροισμα πιθανοκατανομών που μείωσε τη κλινική βαθμολογία σε 0,965, ενώ διατήρησε κάθε διαγνωστική λέξη-κλειδί και το σύστημα βαθμολόγησης. Καμία από τις δύο περιπτώσεις που δεν ήταν τέλειες δεν έχασε μια σωστή διάγνωση.
Συγκεντρωτικό σκορ V11 Second Update — 100.000 περιπτώσεις
Σε κλίμακα πληθυσμού, οι μεμονωμένες γραμμές περιστατικών δεν είναι αναγνώσιμες από άνθρωπο, οπότε η Δεύτερη Ενημέρωση αναφέρει συγκεντρωτικούς δείκτες αντί για έναν πίνακα 100.000 γραμμών. Η βασική συγκεντρωτική τιμή εμφανίζεται παρακάτω· οι αναλύσεις ανά ειδικότητα και ανά ετικέτα χώρας δημοσιεύονται στην τεχνική αναφορά και στην κατάθεση Figshare. Ένα στρωματοποιημένο τυχαίο δείγμα των n = 201 ακατέργαστων αποκρίσεων της μηχανής (ντετερμινιστικός σπόρος 20260426) δημοσιεύεται στον κατάλογο GitHub results/ για επιθεώρηση.
Τι δεν μας λέει η βαθμολογία τίτλου
Μια σύνθετη βαθμολογία 99,80 τοις εκατό στο συγκεκριμένο προ-καταχωρισμένο πλαίσιο αξιολόγησης, σε μια συνθετική συλλογή 100.000 περιστατικών που καλύπτει 127 ετικέτες χωρών, αντιπροσωπεύει απόδοση σχεδόν στο ανώτατο όριο — αλλά αξίζει προσεκτική πλαισίωση. Το αποτέλεσμα περιγράφει τη συμπεριφορά του κινητήρα έναντι του πλαισίου αξιολόγησης στο οποίο δεσμευτήκαμε στον πηγαίο κώδικα στο V11· δεν αποτελεί καθολική αξίωση για την ορθότητά του σε κάθε πίνακα αιματολογικών εξετάσεων που υπάρχει στον πραγματικό κόσμο.
Η βαθμολογία λέει ότι η μηχανή χειρίστηκε σωστά τα διαγνωστικά μοτίβα που επιλέχθηκαν για αυτήν την αξιολόγηση σε μια κοόρτη κλίμακας πληθυσμού, με μια μεθοδολογία που δημοσιεύεται και είναι αναπαραγώγιμη. Δεν λέει ότι η μηχανή είναι σωστή σε κάθε πίνακα εξετάσεων αίματος που υπάρχει στην πράξη. Δεν λέει ότι η μηχανή πρέπει να αντικαταστήσει την κλινική κρίση. Και δεν λέει ότι η μηχανή υπερέχει έναντι εναλλακτικών συστημάτων AI — συγκριτικές αναλύσεις με άλλες μηχανές ήταν σκόπιμα εκτός πεδίου για αυτήν την αναφορά.
Αυτό που αποδεικνύει η βαθμολογία είναι μια βασική γραμμή. Με τη μεθοδολογία και το εργαλείο δοκιμών να είναι δημόσια, οι μελλοντικές εκδόσεις της μηχανής μπορούν να αξιολογηθούν έναντι της ίδιας μεθοδολογίας — εφαρμοσμένη στις αρχικές 15 περιπτώσεις της V11, στην κοόρτη 100.000 περιπτώσεων της Δεύτερης Ενημέρωσης ή σε οποιαδήποτε επακόλουθη επέκταση — και το χάσμα μεταξύ της δημοσιευμένης βαθμολογίας και οποιασδήποτε μεταγενέστερης εκτέλεσης είναι από μόνο του μετρήσιμο. Αυτή είναι η αξία της προεγγραφής: μετατρέπει τους ισχυρισμούς απόδοσης σε ελέγξιμους ισχυρισμούς.
Πώς να αναπαράγετε αυτό το benchmark σε 10 λεπτά
Η αναπαραγωγή απαιτεί μόνο ένα ζεύγος διαπιστευτηρίων API Kantesti και ένα περιβάλλον Python 3.10 ή νεότερο με το requests και reportlab εγκατεστημένες βιβλιοθήκες. Το πλήρες εργαλείο δοκιμής είναι ένα ενιαίο, αυτόνομο Python module που κυκλοφορεί με άδεια MIT.
Τέσσερα βήματα για μια νέα εκτέλεση
Ένα. Κλωνοποιήστε το αποθετήριο: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Δύο. Εγκαταστήστε τις εξαρτήσεις με pip install -r requirements.txt (Η Δεύτερη Ενημέρωση προσθέτει mysql-connector-python ≥ 8.0 για τον SQL case loader). Τρία. Ορίστε KANTESTI_USERNAME και KANTESTI_PASSWORD ως μεταβλητές περιβάλλοντος για το API της μηχανής. Για τον SQL case loader της Δεύτερης Ενημέρωσης, ορίστε επίσης KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, και KANTESTI_DB_PASSWORD — ο φορτωτής συνδέεται μέσω ενός ρόλου μόνο για ανάγνωση (bench_reader) που δεν έχει δικαιώματα για τον εντοπισμό πινάκων. Τέσσερα. Εκτελέστε python benchmark_bloodtest.py --limit 100000 για την πλήρη εκτέλεση Second-Update, ή python benchmark_bloodtest.py --limit 1000 για γρήγορη επανάληψη. Τα αποτελέσματα εξάγονται στο ./benchmark_results/: ένα CSV scorecard με στήλες ανά ετικέτα χώρας και ανά ειδικότητα, ένα JSON συγκεντρωτικό, ένα στρωματοποιημένο-τυχαίο δείγμα ακατέργαστων αποκρίσεων και μια αναφορά σε Markdown.
Οι αναφορικές εκτελέσεις από 23 Απριλίου 2026 (V11 αρχική, 15 περιπτώσεις) και 26 Απριλίου 2026 (V11 Second Update, 100,000 περιπτώσεις) διατηρούνται στον results/ κατάλογο του αποθετηρίου. Μια νέα εκτέλεση θα δημιουργήσει ένα νέο scorecard με χρονική σήμανση, αφήνοντας τις αναφορικές εκτελέσεις ανέγγιχτες. Αν η εκτέλεσή σας παράγει ουσιωδώς διαφορετικό αποτέλεσμα, παρακαλούμε ανοίξτε ένα GitHub issue με τη χρονική σήμανση της εκτέλεσης και την έκδοση του engine που επιστρέφεται στα μεταδεδομένα απόκρισης.
Περιορισμοί και μελλοντική εργασία
Ακόμη και σε 100.000 περιπτώσεις με 127 ετικέτες χωρών, τέσσερις περιορισμοί αξίζουν ρητή αναγνώριση: υποδειγματοληψία της «μακριάς ουράς» ετικετών, αξιολόγηση μίας λήψης, περιορισμένο πεδίο σε έναν μόνο κινητήρα και προέλευση δεδομένων από μία μόνο πηγή. Αντιμετωπίζονται σε ενεργή εργασία παρακολούθησης.
Κάλυψη ετικετών «μακριάς ουράς». Η Δεύτερη Ενημέρωση καλύπτει 127 ετικέτες χωρών, αλλά η κατανομή είναι μη ισορροπημένη — οι κορυφαίες 10 ετικέτες αντιστοιχούν σε ≈66,4% των περιπτώσεων, και η «μακριά ουρά» των 97 επιπλέον ετικετών συνεισφέρει ≈7,3% (περίπου 7.300 περιπτώσεις συνολικά, ~75 περιπτώσεις ανά ετικέτα κατά μέσο όρο). Επομένως, τα ανά-ετικέτα composites σε αυτή τη «μακριά ουρά» είναι πιο θορυβώδη από ό,τι υποδηλώνουν οι βασικές τιμές. Οι μελλοντικές εκτελέσεις θα επαναζυγίσουν την ανάθεση ετικετών για να σταθεροποιηθούν οι εκτιμήσεις ανά ετικέτα.
Αξιολόγηση μίας λήψης. Κάθε περίπτωση στο δείγμα αξιολογήθηκε μία φορά. Τα μεγάλα γλωσσικά μοντέλα παρουσιάζουν μη ασήμαντη διακύμανση εξόδου ακόμη και σε χαμηλή θερμοκρασία δειγματοληψίας, οπότε ένα πρωτόκολλο πολλαπλών εκτελέσεων με πέντε αξιολογήσεις ανά περίπτωση και αναφερόμενη διακύμανση είναι το φυσικό επόμενο βήμα — ιδιαίτερα στο υποσύνολο των trap-cases, όπου η συνέπεια υπό «jitter» δειγματοληψίας αποτελεί μέρος της αξίωσης ασφάλειας.
Πεδίο ενός μόνο engine. Η παρούσα αναφορά περιγράφει ένα μόνο engine. Συγκριτικές αναλύσεις έναντι εναλλακτικών συστημάτων AI δεν εμπίπτουν στο πεδίο εφαρμογής εδώ· ενδέχεται να τις επιδιώξουμε ως ξεχωριστή ανεξάρτητη μελέτη με κατάλληλη μεθοδολογία, έναντι του ίδιου harness με άδεια MIT.
Συνθετικά δεδομένα. Τα 100.000 περιστατικά παράγονται συνθετικά, όχι «συνθετικά περιστατικά», και τα αποτελέσματα δεν μεταφέρονται στην πραγματική κλινική απόδοση. Η αξιολόγηση σε πραγματικά, με συναίνεση, δεδομένα που προέρχονται εξωτερικά θα απαιτούσε κατάλληλη ηθική εποπτεία και δεν εμπίπτει στο αντικείμενο αυτής της συνθετικής δοκιμής αναφοράς.
Πέρα από αυτούς τους τέσσερις, η πιο σημαντική προγραμματισμένη επέκταση είναι η ισοτιμία πολλών γλωσσών ανά δικαιοδοσία. Το Kantesti AI Engine εξυπηρετεί χρήστες σε 75+ γλώσσες, και η εκτέλεση στρωματοποιημένων υπο-συνόλων Second-Update ανά γλώσσα (Τουρκικά, Γερμανικά, Ισπανικά, Γαλλικά, Ιταλικά, Πορτογαλικά, Αραβικά, Μανδαρινικά) θα ποσοτικοποιήσει την ποιότητα εξόδου σε όλες τις υποστηριζόμενες γλώσσες του engine. Κάθε ανάλυση στρωματοποιημένη ανά γλώσσα θα δημοσιευθεί με το δικό της DOI και branch του harness.