Γιατί υπάρχει αυτό το σημείο αναφοράς και τι ελέγχει

Η ανάλυση αίματος με AI χρησιμοποιείται όλο και περισσότερο σε καταναλωτικές και κλινικές ροές εργασίας, ωστόσο τα αναπαραγώγιμα πλαίσια αξιολόγησης που είναι προσαρμοσμένα στη εργαστηριακή ιατρική παραμένουν σπάνια. Οι ερωτήσεις που έχουν τη μεγαλύτερη σημασία σε αυτό το πλαίσιο δεν είναι αυτές που καλύπτονται από γενικά benchmarks ιατρικής ερωταπαντήσεων: μπορεί μια μηχανή να διαχωρίσει τη σιδηροπενία από το χαρακτηριστικό της θαλασσαιμίας όταν ο μέσος όγκος ερυθρών αιμοσφαιρίων είναι ταυτόσημος, υπερδιαγιγνώσκει το σύνδρομο Gilbert ως ηπατίτιδα, και δημιουργεί παθολογία σε έναν πλήρως φυσιολογικό πίνακα ελέγχου;

Διάγραμμα ροής προ-εγγεγραμμένης ρουμπρίκας που δείχνει πώς η μηχανή AI της Kantesti αξιολογείται έναντι παγωμένων κριτηρίων βαθμολόγησης
Σχήμα 1: Η αρχιτεκτονική του benchmark — κάθε περίπτωση, κάθε λέξη-κλειδί, κάθε σύστημα βαθμολόγησης είναι σταθερό στον πηγαίο κώδικα πριν η μηχανή δει οποιοδήποτε PDF. Η εκ των υστέρων προσαρμογή της κλίμακας αξιολόγησης είναι αδύνατη εκ σχεδιασμού.

Μια μεμονωμένη εξέταση αίματος συνήθως περιέχει αρκετό σήμα για να υποστηρίξει αρκετές ανταγωνιστικές ερμηνείες, και το έργο του κλινικού που ερμηνεύει είναι να σταθμίσει αυτές τις ερμηνείες μεταξύ τους, αντί να αναζητήσει μια απάντηση τύπου σχολικού βιβλίου. Μια μηχανή που τα πάει καλά σε περιπτώσεις τύπου σχολικού βιβλίου μπορεί να αποτύχει στις περιπτώσεις που έχουν τη μεγαλύτερη σημασία: στις παγίδες της διαφορικής διάγνωσης, στις καλοήθεις παραλλαγές που φαίνονται ανησυχητικές όταν εξετάζονται μεμονωμένα, και στις πλήρως φυσιολογικές εξετάσεις που παρασύρουν τους σίγουρους βοηθούς να «κατασκευάσουν» παθολογία.

Αυτό το benchmark χτίστηκε ακριβώς γύρω από αυτές τις λειτουργίες αποτυχίας. Κάθε μία από τις δεκαπέντε περιπτώσεις επιλέχθηκε για μια συγκεκριμένη διαγνωστική ιδιότητα: μια μικροκυττάρωση λόγω έλλειψης σιδήρου που πρέπει να διατηρείται διακριτή από ένα χαρακτηριστικό β-θαλασσαιμίας με πανομοιότυπο μέσο όγκο ερυθρών αιμοσφαιρίων, μια παρουσίαση συνδρόμου Gilbert όπου η μόνη ανωμαλία είναι μια απομονωμένη έμμεση υπερβιλιρυθριναιμία, και ένα πάνελ προσυμπτωματικού ελέγχου δεκαπέντε παραμέτρων στο οποίο κάθε αναλυτής βρίσκεται εντός των τιμών αναφοράς του. Η αξιολόγηση επιβραβεύει τις μηχανές που διαβάζουν κάθε περίπτωση με τους δικούς της όρους και τιμωρεί τις μηχανές που καταλήγουν σε μια σίγουρη διάγνωση όταν δεν δικαιολογείται κάτι τέτοιο.

Ως Thomas Klein, MD, επέλεξα το πάνελ περιπτώσεων επειδή αυτά είναι τα μοτίβα που βλέπω ότι οι βοηθοί εργαστηριακής ιατρικής κάνουν λάθος πιο συχνά. Η δαπανηρή μορφή αποτυχίας δεν είναι "η παράλειψη μιας σπάνιας νόσου" — είναι η κατασκευή συνήθους παθολογίας σε ασθενείς που δεν τη διαθέτουν. Μας Ιατρική Επικύρωση Το hub περιγράφει το ευρύτερο πλαίσιο· αυτή η σελίδα περιγράφει το εφαρμοσμένο αποτέλεσμα του στο engine V11.

Τελευταία εκτέλεση αναφοράς — V11 (Απρίλιος 2026)

Η αναφορά αναφοράς (reference run) του Απριλίου 2026 για το Kantesti AI Engine V11 παρήγαγε έναν σύνθετο βαθμό: 99.12% στο προ-καταχωρισμένο rubric δεκαπέντε περιπτώσεων. Και οι δύο περιπτώσεις-παγίδες υπερδιάγνωσης σημείωσαν στο ανώτατο όριο. Ο δείκτης Mentzer εφαρμόστηκε σωστά στη διαφορική διάγνωση έλλειψης σιδήρου έναντι θαλασσαιμίας.

Σύνθετος 99.12% 15 από 15 περιπτώσεις σημείωσαν
0.998 Δομικός βαθμός
0.998 Κλινικός βαθμός
20.17 s Μέσος λανθάνων χρόνος
0 / 13 Ψευδώς θετικά στις παγίδες

Ο σύνθετος τύπος συνδυάζει τρία στοιχεία: δομική συμμόρφωση με τις επτά υποχρεωτικές ενότητες αναφοράς και τις δεκαέξι υποχρεωτικές υποενότητες, κλινική ακρίβεια μετρούμενη ως ανάκληση λέξεων-κλειδιών συν ανάκληση του συστήματος βαθμολόγησης συν έναν έλεγχο εγκυρότητας της κατανομής πιθανοτήτων, και καθυστέρηση απόκρισης έναντι του πρωτεύοντος στόχου επιπέδου υπηρεσίας 20 δευτερολέπτων. Η ακριβής ανάλυση παρουσιάζεται στον τύπο του rubric παρακάτω.

Σύνθετος = 0.35 × Δομικός + 0.55 × Κλινικός + 0.10 × Καθυστέρηση

Τα εναπομείναντα 0,88 ποσοστιαίες μονάδες περιθωρίου (headroom) αποσυντίθενται σχεδόν εξ ολοκλήρου σε απώλεια καθυστέρησης (latency loss) — τρεις εναλλακτικές (fallback) κλήσεις Φάσης 2, καθεμία με σύνθετη τιμή -0,05, συνέβαλαν περίπου 0,60 από το έλλειμμα των 0,88 μονάδων — αντί για κλινικό περιεχόμενο. Η μηχανή δεν έχασε καμία σωστή διάγνωση σε καμία από τις δεκαπέντε περιπτώσεις· όπου υστέρησε, το έκανε λαμβάνοντας ελαφρώς περισσότερο από τον πρωτεύοντα στόχο των 20 δευτερολέπτων σε μια μικρή μειοψηφία κλήσεων.

Δεκαπέντε περιπτώσεις σε επτά ιατρικές ειδικότητες

Ο πίνακας περιπτώσεων καλύπτει επτά ειδικότητες — αιματολογία, ενδοκρινολογία, μεταβολική ιατρική, ηπατολογία, νεφρολογία, καρδιολογία, ρευματολογία — καθώς και δύο ειδικές περιπτώσεις παγίδας υπερ-διάγνωσης (hyperdiagnosis trap). Κάθε περίπτωση είναι ένα ανωνυμοποιημένο πραγματικό ιατρικό ιστορικό ασθενούς, που αντλείται από το αποθετήριο κλινικών δεδομένων Kantesti, με γραπτή ενημερωμένη συγκατάθεση.

Χάρτης κάλυψης δεκαπέντε ανωνυμοποιημένων περιπτώσεων εξετάσεων αίματος κατανεμημένων σε επτά ιατρικές ειδικότητες, καθώς και περιπτώσεων παγίδας υπερδιάγνωσης
Σχήμα 2: Κατανομή περιπτώσεων σε αιματολογία, ενδοκρινολογία, μεταβολική ιατρική, ηπατολογία, νεφρολογία, καρδιολογία, ρευματολογία, καθώς και δύο περιπτώσεις παγίδας — σύνδρομο Gilbert και πλήρως φυσιολογικός πίνακας προσυμπτωματικού ελέγχου.

Η αποταυτοποίηση (de-identification) πραγματοποιήθηκε με την προσέγγιση Safe Harbor: αφαιρέθηκαν ή αντικαταστάθηκαν όλοι οι άμεσοι αναγνωριστές και σε κάθε αρχείο αποδόθηκε ένας εσωτερικός κωδικός περίπτωσης σε μορφή BT-NNN-LABEL. Η επεξεργασία πραγματοποιήθηκε σύμφωνα με GDPR Άρθρο 9(2)(j) για επιστημονική έρευνα με κατάλληλες διασφαλίσεις και τις αντίστοιχες διατάξεις του UK GDPR. Καμία πληροφορία που να ταυτοποιεί προσωπικά δεν εμφανίζεται πουθενά στο δημοσιευμένο harness, στην τεχνική αναφορά ή στα δημοσιοποιημένα σύνολα δεδομένων.

Αιματολογία (3) BT-001, BT-006, BT-007 Σιδηροπενική αναιμία · έλλειψη Β12 · μικρή β-θαλασσαιμία
Ενδοκρινολογία (3) BT-002, BT-008, BT-012 Θυρεοειδίτιδα Hashimoto · PCOS με αντίσταση στην ινσουλίνη · σοβαρή έλλειψη βιταμίνης D
Μεταβολική (2) BT-003, BT-013 T2DM με μεταβολικό σύνδρομο · Υπερουριχαιμία με κίνδυνο ουρικής αρθρίτιδας
Ηπατολογία (2) BT-004, BT-009 NAFLD / NASH · Οξεία ιογενής ηπατίτιδα
Νεφρολογία · Καρδιολογία · Ρευματολογία (3) BT-005, BT-010, BT-011 ΧΝΝ στάδιο 3 · Αθηρογόνος δυσλιπιδαιμία · Συστηματικός ερυθηματώδης λύκος
Περιπτώσεις παγίδας (2) BT-014, BT-015 Σύνδρομο Gilbert (απομονωμένη έμμεση υπερβιλιρυθριναιμία) · Πλήρως φυσιολογικός έλεγχος ενηλίκων

Γιατί αυτή η συγκεκριμένη κατανομή

Η Αιματολογία παίρνει τρεις περιπτώσεις επειδή οι μικροκυτταρικές διαφορικές και οι μακροκυτταρικές διαφορικές είναι οι παγίδες υψηλού όγκου στην πραγματική εργαστηριακή πρακτική. Η Ενδοκρινολογία παίρνει τρεις επειδή οι εκδηλώσεις της θυρεοειδίτιδας Hashimoto, του PCOS και της έλλειψης βιταμίνης D ασκούν διαφορετικά διαγνωστικά «σχήματα» (οδηγούμενα από αυτοαντισώματα, οδηγούμενα από λόγους ορμονών, οδηγούμενα από έναν μόνο δείκτη). Οι ειδικότητες μίας μόνο περίπτωσης παραμένουν ουσιαστικές, επειδή το καθένα από τα CKD, τον κίνδυνο ASCVD και το SLE έχει το δικό του σύστημα βαθμολόγησης που πρέπει να επικαλεστεί η μηχανή (στάδιο KDIGO, 10ετής κίνδυνος ASCVD, και κριτήρια 2019 EULAR/ACR για SLE αντίστοιχα).

Η προεγγεγραμμένη βαθμολογική κλίμακα, εξηγημένη

Η προ-εγγραφή είναι η πιο σημαντική μεθοδολογική επιλογή σε αυτό το benchmark. Κάθε αναμενόμενη διάγνωση, κάθε κλινικό σύστημα βαθμολόγησης και κάθε ενότητα κάθε αναφοράς δεσμεύτηκαν σε κώδικα πηγής πριν κληθεί η μηχανή. Η εκ των υστέρων (post-hoc) προσαρμογή του rubric για να κολακεύει τη μηχανή είναι επομένως αδύνατη.

Τρία στοιχεία συνθέτουν τη σύνθετη βαθμολογία. Το δομικό στοιχείο συνεισφέρει 35 τοις εκατό και μετρά αν η μηχανή επέστρεψε τις επτά υποχρεωτικές ενότητες της αναφοράς (κεφαλίδα, σύνοψη, βασικά ευρήματα, διαφορική, συστήματα βαθμολόγησης, συστάσεις, παρακολούθηση) και τις δεκαέξι υποχρεωτικές υποενότητες μέσα σε αυτές. Η παρουσία ενότητας ζυγίζει 40 τοις εκατό και η παρουσία υποενότητας ζυγίζει 60 τοις εκατό μέσα στον δομικό υπολογισμό.

Ο το κλινικό στοιχείο συνεισφέρει 55 τοις εκατό και συνδυάζει τρία πράγματα: ανάκληση διάγνωσης-λέξης-κλειδιού (70 τοις εκατό του κλινικού υπο-σκορ), ανάκληση συστήματος βαθμολόγησης (20 τοις εκατό — η μηχανή υπολογίζει Mentzer, FIB-4, HOMA-IR, κίνδυνο ASCVD, στάδιο KDIGO, κριτήρια EULAR/ACR όπου είναι σχετικό), και έναν έλεγχο εγκυρότητας αθροίσματος πιθανοτήτων (10 τοις εκατό — οι πιθανότητες της διαφορικής πρέπει να αθροίζουν εντός του διαστήματος [90, 110]). Για περιπτώσεις παγίδας, αφαιρείται μια ρητή ποινή υπερ-διάγνωσης έως 0.30, υπολογισμένη ως 0.10 ανά κατασκευασμένη σημαία παθολογίας, με ανώτατο όριο τρεις σημαίες.

Ο το στοιχείο λανθάνουσας απόκρισης (latency) συνεισφέρει 10 τοις εκατό. Μια απόκριση κάτω από 20 δευτερόλεπτα κερδίζει το πλήρες 0.10, μια απόκριση κάτω από 40 δευτερόλεπτα κερδίζει 0.05, και οτιδήποτε πιο αργό κερδίζει μηδέν. Ο στόχος των 20 δευτερολέπτων αντανακλά τον πρωτεύοντα στόχο υπηρεσίας παραγωγής για primary-path· το ανώτατο όριο των 40 δευτερολέπτων αντανακλά τον προϋπολογισμό εναλλακτικής λύσης (fallback) για βαριές κλήσεις της μηχανής στη Φάση 2.

Τελικό στιγμιότυπο οθόνης του benchmark harness της Kantesti με άδεια MIT που εκτελείται και εκπέμπει σκορ ανά περίπτωση
Σχήμα 3: Το harness στην εκτέλεση. Κάθε περίπτωση αποδίδεται σε A4 PDF, αναρτάται στο endpoint παραγωγής v11 και βαθμολογείται έναντι του παγωμένου rubric. Κάθε ακατέργαστη απόκριση αποθηκεύεται μαζί με το συγκεντρωτικό scorecard.

Τι αποτρέπει η προ-εγγραφή

Τα benchmarks πρώτου φορέα είναι διαβόητα για τον διογκωμένο αριθμό τους μέσω εκ των υστέρων (post-hoc) προσαρμογής του rubric. Το μοτίβο είναι σχεδόν πάντα το ίδιο: η ομάδα τρέχει τη μηχανή, βλέπει πού υποαποδίδει, και μετά προσαρμόζει αθόρυβα το rubric ώστε οι περιοχές που υποαποδίδουν να μετρούν λιγότερο. Με το να δεσμεύσεις το rubric σε κώδικα πηγής πριν από την πρώτη κλήση της μηχανής και να δημοσιεύσεις το harness με άδεια MIT, αυτή η προσαρμογή γίνεται ορατή στον έλεγχο εκδόσεων. Ο καθένας μπορεί να κάνει clone το αποθετήριο, να ελέγξει τις ημερομηνίες συγγραφής του rubric και να επαληθεύσει ότι τα αποτελέσματα της μηχανής δεν χρησιμοποιήθηκαν για να διαμορφώσουν τη βαθμολόγηση.

Περιπτώσεις παγίδας υπερδιάγνωσης — γιατί η υπερβολική κλήση είναι η πραγματική λειτουργική αποτυχία

Η επιθετική υπερ-ονομασία παθολογίας σε φυσιολογικές οθόνες είναι ένα τεκμηριωμένο μοτίβο αποτυχίας ιατρικών βοηθών που απευθύνονται σε καταναλωτές. Το κόστος της στην πορεία περιλαμβάνει περιττές διερευνήσεις, άγχος ασθενούς και ιατρογενή διερεύνηση. Οι δύο περιπτώσεις παγίδας σε αυτό το benchmark έχουν σχεδιαστεί για να κάνουν αυτό το μοτίβο ορατό και βαθμολογήσιμο.

Παράλληλη σύγκριση μιας αφελούς AI που κατασκευάζει ηπατίτιδα σε πάνελ συνδρόμου Gilbert έναντι της μηχανής Kantesti που αναγνωρίζει σωστά την καλοήθη πολυμορφία UGT1A1
Σχήμα 4: Ο σχεδιασμός της περίπτωσης παγίδας. Μια μηχανή που χαρακτηρίζει με σιγουριά το σύνδρομο Gilbert ως ηπατίτιδα, ή που κατασκευάζει οριακή παθολογία σε μια πλήρως φυσιολογική οθόνη, τιμωρείται — δεν επιβραβεύεται επειδή ακούγεται κλινική.

🟡 Παγίδα 1 — BT-014-GILBERT

Παρουσίαση. Ένας 24χρονος άνδρας με ολική χολερυθρίνη 2.4 mg/dL. Το άμεσο κλάσμα είναι φυσιολογικό, οι τρανσαμινάσες και η αλκαλική φωσφατάση βρίσκονται εντός των αντίστοιχων τιμών αναφοράς, οι δικτυοερυθροκύτταροι δεν παρουσιάζουν κάτι αξιοσημείωτο και η απτοσφαιρίνη και η LDH αποκλείουν την αιμόλυση.

Σωστή ερμηνεία. Σύνδρομο Gilbert — μια καλοήθης πολυμορφία UGT1A1. Η ερμηνεία δεν πρέπει να επικαλείται ηπατίτιδα, κίρρωση, αιμολυτική αναιμία ή απόφραξη των χοληφόρων.

Αποτέλεσμα V11. Σύνθετο 1.000. Καμία από τις έξι παρακολουθούμενες σημαίες υπερ-διάγνωσης δεν εμφανίστηκε ως ενεργή διάγνωση.

🟡 Παγίδα 2 — BT-015-HEALTHY

Παρουσίαση. Μια 35χρονη γυναίκα με μια ρουτίνα πάνελ προσυμπτωματικού ελέγχου δεκαπέντε παραμέτρων. Κάθε αναλυτής βρίσκεται άνετα εντός του αντίστοιχου εύρους αναφοράς.

Σωστή ερμηνεία. Διαβεβαίωση και διατήρηση τρόπου ζωής. Η ερμηνεία δεν πρέπει να κατασκευάζει οριακή παθολογία για να φαίνεται κλινικά χρήσιμη.

Αποτέλεσμα V11. Σύνθετο 1.000. Κανένας από τους επτά δείκτες υπερδιάγνωσης που παρακολουθήθηκαν — διαβήτης, αναιμία, υποθυρεοειδισμός, δυσλιπιδαιμία, ηπατίτιδα, νεφρική νόσος, έλλειψη — δεν εμφανίστηκε ως ενεργή διάγνωση.

Και στις δύο παγίδες ελέγχθηκαν δεκατρείς δείκτες υπερδιάγνωσης που παρακολουθήθηκαν. Κανένας δεν ενεργοποιήθηκε. Αυτό είναι το αποτέλεσμα που έχει τη μεγαλύτερη σημασία για κάθε κλινικό που σκέφτεται να χρησιμοποιήσει μια μηχανή AI ως εργαλείο διαλογής ή προ-διαβούλευσης: το σύστημα δεν επινόησε νόσο εκεί όπου δεν υπήρχε.

Δείκτης Mentzer: διαχωρισμός της ανεπάρκειας σιδήρου από το χαρακτηριστικό της θαλασσαιμίας

Ένα δεύτερο εύρημα υψηλής αξίας αφορά τη σύζευξη της περίπτωσης BT-001 (σιδηροπενική αναιμία) με την περίπτωση BT-007 (β-μεσογειακή αναιμία, ελάσσων). Και οι δύο παρουσιάζουν μικροκυττάρωση και αποτελούν ένα καλά γνωστό σκόπελο για αφελείς ταξινομητές. Ο δείκτης Mentzer, που υπολογίζεται ως MCV διαιρούμενο με τον αριθμό RBC, υπερβαίνει το 13 στη σιδηροπενία και πέφτει κάτω από το 13 στη μεσογειακή ιδιότητα.

Στο BT-001, η ασθενής ήταν γυναίκα 34 ετών με αιμοσφαιρίνη 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, φερριτίνη 6 ng/mL και αυξημένο TIBC. Ο δείκτης Mentzer περίπου 17,7 υποστηρίζει απόλυτη σιδηροπενία. Στο BT-007, ο ασθενής ήταν άνδρας 28 ετών με μικροκυττάρωση (MCV 65,8 fL) αλλά υψηλό αριθμό RBC 6,2, φυσιολογικό RDW, φυσιολογική φερριτίνη και HbA2 5,6 τοις εκατό. Ο δείκτης Mentzer περίπου 10,6 δείχνει μεσογειακή ιδιότητα και η αυξημένη HbA2 επιβεβαιώνει β-μεσογειακή αναιμία, ελάσσων.

Σιδηροπενική αναιμία Mentzer > 13 Χαμηλή φερριτίνη, χαμηλό TSAT, υψηλό TIBC, αυξημένο RDW
Β-μεσογειακή αναιμία, ελάσσων Mentzer < 13 Φυσιολογική φερριτίνη, φυσιολογικό RDW, αυξημένη HbA2 (>3,5%), υψηλός αριθμός RBC

Και οι δύο περιπτώσεις σημείωσαν 1.000. Η μηχανή χρησιμοποίησε ρητά τον δείκτη Mentzer και στις δύο ερμηνείες και επέστρεψε τη σωστή διάγνωση σε κάθε περίπτωση. Αυτό είναι το μοναδικό αποτέλεσμα με τη μεγαλύτερη κλινική καθησυχαστικότητα σε ολόκληρο το benchmark, επειδή η λανθασμένη ταξινόμηση της μεσογειακής αναιμίας, ελάσσων, ως σιδηροπενίας οδηγεί σε ακατάλληλη χορήγηση σιδήρου και σε χαμένες ευκαιρίες οικογενειακού ελέγχου, ενώ η λανθασμένη ταξινόμηση της σιδηροπενίας ως μεσογειακής αναιμίας καθυστερεί την απλή θεραπευτική αντικατάσταση. Το δικό μας οδηγός για το εύρος φερριτίνης εξηγεί το ευρύτερο διαφορικό πλαίσιο.

Αποτελέσματα ανά περίπτωση από την εκτέλεση του Απριλίου 2026

Δώδεκα από τις δεκαπέντε περιπτώσεις πέτυχαν το ανώτατο σύνθετο σκορ 1.000 στην πρωτεύουσα διαδρομή. Τρεις περιπτώσεις εξυπηρετήθηκαν μέσω της εναλλακτικής διαδρομής Phase 2, χάνοντας το μπόνους καθυστέρησης 0,05 ενώ διατηρώντας όλο το κλινικό και δομικό περιεχόμενο. Μία περίπτωση έχανε μία μόνο υποχρεωτική υποενότητα· μία επέστρεψε ένα οριακά μειωμένο άθροισμα πιθανοτήτων κατανομής.

Κωδικός περίπτωσης Ειδικότητα Σύνθετος Καθυστέρηση Διαδρομή
BT-001-IDAΑιματολογία1.00017,8 sπρωτεύουσα
BT-006-B12Αιματολογία1.00018,4 δευτ.πρωτεύουσα
BT-007-THALΑιματολογία1.00017,0 δευτ.πρωτεύουσα
BT-002-HASHΕνδοκρινολογία0.95037,0 δευτ.εναλλακτική λύση
BT-008-PCOSΕνδοκρινολογία0.98718,6 δευτ.πρωτεύουσα
BT-003-T2DMΜεταβολικός1.00019,1 δευτ.πρωτεύουσα
BT-013-GOUTΜεταβολικός1.00019,4 δευτ.πρωτεύουσα
BT-004-NAFLDΗπατολογία1.00019,6 δευτ.πρωτεύουσα
BT-009-VIRHEPΗπατολογία0.95023,4 δευτ.εναλλακτική λύση
BT-014-GILBERTΠαγίδα1.00018,9 δευτ.πρωτεύουσα
BT-005-CKDΝεφρολογία1.00017,4 δευτ.πρωτεύουσα
BT-010-ASCVDΚαρδιολογία1.00019,7 δευτ.πρωτεύουσα
BT-011-SLEΡευματολογία0.98118,2 δευτ.πρωτεύουσα
BT-012-VITDΕνδοκρινολογία1.00019,3 δευτ.πρωτεύουσα
BT-015-HEALTHYΠαγίδα1.00018,7 δευτ.εναλλακτική λύση

Η περίπτωση PCOS (BT-008) έχασε μία μόνο υποχρεωτική υποενότητα στη δομή της απόκρισης — δεκαπέντε από δεκαέξι αντί για δεκαέξι από δεκαέξι — γεγονός που μείωσε τη δομική βαθμολογία από 1,000 σε 0,963. Η περίπτωση SLE (BT-011) επέστρεψε ένα οριακά μειωμένο άθροισμα πιθανοκατανομών που μείωσε τη κλινική βαθμολογία σε 0,965, ενώ διατήρησε κάθε διαγνωστική λέξη-κλειδί και το σύστημα βαθμολόγησης. Καμία από τις δύο περιπτώσεις που δεν ήταν τέλειες δεν έχασε μια σωστή διάγνωση.

Τι δεν μας λέει η βαθμολογία τίτλου

Μια σύνθετη βαθμολογία 99,12 τοις εκατό στο συγκεκριμένο προ-εγγεγραμμένο πλαίσιο αξιολόγησης αντιπροσωπεύει σχεδόν επιδόσεις οροφής, αλλά αξίζει προσεκτική πλαισίωση. Το αποτέλεσμα περιγράφει τη συμπεριφορά της μηχανής έναντι δεκαπέντε προσεκτικά επιλεγμένων ανωνυμοποιημένων περιπτώσεων, αξιολογημένων μία φορά η καθεμία, με βάση ένα ενιαίο πλαίσιο. Είμαστε σαφείς σχετικά με το τι τεκμηριώνει και τι δεν τεκμηριώνει ο αριθμός.

Η βαθμολογία λέει ότι η μηχανή V11 χειρίστηκε σωστά τα διαγνωστικά μοτίβα που επιλέχθηκαν για αυτή την αξιολόγηση, με μια μεθοδολογία που δημοσιεύεται και είναι αναπαραγώγιμη. Δεν λέει ότι η μηχανή είναι σωστή σε κάθε πίνακα εξετάσεων αίματος που υπάρχει στον πραγματικό κόσμο. Δεν λέει ότι η μηχανή πρέπει να αντικαταστήσει την κλινική κρίση. Και δεν λέει ότι η μηχανή υπερέχει έναντι εναλλακτικών συστημάτων AI — συγκριτικές αναλύσεις με άλλες μηχανές ήταν σκόπιμα εκτός πεδίου για αυτή την αναφορά.

Αυτό που τεκμηριώνει η βαθμολογία είναι μια βασική γραμμή. Με το πλαίσιο αξιολόγησης και το εργαλείο δοκιμής να είναι δημόσια, οι μελλοντικές εκδόσεις της μηχανής μπορούν να αξιολογηθούν έναντι των ίδιων δεκαπέντε περιπτώσεων, και το χάσμα ανάμεσα στη δημοσιευμένη βαθμολογία και σε οποιαδήποτε μεταγενέστερη εκτέλεση είναι από μόνο του μετρήσιμο. Αυτή είναι η αξία της προ-εγγραφής: μετατρέπει τους ισχυρισμούς απόδοσης σε ελέγξιμους ισχυρισμούς.

Πώς να αναπαράγετε αυτό το benchmark σε 10 λεπτά

Η αναπαραγωγή απαιτεί μόνο ένα ζεύγος διαπιστευτηρίων API Kantesti και ένα περιβάλλον Python 3.10 ή νεότερο με το requests και reportlab εγκατεστημένες βιβλιοθήκες. Το πλήρες εργαλείο δοκιμής είναι ένα ενιαίο, αυτόνομο Python module που κυκλοφορεί με άδεια MIT.

Διάγραμμα δικτύου αναπαραγωγιμότητας που δείχνει το benchmark να αντικατοπτρίζεται σε Figshare, ResearchGate, Academia.edu και GitHub, με το DOI του Figshare ως κανονική άγκυρα
Σχήμα 5: Το benchmark αντικατοπτρίζεται σε τέσσερις ερευνητικές πλατφόρμες. Το Figshare DOI είναι ο κανονικός ακαδημαϊκός αναγνωριστικός αριθμός· το ResearchGate, το Academia.edu και το GitHub φιλοξενούν παράλληλα αντίγραφα με κώδικα και ακατέργαστα δεδομένα.

Τέσσερα βήματα για μια νέα εκτέλεση

Ένα. Κλωνοποιήστε το αποθετήριο: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Δύο. Εγκαταστήστε τις εξαρτήσεις με pip install -r requirements.txt. Τρία. Ορίστε KANTESTI_USERNAME και KANTESTI_PASSWORD ως μεταβλητές περιβάλλοντος — τα διαπιστευτήρια διαβάζονται κατά την εκτέλεση και τίποτα δεν είναι ενσωματωμένο (hard-coded) στο σκριπτ. Τέσσερα. Εκτελέστε python benchmark_bloodtest.py και ελέγξτε τα τέσσερα παραγόμενα artefacts στον τρέχοντα κατάλογο εργασίας: ένα CSV scorecard, ένα JSON scorecard, ένα πλήρες JSON dump συμπεριλαμβανομένων των ακατέργαστων αποκρίσεων του engine και μια αναγνώσιμη από άνθρωπο αναφορά σε Markdown.

Η αναφορά (reference run) από τις 23 Απριλίου 2026 διατηρείται στον results/ κατάλογο του αποθετηρίου. Μια νέα εκτέλεση θα δημιουργήσει ένα νέο scorecard με χρονική σήμανση, αφήνοντας την αναφορά αμετάβλητη. Αν η εκτέλεσή σας δώσει ουσιωδώς διαφορετικό αποτέλεσμα, παρακαλούμε ανοίξτε ένα GitHub issue με τη χρονική σήμανση της εκτέλεσης και την έκδοση του engine που επιστρέφεται στα μεταδεδομένα της απόκρισης.

Περιορισμοί και μελλοντική εργασία

Τέσσερις περιορισμοί αξίζουν ρητή αναγνώριση: μέγεθος δείγματος, αξιολόγηση μίας λήψης (single-shot), πεδίο ενός μόνο engine, και προέλευση δεδομένων από μία μόνο πηγή. Καθένας αντιμετωπίζεται σε ενεργή εργασία παρακολούθησης.

Μέγεθος δείγματος. Δεκαπέντε περιστατικά σε οκτώ κατηγορίες ειδικότητας είναι αρκετά για απόδειξη εννοιολογικής ορθότητας, αλλά όχι για ανάλυση υποομάδων εντός μιας ειδικότητας. Προβλέπεται επέκταση σε πενήντα περιστατικά και θα περιλαμβάνει πάνελ πήξης, έλεγχο για αιματολογικές κακοήθειες, πάνελ εγκυμοσύνης και παιδιατρικές παρουσιάσεις.

Αξιολόγηση μίας λήψης. Κάθε περιστατικό αξιολογήθηκε μία φορά. Τα μεγάλα γλωσσικά μοντέλα παρουσιάζουν μη ασήμαντη διακύμανση στην έξοδο ακόμη και σε χαμηλή θερμοκρασία δειγματοληψίας, οπότε ένα πρωτόκολλο πολλαπλών εκτελέσεων με πέντε αξιολογήσεις ανά περιστατικό και αναφερόμενη διακύμανση είναι το φυσικό επόμενο βήμα.

Πεδίο ενός μόνο engine. Η παρούσα αναφορά περιγράφει ένα μόνο engine. Συγκριτικές αναλύσεις έναντι εναλλακτικών συστημάτων AI δεν εμπίπτουν στο αντικείμενο εδώ· ενδέχεται να τις επιδιώξουμε ως ξεχωριστή ανεξάρτητη μελέτη με κατάλληλη μεθοδολογία.

Προέλευση δεδομένων από μία μόνο πηγή. Τα δεκαπέντε περιστατικά είναι ανωνυμοποιημένα πραγματικά ιατρικά αρχεία ασθενών από ένα μόνο κλινικό αποθετήριο. Αποτελούν επιλεγμένο δείγμα και δεν είναι τυχαία δειγματοληψία που να είναι αντιπροσωπευτική του πληθυσμού. Η επέκταση της αξιολόγησης σε δεδομένα πολλών κέντρων βρίσκεται στον οδικό χάρτη.

Η πιο ουσιαστική προγραμματισμένη επέκταση είναι η ισοδυναμία (parity) σε πολλές γλώσσες. Το Kantesti AI Engine εξυπηρετεί χρήστες σε 75+ γλώσσες, και η εκτέλεση του ίδιου harness με τα δεκαπέντε περιστατικά στα τουρκικά, γερμανικά, ισπανικά, γαλλικά και αραβικά θα ποσοτικοποιήσει την ποιότητα εξόδου σε όλες τις γλώσσες που υποστηρίζει το engine. Θα δημοσιεύσουμε κάθε εκτέλεση ανά γλώσσα με το δικό της DOI και τη δική της branch του harness.