Kantesti AI Benchmark εξετάσεων αίματος

Αυτοματοποιημένο Benchmark Προεγγεγραμμένο σημείο αναφοράς V11 Δεύτερη Ενημέρωση — Απρίλιος 2026 Με άδεια MIT Αναπαραγώγιμο · Ανοιχτά Δεδομένα 100K Συνθετική Συλλογή · 127 Ετικέτες Χωρών

99.80% Σύνθετη Βαθμολογία σε Προ-Καταχωρισμένο Πλαίσιο Αξιολόγησης — V11 Δεύτερη Ενημέρωση, Συλλογή 100.000 Περιστατικών σε 127 Ετικέτες Χωρών

Ένα προ-εγγεγραμμένο, βασισμένο σε ρουμπρίκα αυτοματοποιημένο τεχνικό benchmark του κινητήρα Kantesti σε 100.000 συνθετικά περιστατικά αιματολογικής εξέτασης με ετικέτες 127 ετικετών χωρών. Μετρά τη συμμόρφωση εξόδου, όχι τη διαγνωστική ακρίβεια. Η ρουμπρίκα «πάγωσε» στον πηγαίο κώδικα πριν από την αρχική κυκλοφορία V11 και παρέμεινε byte-ταυτόσημη για αυτή τη Δεύτερη Ενημέρωση· το πλαίσιο αξιολόγησης είναι με άδεια MIT· δημοσιεύεται ένα στρωματοποιημένο τυχαίο δείγμα των αποκρίσεων του κινητήρα για επιθεώρηση. Όλες οι περιπτώσεις είναι συνθετικές· δεν χρησιμοποιούνται προσωπικά δεδομένα.

📖 ~14 λεπτά 📅 Δημοσιεύτηκε στις 23 Απριλίου 2026 · Ενημερώθηκε στις 26 Απριλίου 2026 (V11 Δεύτερη Ενημέρωση) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Δημοσιεύτηκε: 23 Απριλίου 2026 🔄 V11 Δεύτερη Ενημέρωση: 26 Απριλίου 2026 🩺 Ιατρικά ελέγχθηκε: 26 Απριλίου 2026 ✅ Προεγγεγραμμένο πλαίσιο αξιολόγησης (Byte-Identical) 🔓 Ανοιχτός κώδικας & δεδομένα

Αυτό το αυτοματοποιημένο benchmark σχεδιάστηκε και εκτελέστηκε από Τζούλιαν Εμιρχάν Μπουλούτ, Senior AI Engineer και CEO της Kantesti Ltd. Η βαθμολόγηση είναι πλήρως αυτοματοποιημένη στον πηγαίο κώδικα· το σύστημα βαθμολόγησης και ο πίνακας περιπτώσεων αναπτύχθηκαν με κλινική συμβολή από Δρ. Τόμας Κλάιν, MD, Chief Medical Officer στο Kantesti AI, και ελέγχθηκαν από τον/την Ιατρική Συμβουλευτική Επιτροπή Kantesti AI. Πρόκειται για μια αυτο-εκτελούμενη εσωτερική δοκιμή αναφοράς, όχι για ανεξάρτητη ή αξιολογημένη από ομότιμους αυτοματοποιημένη τεχνική δοκιμή αναφοράς.

Κύριο Συγγραφέα & Κλινική Εποπτεία

Τόμας Κλάιν, MD

Κύριος Ιατρός, Kantesti AI

Ο Δρ. Thomas Klein είναι πιστοποιημένος από το διοικητικό συμβούλιο κλινικός αιματολόγος και παθολόγος με πάνω από 15 χρόνια εμπειρίας στη εργαστηριακή ιατρική. Ως Chief Medical Officer στην Kantesti AI, επέλεξε τον πίνακα περιστατικών για αυτή τη δοκιμή αναφοράς, εξέτασε το κλινικό περιεχόμενο και τις αναμενόμενες απαντήσεις των συνθετικών περιστατικών και ενέκρινε το προ-καταχωρισμένο πλαίσιο αξιολόγησης πριν από την πρώτη κλήση του κινητήρα.

ORCID 0009-0009-1490-1321 Πύλη Έρευνας Google Scholar

Συν-Συγγραφέας & Υλοποίηση

Τζούλιαν Εμιρχάν Μπουλούτ

Senior AI Engineer & CEO, Kantesti Ltd

Ο Julian Emirhan Bulut είναι ο ιδρυτής και Διευθύνων Σύμβουλος της Kantesti Ltd. Σχεδίασε και υλοποίησε το εργαλείο αξιολόγησης — συμπεριλαμβανομένου του φορτωτή περιπτώσεων SQL που προστέθηκε για τη V11 Δεύτερη Ενημέρωση — πραγματοποίησε την ενσωμάτωση API, διεξήγαγε τόσο την αρχική αναφορά εκτέλεσης του V11 όσο και την εκτέλεση 100.000 περιπτώσεων της V11 Δεύτερης Ενημέρωσης και προετοίμασε τη στατιστική συγκέντρωση. Ιδρυτής της πλατφόρμας από το 2019.

GitHub Σχετικά με την Καντέστι

⚡ Σύντομη Σύνοψη V11 Δεύτερη Ενημέρωση — 26 Απριλίου 2026

Σύνθετη βαθμολογία 99.80% σε 100.000 συνθετικά περιστατικά αιματολογικής εξέτασης σε οκτώ ιατρικές ειδικότητες και 127 ετικέτες χωρών (V11 Δεύτερη Ενημέρωση).
Μηδενικά ψευδώς θετικά υπερδιάγνωσης σε 87.412 ευκαιρίες σημαίας «trap-case» που παρακολουθήθηκαν — ίδια μεθοδολογία «trap-case» με την αρχική του V11, κλιμακωμένη σε επίπεδο πληθυσμού.
Προεγγεγραμμένη κλίμακα αξιολόγησης «πάγωσε» στον πηγαίο κώδικα πριν από την αρχική εκτέλεση του V11 και παρέμεινε byte-identical για αυτή τη Δεύτερη Ενημέρωση — δεν ήταν δυνατή καμία μεταγενέστερη προσαρμογή (post-hoc).
Ο δείκτης Mentzer εφαρμόστηκε σωστά για τη διάκριση της σιδηροπενικής αναιμίας από τη β-θαλασσαιμία μικρού τύπου στην αρχική κυκλοφορία του V11· η διαφορική συμπεριφορά διατηρήθηκε σε κλίμακα πληθυσμού.
Μόνο τελικό σημείο παραγωγής — χωρίς προνομιακή δρομολόγηση, αξιολογήθηκε ακριβώς όπως θα το προσπέλαζε ένας πληρωμένος πελάτης.
13,26 δευτερόλεπτα μέσος λανθάνων χρόνος end-to-end (εύρος 9,0–16,94 s), με όλες τις 100.000 περιπτώσεις να ολοκληρώνονται στην κύρια διαδρομή της μηχανής.
Συνθετική συλλογή. 100.000 συνθετικά παραδείγματα δοκιμών φορτώνονται κατά τον χρόνο εκτέλεσης. Δεν χρησιμοποιείται συνθετικό δεδομένο και δεν χρησιμοποιούνται προσωπικά δεδομένα.
Harness με άδεια MIT κυκλοφόρησε στο GitHub με ένα στρωματοποιημένο τυχαίο δείγμα (n = 201) πλήρων ακατέργαστων αποκρίσεων της μηχανής για επιθεώρηση.
DOI στο Figshare: 10.6084/m9.figshare.32095435 · Αντιγράφηκε στο ResearchGate, Academia.edu, GitHub.

Γιατί υπάρχει αυτό το σημείο αναφοράς και τι ελέγχει

Η ανάλυση αίματος με AI χρησιμοποιείται όλο και περισσότερο σε καταναλωτικές και κλινικές ροές εργασίας, ωστόσο τα αναπαραγώγιμα πλαίσια αξιολόγησης που είναι προσαρμοσμένα στη εργαστηριακή ιατρική παραμένουν σπάνια. Οι ερωτήσεις που έχουν τη μεγαλύτερη σημασία σε αυτό το πλαίσιο δεν είναι αυτές που καλύπτονται από γενικά benchmarks ιατρικής ερωταπαντήσεων: μπορεί μια μηχανή να διαχωρίσει τη σιδηροπενία από το χαρακτηριστικό της θαλασσαιμίας όταν ο μέσος όγκος ερυθρών αιμοσφαιρίων είναι ταυτόσημος, υπερδιαγιγνώσκει το σύνδρομο Gilbert ως ηπατίτιδα, και δημιουργεί παθολογία σε έναν πλήρως φυσιολογικό πίνακα ελέγχου;

Μια μεμονωμένη εξέταση αίματος συνήθως περιέχει αρκετό σήμα για να υποστηρίξει αρκετές ανταγωνιστικές ερμηνείες, και το έργο του κλινικού που ερμηνεύει είναι να σταθμίσει αυτές τις ερμηνείες μεταξύ τους, αντί να αναζητήσει μια απάντηση τύπου σχολικού βιβλίου. Μια μηχανή που τα πάει καλά σε περιπτώσεις τύπου σχολικού βιβλίου μπορεί να αποτύχει στις περιπτώσεις που έχουν τη μεγαλύτερη σημασία: στις παγίδες της διαφορικής διάγνωσης, στις καλοήθεις παραλλαγές που φαίνονται ανησυχητικές όταν εξετάζονται μεμονωμένα, και στις πλήρως φυσιολογικές εξετάσεις που παρασύρουν τους σίγουρους βοηθούς να «κατασκευάσουν» παθολογία.

Αυτό το benchmark χτίστηκε ακριβώς γύρω από αυτές τις λειτουργίες αποτυχίας. Κάθε μία από τις δεκαπέντε περιπτώσεις επιλέχθηκε για μια συγκεκριμένη διαγνωστική ιδιότητα: μια μικροκυττάρωση λόγω έλλειψης σιδήρου που πρέπει να διατηρείται διακριτή από ένα χαρακτηριστικό β-θαλασσαιμίας με πανομοιότυπο μέσο όγκο ερυθρών αιμοσφαιρίων, μια παρουσίαση συνδρόμου Gilbert όπου η μόνη ανωμαλία είναι μια απομονωμένη έμμεση υπερβιλιρυθριναιμία, και ένα πάνελ προσυμπτωματικού ελέγχου δεκαπέντε παραμέτρων στο οποίο κάθε αναλυτής βρίσκεται εντός των τιμών αναφοράς του. Η αξιολόγηση επιβραβεύει τις μηχανές που διαβάζουν κάθε περίπτωση με τους δικούς της όρους και τιμωρεί τις μηχανές που καταλήγουν σε μια σίγουρη διάγνωση όταν δεν δικαιολογείται κάτι τέτοιο.

Ως Thomas Klein, MD, επέλεξα το πάνελ περιπτώσεων επειδή αυτά είναι τα μοτίβα που βλέπω ότι οι βοηθοί εργαστηριακής ιατρικής κάνουν λάθος πιο συχνά. Η δαπανηρή μορφή αποτυχίας δεν είναι "η παράλειψη μιας σπάνιας νόσου" — είναι η κατασκευή συνήθους παθολογίας σε ασθενείς που δεν τη διαθέτουν. Μας Ιατρική Επικύρωση το hub περιγράφει το ευρύτερο πλαίσιο· αυτή η σελίδα περιγράφει την αρχική απόδειξη-εννοίας του V11 και τη V11 Δεύτερη Ενημέρωση που την κλιμάκωσε σε 100.000 συνθετικά περιστατικά που αντλήθηκαν από ένα σύνολο συνθετικών περιστατικών που καλύπτει 127 ετικέτες χωρών — χρησιμοποιώντας το ίδιο πλαίσιο βαθμολόγησης, byte-identical, χωρίς επιτρεπόμενη μεταγενέστερη προσαρμογή (post-hoc tuning).

Τελευταία εκτέλεση αναφοράς — V11 Second Update (26 Απριλίου 2026)

Η εκτέλεση αναφοράς της V11 Second Update της 26ης Απριλίου 2026 παρήγαγε σύνθετη βαθμολογία 99.80% στην ίδια προ-καταχωρισμένη ρουμπρίκα που χρησιμοποιήθηκε στην αρχική κυκλοφορία της V11, αξιολογημένη σε 100.000 συνθετικά περιστατικά που αντλήθηκαν από το συνθετικό σύνολο περιστατικών Kantesti και καλύπτουν 127 ετικέτες χωρών και τις γλώσσες 75+. Κάθε περιστατικό ολοκληρώθηκε στην κύρια διαδρομή του κινητήρα· οι ενεργοποιήσεις της σημαίας υπερ-διάγνωσης σε περιστατικά-παγίδες παρέμειναν στο 0 / 87,412. Η αρχική εκτέλεση της V11 στις 23 Απριλίου 2026 κάλυψε 15 χειροκίνητα επιλεγμένα περιστατικά (σύνθετη 99.12%) και επικύρωσε τη ρουμπρίκα· η Second Update διατηρεί αυτή τη ρουμπρίκα ταυτοσήμαντη σε επίπεδο byte και επεκτείνει την αξιολόγηση σε πληθυσμιακή κλίμακα.

Σύνθετος 99.80% 100.000 από 100.000 περιστατικά βαθμολογήθηκαν

1.000 Δομικός βαθμός

0.996 Κλινικός βαθμός

13,26 s Μέσος λανθάνων χρόνος

0 / 87,412 Ψευδώς θετικά στις παγίδες

Ο σύνθετος τύπος συνδυάζει τρία στοιχεία: δομική συμμόρφωση με τις επτά υποχρεωτικές ενότητες αναφοράς και τις δεκαέξι υποχρεωτικές υποενότητες, ακρίβεια περιεχομένου μετρούμενη ως ανάκληση λέξεων-κλειδιών συν ανάκληση του συστήματος βαθμολόγησης συν έναν έλεγχο εγκυρότητας της κατανομής πιθανοτήτων, και καθυστέρηση απόκρισης έναντι του στόχου επιπέδου υπηρεσίας της κύριας διαδρομής. Η ακριβής ανάλυση εμφανίζεται στον τύπο της ρουμπρίκας παρακάτω — κανένα από αυτά τα βάρη ή υπο-ρουμπρίκες δεν τροποποιήθηκε για τη Second Update.

Σύνθετος = 0.35 × Δομικός + 0.55 × Κλινικός + 0.10 × Καθυστέρηση

Τα υπόλοιπα 0,20 ποσοστιαίες μονάδες περιθωρίου αποσυντίθενται σχεδόν εξ ολοκλήρου στη κλινική υπο-βαθμολογία — ένα μικρό ποσοστό περιστατικών (κυρίως σε Ηπατολογία και Ρευματολογία) είχε μία αναμενόμενη λέξη-κλειδί του συστήματος βαθμολόγησης που απουσίαζε από την ερμηνεία του κινητήρα, παρότι το διαγνωστικό περιεχόμενο ήταν σωστό. Κανένα περιστατικό στην ομάδα 100.000 περιστατικών της Second Update δεν έχασε την ίδια τη διάγνωση. Η καθυστέρηση βελτιώθηκε από έναν μέσο όρο 20,17 s στην αρχική κυκλοφορία της V11 σε 13,26 s στη Second Update, αντανακλώντας βελτιστοποιήσεις του κινητήρα παραγωγής μεταξύ των δύο εκτελέσεων· η ρουμπρίκα, ο κώδικας βαθμολόγησης και το τελικό σημείο API παραμένουν αμετάβλητα.

Οι ανά-ετικέτα σύνθετες βαθμολογίες κυμάνθηκαν από 0,9971 έως 0,9985 στις 30 πιο αντιπροσωπευμένες ετικέτες χωρών. Η «μακριά ουρά» των 97 επιπλέον ετικετών (≈7.300 περιστατικά συνολικά) δεν έδειξε συστηματική υποβάθμιση. Οι πιο συχνές ετικέτες ανά πλήθος περιστατικών ήταν οι Ηνωμένες Πολιτείες (10.500), η Βραζιλία (9.500), η Ισπανία (9.000), η Ιταλία (8.000), η Γερμανία (7.800), η Γαλλία (7.400), η Πορτογαλία (5.800), η Türkiye (3.400), το Ηνωμένο Βασίλειο (2.900) και το Μεξικό (2.500).

Από 15 περιστατικά έως 100.000: εξέλιξη της συλλογής σε 127 ετικέτες χωρών

Ο αρχικός πίνακας περιστατικών του V11 κάλυπτε επτά ειδικότητες — αιματολογία, ενδοκρινολογία, μεταβολική ιατρική, ηπατολογία, νεφρολογία, καρδιολογία, ρευματολογία — καθώς και δύο ειδικά περιστατικά-παγίδες υπερ-διάγνωσης, με κάθε περιστατικό να είναι ένας συνθετικά παραγόμενος πίνακας αιματολογικών εξετάσεων. Η V11 Δεύτερη Ενημέρωση επεκτείνει την αξιολόγηση σε 100.000 συνθετικά περιστατικά σε 127 ετικέτες χωρών, κατανεμημένα σε οκτώ ειδικότητες (οι αρχικές επτά συν ένας ειδικός «κουβάς» εσωτερικής παθολογίας που απορροφά το υποσύνολο των παγίδων). Η ίδια ρουμπρίκα βαθμολόγησης εφαρμόζεται ταυτοσήμαντα σε επίπεδο byte και στις δύο εκτελέσεις.

Επειδή όλα τα περιστατικά παράγονται συνθετικά, δεν υπάρχουν πραγματικοί αναγνωριστικοί προς αφαίρεση και δεν εμπλέκονται προσωπικά δεδομένα. Κάθε συνθετικό περιστατικό φέρει έναν κωδικό περιστατικού εσωτερικό της δοκιμής αναφοράς (BT-NNN-LABEL στο αρχικό σύνολο του V11, ένα σταθερό case_uid στη Δεύτερη Ενημέρωση). Δεν εμφανίζονται προσωπικά δεδομένα πουθενά στο δημοσιευμένο εργαλείο αξιολόγησης, στην τεχνική αναφορά ή στα δημοσιευμένα σύνολα δεδομένων.

αρχική κυκλοφορία V11 — 15 χειροκίνητα επιλεγμένα περιστατικά

Η αρχική ενότητα περιπτώσεων V11 επιμελήθηκε χειροκίνητα ο Δρ. Thomas Klein, ώστε να καλύπτει τα διαγνωστικά πρότυπα που οι βοηθοί εργαστηριακής ιατρικής συχνά ερμηνεύουν λανθασμένα. Κάθε μία από τις δεκαπέντε περιπτώσεις επιλέχθηκε για μια συγκεκριμένη διαγνωστική ιδιότητα, όπως παρατίθεται παρακάτω.

Αιματολογία (3) BT-001, BT-006, BT-007 Σιδηροπενική αναιμία · έλλειψη Β12 · μικρή β-θαλασσαιμία

Ενδοκρινολογία (3) BT-002, BT-008, BT-012 Θυρεοειδίτιδα Hashimoto · PCOS με αντίσταση στην ινσουλίνη · σοβαρή έλλειψη βιταμίνης D

Μεταβολική (2) BT-003, BT-013 T2DM με μεταβολικό σύνδρομο · Υπερουριχαιμία με κίνδυνο ουρικής αρθρίτιδας

Ηπατολογία (2) BT-004, BT-009 NAFLD / NASH · Οξεία ιογενής ηπατίτιδα

Νεφρολογία · Καρδιολογία · Ρευματολογία (3) BT-005, BT-010, BT-011 ΧΝΝ στάδιο 3 · Αθηρογόνος δυσλιπιδαιμία · Συστηματικός ερυθηματώδης λύκος

Περιπτώσεις παγίδας (2) BT-014, BT-015 Σύνδρομο Gilbert (απομονωμένη έμμεση υπερβιλιρυθριναιμία) · Πλήρως φυσιολογικός έλεγχος ενηλίκων

Γιατί αυτή η συγκεκριμένη κατανομή

Η Αιματολογία παίρνει τρεις περιπτώσεις επειδή οι μικροκυτταρικές διαφορικές και οι μακροκυτταρικές διαφορικές είναι οι παγίδες υψηλού όγκου στην πραγματική εργαστηριακή πρακτική. Η Ενδοκρινολογία παίρνει τρεις επειδή οι εκδηλώσεις της θυρεοειδίτιδας Hashimoto, του PCOS και της έλλειψης βιταμίνης D ασκούν διαφορετικά διαγνωστικά «σχήματα» (οδηγούμενα από αυτοαντισώματα, οδηγούμενα από λόγους ορμονών, οδηγούμενα από έναν μόνο δείκτη). Οι ειδικότητες μίας μόνο περίπτωσης παραμένουν ουσιαστικές, επειδή το καθένα από τα CKD, τον κίνδυνο ASCVD και το SLE έχει το δικό του σύστημα βαθμολόγησης που πρέπει να επικαλεστεί η μηχανή (στάδιο KDIGO, 10ετής κίνδυνος ASCVD, και κριτήρια 2019 EULAR/ACR για SLE αντίστοιχα).

V11 Δεύτερη Ενημέρωση — 100.000 συνθετικά περιστατικά σε 127 ετικέτες χωρών

Η Δεύτερη Ενημέρωση αντικαθιστά το αρχικό V11 hard-coded 15-περιστατικών Python literal με ένα μεγαλύτερο, προγραμματικά παραγόμενο σύνολο συνθετικών περιστατικών. Το σύνολο περιστατικών φορτώνεται στην αρχή κάθε εκτέλεσης και η διαμόρφωση καταγράφεται για διαφάνεια. Η κατανομή της συλλογής ανά θεματική ενότητα παρουσιάζεται παρακάτω.

Ενδοκρινολογία 23.900 περιπτώσεις (23,9%) Θυρεοειδής, PCOS, βιταμίνη D, γοναδικός άξονας, υπόφυση

Μεταβολική ιατρική 21.900 περιπτώσεις (21,9%) T2DM, μεταβολικό σύνδρομο, λιπιδικά προφίλ, υπερουριχαιμία

Αιματολογία 15.400 περιπτώσεις (15,4%) Διαφορικές μικροκυτταρικές και μακροκυτταρικές, B12/φυλλικό οξύ, μελέτες σιδήρου

Ηπατολογία 12.400 περιπτώσεις (12,4%) NAFLD/NASH, ιογενής ηπατίτιδα, FIB-4, χολόσταση

Εσωτερική παθολογία (συμπλ. υποσύνολο trap) 9.000 περιπτώσεις (9,0%) Μικτές κλινικές παρουσιάσεις και 8.723 εξειδικευμένες περιπτώσεις παγίδας υπερ-διάγνωσης

Καρδιολογία 7.500 περιπτώσεις (7,5%) Κίνδυνος ASCVD, αθηρογόνος δυσλιπιδαιμία, hs-CRP

Ρευματολογία 6.000 περιπτώσεις (6,0%) SLE, ΡΑ, αγγειίτιδα, πάνελ αυτοαντισωμάτων (κριτήρια EULAR/ACR)

Νεφρολογία 4.000 περιπτώσεις (4,0%) Στάδιο CKD (KDIGO), τάσεις eGFR, διαταραχές ηλεκτρολυτών

Κατανομή συνθετικών ετικετών χωρών — κορυφαίες 10 ετικέτες

Οι 100.000 συνθετικές περιπτώσεις φέρουν 127 ετικέτες χωρών (ISO 3166-1 alpha-2) για να δοκιμαστεί ο χειρισμός locale. Ανάθεση ετικέτας: Ευρώπη 57,7%, οι Αμερικές 25,4%, Ασία-Ειρηνικός 6,2%, ονομασμένες ετικέτες Μέση Ανατολή/Αφρική 3,4% και μια «μακριά ουρά» 97 επιπλέον ετικετών περίπου 7,3% συνολικά. Οι δέκα πιο συχνές ετικέτες ανά πλήθος περιστατικών είναι οι Ηνωμένες Πολιτείες (10.500), η Βραζιλία (9.500), η Ισπανία (9.000), η Ιταλία (8.000), η Γερμανία (7.800), η Γαλλία (7.400), η Πορτογαλία (5.800), η Türkiye (3.400), το Ηνωμένο Βασίλειο (2.900) και το Μεξικό (2.500). Οι ανά-ετικέτα σύνθετες βαθμολογίες κυμάνθηκαν από 0,9971 έως 0,9985. Αυτά τα πλήθη ετικετών είναι ιδιότητες των παραγόμενων περιπτώσεων που χρησιμοποιούνται για να δοκιμαστεί ο χειρισμός locale — δεν είναι πραγματικοί χρήστες και δεν αντιπροσωπεύουν πραγματική γεωγραφική κάλυψη.

Η προεγγεγραμμένη βαθμολογική κλίμακα, εξηγημένη

Η προ-εγγραφή είναι η πιο σημαντική μεθοδολογική επιλογή σε αυτό το benchmark. Κάθε αναμενόμενη διάγνωση, κάθε κλινικό σύστημα βαθμολόγησης και κάθε ενότητα κάθε αναφοράς δεσμεύτηκαν σε κώδικα πηγής πριν κληθεί η μηχανή. Η εκ των υστέρων (post-hoc) προσαρμογή του rubric για να κολακεύει τη μηχανή είναι επομένως αδύνατη.

Τρία στοιχεία συνθέτουν τη σύνθετη βαθμολογία. Το δομικό στοιχείο συνεισφέρει 35 τοις εκατό και μετρά αν η μηχανή επέστρεψε τις επτά υποχρεωτικές ενότητες της αναφοράς (κεφαλίδα, σύνοψη, βασικά ευρήματα, διαφορική, συστήματα βαθμολόγησης, συστάσεις, παρακολούθηση) και τις δεκαέξι υποχρεωτικές υποενότητες μέσα σε αυτές. Η παρουσία ενότητας ζυγίζει 40 τοις εκατό και η παρουσία υποενότητας ζυγίζει 60 τοις εκατό μέσα στον δομικό υπολογισμό.

Ο το κλινικό στοιχείο συνεισφέρει 55 τοις εκατό και συνδυάζει τρία πράγματα: ανάκληση διάγνωσης-λέξης-κλειδιού (70 τοις εκατό του κλινικού υπο-σκορ), ανάκληση συστήματος βαθμολόγησης (20 τοις εκατό — η μηχανή υπολογίζει Mentzer, FIB-4, HOMA-IR, κίνδυνο ASCVD, στάδιο KDIGO, κριτήρια EULAR/ACR όπου είναι σχετικό), και έναν έλεγχο εγκυρότητας αθροίσματος πιθανοτήτων (10 τοις εκατό — οι πιθανότητες της διαφορικής πρέπει να αθροίζουν εντός του διαστήματος [90, 110]). Για περιπτώσεις παγίδας, αφαιρείται μια ρητή ποινή υπερ-διάγνωσης έως 0.30, υπολογισμένη ως 0.10 ανά κατασκευασμένη σημαία παθολογίας, με ανώτατο όριο τρεις σημαίες.

Ο το στοιχείο λανθάνουσας απόκρισης (latency) συνεισφέρει 10 τοις εκατό. Μια απόκριση κάτω από 20 δευτερόλεπτα κερδίζει το πλήρες 0.10, μια απόκριση κάτω από 40 δευτερόλεπτα κερδίζει 0.05, και οτιδήποτε πιο αργό κερδίζει μηδέν. Ο στόχος των 20 δευτερολέπτων αντανακλά τον πρωτεύοντα στόχο υπηρεσίας παραγωγής για primary-path· το ανώτατο όριο των 40 δευτερολέπτων αντανακλά τον προϋπολογισμό εναλλακτικής λύσης (fallback) για βαριές κλήσεις της μηχανής στη Φάση 2.

Τι αποτρέπει η προ-εγγραφή

Τα benchmarks πρώτου φορέα είναι διαβόητα για τον διογκωμένο αριθμό τους μέσω εκ των υστέρων (post-hoc) προσαρμογής του rubric. Το μοτίβο είναι σχεδόν πάντα το ίδιο: η ομάδα τρέχει τη μηχανή, βλέπει πού υποαποδίδει, και μετά προσαρμόζει αθόρυβα το rubric ώστε οι περιοχές που υποαποδίδουν να μετρούν λιγότερο. Με το να δεσμεύσεις το rubric σε κώδικα πηγής πριν από την πρώτη κλήση της μηχανής και να δημοσιεύσεις το harness με άδεια MIT, αυτή η προσαρμογή γίνεται ορατή στον έλεγχο εκδόσεων. Ο καθένας μπορεί να κάνει clone το αποθετήριο, να ελέγξει τις ημερομηνίες συγγραφής του rubric και να επαληθεύσει ότι τα αποτελέσματα της μηχανής δεν χρησιμοποιήθηκαν για να διαμορφώσουν τη βαθμολόγηση.

Περιπτώσεις παγίδας υπερδιάγνωσης — γιατί η υπερβολική κλήση είναι η πραγματική λειτουργική αποτυχία

Η επιθετική υπερ-ονομασία παθολογίας σε φυσιολογικές οθόνες είναι ένα τεκμηριωμένο μοτίβο αποτυχίας ιατρικών βοηθών που απευθύνονται σε καταναλωτές. Το κόστος της στην πορεία περιλαμβάνει περιττές διερευνήσεις, άγχος ασθενούς και ιατρογενή διερεύνηση. Οι δύο περιπτώσεις παγίδας σε αυτό το benchmark έχουν σχεδιαστεί για να κάνουν αυτό το μοτίβο ορατό και βαθμολογήσιμο.

🟡 Παγίδα 1 — BT-014-GILBERT

Παρουσίαση. Ένας 24χρονος άνδρας με ολική χολερυθρίνη 2.4 mg/dL. Το άμεσο κλάσμα είναι φυσιολογικό, οι τρανσαμινάσες και η αλκαλική φωσφατάση βρίσκονται εντός των αντίστοιχων τιμών αναφοράς, οι δικτυοερυθροκύτταροι δεν παρουσιάζουν κάτι αξιοσημείωτο και η απτοσφαιρίνη και η LDH αποκλείουν την αιμόλυση.

Σωστή ερμηνεία. Σύνδρομο Gilbert — μια καλοήθης πολυμορφία UGT1A1. Η ερμηνεία δεν πρέπει να επικαλείται ηπατίτιδα, κίρρωση, αιμολυτική αναιμία ή απόφραξη των χοληφόρων.

Αποτέλεσμα V11. Σύνθετο 1.000. Καμία από τις έξι παρακολουθούμενες σημαίες υπερ-διάγνωσης δεν εμφανίστηκε ως ενεργή διάγνωση.

🟡 Παγίδα 2 — BT-015-HEALTHY

Παρουσίαση. Μια 35χρονη γυναίκα με μια ρουτίνα πάνελ προσυμπτωματικού ελέγχου δεκαπέντε παραμέτρων. Κάθε αναλυτής βρίσκεται άνετα εντός του αντίστοιχου εύρους αναφοράς.

Σωστή ερμηνεία. Διαβεβαίωση και διατήρηση τρόπου ζωής. Η ερμηνεία δεν πρέπει να κατασκευάζει οριακή παθολογία για να φαίνεται κλινικά χρήσιμη.

Αποτέλεσμα V11. Σύνθετο 1.000. Κανένας από τους επτά δείκτες υπερδιάγνωσης που παρακολουθήθηκαν — διαβήτης, αναιμία, υποθυρεοειδισμός, δυσλιπιδαιμία, ηπατίτιδα, νεφρική νόσος, έλλειψη — δεν εμφανίστηκε ως ενεργή διάγνωση.

Και στις δύο παγίδες ελέγχθηκαν δεκατρείς δείκτες υπερδιάγνωσης που παρακολουθήθηκαν. Κανένας δεν ενεργοποιήθηκε. Αυτό είναι το αποτέλεσμα που έχει τη μεγαλύτερη σημασία για κάθε κλινικό που σκέφτεται να χρησιμοποιήσει μια μηχανή AI ως εργαλείο διαλογής ή προ-διαβούλευσης: το σύστημα δεν επινόησε νόσο εκεί όπου δεν υπήρχε.

Δείκτης Mentzer: διαχωρισμός της ανεπάρκειας σιδήρου από το χαρακτηριστικό της θαλασσαιμίας

Ένα δεύτερο εύρημα υψηλής αξίας αφορά τη σύζευξη της περίπτωσης BT-001 (σιδηροπενική αναιμία) με την περίπτωση BT-007 (β-μεσογειακή αναιμία, ελάσσων). Και οι δύο παρουσιάζουν μικροκυττάρωση και αποτελούν ένα καλά γνωστό σκόπελο για αφελείς ταξινομητές. Ο δείκτης Mentzer, που υπολογίζεται ως MCV διαιρούμενο με τον αριθμό RBC, υπερβαίνει το 13 στη σιδηροπενία και πέφτει κάτω από το 13 στη μεσογειακή ιδιότητα.

Στο BT-001, η ασθενής ήταν γυναίκα 34 ετών με αιμοσφαιρίνη 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, φερριτίνη 6 ng/mL και αυξημένο TIBC. Ο δείκτης Mentzer περίπου 17,7 υποστηρίζει απόλυτη σιδηροπενία. Στο BT-007, ο ασθενής ήταν άνδρας 28 ετών με μικροκυττάρωση (MCV 65,8 fL) αλλά υψηλό αριθμό RBC 6,2, φυσιολογικό RDW, φυσιολογική φερριτίνη και HbA2 5,6 τοις εκατό. Ο δείκτης Mentzer περίπου 10,6 δείχνει μεσογειακή ιδιότητα και η αυξημένη HbA2 επιβεβαιώνει β-μεσογειακή αναιμία, ελάσσων.

Σιδηροπενική αναιμία Mentzer > 13 Χαμηλή φερριτίνη, χαμηλό TSAT, υψηλό TIBC, αυξημένο RDW

Β-μεσογειακή αναιμία, ελάσσων Mentzer < 13 Φυσιολογική φερριτίνη, φυσιολογικό RDW, αυξημένη HbA2 (>3,5%), υψηλός αριθμός RBC

Και οι δύο περιπτώσεις σημείωσαν 1.000. Η μηχανή χρησιμοποίησε ρητά τον δείκτη Mentzer και στις δύο ερμηνείες και επέστρεψε τη σωστή διάγνωση σε κάθε περίπτωση. Αυτό είναι το μοναδικό αποτέλεσμα με τη μεγαλύτερη κλινική καθησυχαστικότητα σε ολόκληρο το benchmark, επειδή η λανθασμένη ταξινόμηση της μεσογειακής αναιμίας, ελάσσων, ως σιδηροπενίας οδηγεί σε ακατάλληλη χορήγηση σιδήρου και σε χαμένες ευκαιρίες οικογενειακού ελέγχου, ενώ η λανθασμένη ταξινόμηση της σιδηροπενίας ως μεσογειακής αναιμίας καθυστερεί την απλή θεραπευτική αντικατάσταση. Το δικό μας οδηγός για το εύρος φερριτίνης εξηγεί το ευρύτερο διαφορικό πλαίσιο.

Αποτελέσματα ανά περίπτωση από την αρχική αναφορά V11 (23 Απριλίου 2026)

Η αρχική αναφορά V11 στην κοόρτη απόδειξης-εννοίας 15 περιπτώσεων χρησιμεύει ως η μεθοδολογική βάση της Second Update: κάθε λεπτομέρεια ανά περίπτωση παρακάτω δείχνει πώς το κριτήριο χειρίζεται μια πραγματική απόκριση μηχανής. Δώδεκα από τις δεκαπέντε περιπτώσεις πέτυχαν το ανώτατο σύνθετο σκορ 1.000 στην κύρια διαδρομή· τρεις περιπτώσεις εξυπηρετήθηκαν μέσω του εναλλακτικού μηχανισμού Phase 2, χάνοντας το μπόνους καθυστέρησης 0.05 ενώ διατηρώντας όλο το κλινικό και δομικό περιεχόμενο. Μία περίπτωση έλειπε από μία μόνο υποχρεωτική υποενότητα· μία επέστρεψε ένα οριακά μειωμένο άθροισμα της κατανομής πιθανοτήτων.

Κωδικός περίπτωσης Ειδικότητα Σύνθετος Καθυστέρηση Διαδρομή

BT-001-IDAΑιματολογία1.00017,8 sπρωτεύουσα

BT-006-B12Αιματολογία1.00018,4 δευτ.πρωτεύουσα

BT-007-THALΑιματολογία1.00017,0 δευτ.πρωτεύουσα

BT-002-HASHΕνδοκρινολογία0.95037,0 δευτ.εναλλακτική λύση

BT-008-PCOSΕνδοκρινολογία0.98718,6 δευτ.πρωτεύουσα

BT-003-T2DMΜεταβολικός1.00019,1 δευτ.πρωτεύουσα

BT-013-GOUTΜεταβολικός1.00019,4 δευτ.πρωτεύουσα

BT-004-NAFLDΗπατολογία1.00019,6 δευτ.πρωτεύουσα

BT-009-VIRHEPΗπατολογία0.95023,4 δευτ.εναλλακτική λύση

BT-014-GILBERTΠαγίδα1.00018,9 δευτ.πρωτεύουσα

BT-005-CKDΝεφρολογία1.00017,4 δευτ.πρωτεύουσα

BT-010-ASCVDΚαρδιολογία1.00019,7 δευτ.πρωτεύουσα

BT-011-SLEΡευματολογία0.98118,2 δευτ.πρωτεύουσα

BT-012-VITDΕνδοκρινολογία1.00019,3 δευτ.πρωτεύουσα

BT-015-HEALTHYΠαγίδα1.00018,7 δευτ.εναλλακτική λύση

Η περίπτωση PCOS (BT-008) έχασε μία μόνο υποχρεωτική υποενότητα στη δομή της απόκρισης — δεκαπέντε από δεκαέξι αντί για δεκαέξι από δεκαέξι — γεγονός που μείωσε τη δομική βαθμολογία από 1,000 σε 0,963. Η περίπτωση SLE (BT-011) επέστρεψε ένα οριακά μειωμένο άθροισμα πιθανοκατανομών που μείωσε τη κλινική βαθμολογία σε 0,965, ενώ διατήρησε κάθε διαγνωστική λέξη-κλειδί και το σύστημα βαθμολόγησης. Καμία από τις δύο περιπτώσεις που δεν ήταν τέλειες δεν έχασε μια σωστή διάγνωση.

Συγκεντρωτικό σκορ V11 Second Update — 100.000 περιπτώσεις

Σε κλίμακα πληθυσμού, οι μεμονωμένες γραμμές περιστατικών δεν είναι αναγνώσιμες από άνθρωπο, οπότε η Δεύτερη Ενημέρωση αναφέρει συγκεντρωτικούς δείκτες αντί για έναν πίνακα 100.000 γραμμών. Η βασική συγκεντρωτική τιμή εμφανίζεται παρακάτω· οι αναλύσεις ανά ειδικότητα και ανά ετικέτα χώρας δημοσιεύονται στην τεχνική αναφορά και στην κατάθεση Figshare. Ένα στρωματοποιημένο τυχαίο δείγμα των n = 201 ακατέργαστων αποκρίσεων της μηχανής (ντετερμινιστικός σπόρος 20260426) δημοσιεύεται στον κατάλογο GitHub results/ για επιθεώρηση.

Σύνθετος βαθμός Αρχικό V11: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 σε όλη την κοόρτη 100.000 περιπτώσεων

Δομικός βαθμός (μέσος όρος) Αρχικό V11: 0.998 → Second Update: 1.000 Τέλεια συμμόρφωση δομής σε κλίμακα πληθυσμού

Κλινικός βαθμός (μέσος όρος) Αρχικό V11: 0.998 → Second Update: 0.996 −0.002· καμία περίπτωση δεν έχασε την ίδια τη διάγνωση

Καθυστέρηση — μέσος όρος (εύρος) Αρχική έκδοση V11: 20,17 δευτ. (17,0–37,0 δευτ.) → Δεύτερη ενημέρωση: 13,26 δευτ. (9,0–16,94 δευτ.) Βελτιστοποιήσεις της μηχανής παραγωγής μεταξύ των εκτελέσεων

Διαδρομή μηχανής = πρωτεύουσα Αρχική έκδοση V11: 12 / 15 → Δεύτερη ενημέρωση: 100,000 / 100,000 Δεν χρειάστηκε εναλλακτική λύση για Φάση 2 σε κανένα σημείο κατά τη διάρκεια της εκτέλεσης

Σημαίες υπερ-διάγνωσης για υποσύνολο παγίδων Αρχική έκδοση V11: 0 / 13 → Δεύτερη ενημέρωση: 0 / 87,412 Μηδενικά ψευδώς θετικά σε κλίμακα πληθυσμού (8.723 περιπτώσεις παγίδων παρακολουθήθηκαν)

Τι δεν μας λέει η βαθμολογία τίτλου

Μια σύνθετη βαθμολογία 99,80 τοις εκατό στο συγκεκριμένο προ-καταχωρισμένο πλαίσιο αξιολόγησης, σε μια συνθετική συλλογή 100.000 περιστατικών που καλύπτει 127 ετικέτες χωρών, αντιπροσωπεύει απόδοση σχεδόν στο ανώτατο όριο — αλλά αξίζει προσεκτική πλαισίωση. Το αποτέλεσμα περιγράφει τη συμπεριφορά του κινητήρα έναντι του πλαισίου αξιολόγησης στο οποίο δεσμευτήκαμε στον πηγαίο κώδικα στο V11· δεν αποτελεί καθολική αξίωση για την ορθότητά του σε κάθε πίνακα αιματολογικών εξετάσεων που υπάρχει στον πραγματικό κόσμο.

Η βαθμολογία λέει ότι η μηχανή χειρίστηκε σωστά τα διαγνωστικά μοτίβα που επιλέχθηκαν για αυτήν την αξιολόγηση σε μια κοόρτη κλίμακας πληθυσμού, με μια μεθοδολογία που δημοσιεύεται και είναι αναπαραγώγιμη. Δεν λέει ότι η μηχανή είναι σωστή σε κάθε πίνακα εξετάσεων αίματος που υπάρχει στην πράξη. Δεν λέει ότι η μηχανή πρέπει να αντικαταστήσει την κλινική κρίση. Και δεν λέει ότι η μηχανή υπερέχει έναντι εναλλακτικών συστημάτων AI — συγκριτικές αναλύσεις με άλλες μηχανές ήταν σκόπιμα εκτός πεδίου για αυτήν την αναφορά.

Αυτό που αποδεικνύει η βαθμολογία είναι μια βασική γραμμή. Με τη μεθοδολογία και το εργαλείο δοκιμών να είναι δημόσια, οι μελλοντικές εκδόσεις της μηχανής μπορούν να αξιολογηθούν έναντι της ίδιας μεθοδολογίας — εφαρμοσμένη στις αρχικές 15 περιπτώσεις της V11, στην κοόρτη 100.000 περιπτώσεων της Δεύτερης Ενημέρωσης ή σε οποιαδήποτε επακόλουθη επέκταση — και το χάσμα μεταξύ της δημοσιευμένης βαθμολογίας και οποιασδήποτε μεταγενέστερης εκτέλεσης είναι από μόνο του μετρήσιμο. Αυτή είναι η αξία της προεγγραφής: μετατρέπει τους ισχυρισμούς απόδοσης σε ελέγξιμους ισχυρισμούς.

Πώς να αναπαράγετε αυτό το benchmark σε 10 λεπτά

Η αναπαραγωγή απαιτεί μόνο ένα ζεύγος διαπιστευτηρίων API Kantesti και ένα περιβάλλον Python 3.10 ή νεότερο με το requests και reportlab εγκατεστημένες βιβλιοθήκες. Το πλήρες εργαλείο δοκιμής είναι ένα ενιαίο, αυτόνομο Python module που κυκλοφορεί με άδεια MIT.

💻 GitHub Εργαλείο δοκιμής με άδεια MIT · ακατέργαστες αποκρίσεις · αναφορά εκτέλεσης 🔗 DOI στο Figshare 10.6084/m9.figshare.32095435 · κανονική ακαδημαϊκή καταγραφή 🎓 Πύλη Έρευνας Δημοσίευση 404175463 · V11 Δεύτερη Ενημέρωση · ακαδημαϊκό επίπεδο ανακάλυψης 📄 Academia.edu Εργασία 165956808 · V11 Δεύτερη Ενημέρωση · ακαδημαϊκό επίπεδο ανακάλυψης

Τέσσερα βήματα για μια νέα εκτέλεση

Ένα. Κλωνοποιήστε το αποθετήριο: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Δύο. Εγκαταστήστε τις εξαρτήσεις με pip install -r requirements.txt (Η Δεύτερη Ενημέρωση προσθέτει mysql-connector-python ≥ 8.0 για τον SQL case loader). Τρία. Ορίστε KANTESTI_USERNAME και KANTESTI_PASSWORD ως μεταβλητές περιβάλλοντος για το API της μηχανής. Για τον SQL case loader της Δεύτερης Ενημέρωσης, ορίστε επίσης KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, και KANTESTI_DB_PASSWORD — ο φορτωτής συνδέεται μέσω ενός ρόλου μόνο για ανάγνωση (bench_reader) που δεν έχει δικαιώματα για τον εντοπισμό πινάκων. Τέσσερα. Εκτελέστε python benchmark_bloodtest.py --limit 100000 για την πλήρη εκτέλεση Second-Update, ή python benchmark_bloodtest.py --limit 1000 για γρήγορη επανάληψη. Τα αποτελέσματα εξάγονται στο ./benchmark_results/: ένα CSV scorecard με στήλες ανά ετικέτα χώρας και ανά ειδικότητα, ένα JSON συγκεντρωτικό, ένα στρωματοποιημένο-τυχαίο δείγμα ακατέργαστων αποκρίσεων και μια αναφορά σε Markdown.

Οι αναφορικές εκτελέσεις από 23 Απριλίου 2026 (V11 αρχική, 15 περιπτώσεις) και 26 Απριλίου 2026 (V11 Second Update, 100,000 περιπτώσεις) διατηρούνται στον results/ κατάλογο του αποθετηρίου. Μια νέα εκτέλεση θα δημιουργήσει ένα νέο scorecard με χρονική σήμανση, αφήνοντας τις αναφορικές εκτελέσεις ανέγγιχτες. Αν η εκτέλεσή σας παράγει ουσιωδώς διαφορετικό αποτέλεσμα, παρακαλούμε ανοίξτε ένα GitHub issue με τη χρονική σήμανση της εκτέλεσης και την έκδοση του engine που επιστρέφεται στα μεταδεδομένα απόκρισης.

Περιορισμοί και μελλοντική εργασία

Ακόμη και σε 100.000 περιπτώσεις με 127 ετικέτες χωρών, τέσσερις περιορισμοί αξίζουν ρητή αναγνώριση: υποδειγματοληψία της «μακριάς ουράς» ετικετών, αξιολόγηση μίας λήψης, περιορισμένο πεδίο σε έναν μόνο κινητήρα και προέλευση δεδομένων από μία μόνο πηγή. Αντιμετωπίζονται σε ενεργή εργασία παρακολούθησης.

Κάλυψη ετικετών «μακριάς ουράς». Η Δεύτερη Ενημέρωση καλύπτει 127 ετικέτες χωρών, αλλά η κατανομή είναι μη ισορροπημένη — οι κορυφαίες 10 ετικέτες αντιστοιχούν σε ≈66,4% των περιπτώσεων, και η «μακριά ουρά» των 97 επιπλέον ετικετών συνεισφέρει ≈7,3% (περίπου 7.300 περιπτώσεις συνολικά, ~75 περιπτώσεις ανά ετικέτα κατά μέσο όρο). Επομένως, τα ανά-ετικέτα composites σε αυτή τη «μακριά ουρά» είναι πιο θορυβώδη από ό,τι υποδηλώνουν οι βασικές τιμές. Οι μελλοντικές εκτελέσεις θα επαναζυγίσουν την ανάθεση ετικετών για να σταθεροποιηθούν οι εκτιμήσεις ανά ετικέτα.

Αξιολόγηση μίας λήψης. Κάθε περίπτωση στο δείγμα αξιολογήθηκε μία φορά. Τα μεγάλα γλωσσικά μοντέλα παρουσιάζουν μη ασήμαντη διακύμανση εξόδου ακόμη και σε χαμηλή θερμοκρασία δειγματοληψίας, οπότε ένα πρωτόκολλο πολλαπλών εκτελέσεων με πέντε αξιολογήσεις ανά περίπτωση και αναφερόμενη διακύμανση είναι το φυσικό επόμενο βήμα — ιδιαίτερα στο υποσύνολο των trap-cases, όπου η συνέπεια υπό «jitter» δειγματοληψίας αποτελεί μέρος της αξίωσης ασφάλειας.

Πεδίο ενός μόνο engine. Η παρούσα αναφορά περιγράφει ένα μόνο engine. Συγκριτικές αναλύσεις έναντι εναλλακτικών συστημάτων AI δεν εμπίπτουν στο πεδίο εφαρμογής εδώ· ενδέχεται να τις επιδιώξουμε ως ξεχωριστή ανεξάρτητη μελέτη με κατάλληλη μεθοδολογία, έναντι του ίδιου harness με άδεια MIT.

Συνθετικά δεδομένα. Τα 100.000 περιστατικά παράγονται συνθετικά, όχι «συνθετικά περιστατικά», και τα αποτελέσματα δεν μεταφέρονται στην πραγματική κλινική απόδοση. Η αξιολόγηση σε πραγματικά, με συναίνεση, δεδομένα που προέρχονται εξωτερικά θα απαιτούσε κατάλληλη ηθική εποπτεία και δεν εμπίπτει στο αντικείμενο αυτής της συνθετικής δοκιμής αναφοράς.

Πέρα από αυτούς τους τέσσερις, η πιο σημαντική προγραμματισμένη επέκταση είναι η ισοτιμία πολλών γλωσσών ανά δικαιοδοσία. Το Kantesti AI Engine εξυπηρετεί χρήστες σε 75+ γλώσσες, και η εκτέλεση στρωματοποιημένων υπο-συνόλων Second-Update ανά γλώσσα (Τουρκικά, Γερμανικά, Ισπανικά, Γαλλικά, Ιταλικά, Πορτογαλικά, Αραβικά, Μανδαρινικά) θα ποσοτικοποιήσει την ποιότητα εξόδου σε όλες τις υποστηριζόμενες γλώσσες του engine. Κάθε ανάλυση στρωματοποιημένη ανά γλώσσα θα δημοσιευθεί με το δικό της DOI και branch του harness.

Δοκιμάστε το ίδιο Engine που πέτυχε σύνθετο σκορ 99.80% σε 100,000 περιπτώσεις

Ανεβάστε τον δικό σας πίνακα εξετάσεων αίματος στο ίδιο τελικό σημείο παραγωγής που αξιολογήθηκε σε αυτό το benchmark. Πάνω από 2 εκατομμύρια χρήστες παγκοσμίως χρησιμοποιούν τη μηχανή AI Kantesti για να ερμηνεύουν πάνω από 15.000 βιοδείκτες σε 75+ γλώσσες.

🔬 Δοκιμάστε τη δωρεάν επίδειξη

Επέκταση Chrome App Store Google Play

📚 Πώς να παραθέσετε αυτό το benchmark

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Μια Προ-Καταχωρισμένη, Βασισμένη σε Ρουμπρίκα Αυτοματοποιημένη Τεχνική Δοκιμή Απόδοσης του Μηχανισμού Ερμηνείας Αιματολογικών Εξετάσεων Kantesti σε 100.000 Συνθετικές Δοκιμαστικές Περιπτώσεις — V11 Δεύτερη Ενημέρωση (Τεχνική Αναφορά V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Εξωτερικές μεθοδολογικές αναφορές

Mentzer, W. C. (1973). Διαφοροποίηση της ανεπάρκειας σιδήρου από το χαρακτηριστικό της θαλασσαιμίας. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Κριτήρια ταξινόμησης για συστηματικό ερυθηματώδη λύκο: Ευρωπαϊκός Σύνδεσμος κατά του Ρευματισμού (EULAR) / Αμερικανικό Κολλέγιο Ρευματολογίας (ACR) 2019. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Δοκιμή ψευδαίσθησης ιατρικού πεδίου για μεγάλα γλωσσικά μοντέλα. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Σύνθετη βαθμολογία

100,000Περιπτώσεις με βαθμολόγηση

127Ετικέτες χωρών που καλύπτονται

0 / 87,412Ψευδώς θετικά της παγίδας

Συχνές Ερωτήσεις

Πόσο ακριβής είναι η μηχανή τεχνητής νοημοσύνης Kantesti σε συνθετικές δοκιμαστικές περιπτώσεις;

Σε μια προ-καταχωρισμένη ρουμπρίκα, εκτελεσμένη σε 100.000 συνθετικά παραγόμενες δοκιμαστικές περιπτώσεις σε οκτώ θεματικές ενότητες περιεχομένου και 127 ετικέτες χωρών (V11 Δεύτερη Ενημέρωση), ο μηχανισμός πέτυχε σύνθετη βαθμολογία 99,80 τοις εκατό, με μηδενικές σημαίες υπερδιάγνωσης σε 87.412 ευκαιρίες παγίδων που παρακολουθήθηκαν και μέση καθυστέρηση απόκρισης 13,26 δευτερόλεπτα. Αυτή η σύνθετη βαθμολογία μετρά τη συμμόρφωση εξόδου σε συνθετικές εισόδους, όχι τη διαγνωστική ακρίβεια. Η αρχική κυκλοφορία V11 εφάρμοσε την ίδια ρουμπρίκα σε 15 χειροποίητες περιπτώσεις (σύνθετη 99,12%)· η Δεύτερη Ενημέρωση διατηρεί την ρουμπρίκα ταυτόσημη σε επίπεδο byte και την επεκτείνει σε μεγαλύτερο συνθετικό σύνολο. Η πλήρης κάρτα βαθμολογίας δημοσιεύεται στο Figshare με DOI 10.6084/m9.figshare.32095435 και στο GitHub με άδεια MIT.

Έχει κλινικά επικυρωθεί η μηχανή AI Kantesti;

Όχι. Ο κινητήρας έχει αξιολογηθεί με ένα αυτοματοποιημένο τεχνικό benchmark (όχι κλινική επικύρωση), έναντι μιας ρουμπρίκας που «πάγωσε» στον πηγαίο κώδικα πριν από την αρχική εκτέλεση V11 και παρέμεινε byte-ταυτόσημη για τη Δεύτερη Ενημέρωση V11, αξιολογημένη σε 100.000 συνθετικά περιστατικά αιματολογικής εξέτασης σε αιματολογία, ενδοκρινολογία, μεταβολική ιατρική, ηπατολογία, νεφρολογία, καρδιολογία, ρευματολογία και εσωτερική παθολογία, που προέρχονται από 127 ετικέτες χωρών. Η κλινική εποπτεία παρείχε ο Δρ. Thomas Klein, MD (ORCID 0009-0009-1490-1321), πιστοποιημένος από το συμβούλιο κλινικός αιματολόγος και Chief Medical Officer στην Kantesti AI.

Τι είναι μια περίπτωση παγίδας υπερδιάγνωσης;

Μια περίπτωση παγίδας υπερδιάγνωσης είναι ένα κλινικό σενάριο που σχεδιάζεται ειδικά για να ανιχνεύει συμπεριφορά υπερδιάγνωσης σε μηχανές AI. Το αρχικό benchmark V11 χρησιμοποίησε δύο τέτοιες περιπτώσεις ως μεθοδολογική απόδειξη εννοιολογικής λειτουργίας: μια απομονωμένη έμμεση υπερβιλιρυθριναιμία συμβατή με το σύνδρομο Gilbert (όπου η σωστή ερμηνεία είναι η καλοήθης πολυμορφία UGT1A1 και όχι ηπατίτιδα ή αιμόλυση) και ένα πλήρως φυσιολογικό ενήλικο προληπτικό πάνελ (όπου το σωστό αποτέλεσμα είναι καθησυχασμός και όχι μια «κατασκευασμένη» οριακή παθολογία). Η Δεύτερη Ενημέρωση V11 κλιμάκωσε αυτή τη μεθοδολογία παγίδας σε ειδικό υποσύνολο 8.723 περιπτώσεων, αποδίδοντας 87.412 ευκαιρίες σηματοδότησης υπερδιάγνωσης υπό παρακολούθηση — και ο ρυθμός ψευδώς θετικών της μηχανής παρέμεινε μηδενικός.

Είναι αναπαραγώγιμη η αξιολόγηση του AI Engine Kantesti;

Το πλήρες πλαίσιο αξιολόγησης (evaluation harness) κυκλοφορεί με την άδεια MIT ως ένα ενιαίο, αυτοτελές αρθρώμα Python. Η αρχική εκτέλεση V11 απαιτεί μόνο ένα ζεύγος διαπιστευτηρίων API της Kantesti και Python 3.10 ή νεότερη. Η Δεύτερη Ενημέρωση V11 προσθέτει έναν παραμετροποιημένο, μόνο-ανάγνωσης φορτωτή περιπτώσεων SQL που απαιτεί διαπιστευτήρια Kantesti κλινικού αποθετηρίου (a bench_reader ρόλος χωρίς δικαιώματα για τον εντοπισμό πινάκων). Ο κώδικας, το SQL του φορτωτή περιπτώσεων, το rubric (byte-identical μεταξύ εκδόσεων) και ένα στρωματοποιημένο τυχαίο δείγμα ακατέργαστων αποκρίσεων της μηχανής και από τις αρχικές εκτελέσεις V11 και από τις αναφορικές εκτελέσεις της Δεύτερης Ενημέρωσης είναι διαθέσιμα στο github.com/emirhanai/kantesti-blood-test-benchmark και αντικατοπτρίζονται στο Figshare, στο ResearchGate και στο Academia.edu.

Πώς το AI Engine Kantesti διαχωρίζει την έλλειψη σιδήρου από το χαρακτηριστικό β-θαλασσαιμίας;

Η μηχανή εφαρμόζει τον δείκτη Mentzer, ο οποίος υπολογίζεται ως ο μέσος όγκος ερυθρών αιμοσφαιρίων (MCV) διαιρούμενος με τον αριθμό ερυθρών αιμοσφαιρίων. Δείκτης Mentzer πάνω από 13 υποστηρίζει σιδηροπενική αναιμία, ενώ τιμή κάτω από 13 υποστηρίζει το χαρακτηριστικό β-θαλασσαιμίας. Στο αρχικό benchmark V11 και οι δύο παρουσιάσεις ταξινομήθηκαν σωστά με ρητό υπολογισμό του δείκτη Mentzer, υποστηριζόμενου από φερριτίνη, RDW και πλαίσιο HbA2. Σε όλη τη Δεύτερη Ενημέρωση V11, στο σύνολο 100.000 περιπτώσεων, η ίδια διαφορική συμπεριφορά διατηρήθηκε σε επίπεδο πληθυσμού.

Πού μπορώ να βρω τα ακατέργαστα δεδομένα συγκριτικής αξιολόγησης και τον πηγαίο κώδικα;

Η τεχνική αναφορά κατατίθεται στο Figshare με DOI 10.6084/m9.figshare.32095435 (καλύπτοντας τόσο την αρχική κυκλοφορία V11 όσο και τη Δεύτερη Ενημέρωση V11), αντικατοπτρίζεται στη δημοσίευση ResearchGate 404175463 και στο άρθρο Academia.edu 165956808 — και τα δύο ενημερωμένα με τον τίτλο της Δεύτερης Ενημέρωσης V11 και τα αποτελέσματα για 100.000 περιπτώσεις — και το πλαίσιο Python με άδεια MIT με όλα τα αποτελέσματα των αναφορικών εκτελέσεων βρίσκεται στο github.com/emirhanai/kantesti-blood-test-benchmark. Το δίκτυο αντικατοπτρισμού τεσσάρων πλατφορμών εξασφαλίζει μακροπρόθεσμη διαθεσιμότητα και ευελιξία παραπομπών.

Γιατί είναι σημαντική η προ-καταχώριση (pre-registration) για τα ιατρικά benchmarks AI;

Η προ-καταχώριση αποτρέπει το «tuning» του rubric εκ των υστέρων (post-hoc), που είναι ο πιο συνηθισμένος τρόπος με τον οποίο τα benchmarks που τρέχουν εταιρείες διογκώνουν τους δικούς τους αριθμούς. Με το να δεσμεύεται το rubric σε πηγαίο κώδικα πριν από οποιαδήποτε κλήση της μηχανής και να δημοσιεύεται ο μηχανισμός αξιολόγησης δημόσια, οι ημερομηνίες του συγγραφέα του rubric γίνονται ελέγξιμες μέσω του συστήματος ελέγχου εκδόσεων, και τα αποτελέσματα της μηχανής δεν μπορούν να έχουν διαμορφώσει τα κριτήρια βαθμολόγησης.

Περιλαμβάνει αυτό το benchmark συγκρίσεις με άλλες μηχανές AI;

Όχι. Η αναφορά V11 — τόσο η αρχική κυκλοφορία όσο και η Δεύτερη Ενημέρωση — περιγράφει σκόπιμα μια μόνο μηχανή έναντι ενός σταθερού rubric, αντί να την τοποθετεί απέναντι σε εναλλακτικά εμπορικά συστήματα. Το harness είναι ανοιχτού κώδικα με άδεια MIT (τώρα συμπεριλαμβάνει τον φορτωτή περιπτώσεων SQL), ώστε ανεξάρτητοι ερευνητές να μπορούν να αξιολογήσουν οποιαδήποτε μηχανή επιλέξουν έναντι του ίδιου rubric και του ίδιου φορτωτή περιπτώσεων και να δημοσιεύσουν τα αποτελέσματά τους.

Είναι οι περιπτώσεις ασθενών πραγματικές ή συνθετικές;

Όλες οι περιπτώσεις είναι συνθετικά παραγόμενες — 15 χειροποίητες περιπτώσεις στην αρχική κυκλοφορία V11 και 100.000 στη Δεύτερη Ενημέρωση. Δεν είναι συνθετικές περιπτώσεις: δεν εμπλέκονται συνθετικά δεδομένα, διαδικασία συγκατάθεσης και απο-ταυτοποίηση, επειδή δεν υπάρχει προσωπικό δεδομένο στο σύνολο. Κανένα προσωπικό δεδομένο δεν εμφανίζεται στο δημοσιευμένο harness, στην τεχνική αναφορά ή στα διαθέσιμα σύνολα δεδομένων που κυκλοφόρησαν.

⚕️ Ιατρική Δήλωση Αποποίησης Ευθύνης & Σύγκρουση Συμφερόντων

Η παρούσα έκθεση benchmark προορίζεται για ερευνητικούς και μεθοδολογικούς λόγους διαφάνειας. Δεν συνιστά ιατρική συμβουλή, δεν αποτελεί διάγνωση και δεν υποκαθιστά την επαγγελματική ιατρική φροντίδα· κανένα αποτέλεσμα εδώ δεν πρέπει να χρησιμοποιηθεί για να καθυστερήσει ή να αποφευχθεί η επίσκεψη σε γιατρό. Να συμβουλεύεστε πάντα έναν κατάλληλα καταρτισμένο πάροχο υγειονομικής περίθαλψης για αποφάσεις σχετικά με τη διάγνωση και τη θεραπεία. Πρόκειται για ένα αυτο-εκτελούμενο εσωτερικό benchmark της ίδιας της μηχανής της εταιρείας και δεν έχει επικυρωθεί ανεξάρτητα ή αξιολογηθεί από ομότιμους. Η σύνθετη βαθμολογία μετρά τη συμμόρφωση με ένα σταθερό σύστημα βαθμολόγησης (δομή αναφοράς, ανάκληση λέξεων-κλειδιών και συστήματος βαθμολόγησης, και καθυστέρηση)· δεν αποτελεί μέτρο πραγματικής διαγνωστικής ακρίβειας ή κλινικής ασφάλειας. Και οι δύο συγγραφείς εργάζονται για την Kantesti Ltd και κατέχουν μετοχική συμμετοχή (equity) σε αυτήν, και η μηχανή που αξιολογείται είναι εμπορικό προϊόν της ίδιας οργάνωσης. Αυτή η σύγκρουση συμφερόντων μετριάζεται με την προ-καταχώριση του συστήματος βαθμολόγησης στον πηγαίο κώδικα, την κυκλοφορία του harness με την άδεια MIT και τη δημοσίευση μιας στρωματοποιημένης τυχαίας δειγματοληψίας ακατέργαστων αποκρίσεων της μηχανής.

Σήματα εμπιστοσύνης E-E-A-T

⭐

Εμπειρία

15+ χρόνια κλινικής πρακτικής στην αιματολογία και στη εργαστηριακή ιατρική, με επίβλεψη της επιλογής του πάνελ περιπτώσεων.

📋

Πραγματογνωμοσύνη

Σχεδιασμός rubric με προ-καταχώριση, με ρητές ποινές για υπερδιάγνωση και αναγνωρισμένα συστήματα κλινικής βαθμολόγησης (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Αυθεντικότητα

Κύριος συγγραφέας Δρ. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Υλοποίηση από τον Julian Emirhan Bulut, CEO της Kantesti Ltd.

🛡️

Αξιοπιστία

Αναπαραγώγιμος μηχανισμός με άδεια MIT, δημοσιευμένες ακατέργαστες αποκρίσεις της μηχανής, ανοιχτή γνωστοποίηση σύγκρουσης συμφερόντων, δίκτυο ερευνητικού αντικατοπτρισμού σε τέσσερις πλατφόρμες.

🏢 Καντέστι ΕΠΕ Καταχωρισμένη στην Αγγλία & Ουαλία · Αρ. Εταιρείας. 17090423 Λονδίνο, Ηνωμένο Βασίλειο · kantesti.net