De ce există acest benchmark și ce testează

Interpretarea asistată de AI a analizelor de sânge este folosită din ce în ce mai mult în fluxuri de lucru pentru consumatori și în cele clinice, însă cadrele de evaluare reproductibile adaptate medicinei de laborator rămân rare. Întrebările care contează cel mai mult în acest context nu sunt cele acoperite de benchmarkurile generale de tip medical question-answering: poate un motor să separe deficitul de fier de trăsătura de talasemie atunci când volumul celular mediu este identic, supra-diagnostichează sindromul Gilbert ca hepatită și produce patologie într-un panou de screening complet normal?

Diagramă de flux a rubricii pre-înregistrate care arată cum este evaluat motorul Kantesti AI față de criterii de notare înghețate
Figura 1: Arhitectura benchmarkului — fiecare caz, fiecare cuvânt-cheie, fiecare sistem de scorare este fixat în codul sursă înainte ca motorul să vadă vreun PDF. Ajustarea grilei post-hoc este imposibilă prin proiectare.

Un singur panou de analize de sânge conține, de obicei, suficient semnal pentru a susține mai multe interpretări concurente, iar rolul clinicianului care interpretează este să le cântărească între ele, nu să caute un răspuns „din manual”. Un motor care se descurcă bine în cazuri tipice din manual poate totuși să eșueze în cazurile care contează cel mai mult: capcanele de diagnostic diferențial, variantele benigne care par alarmante atunci când sunt privite izolat și panourile complet normale care îi ispitește pe asistenții încrezători să „genereze” patologie.

Acest benchmark a fost construit exact în jurul acestor moduri de eșec. Fiecare dintre cele cincisprezece cazuri a fost selectat pentru o anumită proprietate diagnostică: o microcitoză prin deficit de fier care trebuie menținută distinctă de o trăsătură de beta-talasemie cu același volum celular mediu, o prezentare de sindrom Gilbert în care singura anomalie este o hiperbilirubinemie indirectă izolată și un panou de screening cu cincisprezece parametri în care fiecare analit se află în intervalul său de referință. Rubrica recompensează motoarele care citesc fiecare caz în termenii săi și penalizează motoarele care ajung la un diagnostic sigur atunci când un astfel de diagnostic nu este justificat.

În calitate de Thomas Klein, MD, am selectat acest set de cazuri deoarece acestea sunt tiparele pe care le văd cel mai des greșite la asistenții de medicină de laborator. Modul de eșec scump nu este "să ratezi o boală rară" — ci să inventezi patologie de rutină la pacienți care nu o au. Noastre Validare medicală hub descrie cadrul mai larg; această pagină descrie rezultatul său aplicat pe motorul V11.

Cea mai recentă rulare de referință — V11 (aprilie 2026)

Runda de referință din aprilie 2026 a Kantesti AI Engine V11 a produs un scor compozit de 99.12% în rubrica preînregistrată cu cincisprezece cazuri. Ambele cazuri-capcană de hiperdia gnosticare au obținut scorul maxim. Indicele Mentzer a fost aplicat corect în diferențialul deficit de fier versus talasemie.

Compozit 99.12% 15 din 15 cazuri au obținut scor
0.998 Scor structural
0.998 Scor clinic
20.17 s Latență medie
0 / 13 Fals pozitive în capcane

Formula compozită combină trei componente: conformitate structurală cu cele șapte secțiuni obligatorii de raport și cele șaisprezece subsecțiuni obligatorii, acuratețe clinică măsurată ca rechemare pe cuvinte-cheie plus rechemare în sistemul de notare plus o verificare a validității distribuției de probabilitate și latența răspunsului față de ținta principală de nivel de serviciu de 20 de secunde. Descompunerea exactă este prezentată în formula rubricii de mai jos.

Compozit = 0.35 × Structural + 0.55 × Clinic + 0.10 × Latență

Cele 0,88 puncte procentuale rămase de „headroom” se descompun aproape integral în pierdere de latență — trei invocări de fallback pentru Faza 2, fiecare cu câte -0,05 compozit, au contribuit cu aproximativ 0,60 din deficitul de 0,88 puncte — nu în conținut clinic. Motorul nu a ratat niciun diagnostic corect în niciuna dintre cele cincisprezece cazuri; acolo unde a rămas în urmă, a făcut-o prin faptul că a durat ușor mai mult decât ținta principală de 20 de secunde într-o mică minoritate de invocări.

Cincisprezece cazuri din șapte specialități medicale

Panoul de cazuri acoperă șapte specialități — hematologie, endocrinologie, medicină metabolică, hepatologie, nefrologie, cardiologie, reumatologie — plus două cazuri dedicate de „hyperdiagnosis trap”. Fiecare caz este un registru real anonimizat al unui pacient, extras din depozitul de date clinice Kantesti, sub consimțământ informat scris.

Hartă de acoperire a cincisprezece cazuri anonimizate de analize de sânge distribuite între șapte specialități medicale, plus cazuri-capcană de hiperdignostic
Figura 2: Distribuția cazurilor între hematologie, endocrinologie, medicină metabolică, hepatologie, nefrologie, cardiologie, reumatologie, plus două cazuri tip „trap” — sindromul Gilbert și un panou de screening complet normal.

De-identificarea a fost efectuată prin abordarea Safe Harbor: toți identificatorii direcți au fost eliminați sau înlocuiți, iar fiecărui registru i s-a atribuit un cod intern de caz, în formatul BT-NNN-LABEL. Prelucrarea a fost realizată în conformitate cu GDPR articolul 9(2)(j) pentru cercetare științifică, cu măsuri de protecție adecvate, și cu prevederile echivalente din UK GDPR. Nicio informație de identificare personală nu apare nicăieri în dispozitivul publicat, în raportul tehnic sau în seturile de date eliberate.

Hematologie (3) BT-001, BT-006, BT-007 Anemie feriprivă · deficit de B12 · beta-talasemie minoră
Endocrinologie (3) BT-002, BT-008, BT-012 Tiroidită Hashimoto · PCOS cu rezistență la insulină · deficit sever de vitamina D
Metabolic (2) BT-003, BT-013 T2DM cu sindrom metabolic · hiperuricemie cu risc de gută
Hepatologie (2) BT-004, BT-009 NAFLD / NASH · hepatită virală acută
Nefrologie · Cardiologie · Reumatologie (3) BT-005, BT-010, BT-011 Boală cronică de rinichi stadiul 3 · dislipidemie aterogenă · lupus eritematos sistemic
Cazuri tip „trap” (2) BT-014, BT-015 Sindromul Gilbert (hiperbilirubinemie indirectă izolată) · screening complet normal la adult

De ce această distribuție anume

Hematologia primește trei cazuri deoarece diferențialele microcitare și diferențialele macrocitare sunt cele mai mari „capcane” ca volum în practica reală de laborator. Endocrinologia primește trei deoarece prezentările de la Hashimoto, PCOS și deficitul de vitamina D exercită forme diagnostice diferite (determinate de autoanticorpi, determinate de raporturi hormonale, determinate de un singur marker). Specialitățile cu un singur caz rămân totuși relevante deoarece fiecare dintre CKD, riscul ASCVD și SLE are propriul sistem de scor pe care motorul ar trebui să îl invoce (respectiv stadializarea KDIGO, riscul ASCVD pe 10 ani, criteriile 2019 EULAR/ACR pentru SLE).

Rubrica pre-înregistrată, explicată

Înregistrarea prealabilă (pre-registration) este cea mai importantă alegere metodologică din acest benchmark. Fiecare diagnostic așteptat, fiecare sistem de scor clinic și fiecare secțiune de raport au fost angajate în cod sursă înainte ca motorul să fie invocat. Prin urmare, ajustarea post-hoc a rubricii pentru a „îndulci” performanța motorului este imposibilă.

Trei componente alcătuiesc scorul compozit. Componenta structurală contribuie cu 35 la sută și măsoară dacă motorul a returnat cele șapte secțiuni obligatorii ale raportului (header, summary, key findings, differential, scoring systems, recommendations, follow-up) și cele șaisprezece subsecțiuni obligatorii din cadrul acestora. Prezența secțiunilor cântărește 40 la sută, iar prezența subsecțiunilor cântărește 60 la sută în calculul structural.

The componenta clinică contribuie cu 55 la sută și combină trei lucruri: rechemarea (recall) diagnozei pe baza cuvintelor-cheie (70 la sută din subscorul clinic), rechemarea sistemului de scor (20 la sută — dacă motorul calculează Mentzer, FIB-4, HOMA-IR, riscul ASCVD, stadializarea KDIGO, criteriile EULAR/ACR unde este relevant), și o verificare de validitate prin sumă de probabilități (10 la sută — probabilitățile din diferențial ar trebui să însumeze în intervalul [90, 110]). Pentru cazurile-capcană, se scade o penalizare explicită de hiperdia gnoză de până la 0,30, calculată ca 0,10 per indicator de patologie fabricat, plafonată la trei indicatori.

The componenta de latență contribuie cu 10 la sută. Un răspuns sub 20 de secunde primește 0,10 integral, un răspuns sub 40 de secunde primește 0,05, iar orice este mai lent primește zero. Ținta de 20 de secunde reflectă obiectivul de nivel de serviciu (service-level objective) pentru producția primary-path; plafonul de 40 de secunde reflectă bugetul de fallback din Faza 2 pentru invocări grele ale motorului.

Captură de ecran terminală a dispozitivului de benchmark Kantesti, licențiat MIT, care rulează și emite scoruri pe caz
Figura 3: Harness-ul în execuție. Fiecare caz este randat într-un PDF A4, publicat către endpoint-ul de producție v11 și punctat față de rubrica înghețată. Fiecare răspuns brut este păstrat împreună cu scorecard-ul agregat.

Ce previne pre-registration

Benchmark-urile de primă parte sunt notorii pentru umflarea propriilor rezultate prin ajustări post-hoc ale rubricii. Tiparul este aproape întotdeauna același: echipa rulează motorul, vede unde subperform ează, apoi ajustează în liniște rubrica astfel încât zonele care subperform ează să conteze mai puțin. Prin angajarea rubricii în cod sursă înainte de prima invocare a motorului și publicarea harness-ului sub licență MIT, această ajustare devine vizibilă în controlul versiunilor. Oricine poate clona repository-ul, verifica datele de autor ale rubricii și confirma că rezultatele motorului nu au fost folosite pentru a modela scorarea.

Cazuri-capcană de hiperdia gnoză — de ce supraestimarea este modul real de eșec

Apelarea agresivă a patologiei pe ecrane normale este un mod de eșec documentat al asistenților medicali orientați către consumatori. Costurile din aval includ investigații inutile, anxietatea pacientului și evaluare/lucru (workup) iatrogen. Cele două cazuri-capcană din acest benchmark sunt proiectate pentru a face acest mod de eșec vizibil și punctabil.

Comparație alăturată între un AI naiv care inventează hepatită pe un panou pentru sindromul Gilbert și motorul Kantesti care identifică corect polimorfismul benign UGT1A1
Figura 4: Designul cazurilor-capcană. Un motor care etichetează cu încredere sindromul Gilbert ca hepatită sau care fabrică patologie „la limită” pe un ecran complet normal este penalizat — nu recompensat pentru „sunet” clinic.

🟡 Capcana 1 — BT-014-GILBERT

Prezentare. Un bărbat de 24 de ani cu bilirubină totală de 2,4 mg/dL. Fracția directă este normală, transaminazele și fosfataza alcalină se află în intervalele lor de referință, reticulocitele sunt ne remarcabile, iar haptoglobina și LDH exclud hemoliza.

Interpretare corectă. Sindromul Gilbert — o polimorfism UGT1A1 benign. Interpretarea nu ar trebui să invoce hepatită, ciroză, anemie hemolitică sau obstrucție biliară.

Rezultat V11. Compozit 1.000. Niciunul dintre cele șase steaguri monitorizate de supra-diagnosticare nu a apărut ca diagnostic activ.

🟡 Capcana 2 — BT-015-HEALTHY

Prezentare. O femeie de 35 de ani cu un panou de screening de rutină cu cincisprezece parametri. Fiecare analit se află confortabil în intervalul său de referință.

Interpretare corectă. Asigurare și menținerea stilului de viață. Interpretarea nu ar trebui să inventeze o patologie „la limită” pentru a părea utilă clinic.

Rezultat V11. Scor compozit 1.000. Niciuna dintre cele șapte alerte de supra-diagnostic monitorizate — diabet, anemie, hipotiroidism, dislipidemie, hepatită, boală renală, deficit — nu a apărut ca diagnostic activ.

În ambele „capcane”, au fost verificate treisprezece alerte de hiperdia gnostic monitorizate. Niciuna nu a fost declanșată. Acesta este rezultatul care contează cel mai mult pentru orice clinician care ia în considerare utilizarea unui motor AI ca instrument de triere sau pre-consultare: sistemul nu a inventat o boală acolo unde nu exista.

Indicele Mentzer: separarea deficitului de fier de trăsătura talasemiei

O a doua constatare de mare valoare privește asocierea cazului BT-001 (anemie feriprivă) cu cazul BT-007 (beta-talasemie minor). Ambele se prezintă cu microcitoză și reprezintă un obstacol bine-cunoscut pentru clasificatoarele naive. Indicele Mentzer, calculat ca MCV împărțit la numărul de RBC, depășește 13 în deficitul de fier și scade sub 13 în trăsătura talasemiei.

În BT-001, pacientul era o femeie de 34 de ani cu hemoglobină 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritină 6 ng/mL și TIBC crescut. Indicele Mentzer de aproximativ 17,7 susține un deficit absolut de fier. În BT-007, pacientul era un bărbat de 28 de ani cu microcitoză (MCV 65,8 fL), dar cu un număr de RBC crescut de 6,2, RDW normal, feritină normală și HbA2 de 5,6 la sută. Indicele Mentzer de aproximativ 10,6 indică trăsătura talasemiei, iar HbA2 crescut confirmă beta-talasemia minoră.

Anemie feriprivă Mentzer > 13 Feritină scăzută, TSAT scăzut, TIBC crescut, RDW crescut
Trăsătură beta-talasemică Mentzer < 13 Feritină normală, RDW normal, HbA2 crescut (>3,5%), număr crescut de RBC

Ambele cazuri au obținut scorul 1.000. Motorul a invocat explicit indicele Mentzer în ambele interpretări și a returnat diagnosticul corect în fiecare caz. Acesta este singurul rezultat cu cea mai mare liniște clinică din întregul benchmark, deoarece clasificarea greșită a trăsăturii talasemice ca deficit de fier duce la suplimentare neadecvată cu fier și la oportunități ratate de screening familial, iar clasificarea greșită a deficitului de fier ca talasemie întârzie terapia de substituție simplă. Al nostru pentru intervalul de feritină explică contextul mai larg al diagnosticului diferențial.

Rezultate pe caz din rularea din aprilie 2026

Douăsprezece din cincisprezece cazuri au atins scorul compozit maxim de 1.000 pe calea principală. Trei cazuri au fost deservite prin „fallback” din Faza 2, pierzând bonusul de latență de 0,05, dar păstrând tot conținutul clinic și structural. Un caz lipsea o singură subsecțiune obligatorie; unul a returnat o sumă a distribuției de probabilitate ușor redusă.

ID caz Specialitate Compozit Latență Cale
BT-001-IDAHematologie1.00017,8 sprimară
BT-006-B12Hematologie1.00018,4 sprimară
BT-007-THALHematologie1.00017,0 sprimară
BT-002-HASHEndocrinologie0.95037,0 srevenire la varianta de rezervă
BT-008-PCOSEndocrinologie0.98718,6 sprimară
BT-003-T2DMMetabolic1.00019,1 sprimară
BT-013-GOUTMetabolic1.00019,4 sprimară
BT-004-NAFLDHepatologie1.00019,6 sprimară
BT-009-VIRHEPHepatologie0.95023,4 srevenire la varianta de rezervă
BT-014-GILBERTCapcană1.00018,9 sprimară
BT-005-CKDNefrologie1.00017,4 sprimară
BT-010-ASCVDCardiologie1.00019,7 sprimară
BT-011-SLEReumatologie0.98118,2 sprimară
BT-012-VITDEndocrinologie1.00019,3 sprimară
BT-015-SĂNĂTOSCapcană1.00018,7 srevenire la varianta de rezervă

Cazul de PCOS (BT-008) a pierdut o singură subsecțiune obligatorie în structura răspunsului — cincisprezece din șaisprezece în loc de șaisprezece din șaisprezece — ceea ce a redus scorul structural de la 1,000 la 0,963. Cazul de SLE (BT-011) a returnat o sumă a probabilităților ușor redusă, care a coborât scorul clinic la 0,965, păstrând în același timp fiecare cuvânt-cheie de diagnostic și sistemul de punctaj. Niciunul dintre cazurile sub-perfecțiune nu a ratat un diagnostic corect.

Ce nu ne spune scorul principal

Un scor compozit de 99,12 la sută în cadrul acestei rubrici preînregistrate, specifice, reprezintă o performanță aproape de plafon, dar merită o încadrare atentă. Rezultatul descrie comportamentul motorului față de cincisprezece cazuri anonimizate atent selectate, evaluate o singură dată fiecare, în raport cu o singură rubrică. Suntem expliciți cu privire la ceea ce numărul stabilește și ceea ce nu stabilește.

Scorul spune că motorul V11 a gestionat corect tiparele de diagnostic selectate pentru această evaluare, folosind o metodologie publicată și reproductibilă. Nu spune că motorul este corect pentru fiecare panou de analize de sânge existent în lumea reală. Nu spune că motorul ar trebui să înlocuiască judecata clinicianului. Și nu spune că motorul depășește alte sisteme AI — analizele comparative cu alte motoare au fost deliberat în afara domeniului de aplicare al acestui raport.

Ceea ce stabilește scorul este un punct de bază. Cu rubrica și cadrul (harness) publice, versiunile viitoare ale motorului pot fi evaluate față de aceleași cincisprezece cazuri, iar diferența dintre scorul publicat și orice rulare ulterioară este, la rândul ei, măsurabilă. Aceasta este valoarea preînregistrării: transformă afirmațiile de performanță în afirmații testabile.

Cum să reproduci acest benchmark în 10 minute

Reproducerea necesită doar o pereche de acreditări API Kantesti și un mediu Python 3.10 sau ulterior, cu requests şi reportlab bibliotecile instalate. Întregul harness este un singur modul Python autonom, lansat sub licența MIT.

Diagramă de rețea a reproductibilității care arată benchmark-ul oglindit pe Figshare, ResearchGate, Academia.edu și GitHub, cu DOI-ul Figshare ca ancoră canonică
Figura 5: Benchmark-ul este oglindit pe patru platforme de cercetare. DOI-ul Figshare este identificatorul academic canonic; ResearchGate, Academia.edu și GitHub găzduiesc copii paralele cu cod și date brute.

Patru pași pentru o rulare nouă

Unu. Clonați repository-ul: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Doi. Instalați dependențele cu pip install -r requirements.txt. Trei. Setați KANTESTI_USERNAME şi KANTESTI_PASSWORD ca variabile de mediu — acreditările sunt citite la rulare și nu este nimic hard-codat în script. Patru. Rulați python benchmark_bloodtest.py și inspectați cele patru artefacte emise în directorul de lucru: un scorecard CSV, un scorecard JSON, o descărcare JSON completă inclusiv răspunsurile brute ale motorului și un raport Markdown lizibil de către oameni.

Rularea de referință din 23 aprilie 2026 este păstrată în results/ directorul din repository. O rulare nouă va produce un scorecard nou, cu timestamp, lăsând rularea de referință neatinsă. Dacă rularea dvs. produce un rezultat semnificativ diferit, vă rugăm să deschideți o problemă (GitHub issue) cu timestamp-ul rulării și versiunea motorului returnată în metadatele răspunsului.

Limitări și lucrări viitoare

Patru limitări merită o recunoaștere explicită: dimensiunea eșantionului, evaluarea dintr-o singură încercare, domeniul limitat la un singur motor și originea datelor dintr-o singură sursă. Fiecare este abordată în lucrări de urmărire active.

Dimensiunea eșantionului. Cincisprezece cazuri în opt categorii de specialitate sunt suficiente pentru un proof of concept, dar nu și pentru analiza pe subgrupuri în cadrul unei specialități. Extinderea la cincizeci de cazuri este planificată și va include panouri de coagulare, screening pentru malignități hematologice, panouri pentru sarcină și prezentări pediatrice.

Evaluare dintr-o singură încercare. Fiecare caz a fost evaluat o singură dată. Modelele de limbaj mari prezintă o variație de ieșire semnificativă chiar și la temperaturi de eșantionare scăzute, astfel încât un protocol cu mai multe rulări, cu cinci evaluări per caz și raportarea variației, este un pas natural următor.

Domeniul limitat la un singur motor. Acest raport caracterizează un singur motor. Analizele comparative față de sisteme AI alternative sunt în afara domeniului aici; le putem urmări ca un studiu independent separat, cu o metodologie adecvată.

Originea datelor dintr-o singură sursă. Cele cincisprezece cazuri sunt înregistrări reale anonimizate ale pacienților, extrase dintr-un singur repository clinic. Ele reprezintă un eșantion selectat și nu sunt o extragere aleatorie reprezentativă pentru o populație. Extinderea evaluării la date multi-centru este pe foaia de parcurs.

Cea mai importantă extensie planificată este paritatea multi-limbă. Motorul AI Kantesti servește utilizatorii în 75+ limbi, iar rularea aceluiași harness cu cincisprezece cazuri în turcă, germană, spaniolă, franceză și arabă va cuantifica calitatea ieșirii în limbile acceptate de motor. Vom publica fiecare rulare specifică limbii cu propriul DOI și cu ramura harness.