De ce există acest benchmark și ce testează

Interpretarea asistată de AI a analizelor de sânge este folosită din ce în ce mai mult în fluxuri de lucru pentru consumatori și în cele clinice, însă cadrele de evaluare reproductibile adaptate medicinei de laborator rămân rare. Întrebările care contează cel mai mult în acest context nu sunt cele acoperite de benchmarkurile generale de tip medical question-answering: poate un motor să separe deficitul de fier de trăsătura de talasemie atunci când volumul celular mediu este identic, supra-diagnostichează sindromul Gilbert ca hepatită și produce patologie într-un panou de screening complet normal?

Diagramă a fluxului rubricii pre-înregistrate care arată cum este evaluat Kantesti AI Engine — V11 Second Update, scor compozit 99.80% pe 100.000 de cazuri — față de criterii de scorare înghețate
Figura 1: Arhitectura de benchmark din spatele Scor compozit 99.80% pe cohorta de 100.000 de cazuri din V11 Second Update — fiecare caz, fiecare cuvânt-cheie, fiecare sistem de punctaj este fixat în codul sursă înainte ca motorul să vadă un singur PDF, iar rubrica este identică la nivel de octeți cu lansarea inițială V11. Ajustarea post-hoc a rubricii este imposibilă prin proiectare.

Un singur panou de analize de sânge conține, de obicei, suficient semnal pentru a susține mai multe interpretări concurente, iar rolul clinicianului care interpretează este să le cântărească între ele, nu să caute un răspuns „din manual”. Un motor care se descurcă bine în cazuri tipice din manual poate totuși să eșueze în cazurile care contează cel mai mult: capcanele de diagnostic diferențial, variantele benigne care par alarmante atunci când sunt privite izolat și panourile complet normale care îi ispitește pe asistenții încrezători să „genereze” patologie.

Acest benchmark a fost construit exact în jurul acestor moduri de eșec. Fiecare dintre cele cincisprezece cazuri a fost selectat pentru o anumită proprietate diagnostică: o microcitoză prin deficit de fier care trebuie menținută distinctă de o trăsătură de beta-talasemie cu același volum celular mediu, o prezentare de sindrom Gilbert în care singura anomalie este o hiperbilirubinemie indirectă izolată și un panou de screening cu cincisprezece parametri în care fiecare analit se află în intervalul său de referință. Rubrica recompensează motoarele care citesc fiecare caz în termenii săi și penalizează motoarele care ajung la un diagnostic sigur atunci când un astfel de diagnostic nu este justificat.

În calitate de Thomas Klein, MD, am selectat acest set de cazuri deoarece acestea sunt tiparele pe care le văd cel mai des greșite la asistenții de medicină de laborator. Modul de eșec scump nu este "să ratezi o boală rară" — ci să inventezi patologie de rutină la pacienți care nu o au. Noastre Validare medicală hub descrie cadrul mai larg; această pagină descrie dovada inițială de concept V11 și a doua actualizare V11 care l-a scalat la 100.000 de cazuri sintetice extrase dintr-un set de cazuri sintetic ce acoperă 127 etichete de țări — folosind aceeași rubrică de notare, identică la nivel de octeți, fără permisiunea de ajustări post-hoc.

Cel mai recent rulaj de referință — V11 Second Update (26 aprilie 2026)

Rulajul de referință V11 Second Update din 26 aprilie 2026 a produs un scor compozit de 99.80% pe aceeași rubrică preînregistrată folosită în lansarea inițială V11, evaluată pe 100.000 de cazuri sintetice extrase din setul de cazuri sintetice Kantesti și acoperind 127 etichete de țară și limbajele 75+. Fiecare caz a fost finalizat pe calea principală a motorului; activările pentru flag-ul de hiperdianosticare în cazurile-capcană au rămas la 0 / 87,412. Rulajul original V11 din 23 aprilie 2026 a acoperit 15 cazuri selectate manual (99.12% compozit) și a validat rubrica; Second Update păstrează rubrica identică la nivel de octeți și extinde evaluarea la o cohortă la scară de populație.

Compozit 99.80% 100.000 din 100.000 de cazuri au obținut scor
1.000 Scor structural
0.996 Scor clinic
13.26 s Latență medie
0 / 87,412 Fals pozitive în capcane

Formula compozită combină trei componente: conformitate structurală cu cele șapte secțiuni obligatorii de raport și cele șaisprezece subsecțiuni obligatorii, acuratețea conținutului măsurată ca rechemare pe cuvinte-cheie plus rechemare în sistemul de notare plus o verificare a validității distribuției de probabilitate și latența răspunsului față de ținta de nivel de serviciu pe calea principală. Descompunerea exactă este prezentată în formula rubricii de mai jos — niciuna dintre aceste ponderi sau sub-rubrici nu a fost modificată pentru Second Update.

Compozit = 0.35 × Structural + 0.55 × Clinic + 0.10 × Latență

Celelalte 0.20 puncte procentuale de „headroom” se descompun aproape în întregime în subscorul clinic — o mică fracție de cazuri (predominant în Hepatologie și Reumatologie) a avut un cuvânt-cheie așteptat din sistemul de punctaj absent din interpretarea motorului, în ciuda faptului că conținutul diagnostic era corect. Niciun caz din cohorta de 100.000 de cazuri din Second Update nu a ratat diagnosticul în sine. Latența s-a îmbunătățit de la o medie de 20.17 s în lansarea inițială V11 la 13.26 s în Second Update, reflectând optimizările motorului de producție dintre cele două rulaje; rubrica, codul de punctaj și endpoint-ul API sunt neschimbate.

Scorurile compozite pe etichetă au variat de la 0,9971 la 0,9985 pe cele mai reprezentate 30 de etichete de țară. Coada lungă a celor 97 de etichete suplimentare (≈7.300 de cazuri cumulate) nu a prezentat degradare sistematică. Cele mai frecvente etichete după numărul de cazuri au fost Statele Unite (10.500), Brazilia (9.500), Spania (9.000), Italia (8.000), Germania (7.800), Franța (7.400), Portugalia (5.800), Türkiye (3.400), Regatul Unit (2.900) și Mexic (2.500).

De la 15 cazuri la 100.000: evoluția cohortei pe 127 etichete de țări

Panoul original de cazuri V11 a acoperit șapte specialități — hematologie, endocrinologie, medicină metabolică, hepatologie, nefrologie, cardiologie, reumatologie — plus două cazuri dedicate de tip „capcană” pentru hiperdia gnoză, cu fiecare caz generat sintetic ca panou de analize de sânge. A doua actualizare V11 extinde evaluarea la 100.000 de cazuri sintetice pe 127 etichete de țări, distribuite pe opt specialități (cele șapte originale plus un bucket dedicat de medicină internă care absoarbe subsetul de capcană). Aceeași rubrică de punctaj este aplicată identic la nivel de octeți în ambele rulaje.

Proiectarea panoului de cazuri inițial V11 — cincisprezece cazuri de analize de sânge sintetice din șapte specialități medicale, plus două cazuri-tip „hyperdiagnosis trap”; aceeași rubrică a atins un scor compozit de 99,80% pe 100.000 de cazuri în Actualizarea secundă V11
Figura 2: Designul inițial al panoului de cazuri V11 pentru hematologie, endocrinologie, medicină metabolică, hepatologie, nefrologie, cardiologie, reumatologie, plus două cazuri-capcană — sindromul Gilbert și un panou de screening complet normal. Second Update păstrează această rubrică identică la nivel de octeți, extinzând totodată cohorta la 100.000 de cazuri extrase din depozitul Kantesti SQL.

Deoarece toate cazurile sunt generate sintetic, nu există identificatori reali de eliminat și nu sunt implicate date personale. Fiecare caz sintetic poartă un cod intern de caz pentru benchmark (BT-NNN-LABEL în setul inițial V11, un case_uid în a doua actualizare). Nicio dată personală nu apare nicăieri în cadrul publicat, raportul tehnic sau seturile de date lansate.

lansarea inițială V11 — 15 cazuri selectate manual

Panoul de cazuri V11 original a fost curatat manual de dr. Thomas Klein pentru a exersa tiparele de diagnostic pe care asistenții din medicina de laborator le înțeleg cel mai des greșit. Fiecare dintre cele cincisprezece cazuri a fost selectat pentru o anumită proprietate de diagnostic, listată mai jos.

Hematologie (3) BT-001, BT-006, BT-007 Anemie feriprivă · deficit de B12 · beta-talasemie minoră
Endocrinologie (3) BT-002, BT-008, BT-012 Tiroidită Hashimoto · PCOS cu rezistență la insulină · deficit sever de vitamina D
Metabolic (2) BT-003, BT-013 T2DM cu sindrom metabolic · hiperuricemie cu risc de gută
Hepatologie (2) BT-004, BT-009 NAFLD / NASH · hepatită virală acută
Nefrologie · Cardiologie · Reumatologie (3) BT-005, BT-010, BT-011 Boală cronică de rinichi stadiul 3 · dislipidemie aterogenă · lupus eritematos sistemic
Cazuri tip „trap” (2) BT-014, BT-015 Sindromul Gilbert (hiperbilirubinemie indirectă izolată) · screening complet normal la adult

De ce această distribuție anume

Hematologia primește trei cazuri deoarece diferențialele microcitare și diferențialele macrocitare sunt cele mai mari „capcane” ca volum în practica reală de laborator. Endocrinologia primește trei deoarece prezentările de la Hashimoto, PCOS și deficitul de vitamina D exercită forme diagnostice diferite (determinate de autoanticorpi, determinate de raporturi hormonale, determinate de un singur marker). Specialitățile cu un singur caz rămân totuși relevante deoarece fiecare dintre CKD, riscul ASCVD și SLE are propriul sistem de scor pe care motorul ar trebui să îl invoce (respectiv stadializarea KDIGO, riscul ASCVD pe 10 ani, criteriile 2019 EULAR/ACR pentru SLE).

A doua actualizare V11 — 100.000 de cazuri sintetice pe 127 etichete de țări

A doua actualizare înlocuiește literalul Python original hard-codat cu 15 cazuri din V11 cu un set mai mare de cazuri sintetice generate programatic. Setul de cazuri este încărcat la începutul fiecărei rulări, iar configurația este înregistrată pentru transparență. Distribuția cohortei pe domenii de conținut este prezentată mai jos.

Endocrinologie 23.900 cazuri (23,9%) Tiroidă, PCOS, vitamina D, ax gonadal, hipofiză
Medicină metabolică 21.900 cazuri (21,9%) T2DM, sindrom metabolic, panouri lipidice, hiperuricemie
Hematologie 15.400 cazuri (15,4%) Diferențiale microcitare și macrocitare, B12/folat, studii de fier
Hepatologie 12.400 cazuri (12,4%) NAFLD/NASH, hepatită virală, FIB-4, colestază
Medicină internă (incl. subgrup „trap”) 9.000 cazuri (9,0%) Prezentări mixte și 8.723 cazuri dedicate de „hyperdiagnosis trap”
Cardiologie 7.500 cazuri (7,5%) Risc ASCVD, dislipidemie aterogenă, hs-CRP
Reumatologie 6.000 cazuri (6,0%) SLE, AR, vasculite, panouri de autoanticorpi (criterii EULAR/ACR)
Nefrologie 4.000 cazuri (4,0%) Stadializarea CKD (KDIGO), tendințe eGFR, tulburări electrolitice

Distribuția sintetică a etichetelor de țară — top 10 etichete

Cele 100.000 de cazuri sintetice includ 127 etichete de țară (ISO 3166-1 alpha-2) pentru a testa gestionarea localizării. Atribuire etichetă: Europa 57,7%, Americile 25,4%, Asia-Pacific 6,2%, etichete denumite pentru Orientul Mijlociu/Africa 3,4% și o coadă lungă de 97 de etichete suplimentare, cumulate aproximativ 7,3%. Cele zece cele mai frecvente etichete după numărul de cazuri sunt Statele Unite (10.500), Brazilia (9.500), Spania (9.000), Italia (8.000), Germania (7.800), Franța (7.400), Portugalia (5.800), Türkiye (3.400), Regatul Unit (2.900) și Mexic (2.500). Scorurile compozite pe etichetă au variat de la 0,9971 la 0,9985. Aceste numărări de etichete sunt proprietăți ale cazurilor generate folosite pentru a testa gestionarea localizării — nu sunt utilizatori reali și nu reprezintă acoperire geografică din lumea reală.

Rubrica pre-înregistrată, explicată

Înregistrarea prealabilă (pre-registration) este cea mai importantă alegere metodologică din acest benchmark. Fiecare diagnostic așteptat, fiecare sistem de scor clinic și fiecare secțiune de raport au fost angajate în cod sursă înainte ca motorul să fie invocat. Prin urmare, ajustarea post-hoc a rubricii pentru a „îndulci” performanța motorului este imposibilă.

Trei componente alcătuiesc scorul compozit. Componenta structurală contribuie cu 35 la sută și măsoară dacă motorul a returnat cele șapte secțiuni obligatorii ale raportului (header, summary, key findings, differential, scoring systems, recommendations, follow-up) și cele șaisprezece subsecțiuni obligatorii din cadrul acestora. Prezența secțiunilor cântărește 40 la sută, iar prezența subsecțiunilor cântărește 60 la sută în calculul structural.

The componenta clinică contribuie cu 55 la sută și combină trei lucruri: rechemarea (recall) diagnozei pe baza cuvintelor-cheie (70 la sută din subscorul clinic), rechemarea sistemului de scor (20 la sută — dacă motorul calculează Mentzer, FIB-4, HOMA-IR, riscul ASCVD, stadializarea KDIGO, criteriile EULAR/ACR unde este relevant), și o verificare de validitate prin sumă de probabilități (10 la sută — probabilitățile din diferențial ar trebui să însumeze în intervalul [90, 110]). Pentru cazurile-capcană, se scade o penalizare explicită de hiperdia gnoză de până la 0,30, calculată ca 0,10 per indicator de patologie fabricat, plafonată la trei indicatori.

The componenta de latență contribuie cu 10 la sută. Un răspuns sub 20 de secunde primește 0,10 integral, un răspuns sub 40 de secunde primește 0,05, iar orice este mai lent primește zero. Ținta de 20 de secunde reflectă obiectivul de nivel de serviciu (service-level objective) pentru producția primary-path; plafonul de 40 de secunde reflectă bugetul de fallback din Faza 2 pentru invocări grele ale motorului.

Captură de ecran terminal a cadrului de benchmark Kantesti licențiat MIT care rulează și emite scoruri per caz — același cadru, acum bazat pe SQL, a produs scorul compozit 99.80% în rularea cu 100.000 de cazuri din V11 Second Update
Figura 3: Sistemul de testare în execuție — același motor care a produs 99.80% scor compozit în V11 Second Update, cohorta de 100.000 de cazuri. Fiecare caz este randat într-un PDF A4, publicat către endpoint-ul de producție v11 și evaluat în raport cu rubrica înghețată. Second Update a adăugat un încărcător de cazuri SQL parametrizat; un eșantion aleator stratificat de răspunsuri brute ale motorului (n = 201) este păstrat alături de cardul de evaluare agregat.

Ce previne pre-registration

Benchmark-urile de primă parte sunt notorii pentru umflarea propriilor rezultate prin ajustări post-hoc ale rubricii. Tiparul este aproape întotdeauna același: echipa rulează motorul, vede unde subperform ează, apoi ajustează în liniște rubrica astfel încât zonele care subperform ează să conteze mai puțin. Prin angajarea rubricii în cod sursă înainte de prima invocare a motorului și publicarea harness-ului sub licență MIT, această ajustare devine vizibilă în controlul versiunilor. Oricine poate clona repository-ul, verifica datele de autor ale rubricii și confirma că rezultatele motorului nu au fost folosite pentru a modela scorarea.

Cazuri-capcană de hiperdia gnoză — de ce supraestimarea este modul real de eșec

Apelarea agresivă a patologiei pe ecrane normale este un mod de eșec documentat al asistenților medicali orientați către consumatori. Costurile din aval includ investigații inutile, anxietatea pacientului și evaluare/lucru (workup) iatrogen. Cele două cazuri-capcană din acest benchmark sunt proiectate pentru a face acest mod de eșec vizibil și punctabil.

Comparație alăturată a unui AI naiv care fabrică hepatită pe un panou cu sindrom Gilbert, față de motorul Kantesti care identifică corect polimorfismul benign UGT1A1 — metodologie care s-a extins la zero fals-pozitive pe 87.412 oportunități de semnalare a capcanei în benchmark-ul V11 Second Update 99.80%
Figura 4: Designul cazurilor-capcană din lansarea inițială V11 — un motor care etichetează cu încredere sindromul lui Gilbert ca hepatită sau care produce patologie la limită pe un ecran complet normal este penalizat, nu recompensat, pentru formularea unui sunet clinic. Această metodologie a fost extinsă la 0 / 87,412 false-pozitive în rularea V11 Second Update cu 100.000 de cazuri care a produs scorul compozit de 99.80%.

🟡 Capcana 1 — BT-014-GILBERT

Prezentare. Un bărbat de 24 de ani cu bilirubină totală de 2,4 mg/dL. Fracția directă este normală, transaminazele și fosfataza alcalină se află în intervalele lor de referință, reticulocitele sunt ne remarcabile, iar haptoglobina și LDH exclud hemoliza.

Interpretare corectă. Sindromul Gilbert — o polimorfism UGT1A1 benign. Interpretarea nu ar trebui să invoce hepatită, ciroză, anemie hemolitică sau obstrucție biliară.

Rezultat V11. Compozit 1.000. Niciunul dintre cele șase steaguri monitorizate de supra-diagnosticare nu a apărut ca diagnostic activ.

🟡 Capcana 2 — BT-015-HEALTHY

Prezentare. O femeie de 35 de ani cu un panou de screening de rutină cu cincisprezece parametri. Fiecare analit se află confortabil în intervalul său de referință.

Interpretare corectă. Asigurare și menținerea stilului de viață. Interpretarea nu ar trebui să inventeze o patologie „la limită” pentru a părea utilă clinic.

Rezultat V11. Scor compozit 1.000. Niciuna dintre cele șapte alerte de supra-diagnostic monitorizate — diabet, anemie, hipotiroidism, dislipidemie, hepatită, boală renală, deficit — nu a apărut ca diagnostic activ.

În ambele „capcane”, au fost verificate treisprezece alerte de hiperdia gnostic monitorizate. Niciuna nu a fost declanșată. Acesta este rezultatul care contează cel mai mult pentru orice clinician care ia în considerare utilizarea unui motor AI ca instrument de triere sau pre-consultare: sistemul nu a inventat o boală acolo unde nu exista.

Indicele Mentzer: separarea deficitului de fier de trăsătura talasemiei

O a doua constatare de mare valoare privește asocierea cazului BT-001 (anemie feriprivă) cu cazul BT-007 (beta-talasemie minor). Ambele se prezintă cu microcitoză și reprezintă un obstacol bine-cunoscut pentru clasificatoarele naive. Indicele Mentzer, calculat ca MCV împărțit la numărul de RBC, depășește 13 în deficitul de fier și scade sub 13 în trăsătura talasemiei.

În BT-001, pacientul era o femeie de 34 de ani cu hemoglobină 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritină 6 ng/mL și TIBC crescut. Indicele Mentzer de aproximativ 17,7 susține un deficit absolut de fier. În BT-007, pacientul era un bărbat de 28 de ani cu microcitoză (MCV 65,8 fL), dar cu un număr de RBC crescut de 6,2, RDW normal, feritină normală și HbA2 de 5,6 la sută. Indicele Mentzer de aproximativ 10,6 indică trăsătura talasemiei, iar HbA2 crescut confirmă beta-talasemia minoră.

Anemie feriprivă Mentzer > 13 Feritină scăzută, TSAT scăzut, TIBC crescut, RDW crescut
Trăsătură beta-talasemică Mentzer < 13 Feritină normală, RDW normal, HbA2 crescut (>3,5%), număr crescut de RBC

Ambele cazuri au obținut scorul 1.000. Motorul a invocat explicit indicele Mentzer în ambele interpretări și a returnat diagnosticul corect în fiecare caz. Acesta este singurul rezultat cu cea mai mare liniște clinică din întregul benchmark, deoarece clasificarea greșită a trăsăturii talasemice ca deficit de fier duce la suplimentare neadecvată cu fier și la oportunități ratate de screening familial, iar clasificarea greșită a deficitului de fier ca talasemie întârzie terapia de substituție simplă. Al nostru pentru intervalul de feritină explică contextul mai larg al diagnosticului diferențial.

Rezultate pe caz din rularea de referință inițială V11 (23 aprilie 2026)

Rularea de referință originală V11 pe cohorta de proof-of-concept cu 15 cazuri servește drept fundament metodologic al Second Update: fiecare detaliu pe caz de mai jos ilustrează modul în care rubrica gestionează un răspuns real al motorului. Douăsprezece din cincisprezece cazuri au atins scorul compozit maxim de 1.000 pe calea principală; trei cazuri au fost deservite prin fallback-ul Phase 2, pierzând bonusul de latență de 0.05, dar păstrând tot conținutul clinic și structural. Un caz lipsea o singură subsecțiune obligatorie; unul a returnat o sumă a distribuției de probabilitate ușor redusă.

ID caz Specialitate Compozit Latență Cale
BT-001-IDAHematologie1.00017,8 sprimară
BT-006-B12Hematologie1.00018,4 sprimară
BT-007-THALHematologie1.00017,0 sprimară
BT-002-HASHEndocrinologie0.95037,0 srevenire la varianta de rezervă
BT-008-PCOSEndocrinologie0.98718,6 sprimară
BT-003-T2DMMetabolic1.00019,1 sprimară
BT-013-GOUTMetabolic1.00019,4 sprimară
BT-004-NAFLDHepatologie1.00019,6 sprimară
BT-009-VIRHEPHepatologie0.95023,4 srevenire la varianta de rezervă
BT-014-GILBERTCapcană1.00018,9 sprimară
BT-005-CKDNefrologie1.00017,4 sprimară
BT-010-ASCVDCardiologie1.00019,7 sprimară
BT-011-SLEReumatologie0.98118,2 sprimară
BT-012-VITDEndocrinologie1.00019,3 sprimară
BT-015-SĂNĂTOSCapcană1.00018,7 srevenire la varianta de rezervă

Cazul de PCOS (BT-008) a pierdut o singură subsecțiune obligatorie în structura răspunsului — cincisprezece din șaisprezece în loc de șaisprezece din șaisprezece — ceea ce a redus scorul structural de la 1,000 la 0,963. Cazul de SLE (BT-011) a returnat o sumă a probabilităților ușor redusă, care a coborât scorul clinic la 0,965, păstrând în același timp fiecare cuvânt-cheie de diagnostic și sistemul de punctaj. Niciunul dintre cazurile sub-perfecțiune nu a ratat un diagnostic corect.

Agregat V11 Second Update — 100.000 de cazuri

La scară de populație, rândurile individuale de caz nu sunt lizibile de către oameni, astfel încât a Doua Actualizare raportează metrici agregate, nu un tabel cu 100.000 de rânduri. Agregatul principal este prezentat mai jos; defalcările pe specialitate și pe etichetă de țară sunt publicate în raportul tehnic și în depunerea Figshare. Un eșantion aleator stratificat de n = 201 răspunsuri brute ale motorului (sămânță deterministă 20260426) este publicat în directorul GitHub results/ pentru inspecție.

Scor compozit Inițial V11: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 pe cohorta de 100.000 de cazuri
Scor structural (medie) Inițial V11: 0.998 → Second Update: 1.000 Conformare structurală perfectă la scară de populație
Scor clinic (medie) Inițial V11: 0.998 → Second Update: 0.996 −0.002; niciun caz nu a ratat diagnosticul în sine
Latență — medie (interval) Inițial V11: 20,17 s (17,0–37,0 s) → A doua actualizare: 13,26 s (9,0–16,94 s) Optimizări ale motorului de producție între rulări
Calea motorului = primară Inițial V11: 12 / 15 → A doua actualizare: 100,000 / 100,000 Nu a fost necesar niciun fallback pentru Faza 2 în niciun moment în timpul rulării
Semnalizări de hiperdianostic pentru subsetul de capcane Inițial V11: 0 / 13 → A doua actualizare: 0 / 87,412 Zero fals-pozitive la scară de populație (8.723 cazuri de capcane monitorizate)

Ce nu ne spune scorul principal

Un scor compozit de 99,80 la sută în această rubrică pre-înregistrată, pe o cohortă sintetică cu 100.000 de cazuri care acoperă 127 etichete de țări, reprezintă performanță aproape de plafon — dar merită o încadrare atentă. Rezultatul descrie comportamentul motorului față de rubrica pe care ne-am angajat să o folosim în codul sursă în V11; nu este o afirmație universală despre corectitudinea motorului pentru fiecare panou de analize de sânge care există în lumea reală.

Scorul spune că motorul a gestionat corect tiparele diagnostice selectate pentru această evaluare, pe o cohortă la scară de populație, folosind o metodologie publicată și reproductibilă. Nu spune că motorul este corect pentru fiecare panou de analize de sange existent în mediul real. Nu spune că motorul ar trebui să înlocuiască judecata clinicianului. Și nu spune că motorul depășește sistemele AI alternative — analizele comparative cu alte motoare au fost deliberat în afara domeniului acestui raport.

Ceea ce stabilește scorul este un punct de referință. Cu rubrica și cadrul de testare publice, versiunile viitoare ale motorului pot fi evaluate față de aceeași rubrică — aplicată celor 15 cazuri inițiale V11, cohortei de 100.000 de cazuri din A doua actualizare sau oricărei extinderi ulterioare — iar diferența dintre scorul publicat și orice rulare ulterioară este, la rândul ei, măsurabilă. Aceasta este valoarea preînregistrării: transformă afirmațiile de performanță în afirmații testabile.

Cum să reproduci acest benchmark în 10 minute

Reproducerea necesită doar o pereche de acreditări API Kantesti și un mediu Python 3.10 sau ulterior, cu requests şi reportlab bibliotecile instalate. Întregul harness este un singur modul Python autonom, lansat sub licența MIT.

Diagramă de rețea pentru reproductibilitate, care arată benchmark-ul din a Doua Actualizare V11 (99,80% compozit, 100.000 de cazuri, 127 etichete de țară) oglindit pe Figshare, ResearchGate, Academia.edu și GitHub, cu DOI-ul Figshare ca ancoră canonică
Figura 5: Benchmark-ul V11 din A doua actualizare — Scor compozit de 99.80% pe 100.000 de cazuri pe 127 etichete de țări — este oglindit pe patru platforme de cercetare. DOI-ul Figshare este identificatorul canonic academic; ResearchGate (publicația 404175463), Academia.edu (lucrarea 165956808) și GitHub găzduiesc copii paralele cu cadrul benchmark, eșantionul aleator stratificat de răspunsuri brute și cardurile de scor pe etichetă de țară/pe specialitate.

Patru pași pentru o rulare nouă

Unu. Clonați repository-ul: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Doi. Instalați dependențele cu pip install -r requirements.txt (A doua actualizare adaugă mysql-connector-python ≥ 8.0 pentru încărcătorul de cazuri SQL). Trei. Setați KANTESTI_USERNAME şi KANTESTI_PASSWORD ca variabile de mediu pentru API-ul motorului. Pentru încărcătorul de cazuri SQL din A doua actualizare, setați de asemenea KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, și KANTESTI_DB_PASSWORD — încărcătorul se conectează printr-un rol cu acces doar pentru citire (bench_reader) care nu are privilegii pentru identificarea tabelelor. Patru. Rulați python benchmark_bloodtest.py --limit 100000 pentru rularea completă Second-Update, sau python benchmark_bloodtest.py --limit 1000 pentru iterații rapide. Rezultatele sunt salvate în ./benchmark_results/: un scorecard CSV cu coloane pentru etichetă de țară și specialitate, un agregat JSON, un eșantion aleator stratificat de răspunsuri brute și un raport în Markdown.

Rulările de referință din 23 aprilie 2026 (V11 inițial, 15 cazuri) și 26 aprilie 2026 (V11 Second Update, 100,000 cazuri) sunt păstrate în results/ directorul repository-ului. O rulare nouă va genera un scorecard nou, cu timestamp, lăsând rulările de referință neatinse. Dacă rularea dvs. produce un rezultat semnificativ diferit, vă rugăm să deschideți o problemă (GitHub issue) cu timestamp-ul rulării și versiunea engine-ului returnată în metadatele răspunsului.

Limitări și lucrări viitoare

Chiar și pentru 100.000 de cazuri, pe 127 etichete de țară, patru limitări merită recunoscute explicit: eșantionare insuficientă pentru etichetele din coada lungă, evaluare dintr-o singură trecere, domeniu limitat la un singur motor și proveniență dintr-o singură sursă de date. Fiecare este abordată în lucrări de urmărire active.

Acoperire pentru etichetele din coada lungă. A Doua Actualizare acoperă 127 etichete de țară, dar distribuția este dezechilibrată — primele 10 etichete reprezintă ≈66,4% din cazuri, iar coada lungă a celor 97 de etichete suplimentare contribuie împreună cu ≈7,3% (aproximativ 7.300 de cazuri cumulate, ~75 de cazuri per etichetă, în medie). Prin urmare, compozitele pe etichetă din această coadă lungă sunt mai zgomotoase decât sugerează cifrele din titlu. Rulările viitoare vor reechilibra atribuirea etichetelor pentru a consolida estimările pe etichetă.

Evaluare dintr-o singură încercare. Fiecare caz din cohortă a fost evaluat o singură dată. Modelele lingvistice mari prezintă o variație de ieșire semnificativă chiar și la temperaturi mici de eșantionare, astfel încât un protocol cu mai multe rulări, cu cinci evaluări per caz și raportarea variației, este un pas natural — în special pe subsetul de cazuri-capcană, unde consistența sub „jitter” de eșantionare face parte din afirmația de siguranță.

Domeniul limitat la un singur motor. Acest raport caracterizează un singur engine. Analizele comparative față de sisteme AI alternative sunt în afara domeniului aici; le putem urmări ca un studiu independent separat, cu metodologie adecvată, folosind același harness licențiat MIT.

Date sintetice. Cele 100.000 de cazuri sunt generate sintetic, nu „cazuri sintetice”, iar rezultatele nu se transferă la performanța clinică din lumea reală. Evaluarea pe date reale, obținute cu consimțământ și provenite din surse externe ar necesita o supraveghere etică adecvată și nu intră în sfera acestui benchmark sintetic.

Dincolo de aceste patru, cea mai importantă extensie planificată este paritatea pe limbi, per jurisdicție. Engine-ul Kantesti AI Engine deservește utilizatori în 75+ limbi, iar rularea sub-cohortelor stratificate pe limbă din Second-Update (turcă, germană, spaniolă, franceză, italiană, portugheză, arabă, mandarină) va cuantifica calitatea ieșirilor în limbile acceptate de engine. Fiecare analiză stratificată pe limbă va fi publicată cu propriul DOI și cu o ramură (branch) a harness-ului.