De ce există acest benchmark și ce testează

Interpretarea asistată de AI a analizelor de sânge este folosită din ce în ce mai mult în fluxuri de lucru pentru consumatori și în cele clinice, însă cadrele de evaluare reproductibile adaptate medicinei de laborator rămân rare. Întrebările care contează cel mai mult în acest context nu sunt cele acoperite de benchmarkurile generale de tip medical question-answering: poate un motor să separe deficitul de fier de trăsătura de talasemie atunci când volumul celular mediu este identic, supra-diagnostichează sindromul Gilbert ca hepatită și produce patologie într-un panou de screening complet normal?

Diagramă a fluxului rubricii pre-înregistrate care arată cum este evaluat Kantesti AI Engine — V11 Second Update, scor compozit 99.80% pe 100.000 de cazuri — față de criterii de scorare înghețate
Figura 1: Arhitectura de benchmark din spatele Scor compozit 99.80% pe cohorta de 100.000 de cazuri din V11 Second Update — fiecare caz, fiecare cuvânt-cheie, fiecare sistem de punctaj este fixat în codul sursă înainte ca motorul să vadă un singur PDF, iar rubrica este identică la nivel de octeți cu lansarea inițială V11. Ajustarea post-hoc a rubricii este imposibilă prin proiectare.

Un singur panou de analize de sânge conține, de obicei, suficient semnal pentru a susține mai multe interpretări concurente, iar rolul clinicianului care interpretează este să le cântărească între ele, nu să caute un răspuns „din manual”. Un motor care se descurcă bine în cazuri tipice din manual poate totuși să eșueze în cazurile care contează cel mai mult: capcanele de diagnostic diferențial, variantele benigne care par alarmante atunci când sunt privite izolat și panourile complet normale care îi ispitește pe asistenții încrezători să „genereze” patologie.

Acest benchmark a fost construit exact în jurul acestor moduri de eșec. Fiecare dintre cele cincisprezece cazuri a fost selectat pentru o anumită proprietate diagnostică: o microcitoză prin deficit de fier care trebuie menținută distinctă de o trăsătură de beta-talasemie cu același volum celular mediu, o prezentare de sindrom Gilbert în care singura anomalie este o hiperbilirubinemie indirectă izolată și un panou de screening cu cincisprezece parametri în care fiecare analit se află în intervalul său de referință. Rubrica recompensează motoarele care citesc fiecare caz în termenii săi și penalizează motoarele care ajung la un diagnostic sigur atunci când un astfel de diagnostic nu este justificat.

În calitate de Thomas Klein, MD, am selectat acest set de cazuri deoarece acestea sunt tiparele pe care le văd cel mai des greșite la asistenții de medicină de laborator. Modul de eșec scump nu este "să ratezi o boală rară" — ci să inventezi patologie de rutină la pacienți care nu o au. Noastre Validare medicală hub descrie cadrul mai larg; această pagină descrie dovada de concept inițială V11 și V11 Second Update care a scalat-o la 100.000 de cazuri anonimizate extrase dintr-un depozit clinic susținut de SQL, care acoperă 127 de țări — folosind aceeași rubrică de punctaj, identică la nivel de octeți, fără permisiunea ajustărilor post-hoc.

Cel mai recent rulaj de referință — V11 Second Update (26 aprilie 2026)

Rulajul de referință V11 Second Update din 26 aprilie 2026 a produs un scor compozit de 99.80% pe aceeași rubrică preînregistrată folosită în lansarea inițială V11, evaluată pe 100.000 de cazuri anonimizate extrase din depozitul clinic susținut de SQL Kantesti și acoperind 127 de țări și limbajele 75+. Fiecare caz a fost finalizat pe calea principală a motorului; activările pentru flag-ul de hiperdianosticare în cazurile-capcană au rămas la 0 / 87,412. Rulajul original V11 din 23 aprilie 2026 a acoperit 15 cazuri selectate manual (99.12% compozit) și a validat rubrica; Second Update păstrează rubrica identică la nivel de octeți și extinde evaluarea la o cohortă la scară de populație.

Compozit 99.80% 100.000 din 100.000 de cazuri au obținut scor
1.000 Scor structural
0.996 Scor clinic
13.26 s Latență medie
0 / 87,412 Fals pozitive în capcane

Formula compozită combină trei componente: conformitate structurală cu cele șapte secțiuni obligatorii de raport și cele șaisprezece subsecțiuni obligatorii, acuratețe clinică măsurată ca rechemare pe cuvinte-cheie plus rechemare în sistemul de notare plus o verificare a validității distribuției de probabilitate și latența răspunsului față de ținta de nivel de serviciu pe calea principală. Descompunerea exactă este prezentată în formula rubricii de mai jos — niciuna dintre aceste ponderi sau sub-rubrici nu a fost modificată pentru Second Update.

Compozit = 0.35 × Structural + 0.55 × Clinic + 0.10 × Latență

Celelalte 0.20 puncte procentuale de „headroom” se descompun aproape în întregime în subscorul clinic — o mică fracție de cazuri (predominant în Hepatologie și Reumatologie) a avut un cuvânt-cheie așteptat din sistemul de punctaj absent din interpretarea motorului, în ciuda faptului că conținutul diagnostic era corect. Niciun caz din cohorta de 100.000 de cazuri din Second Update nu a ratat diagnosticul în sine. Latența s-a îmbunătățit de la o medie de 20.17 s în lansarea inițială V11 la 13.26 s în Second Update, reflectând optimizările motorului de producție dintre cele două rulaje; rubrica, codul de punctaj și endpoint-ul API sunt neschimbate.

Scorurile compozite pe țară au variat de la 0.9971 (India) la 0.9985 (Elveția) pentru cele mai reprezentate 30 de țări. Coada lungă a încă 97 de țări (≈7,300 de cazuri cumulate) nu a arătat degradare sistematică. Principalii contribuitori după numărul de cazuri au fost Statele Unite (10,500), Brazilia (9,500), Spania (9,000), Italia (8,000), Germania (7,800), Franța (7,400), Portugalia (5,800), Türkiye (3,400), Regatul Unit (2,900) și Mexic (2,500).

De la 15 cazuri la 100.000: evoluția cohortei în 127 de țări

Panoul de cazuri original V11 a acoperit șapte specialități — hematologie, endocrinologie, medicină metabolică, hepatologie, nefrologie, cardiologie, reumatologie — plus două cazuri dedicate de hiperdianosticare în capcană, fiecare caz fiind un registru real de pacient anonimizat, extras din depozitul de date clinice Kantesti, sub consimțământ informat scris. V11 Second Update extinde evaluarea la 100.000 de cazuri anonimizate în 127 de țări, distribuite pe opt specialități (cele șapte originale plus un bucket dedicat de medicină internă care absoarbe subsetul de capcană). Aceeași rubrică de punctaj este aplicată identic la nivel de octeți în ambele rulaje.

Design panou de cazuri inițial V11 — cincisprezece cazuri anonimizate de analize de sânge din șapte specialități medicale, plus două cazuri-capcană de hiperdia gnoză; aceeași rubrică a atins un scor compozit 99.80% pe 100.000 de cazuri în V11 Second Update
Figura 2: Designul inițial al panoului de cazuri V11 pentru hematologie, endocrinologie, medicină metabolică, hepatologie, nefrologie, cardiologie, reumatologie, plus două cazuri-capcană — sindromul Gilbert și un panou de screening complet normal. Second Update păstrează această rubrică identică la nivel de octeți, extinzând totodată cohorta la 100.000 de cazuri extrase din depozitul Kantesti SQL.

De-identificarea a fost efectuată prin abordarea Safe Harbor: toți identificatorii direcți au fost eliminați sau înlocuiți, iar fiecărui registru i s-a atribuit un cod intern de caz de tip benchmark în formatul BT-NNN-LABEL (V11 inițial) sau un case_uid stabil anonimizat pentru Second Update. Procesarea a fost realizată în conformitate cu GDPR articolul 9(2)(j) pentru cercetare științifică, cu măsuri de protecție adecvate, și cu prevederile echivalente din UK GDPR. Nicio informație de identificare personală nu apare nicăieri în dispozitivul publicat, în raportul tehnic sau în seturile de date eliberate.

lansarea inițială V11 — 15 cazuri selectate manual

Panoul de cazuri V11 original a fost curatat manual de dr. Thomas Klein pentru a exersa tiparele de diagnostic pe care asistenții din medicina de laborator le înțeleg cel mai des greșit. Fiecare dintre cele cincisprezece cazuri a fost selectat pentru o anumită proprietate de diagnostic, listată mai jos.

Hematologie (3) BT-001, BT-006, BT-007 Anemie feriprivă · deficit de B12 · beta-talasemie minoră
Endocrinologie (3) BT-002, BT-008, BT-012 Tiroidită Hashimoto · PCOS cu rezistență la insulină · deficit sever de vitamina D
Metabolic (2) BT-003, BT-013 T2DM cu sindrom metabolic · hiperuricemie cu risc de gută
Hepatologie (2) BT-004, BT-009 NAFLD / NASH · hepatită virală acută
Nefrologie · Cardiologie · Reumatologie (3) BT-005, BT-010, BT-011 Boală cronică de rinichi stadiul 3 · dislipidemie aterogenă · lupus eritematos sistemic
Cazuri tip „trap” (2) BT-014, BT-015 Sindromul Gilbert (hiperbilirubinemie indirectă izolată) · screening complet normal la adult

De ce această distribuție anume

Hematologia primește trei cazuri deoarece diferențialele microcitare și diferențialele macrocitare sunt cele mai mari „capcane” ca volum în practica reală de laborator. Endocrinologia primește trei deoarece prezentările de la Hashimoto, PCOS și deficitul de vitamina D exercită forme diagnostice diferite (determinate de autoanticorpi, determinate de raporturi hormonale, determinate de un singur marker). Specialitățile cu un singur caz rămân totuși relevante deoarece fiecare dintre CKD, riscul ASCVD și SLE are propriul sistem de scor pe care motorul ar trebui să îl invoce (respectiv stadializarea KDIGO, riscul ASCVD pe 10 ani, criteriile 2019 EULAR/ACR pentru SLE).

Actualizarea a doua V11 — 100.000 de cazuri anonimizate în 127 de țări

A doua actualizare înlocuiește literalul Python original V11, cu 15 cazuri, „hard-coded”, cu o interogare SQL parametrizată, doar pentru citire, asupra depozitului clinic Kantesti (anonymised_blood_panels). Interogarea filtrează pe consent_research = 1 AND released_for_benchmark = 1 și este afișată în partea de sus a fiecărei rulări de benchmark, pentru transparență. Distribuția cohortei pe specialitate este prezentată mai jos.

Endocrinologie 23.900 cazuri (23,9%) Tiroidă, PCOS, vitamina D, ax gonadal, hipofiză
Medicină metabolică 21.900 cazuri (21,9%) T2DM, sindrom metabolic, panouri lipidice, hiperuricemie
Hematologie 15.400 cazuri (15,4%) Diferențiale microcitare și macrocitare, B12/folat, studii de fier
Hepatologie 12.400 cazuri (12,4%) NAFLD/NASH, hepatită virală, FIB-4, colestază
Medicină internă (incl. subgrup „trap”) 9.000 cazuri (9,0%) Prezentări mixte și 8.723 cazuri dedicate de „hyperdiagnosis trap”
Cardiologie 7.500 cazuri (7,5%) Risc ASCVD, dislipidemie aterogenă, hs-CRP
Reumatologie 6.000 cazuri (6,0%) SLE, AR, vasculite, panouri de autoanticorpi (criterii EULAR/ACR)
Nefrologie 4.000 cazuri (4,0%) Stadializarea CKD (KDIGO), tendințe eGFR, tulburări electrolitice

Distribuție geografică — primele 10 țări

Cohorta acoperă 127 de țări (ISO 3166-1 alpha-2). Europa contribuie cu 57.7%, Americile cu 25.4%, Asia-Pacific cu 6.2%, intrările denumite Orientul Mijlociu/Africa cu 3.4%, iar o coadă lungă de 97 de țări suplimentare însumează aproximativ 7.3%. Cei zece cei mai mari contribuitori sunt Statele Unite (10,500), Brazilia (9,500), Spania (9,000), Italia (8,000), Germania (7,800), Franța (7,400), Portugalia (5,800), Türkiye (3,400), Regatul Unit (2,900) și Mexic (2,500). Scorurile compozite pe țară au variat de la 0.9971 (India) la 0.9985 (Elveția).

Rubrica pre-înregistrată, explicată

Înregistrarea prealabilă (pre-registration) este cea mai importantă alegere metodologică din acest benchmark. Fiecare diagnostic așteptat, fiecare sistem de scor clinic și fiecare secțiune de raport au fost angajate în cod sursă înainte ca motorul să fie invocat. Prin urmare, ajustarea post-hoc a rubricii pentru a „îndulci” performanța motorului este imposibilă.

Trei componente alcătuiesc scorul compozit. Componenta structurală contribuie cu 35 la sută și măsoară dacă motorul a returnat cele șapte secțiuni obligatorii ale raportului (header, summary, key findings, differential, scoring systems, recommendations, follow-up) și cele șaisprezece subsecțiuni obligatorii din cadrul acestora. Prezența secțiunilor cântărește 40 la sută, iar prezența subsecțiunilor cântărește 60 la sută în calculul structural.

The componenta clinică contribuie cu 55 la sută și combină trei lucruri: rechemarea (recall) diagnozei pe baza cuvintelor-cheie (70 la sută din subscorul clinic), rechemarea sistemului de scor (20 la sută — dacă motorul calculează Mentzer, FIB-4, HOMA-IR, riscul ASCVD, stadializarea KDIGO, criteriile EULAR/ACR unde este relevant), și o verificare de validitate prin sumă de probabilități (10 la sută — probabilitățile din diferențial ar trebui să însumeze în intervalul [90, 110]). Pentru cazurile-capcană, se scade o penalizare explicită de hiperdia gnoză de până la 0,30, calculată ca 0,10 per indicator de patologie fabricat, plafonată la trei indicatori.

The componenta de latență contribuie cu 10 la sută. Un răspuns sub 20 de secunde primește 0,10 integral, un răspuns sub 40 de secunde primește 0,05, iar orice este mai lent primește zero. Ținta de 20 de secunde reflectă obiectivul de nivel de serviciu (service-level objective) pentru producția primary-path; plafonul de 40 de secunde reflectă bugetul de fallback din Faza 2 pentru invocări grele ale motorului.

Captură de ecran terminal a cadrului de benchmark Kantesti licențiat MIT care rulează și emite scoruri per caz — același cadru, acum bazat pe SQL, a produs scorul compozit 99.80% în rularea cu 100.000 de cazuri din V11 Second Update
Figura 3: Sistemul de testare în execuție — același motor care a produs 99.80% scor compozit în V11 Second Update, cohorta de 100.000 de cazuri. Fiecare caz este randat într-un PDF A4, publicat către endpoint-ul de producție v11 și evaluat în raport cu rubrica înghețată. Second Update a adăugat un încărcător de cazuri SQL parametrizat; un eșantion aleator stratificat de răspunsuri brute ale motorului (n = 201) este păstrat alături de cardul de evaluare agregat.

Ce previne pre-registration

Benchmark-urile de primă parte sunt notorii pentru umflarea propriilor rezultate prin ajustări post-hoc ale rubricii. Tiparul este aproape întotdeauna același: echipa rulează motorul, vede unde subperform ează, apoi ajustează în liniște rubrica astfel încât zonele care subperform ează să conteze mai puțin. Prin angajarea rubricii în cod sursă înainte de prima invocare a motorului și publicarea harness-ului sub licență MIT, această ajustare devine vizibilă în controlul versiunilor. Oricine poate clona repository-ul, verifica datele de autor ale rubricii și confirma că rezultatele motorului nu au fost folosite pentru a modela scorarea.

Cazuri-capcană de hiperdia gnoză — de ce supraestimarea este modul real de eșec

Apelarea agresivă a patologiei pe ecrane normale este un mod de eșec documentat al asistenților medicali orientați către consumatori. Costurile din aval includ investigații inutile, anxietatea pacientului și evaluare/lucru (workup) iatrogen. Cele două cazuri-capcană din acest benchmark sunt proiectate pentru a face acest mod de eșec vizibil și punctabil.

Comparație alăturată a unui AI naiv care fabrică hepatită pe un panou cu sindrom Gilbert, față de motorul Kantesti care identifică corect polimorfismul benign UGT1A1 — metodologie care s-a extins la zero fals-pozitive pe 87.412 oportunități de semnalare a capcanei în benchmark-ul V11 Second Update 99.80%
Figura 4: Designul cazurilor-capcană din lansarea inițială V11 — un motor care etichetează cu încredere sindromul lui Gilbert ca hepatită sau care produce patologie la limită pe un ecran complet normal este penalizat, nu recompensat, pentru formularea unui sunet clinic. Această metodologie a fost extinsă la 0 / 87,412 false-pozitive în rularea V11 Second Update cu 100.000 de cazuri care a produs scorul compozit de 99.80%.

🟡 Capcana 1 — BT-014-GILBERT

Prezentare. Un bărbat de 24 de ani cu bilirubină totală de 2,4 mg/dL. Fracția directă este normală, transaminazele și fosfataza alcalină se află în intervalele lor de referință, reticulocitele sunt ne remarcabile, iar haptoglobina și LDH exclud hemoliza.

Interpretare corectă. Sindromul Gilbert — o polimorfism UGT1A1 benign. Interpretarea nu ar trebui să invoce hepatită, ciroză, anemie hemolitică sau obstrucție biliară.

Rezultat V11. Compozit 1.000. Niciunul dintre cele șase steaguri monitorizate de supra-diagnosticare nu a apărut ca diagnostic activ.

🟡 Capcana 2 — BT-015-HEALTHY

Prezentare. O femeie de 35 de ani cu un panou de screening de rutină cu cincisprezece parametri. Fiecare analit se află confortabil în intervalul său de referință.

Interpretare corectă. Asigurare și menținerea stilului de viață. Interpretarea nu ar trebui să inventeze o patologie „la limită” pentru a părea utilă clinic.

Rezultat V11. Scor compozit 1.000. Niciuna dintre cele șapte alerte de supra-diagnostic monitorizate — diabet, anemie, hipotiroidism, dislipidemie, hepatită, boală renală, deficit — nu a apărut ca diagnostic activ.

În ambele „capcane”, au fost verificate treisprezece alerte de hiperdia gnostic monitorizate. Niciuna nu a fost declanșată. Acesta este rezultatul care contează cel mai mult pentru orice clinician care ia în considerare utilizarea unui motor AI ca instrument de triere sau pre-consultare: sistemul nu a inventat o boală acolo unde nu exista.

Indicele Mentzer: separarea deficitului de fier de trăsătura talasemiei

O a doua constatare de mare valoare privește asocierea cazului BT-001 (anemie feriprivă) cu cazul BT-007 (beta-talasemie minor). Ambele se prezintă cu microcitoză și reprezintă un obstacol bine-cunoscut pentru clasificatoarele naive. Indicele Mentzer, calculat ca MCV împărțit la numărul de RBC, depășește 13 în deficitul de fier și scade sub 13 în trăsătura talasemiei.

În BT-001, pacientul era o femeie de 34 de ani cu hemoglobină 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritină 6 ng/mL și TIBC crescut. Indicele Mentzer de aproximativ 17,7 susține un deficit absolut de fier. În BT-007, pacientul era un bărbat de 28 de ani cu microcitoză (MCV 65,8 fL), dar cu un număr de RBC crescut de 6,2, RDW normal, feritină normală și HbA2 de 5,6 la sută. Indicele Mentzer de aproximativ 10,6 indică trăsătura talasemiei, iar HbA2 crescut confirmă beta-talasemia minoră.

Anemie feriprivă Mentzer > 13 Feritină scăzută, TSAT scăzut, TIBC crescut, RDW crescut
Trăsătură beta-talasemică Mentzer < 13 Feritină normală, RDW normal, HbA2 crescut (>3,5%), număr crescut de RBC

Ambele cazuri au obținut scorul 1.000. Motorul a invocat explicit indicele Mentzer în ambele interpretări și a returnat diagnosticul corect în fiecare caz. Acesta este singurul rezultat cu cea mai mare liniște clinică din întregul benchmark, deoarece clasificarea greșită a trăsăturii talasemice ca deficit de fier duce la suplimentare neadecvată cu fier și la oportunități ratate de screening familial, iar clasificarea greșită a deficitului de fier ca talasemie întârzie terapia de substituție simplă. Al nostru pentru intervalul de feritină explică contextul mai larg al diagnosticului diferențial.

Rezultate pe caz din rularea de referință inițială V11 (23 aprilie 2026)

Rularea de referință originală V11 pe cohorta de proof-of-concept cu 15 cazuri servește drept fundament metodologic al Second Update: fiecare detaliu pe caz de mai jos ilustrează modul în care rubrica gestionează un răspuns real al motorului. Douăsprezece din cincisprezece cazuri au atins scorul compozit maxim de 1.000 pe calea principală; trei cazuri au fost deservite prin fallback-ul Phase 2, pierzând bonusul de latență de 0.05, dar păstrând tot conținutul clinic și structural. Un caz lipsea o singură subsecțiune obligatorie; unul a returnat o sumă a distribuției de probabilitate ușor redusă.

ID caz Specialitate Compozit Latență Cale
BT-001-IDAHematologie1.00017,8 sprimară
BT-006-B12Hematologie1.00018,4 sprimară
BT-007-THALHematologie1.00017,0 sprimară
BT-002-HASHEndocrinologie0.95037,0 srevenire la varianta de rezervă
BT-008-PCOSEndocrinologie0.98718,6 sprimară
BT-003-T2DMMetabolic1.00019,1 sprimară
BT-013-GOUTMetabolic1.00019,4 sprimară
BT-004-NAFLDHepatologie1.00019,6 sprimară
BT-009-VIRHEPHepatologie0.95023,4 srevenire la varianta de rezervă
BT-014-GILBERTCapcană1.00018,9 sprimară
BT-005-CKDNefrologie1.00017,4 sprimară
BT-010-ASCVDCardiologie1.00019,7 sprimară
BT-011-SLEReumatologie0.98118,2 sprimară
BT-012-VITDEndocrinologie1.00019,3 sprimară
BT-015-SĂNĂTOSCapcană1.00018,7 srevenire la varianta de rezervă

Cazul de PCOS (BT-008) a pierdut o singură subsecțiune obligatorie în structura răspunsului — cincisprezece din șaisprezece în loc de șaisprezece din șaisprezece — ceea ce a redus scorul structural de la 1,000 la 0,963. Cazul de SLE (BT-011) a returnat o sumă a probabilităților ușor redusă, care a coborât scorul clinic la 0,965, păstrând în același timp fiecare cuvânt-cheie de diagnostic și sistemul de punctaj. Niciunul dintre cazurile sub-perfecțiune nu a ratat un diagnostic corect.

Agregat V11 Second Update — 100.000 de cazuri

La scară de populație, rândurile individuale ale cazurilor nu sunt lizibile de către oameni, așa că Second Update raportează metrici agregate, nu un tabel cu 100.000 de rânduri. Agregatul principal este prezentat mai jos; defalcările pe specialitate și pe țară sunt publicate în raportul tehnic și în depunerea Figshare. Un eșantion aleator stratificat de n = 201 răspunsuri brute ale motorului (sămânță deterministă 20260426) este publicat în directorul GitHub results/ pentru inspecție.

Scor compozit Inițial V11: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 pe cohorta de 100.000 de cazuri
Scor structural (medie) Inițial V11: 0.998 → Second Update: 1.000 Conformare structurală perfectă la scară de populație
Scor clinic (medie) Inițial V11: 0.998 → Second Update: 0.996 −0.002; niciun caz nu a ratat diagnosticul în sine
Latență — medie (interval) Inițial V11: 20,17 s (17,0–37,0 s) → A doua actualizare: 13,26 s (9,0–16,94 s) Optimizări ale motorului de producție între rulări
Calea motorului = primară Inițial V11: 12 / 15 → A doua actualizare: 100,000 / 100,000 Nu a fost necesar niciun fallback pentru Faza 2 în niciun moment în timpul rulării
Semnalizări de hiperdianostic pentru subsetul de capcane Inițial V11: 0 / 13 → A doua actualizare: 0 / 87,412 Zero fals-pozitive la scară de populație (8.723 cazuri de capcane monitorizate)

Ce nu ne spune scorul principal

Un scor compozit de 99,80 la sută în cadrul acestei rubrici preînregistrate, pe o cohortă anonimă de 100.000 de cazuri, care acoperă 127 de țări, reprezintă performanță aproape de plafon — dar merită o încadrare atentă. Rezultatul descrie comportamentul motorului față de rubrica pe care ne-am angajat să o folosim în codul sursă în V11; nu este o afirmație universală despre corectitudinea motorului pentru fiecare panou de analize de sange existent în mediul real.

Scorul spune că motorul a gestionat corect tiparele diagnostice selectate pentru această evaluare, pe o cohortă la scară de populație, folosind o metodologie publicată și reproductibilă. Nu spune că motorul este corect pentru fiecare panou de analize de sange existent în mediul real. Nu spune că motorul ar trebui să înlocuiască judecata clinicianului. Și nu spune că motorul depășește sistemele AI alternative — analizele comparative cu alte motoare au fost deliberat în afara domeniului acestui raport.

Ceea ce stabilește scorul este un punct de referință. Cu rubrica și cadrul de testare publice, versiunile viitoare ale motorului pot fi evaluate față de aceeași rubrică — aplicată celor 15 cazuri inițiale V11, cohortei de 100.000 de cazuri din A doua actualizare sau oricărei extinderi ulterioare — iar diferența dintre scorul publicat și orice rulare ulterioară este, la rândul ei, măsurabilă. Aceasta este valoarea preînregistrării: transformă afirmațiile de performanță în afirmații testabile.

Cum să reproduci acest benchmark în 10 minute

Reproducerea necesită doar o pereche de acreditări API Kantesti și un mediu Python 3.10 sau ulterior, cu requests şi reportlab bibliotecile instalate. Întregul harness este un singur modul Python autonom, lansat sub licența MIT.

Diagramă a rețelei de reproductibilitate care arată benchmark-ul V11 Second Update (99.80% compozit, 100.000 de cazuri, 127 țări) oglindit pe Figshare, ResearchGate, Academia.edu și GitHub, cu DOI-ul Figshare ca ancoră canonică
Figura 5: Benchmark-ul V11 din A doua actualizare — scor compozit de 99,80% pentru 100.000 de cazuri în 127 de țări — este oglindit pe patru platforme de cercetare. DOI-ul Figshare este identificatorul academic canonic; ResearchGate (publicația 404175463), Academia.edu (lucrarea 165956808) și GitHub găzduiesc copii paralele cu cadrul de testare susținut de SQL, eșantionul aleator stratificat de răspunsuri brute și fișele de scor pe țară / pe specialitate.

Patru pași pentru o rulare nouă

Unu. Clonați repository-ul: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Doi. Instalați dependențele cu pip install -r requirements.txt (A doua actualizare adaugă mysql-connector-python ≥ 8.0 pentru încărcătorul de cazuri SQL). Trei. Setați KANTESTI_USERNAME şi KANTESTI_PASSWORD ca variabile de mediu pentru API-ul motorului. Pentru încărcătorul de cazuri SQL din A doua actualizare, setați de asemenea KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, și KANTESTI_DB_PASSWORD — încărcătorul se conectează printr-un rol cu acces doar pentru citire (bench_reader) care nu are privilegii pentru identificarea tabelelor. Patru. Rulați python benchmark_bloodtest.py --limit 100000 pentru rularea completă Second-Update, sau python benchmark_bloodtest.py --limit 1000 pentru iterații rapide. Rezultatele sunt salvate în ./benchmark_results/: un CSV tip scorecard cu coloane pe țară și pe specialitate, un agregat JSON, un eșantion brut stratificat-aleator și un raport Markdown.

Rulările de referință din 23 aprilie 2026 (V11 inițial, 15 cazuri) și 26 aprilie 2026 (V11 Second Update, 100,000 cazuri) sunt păstrate în results/ directorul repository-ului. O rulare nouă va genera un scorecard nou, cu timestamp, lăsând rulările de referință neatinse. Dacă rularea dvs. produce un rezultat semnificativ diferit, vă rugăm să deschideți o problemă (GitHub issue) cu timestamp-ul rulării și versiunea engine-ului returnată în metadatele răspunsului.

Limitări și lucrări viitoare

Chiar și la 100,000 de cazuri pentru 127 de țări, patru limitări merită o recunoaștere explicită: sub-eșantionare insuficientă pentru coada lungă a țărilor, evaluare dintr-o singură încercare, domeniu limitat la un singur engine și origine a datelor dintr-o singură sursă. Fiecare este abordată prin lucrări de urmărire active.

Acoperire pentru coada lungă a țărilor. Second Update acoperă 127 de țări, dar distribuția este dezechilibrată — primii 10 contribuitori reprezintă ≈66.4% din cazuri, iar coada lungă a celor 97 de țări suplimentare contribuie împreună cu ≈7.3% (aproximativ 7,300 de cazuri cumulate, ~75 de cazuri per țară, în medie). Prin urmare, compozitele pe țară din această coadă lungă sunt mai zgomotoase decât sugerează cifrele principale. Rulările viitoare vor recruta cu prioritate din țările sub-eșantionate pentru a consolida estimările pe jurisdicție.

Evaluare dintr-o singură încercare. Fiecare caz din cohortă a fost evaluat o singură dată. Modelele lingvistice mari prezintă o variație de ieșire semnificativă chiar și la temperaturi mici de eșantionare, astfel încât un protocol cu mai multe rulări, cu cinci evaluări per caz și raportarea variației, este un pas natural — în special pe subsetul de cazuri-capcană, unde consistența sub „jitter” de eșantionare face parte din afirmația de siguranță.

Domeniul limitat la un singur motor. Acest raport caracterizează un singur engine. Analizele comparative față de sisteme AI alternative sunt în afara domeniului aici; le putem urmări ca un studiu independent separat, cu metodologie adecvată, folosind același harness licențiat MIT.

Originea datelor dintr-o singură sursă. Cele 100,000 de cazuri sunt înregistrări reale anonimizate ale pacienților, extrase dintr-un singur depozit clinic (warehouse de date clinice SQL-backed) (the Kantesti SQL-backed clinical data warehouse). Ele reprezintă un flux de producție selectat și nu sunt o extragere aleatorie reprezentativă la nivel global. Extinderea evaluării la date multi-centru provenite din surse externe este în plan.

Dincolo de aceste patru, cea mai importantă extensie planificată este paritatea pe limbi, per jurisdicție. Engine-ul Kantesti AI Engine deservește utilizatori în 75+ limbi, iar rularea sub-cohortelor stratificate pe limbă din Second-Update (turcă, germană, spaniolă, franceză, italiană, portugheză, arabă, mandarină) va cuantifica calitatea ieșirilor în limbile acceptate de engine. Fiecare analiză stratificată pe limbă va fi publicată cu propriul DOI și cu o ramură (branch) a harness-ului.