Benchmark AI pentru analize de sânge Kantesti

Benchmark automatizat Benchmark pre-înregistrat Actualizare secundară V11 — aprilie 2026 Licențiat MIT Reproductibil · Date deschise Cohort sintetic de 100K · 127 etichete de țări

Scor compozit de 99.80% pe o rubrică pre-înregistrată — V11 a doua actualizare, cohortă cu 100.000 de cazuri pe 127 etichete de țări

Un benchmark tehnic automatizat, pre-înregistrat, bazat pe rubrică, al motorului Kantesti, pe 100.000 de cazuri de analize de sânge generate sintetic, etichetate cu 127 etichete de țară. Măsoară conformitatea ieșirii, nu acuratețea diagnostică. Rubrica a fost înghețată în codul sursă înainte de lansarea inițială V11 și a fost păstrată identică la nivel de octeți pentru această a Doua Actualizare; cadrul de evaluare este licențiat MIT; un eșantion aleator stratificat de răspunsuri brute ale motorului este publicat pentru inspecție. Toate cazurile sunt sintetice; nu sunt folosite date personale.

📖 ~14 minute 📅 Publicat la 23 aprilie 2026 · Actualizat la 26 aprilie 2026 (Actualizare secundară V11) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publicat: April 23, 2026 🔄 Actualizare secundară V11: April 26, 2026 🩺 Revizuit medical: April 26, 2026 ✅ Rubrică pre-înregistrată (identică la nivel de octeți) 🔓 Cod & date deschise

Acest benchmark automatizat a fost proiectat și rulat de Julian Emirhan Bulut, Senior AI Engineer și CEO al Kantesti Ltd. Punctajul este complet automatizat în codul sursă; grila de evaluare și panoul de cazuri au fost dezvoltate cu aport clinic de la Dr. Thomas Klein, medic, Chief Medical Officer la Kantesti AI, și au fost revizuite de Consiliul Consultativ Medical pentru IA din Kantesti. Este un benchmark intern rulat de sine, nu un benchmark tehnic automatizat independent sau supus evaluării inter pares.

Autor principal & supraveghere clinică

Thomas Klein, doctor în medicină

Director medical șef, Kantesti AI

Dr. Thomas Klein este hematolog clinician și internist certificat de consiliu, cu peste 15 ani de experiență în medicina de laborator. În calitate de Chief Medical Officer la Kantesti AI, el a selectat panoul de cazuri pentru acest benchmark, a revizuit conținutul clinic și răspunsurile așteptate ale cazurilor sintetice și a aprobat rubrica pre-înregistrată înainte de prima invocare a motorului.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Co-autor & implementare

Julian Emirhan Bulut

Senior AI Engineer & CEO, Kantesti Ltd

Julian Emirhan Bulut este fondatorul și CEO-ul Kantesti Ltd. El a proiectat și implementat cadrul de evaluare — inclusiv încărcătorul de cazuri SQL adăugat pentru Actualizarea secundară V11 — a efectuat integrarea API, a rulat atât referința inițială V11, cât și rularea cu 100.000 de cazuri pentru Actualizarea secundară V11 și a pregătit agregarea statistică. Fondator al platformei din 2019.

GitHub Despre Kantesti

⚡ Rezumat rapid Actualizare secundară V11 — April 26, 2026

Scor compozit 99.80% pe 100.000 de cazuri de analize de sânge sintetice, în opt specialități medicale și 127 etichete de țară (V11 a Doua Actualizare).
Fără fals pozitive de hiperdignosticare pe 87.412 oportunități monitorizate de „trap-case flag” — aceeași metodologie „trap-case” ca în rularea inițială V11, scalată la nivel de populație.
Grilă preînregistrată înghețat în codul sursă înainte de rularea inițială V11 și păstrat identic la nivel de octeți pentru această Actualizare secundară — nu a fost posibilă ajustare post-hoc.
Indicele Mentzer aplicat corect pentru a diferenția anemia prin deficit de fier de beta-talasemia minoră în lansarea inițială V11; comportamentul diferențial a fost păstrat la nivel de populație.
Doar endpoint de producție — fără rutare privilegiată, evaluat exact așa cum ar fi accesat de un client plătitor.
latență medie de 13,26 secunde end-to-end (interval 9,0–16,94 s), cu toate cele 100.000 de cazuri finalizate pe calea principală a motorului.
Cohortă sintetică. 100.000 de cazuri de test generate sintetic încărcate la rulare. Nu se utilizează date sintetice și nici date personale.
Suport (harness) sub licență MIT publicate pe GitHub cu un eșantion aleator stratificat (n = 201) de răspunsuri brute complete ale motorului pentru inspecție.
DOI Figshare: 10.6084/m9.figshare.32095435 · Oglindit pe ResearchGate, Academia.edu, GitHub.

De ce există acest benchmark și ce testează

Interpretarea asistată de AI a analizelor de sânge este folosită din ce în ce mai mult în fluxuri de lucru pentru consumatori și în cele clinice, însă cadrele de evaluare reproductibile adaptate medicinei de laborator rămân rare. Întrebările care contează cel mai mult în acest context nu sunt cele acoperite de benchmarkurile generale de tip medical question-answering: poate un motor să separe deficitul de fier de trăsătura de talasemie atunci când volumul celular mediu este identic, supra-diagnostichează sindromul Gilbert ca hepatită și produce patologie într-un panou de screening complet normal?

Un singur panou de analize de sânge conține, de obicei, suficient semnal pentru a susține mai multe interpretări concurente, iar rolul clinicianului care interpretează este să le cântărească între ele, nu să caute un răspuns „din manual”. Un motor care se descurcă bine în cazuri tipice din manual poate totuși să eșueze în cazurile care contează cel mai mult: capcanele de diagnostic diferențial, variantele benigne care par alarmante atunci când sunt privite izolat și panourile complet normale care îi ispitește pe asistenții încrezători să „genereze” patologie.

Acest benchmark a fost construit exact în jurul acestor moduri de eșec. Fiecare dintre cele cincisprezece cazuri a fost selectat pentru o anumită proprietate diagnostică: o microcitoză prin deficit de fier care trebuie menținută distinctă de o trăsătură de beta-talasemie cu același volum celular mediu, o prezentare de sindrom Gilbert în care singura anomalie este o hiperbilirubinemie indirectă izolată și un panou de screening cu cincisprezece parametri în care fiecare analit se află în intervalul său de referință. Rubrica recompensează motoarele care citesc fiecare caz în termenii săi și penalizează motoarele care ajung la un diagnostic sigur atunci când un astfel de diagnostic nu este justificat.

În calitate de Thomas Klein, MD, am selectat acest set de cazuri deoarece acestea sunt tiparele pe care le văd cel mai des greșite la asistenții de medicină de laborator. Modul de eșec scump nu este "să ratezi o boală rară" — ci să inventezi patologie de rutină la pacienți care nu o au. Noastre Validare medicală hub descrie cadrul mai larg; această pagină descrie dovada inițială de concept V11 și a doua actualizare V11 care l-a scalat la 100.000 de cazuri sintetice extrase dintr-un set de cazuri sintetic ce acoperă 127 etichete de țări — folosind aceeași rubrică de notare, identică la nivel de octeți, fără permisiunea de ajustări post-hoc.

Cel mai recent rulaj de referință — V11 Second Update (26 aprilie 2026)

Rulajul de referință V11 Second Update din 26 aprilie 2026 a produs un scor compozit de 99.80% pe aceeași rubrică preînregistrată folosită în lansarea inițială V11, evaluată pe 100.000 de cazuri sintetice extrase din setul de cazuri sintetice Kantesti și acoperind 127 etichete de țară și limbajele 75+. Fiecare caz a fost finalizat pe calea principală a motorului; activările pentru flag-ul de hiperdianosticare în cazurile-capcană au rămas la 0 / 87,412. Rulajul original V11 din 23 aprilie 2026 a acoperit 15 cazuri selectate manual (99.12% compozit) și a validat rubrica; Second Update păstrează rubrica identică la nivel de octeți și extinde evaluarea la o cohortă la scară de populație.

Compozit 99.80% 100.000 din 100.000 de cazuri au obținut scor

1.000 Scor structural

0.996 Scor clinic

13.26 s Latență medie

0 / 87,412 Fals pozitive în capcane

Formula compozită combină trei componente: conformitate structurală cu cele șapte secțiuni obligatorii de raport și cele șaisprezece subsecțiuni obligatorii, acuratețea conținutului măsurată ca rechemare pe cuvinte-cheie plus rechemare în sistemul de notare plus o verificare a validității distribuției de probabilitate și latența răspunsului față de ținta de nivel de serviciu pe calea principală. Descompunerea exactă este prezentată în formula rubricii de mai jos — niciuna dintre aceste ponderi sau sub-rubrici nu a fost modificată pentru Second Update.

Compozit = 0.35 × Structural + 0.55 × Clinic + 0.10 × Latență

Celelalte 0.20 puncte procentuale de „headroom” se descompun aproape în întregime în subscorul clinic — o mică fracție de cazuri (predominant în Hepatologie și Reumatologie) a avut un cuvânt-cheie așteptat din sistemul de punctaj absent din interpretarea motorului, în ciuda faptului că conținutul diagnostic era corect. Niciun caz din cohorta de 100.000 de cazuri din Second Update nu a ratat diagnosticul în sine. Latența s-a îmbunătățit de la o medie de 20.17 s în lansarea inițială V11 la 13.26 s în Second Update, reflectând optimizările motorului de producție dintre cele două rulaje; rubrica, codul de punctaj și endpoint-ul API sunt neschimbate.

Scorurile compozite pe etichetă au variat de la 0,9971 la 0,9985 pe cele mai reprezentate 30 de etichete de țară. Coada lungă a celor 97 de etichete suplimentare (≈7.300 de cazuri cumulate) nu a prezentat degradare sistematică. Cele mai frecvente etichete după numărul de cazuri au fost Statele Unite (10.500), Brazilia (9.500), Spania (9.000), Italia (8.000), Germania (7.800), Franța (7.400), Portugalia (5.800), Türkiye (3.400), Regatul Unit (2.900) și Mexic (2.500).

De la 15 cazuri la 100.000: evoluția cohortei pe 127 etichete de țări

Panoul original de cazuri V11 a acoperit șapte specialități — hematologie, endocrinologie, medicină metabolică, hepatologie, nefrologie, cardiologie, reumatologie — plus două cazuri dedicate de tip „capcană” pentru hiperdia gnoză, cu fiecare caz generat sintetic ca panou de analize de sânge. A doua actualizare V11 extinde evaluarea la 100.000 de cazuri sintetice pe 127 etichete de țări, distribuite pe opt specialități (cele șapte originale plus un bucket dedicat de medicină internă care absoarbe subsetul de capcană). Aceeași rubrică de punctaj este aplicată identic la nivel de octeți în ambele rulaje.

Deoarece toate cazurile sunt generate sintetic, nu există identificatori reali de eliminat și nu sunt implicate date personale. Fiecare caz sintetic poartă un cod intern de caz pentru benchmark (BT-NNN-LABEL în setul inițial V11, un case_uid în a doua actualizare). Nicio dată personală nu apare nicăieri în cadrul publicat, raportul tehnic sau seturile de date lansate.

lansarea inițială V11 — 15 cazuri selectate manual

Panoul de cazuri V11 original a fost curatat manual de dr. Thomas Klein pentru a exersa tiparele de diagnostic pe care asistenții din medicina de laborator le înțeleg cel mai des greșit. Fiecare dintre cele cincisprezece cazuri a fost selectat pentru o anumită proprietate de diagnostic, listată mai jos.

Hematologie (3) BT-001, BT-006, BT-007 Anemie feriprivă · deficit de B12 · beta-talasemie minoră

Endocrinologie (3) BT-002, BT-008, BT-012 Tiroidită Hashimoto · PCOS cu rezistență la insulină · deficit sever de vitamina D

Metabolic (2) BT-003, BT-013 T2DM cu sindrom metabolic · hiperuricemie cu risc de gută

Hepatologie (2) BT-004, BT-009 NAFLD / NASH · hepatită virală acută

Nefrologie · Cardiologie · Reumatologie (3) BT-005, BT-010, BT-011 Boală cronică de rinichi stadiul 3 · dislipidemie aterogenă · lupus eritematos sistemic

Cazuri tip „trap” (2) BT-014, BT-015 Sindromul Gilbert (hiperbilirubinemie indirectă izolată) · screening complet normal la adult

De ce această distribuție anume

Hematologia primește trei cazuri deoarece diferențialele microcitare și diferențialele macrocitare sunt cele mai mari „capcane” ca volum în practica reală de laborator. Endocrinologia primește trei deoarece prezentările de la Hashimoto, PCOS și deficitul de vitamina D exercită forme diagnostice diferite (determinate de autoanticorpi, determinate de raporturi hormonale, determinate de un singur marker). Specialitățile cu un singur caz rămân totuși relevante deoarece fiecare dintre CKD, riscul ASCVD și SLE are propriul sistem de scor pe care motorul ar trebui să îl invoce (respectiv stadializarea KDIGO, riscul ASCVD pe 10 ani, criteriile 2019 EULAR/ACR pentru SLE).

A doua actualizare V11 — 100.000 de cazuri sintetice pe 127 etichete de țări

A doua actualizare înlocuiește literalul Python original hard-codat cu 15 cazuri din V11 cu un set mai mare de cazuri sintetice generate programatic. Setul de cazuri este încărcat la începutul fiecărei rulări, iar configurația este înregistrată pentru transparență. Distribuția cohortei pe domenii de conținut este prezentată mai jos.

Endocrinologie 23.900 cazuri (23,9%) Tiroidă, PCOS, vitamina D, ax gonadal, hipofiză

Medicină metabolică 21.900 cazuri (21,9%) T2DM, sindrom metabolic, panouri lipidice, hiperuricemie

Hematologie 15.400 cazuri (15,4%) Diferențiale microcitare și macrocitare, B12/folat, studii de fier

Hepatologie 12.400 cazuri (12,4%) NAFLD/NASH, hepatită virală, FIB-4, colestază

Medicină internă (incl. subgrup „trap”) 9.000 cazuri (9,0%) Prezentări mixte și 8.723 cazuri dedicate de „hyperdiagnosis trap”

Cardiologie 7.500 cazuri (7,5%) Risc ASCVD, dislipidemie aterogenă, hs-CRP

Reumatologie 6.000 cazuri (6,0%) SLE, AR, vasculite, panouri de autoanticorpi (criterii EULAR/ACR)

Nefrologie 4.000 cazuri (4,0%) Stadializarea CKD (KDIGO), tendințe eGFR, tulburări electrolitice

Distribuția sintetică a etichetelor de țară — top 10 etichete

Cele 100.000 de cazuri sintetice includ 127 etichete de țară (ISO 3166-1 alpha-2) pentru a testa gestionarea localizării. Atribuire etichetă: Europa 57,7%, Americile 25,4%, Asia-Pacific 6,2%, etichete denumite pentru Orientul Mijlociu/Africa 3,4% și o coadă lungă de 97 de etichete suplimentare, cumulate aproximativ 7,3%. Cele zece cele mai frecvente etichete după numărul de cazuri sunt Statele Unite (10.500), Brazilia (9.500), Spania (9.000), Italia (8.000), Germania (7.800), Franța (7.400), Portugalia (5.800), Türkiye (3.400), Regatul Unit (2.900) și Mexic (2.500). Scorurile compozite pe etichetă au variat de la 0,9971 la 0,9985. Aceste numărări de etichete sunt proprietăți ale cazurilor generate folosite pentru a testa gestionarea localizării — nu sunt utilizatori reali și nu reprezintă acoperire geografică din lumea reală.

Rubrica pre-înregistrată, explicată

Înregistrarea prealabilă (pre-registration) este cea mai importantă alegere metodologică din acest benchmark. Fiecare diagnostic așteptat, fiecare sistem de scor clinic și fiecare secțiune de raport au fost angajate în cod sursă înainte ca motorul să fie invocat. Prin urmare, ajustarea post-hoc a rubricii pentru a „îndulci” performanța motorului este imposibilă.

Trei componente alcătuiesc scorul compozit. Componenta structurală contribuie cu 35 la sută și măsoară dacă motorul a returnat cele șapte secțiuni obligatorii ale raportului (header, summary, key findings, differential, scoring systems, recommendations, follow-up) și cele șaisprezece subsecțiuni obligatorii din cadrul acestora. Prezența secțiunilor cântărește 40 la sută, iar prezența subsecțiunilor cântărește 60 la sută în calculul structural.

The componenta clinică contribuie cu 55 la sută și combină trei lucruri: rechemarea (recall) diagnozei pe baza cuvintelor-cheie (70 la sută din subscorul clinic), rechemarea sistemului de scor (20 la sută — dacă motorul calculează Mentzer, FIB-4, HOMA-IR, riscul ASCVD, stadializarea KDIGO, criteriile EULAR/ACR unde este relevant), și o verificare de validitate prin sumă de probabilități (10 la sută — probabilitățile din diferențial ar trebui să însumeze în intervalul [90, 110]). Pentru cazurile-capcană, se scade o penalizare explicită de hiperdia gnoză de până la 0,30, calculată ca 0,10 per indicator de patologie fabricat, plafonată la trei indicatori.

The componenta de latență contribuie cu 10 la sută. Un răspuns sub 20 de secunde primește 0,10 integral, un răspuns sub 40 de secunde primește 0,05, iar orice este mai lent primește zero. Ținta de 20 de secunde reflectă obiectivul de nivel de serviciu (service-level objective) pentru producția primary-path; plafonul de 40 de secunde reflectă bugetul de fallback din Faza 2 pentru invocări grele ale motorului.

Ce previne pre-registration

Benchmark-urile de primă parte sunt notorii pentru umflarea propriilor rezultate prin ajustări post-hoc ale rubricii. Tiparul este aproape întotdeauna același: echipa rulează motorul, vede unde subperform ează, apoi ajustează în liniște rubrica astfel încât zonele care subperform ează să conteze mai puțin. Prin angajarea rubricii în cod sursă înainte de prima invocare a motorului și publicarea harness-ului sub licență MIT, această ajustare devine vizibilă în controlul versiunilor. Oricine poate clona repository-ul, verifica datele de autor ale rubricii și confirma că rezultatele motorului nu au fost folosite pentru a modela scorarea.

Cazuri-capcană de hiperdia gnoză — de ce supraestimarea este modul real de eșec

Apelarea agresivă a patologiei pe ecrane normale este un mod de eșec documentat al asistenților medicali orientați către consumatori. Costurile din aval includ investigații inutile, anxietatea pacientului și evaluare/lucru (workup) iatrogen. Cele două cazuri-capcană din acest benchmark sunt proiectate pentru a face acest mod de eșec vizibil și punctabil.

🟡 Capcana 1 — BT-014-GILBERT

Prezentare. Un bărbat de 24 de ani cu bilirubină totală de 2,4 mg/dL. Fracția directă este normală, transaminazele și fosfataza alcalină se află în intervalele lor de referință, reticulocitele sunt ne remarcabile, iar haptoglobina și LDH exclud hemoliza.

Interpretare corectă. Sindromul Gilbert — o polimorfism UGT1A1 benign. Interpretarea nu ar trebui să invoce hepatită, ciroză, anemie hemolitică sau obstrucție biliară.

Rezultat V11. Compozit 1.000. Niciunul dintre cele șase steaguri monitorizate de supra-diagnosticare nu a apărut ca diagnostic activ.

🟡 Capcana 2 — BT-015-HEALTHY

Prezentare. O femeie de 35 de ani cu un panou de screening de rutină cu cincisprezece parametri. Fiecare analit se află confortabil în intervalul său de referință.

Interpretare corectă. Asigurare și menținerea stilului de viață. Interpretarea nu ar trebui să inventeze o patologie „la limită” pentru a părea utilă clinic.

Rezultat V11. Scor compozit 1.000. Niciuna dintre cele șapte alerte de supra-diagnostic monitorizate — diabet, anemie, hipotiroidism, dislipidemie, hepatită, boală renală, deficit — nu a apărut ca diagnostic activ.

În ambele „capcane”, au fost verificate treisprezece alerte de hiperdia gnostic monitorizate. Niciuna nu a fost declanșată. Acesta este rezultatul care contează cel mai mult pentru orice clinician care ia în considerare utilizarea unui motor AI ca instrument de triere sau pre-consultare: sistemul nu a inventat o boală acolo unde nu exista.

Indicele Mentzer: separarea deficitului de fier de trăsătura talasemiei

O a doua constatare de mare valoare privește asocierea cazului BT-001 (anemie feriprivă) cu cazul BT-007 (beta-talasemie minor). Ambele se prezintă cu microcitoză și reprezintă un obstacol bine-cunoscut pentru clasificatoarele naive. Indicele Mentzer, calculat ca MCV împărțit la numărul de RBC, depășește 13 în deficitul de fier și scade sub 13 în trăsătura talasemiei.

În BT-001, pacientul era o femeie de 34 de ani cu hemoglobină 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritină 6 ng/mL și TIBC crescut. Indicele Mentzer de aproximativ 17,7 susține un deficit absolut de fier. În BT-007, pacientul era un bărbat de 28 de ani cu microcitoză (MCV 65,8 fL), dar cu un număr de RBC crescut de 6,2, RDW normal, feritină normală și HbA2 de 5,6 la sută. Indicele Mentzer de aproximativ 10,6 indică trăsătura talasemiei, iar HbA2 crescut confirmă beta-talasemia minoră.

Anemie feriprivă Mentzer > 13 Feritină scăzută, TSAT scăzut, TIBC crescut, RDW crescut

Trăsătură beta-talasemică Mentzer < 13 Feritină normală, RDW normal, HbA2 crescut (>3,5%), număr crescut de RBC

Ambele cazuri au obținut scorul 1.000. Motorul a invocat explicit indicele Mentzer în ambele interpretări și a returnat diagnosticul corect în fiecare caz. Acesta este singurul rezultat cu cea mai mare liniște clinică din întregul benchmark, deoarece clasificarea greșită a trăsăturii talasemice ca deficit de fier duce la suplimentare neadecvată cu fier și la oportunități ratate de screening familial, iar clasificarea greșită a deficitului de fier ca talasemie întârzie terapia de substituție simplă. Al nostru pentru intervalul de feritină explică contextul mai larg al diagnosticului diferențial.

Rezultate pe caz din rularea de referință inițială V11 (23 aprilie 2026)

Rularea de referință originală V11 pe cohorta de proof-of-concept cu 15 cazuri servește drept fundament metodologic al Second Update: fiecare detaliu pe caz de mai jos ilustrează modul în care rubrica gestionează un răspuns real al motorului. Douăsprezece din cincisprezece cazuri au atins scorul compozit maxim de 1.000 pe calea principală; trei cazuri au fost deservite prin fallback-ul Phase 2, pierzând bonusul de latență de 0.05, dar păstrând tot conținutul clinic și structural. Un caz lipsea o singură subsecțiune obligatorie; unul a returnat o sumă a distribuției de probabilitate ușor redusă.

ID caz Specialitate Compozit Latență Cale

BT-001-IDAHematologie1.00017,8 sprimară

BT-006-B12Hematologie1.00018,4 sprimară

BT-007-THALHematologie1.00017,0 sprimară

BT-002-HASHEndocrinologie0.95037,0 srevenire la varianta de rezervă

BT-008-PCOSEndocrinologie0.98718,6 sprimară

BT-003-T2DMMetabolic1.00019,1 sprimară

BT-013-GOUTMetabolic1.00019,4 sprimară

BT-004-NAFLDHepatologie1.00019,6 sprimară

BT-009-VIRHEPHepatologie0.95023,4 srevenire la varianta de rezervă

BT-014-GILBERTCapcană1.00018,9 sprimară

BT-005-CKDNefrologie1.00017,4 sprimară

BT-010-ASCVDCardiologie1.00019,7 sprimară

BT-011-SLEReumatologie0.98118,2 sprimară

BT-012-VITDEndocrinologie1.00019,3 sprimară

BT-015-SĂNĂTOSCapcană1.00018,7 srevenire la varianta de rezervă

Cazul de PCOS (BT-008) a pierdut o singură subsecțiune obligatorie în structura răspunsului — cincisprezece din șaisprezece în loc de șaisprezece din șaisprezece — ceea ce a redus scorul structural de la 1,000 la 0,963. Cazul de SLE (BT-011) a returnat o sumă a probabilităților ușor redusă, care a coborât scorul clinic la 0,965, păstrând în același timp fiecare cuvânt-cheie de diagnostic și sistemul de punctaj. Niciunul dintre cazurile sub-perfecțiune nu a ratat un diagnostic corect.

Agregat V11 Second Update — 100.000 de cazuri

La scară de populație, rândurile individuale de caz nu sunt lizibile de către oameni, astfel încât a Doua Actualizare raportează metrici agregate, nu un tabel cu 100.000 de rânduri. Agregatul principal este prezentat mai jos; defalcările pe specialitate și pe etichetă de țară sunt publicate în raportul tehnic și în depunerea Figshare. Un eșantion aleator stratificat de n = 201 răspunsuri brute ale motorului (sămânță deterministă 20260426) este publicat în directorul GitHub results/ pentru inspecție.

Scor compozit Inițial V11: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 pe cohorta de 100.000 de cazuri

Scor structural (medie) Inițial V11: 0.998 → Second Update: 1.000 Conformare structurală perfectă la scară de populație

Scor clinic (medie) Inițial V11: 0.998 → Second Update: 0.996 −0.002; niciun caz nu a ratat diagnosticul în sine

Latență — medie (interval) Inițial V11: 20,17 s (17,0–37,0 s) → A doua actualizare: 13,26 s (9,0–16,94 s) Optimizări ale motorului de producție între rulări

Calea motorului = primară Inițial V11: 12 / 15 → A doua actualizare: 100,000 / 100,000 Nu a fost necesar niciun fallback pentru Faza 2 în niciun moment în timpul rulării

Semnalizări de hiperdianostic pentru subsetul de capcane Inițial V11: 0 / 13 → A doua actualizare: 0 / 87,412 Zero fals-pozitive la scară de populație (8.723 cazuri de capcane monitorizate)

Ce nu ne spune scorul principal

Un scor compozit de 99,80 la sută în această rubrică pre-înregistrată, pe o cohortă sintetică cu 100.000 de cazuri care acoperă 127 etichete de țări, reprezintă performanță aproape de plafon — dar merită o încadrare atentă. Rezultatul descrie comportamentul motorului față de rubrica pe care ne-am angajat să o folosim în codul sursă în V11; nu este o afirmație universală despre corectitudinea motorului pentru fiecare panou de analize de sânge care există în lumea reală.

Scorul spune că motorul a gestionat corect tiparele diagnostice selectate pentru această evaluare, pe o cohortă la scară de populație, folosind o metodologie publicată și reproductibilă. Nu spune că motorul este corect pentru fiecare panou de analize de sange existent în mediul real. Nu spune că motorul ar trebui să înlocuiască judecata clinicianului. Și nu spune că motorul depășește sistemele AI alternative — analizele comparative cu alte motoare au fost deliberat în afara domeniului acestui raport.

Ceea ce stabilește scorul este un punct de referință. Cu rubrica și cadrul de testare publice, versiunile viitoare ale motorului pot fi evaluate față de aceeași rubrică — aplicată celor 15 cazuri inițiale V11, cohortei de 100.000 de cazuri din A doua actualizare sau oricărei extinderi ulterioare — iar diferența dintre scorul publicat și orice rulare ulterioară este, la rândul ei, măsurabilă. Aceasta este valoarea preînregistrării: transformă afirmațiile de performanță în afirmații testabile.

Cum să reproduci acest benchmark în 10 minute

Reproducerea necesită doar o pereche de acreditări API Kantesti și un mediu Python 3.10 sau ulterior, cu requests şi reportlab bibliotecile instalate. Întregul harness este un singur modul Python autonom, lansat sub licența MIT.

💻 GitHub Harness cu licență MIT · răspunsuri brute · rulare de referință 🔗 DOI Figshare 10.6084/m9.figshare.32095435 · înregistrare academică canonică 🎓 ResearchGate Publicația 404175463 · V11 Second Update · academic discovery layer 📄 Academia.edu Lucrarea 165956808 · V11 Second Update · academic discovery layer

Patru pași pentru o rulare nouă

Unu. Clonați repository-ul: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Doi. Instalați dependențele cu pip install -r requirements.txt (A doua actualizare adaugă mysql-connector-python ≥ 8.0 pentru încărcătorul de cazuri SQL). Trei. Setați KANTESTI_USERNAME şi KANTESTI_PASSWORD ca variabile de mediu pentru API-ul motorului. Pentru încărcătorul de cazuri SQL din A doua actualizare, setați de asemenea KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, și KANTESTI_DB_PASSWORD — încărcătorul se conectează printr-un rol cu acces doar pentru citire (bench_reader) care nu are privilegii pentru identificarea tabelelor. Patru. Rulați python benchmark_bloodtest.py --limit 100000 pentru rularea completă Second-Update, sau python benchmark_bloodtest.py --limit 1000 pentru iterații rapide. Rezultatele sunt salvate în ./benchmark_results/: un scorecard CSV cu coloane pentru etichetă de țară și specialitate, un agregat JSON, un eșantion aleator stratificat de răspunsuri brute și un raport în Markdown.

Rulările de referință din 23 aprilie 2026 (V11 inițial, 15 cazuri) și 26 aprilie 2026 (V11 Second Update, 100,000 cazuri) sunt păstrate în results/ directorul repository-ului. O rulare nouă va genera un scorecard nou, cu timestamp, lăsând rulările de referință neatinse. Dacă rularea dvs. produce un rezultat semnificativ diferit, vă rugăm să deschideți o problemă (GitHub issue) cu timestamp-ul rulării și versiunea engine-ului returnată în metadatele răspunsului.

Limitări și lucrări viitoare

Chiar și pentru 100.000 de cazuri, pe 127 etichete de țară, patru limitări merită recunoscute explicit: eșantionare insuficientă pentru etichetele din coada lungă, evaluare dintr-o singură trecere, domeniu limitat la un singur motor și proveniență dintr-o singură sursă de date. Fiecare este abordată în lucrări de urmărire active.

Acoperire pentru etichetele din coada lungă. A Doua Actualizare acoperă 127 etichete de țară, dar distribuția este dezechilibrată — primele 10 etichete reprezintă ≈66,4% din cazuri, iar coada lungă a celor 97 de etichete suplimentare contribuie împreună cu ≈7,3% (aproximativ 7.300 de cazuri cumulate, ~75 de cazuri per etichetă, în medie). Prin urmare, compozitele pe etichetă din această coadă lungă sunt mai zgomotoase decât sugerează cifrele din titlu. Rulările viitoare vor reechilibra atribuirea etichetelor pentru a consolida estimările pe etichetă.

Evaluare dintr-o singură încercare. Fiecare caz din cohortă a fost evaluat o singură dată. Modelele lingvistice mari prezintă o variație de ieșire semnificativă chiar și la temperaturi mici de eșantionare, astfel încât un protocol cu mai multe rulări, cu cinci evaluări per caz și raportarea variației, este un pas natural — în special pe subsetul de cazuri-capcană, unde consistența sub „jitter” de eșantionare face parte din afirmația de siguranță.

Domeniul limitat la un singur motor. Acest raport caracterizează un singur engine. Analizele comparative față de sisteme AI alternative sunt în afara domeniului aici; le putem urmări ca un studiu independent separat, cu metodologie adecvată, folosind același harness licențiat MIT.

Date sintetice. Cele 100.000 de cazuri sunt generate sintetic, nu „cazuri sintetice”, iar rezultatele nu se transferă la performanța clinică din lumea reală. Evaluarea pe date reale, obținute cu consimțământ și provenite din surse externe ar necesita o supraveghere etică adecvată și nu intră în sfera acestui benchmark sintetic.

Dincolo de aceste patru, cea mai importantă extensie planificată este paritatea pe limbi, per jurisdicție. Engine-ul Kantesti AI Engine deservește utilizatori în 75+ limbi, iar rularea sub-cohortelor stratificate pe limbă din Second-Update (turcă, germană, spaniolă, franceză, italiană, portugheză, arabă, mandarină) va cuantifica calitatea ieșirilor în limbile acceptate de engine. Fiecare analiză stratificată pe limbă va fi publicată cu propriul DOI și cu o ramură (branch) a harness-ului.

Încercați același engine care a obținut un scor compozit de 99.80% pe 100,000 de cazuri

Încărcați propriul set de analize de sânge pe același endpoint de producție care a fost evaluat în acest benchmark. Peste 2 milioane de utilizatori din întreaga lume folosesc motorul AI Kantesti pentru a interpreta peste 15.000 de biomarkeri în 75+ limbi.

🔬 Încearcă versiunea demo gratuită

Extensie Chrome Magazin de aplicații Google Play

📚 Cum se citează acest benchmark

BibTeX

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {A Pre-Registered, Rubric-Based Automated Technical  
                 Benchmark of the Kantesti Blood-Test Interpretation  
                 Engine on 100,000 Synthetic Test Cases  
                 --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Un benchmark tehnic automatizat pre-înregistrat, bazat pe rubrică, al motorului de interpretare a analizelor de sânge Kantesti pe 100.000 de cazuri de test sintetice — Actualizare secundă V11 (Raport tehnic V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Referințe metodologice externe

Mentzer, W. C. (1973). Diferențierea deficitului de fier de trăsătura de talasemie. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Criterii de clasificare 2019 ale Ligii Europene Împotriva Reumatismului / Colegiului American de Reumatologie pentru lupus eritematos sistemic. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Test de halucinație în domeniul medical pentru modele de limbaj mari. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Scor compozit

100,000Cazuri evaluate

127Etichete de țări acoperite

0 / 87,412Capcane cu fals pozitive

Întrebări frecvente

Cât de precis este motorul AI Kantesti pe cazuri de test sintetice?

Pe o rubrică pre-înregistrată, rulat pe 100.000 de cazuri de test generate sintetic, în opt domenii de conținut și 127 etichete de țară (Actualizare secundă V11), motorul a atins un scor compozit de 99,80 la sută, fără niciun indicator de hiperdignosticare în 87.412 oportunități de tip „trap-case” monitorizate și cu o latență medie a răspunsului de 13,26 secunde. Acest scor compozit măsoară conformitatea ieșirilor pe intrări sintetice, nu acuratețea diagnostică. Lansarea inițială V11 a folosit aceeași rubrică pe 15 cazuri construite manual (scor compozit 99,12%); Actualizarea secundă păstrează rubrica identică la nivel de octeți și o extinde către un eșantion sintetic mai mare. Tabelul complet de scoruri este publicat pe Figshare sub DOI 10.6084/m9.figshare.32095435 și pe GitHub sub licență MIT.

Este motorul AI Kantesti validat clinic?

Nu. Motorul a fost evaluat cu un benchmark tehnic automatizat (nu o validare clinică), pe baza unei rubrici care a fost înghețată în codul sursă înainte de rularea inițială V11 și păstrată identică la nivel de octeți pentru a Doua Actualizare V11, evaluat pe 100.000 de cazuri de analize de sânge sintetice, pe hematologie, endocrinologie, medicină metabolică, hepatologie, nefrologie, cardiologie, reumatologie și medicină internă, extrase din 127 etichete de țară. Supravegherea clinică a fost asigurată de dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), hematolog clinician certificat de consiliu și Chief Medical Officer la Kantesti AI.

Ce este un caz de „capcană de hiperdia gnoză”?

Un caz-capcană de hiperdia gnoză este un scenariu clinic conceput special pentru a detecta comportamentul de supradiagnosticare în motoarele AI. Benchmark-ul inițial V11 a folosit două astfel de cazuri ca dovadă de concept metodologică: o hiperbili rubinemie indirectă izolată, compatibilă cu sindromul Gilbert (unde interpretarea corectă este polimorfismul benign UGT1A1, nu hepatita sau hemoliza) și un panou de screening complet normal la adult (unde ieșirea corectă este reasigurarea, nu o patologie limită fabricată). V11 Second Update a extins metodologia cazului-capcană către un subset dedicat de 8.723 cazuri, generând 87.412 oportunități monitorizate de semnalare a hiperdia gnozei — iar rata de fals-pozitive a motorului a rămas zero.

Evaluarea motorului AI Kantesti este reproductibilă?

Întregul cadru de evaluare este publicat sub licența MIT ca un singur modul Python auto-conținut. Rularea inițială V11 necesită doar o pereche de acreditări API Kantesti și Python 3.10 sau o versiune ulterioară. V11 Second Update adaugă un încărcător de cazuri SQL parametrizat, doar pentru citire, care necesită acreditări Kantesti pentru depozitul clinic (un rol fără privilegii de identificare a tabelelor). bench_reader Rol cu nicio facilitate de identificare a tabelelor). Codul, SQL-ul pentru încărcătorul de cazuri, rubrica (identică la nivel de octeți între versiuni) și un eșantion aleator stratificat de răspunsuri brute ale motorului din rulările de referință inițiale V11 și din Second Update sunt disponibile la github.com/emirhanai/kantesti-blood-test-benchmark și oglindite pe Figshare, ResearchGate și Academia.edu.

Cum diferențiază motorul AI Kantesti deficitul de fier de trăsătura de beta-talasemie?

Motorul aplică indicele Mentzer, calculat ca volumul mediu al corpusculilor împărțit la numărul de globule roșii. Un indice Mentzer peste 13 susține anemia prin deficit de fier, în timp ce o valoare sub 13 susține trăsătura de beta-talasemie. În benchmark-ul inițial V11, ambele prezentări au fost clasificate corect cu calcul explicit al indicelui Mentzer, susținut de feritină, RDW și context HbA2. Pe parcursul V11 Second Update, în cohorta de 100.000 de cazuri, același comportament diferențial a fost păstrat la scară de populație.

Unde pot găsi datele brute de referință și codul sursă?

Raportul tehnic este depus pe Figshare sub DOI 10.6084/m9.figshare.32095435 (acoperind atât lansarea inițială V11, cât și V11 Second Update), oglindit pe publicația ResearchGate 404175463 și pe lucrarea Academia.edu 165956808 — ambele actualizate cu titlul V11 Second Update și rezultatele pentru 100.000 de cazuri — iar cadrul Python licențiat MIT cu toate rezultatele rulărilor de referință este la github.com/emirhanai/kantesti-blood-test-benchmark. Rețeaua de oglindire pe patru platforme asigură disponibilitate pe termen lung și flexibilitate la citare.

De ce este importantă preînregistrarea pentru benchmarkurile medicale AI?

Preînregistrarea previne ajustarea post-hoc a rubricii, care este cea mai comună modalitate prin care benchmarkurile conduse de companii își umflă propriile rezultate. Prin angajarea rubricii în codul sursă înainte de orice apel al motorului și publicarea cadrului în mod public, datele autorului rubricii devin verificabile în controlul versiunilor, iar rezultatele motorului nu pot fi modelat criteriile de notare.

Acest benchmark include comparații cu alte motoare AI?

Nu. Raportul V11 — atât lansarea inițială, cât și Second Update — caracterizează deliberat un singur motor față de o rubrică fixă, nu îl poziționează față de sisteme comerciale alternative. Cadrul este open source sub licența MIT (acum incluzând încărcătorul de cazuri SQL), astfel încât cercetătorii independenți pot evalua orice motor pe care îl aleg față de aceeași rubrică și același încărcător de cazuri și își pot publica rezultatele.

Cazurile de pacienți sunt reale sau sintetice?

Toate cazurile sunt generate sintetic — 15 cazuri construite manual în lansarea inițială V11 și 100.000 în Actualizarea secundă. Nu sunt cazuri sintetice: nu sunt implicate date sintetice, niciun proces de consimțământ și nicio de-identificare, deoarece nu există date personale în cohortă. Nicio dată personală nu apare în harness-ul publicat, în raportul tehnic sau în seturile de date lansate.

⚕️ Declarație medicală & Conflict de interese

Acest raport de benchmark este destinat cercetării și transparenței metodologice. Nu constituie sfat medical, nu reprezintă un diagnostic și nu înlocuiește îngrijirea medicală profesionistă; niciun rezultat de aici nu trebuie utilizat pentru a întârzia sau evita consultarea unui medic. Consultați întotdeauna un furnizor calificat de servicii de sănătate pentru decizii de diagnostic și tratament. Acesta este un benchmark intern rulat de sine al motorului propriu al companiei și nu a fost validat independent sau evaluat de colegi. Scorul compozit măsoară conformitatea cu o grilă fixă (structura raportului, rechemarea cuvintelor-cheie și a sistemului de punctaj și latența); nu este o măsură a acurateței diagnostice din lumea reală sau a siguranței clinice. Ambii autori sunt angajați de și dețin participații la Kantesti Ltd, iar motorul evaluat este un produs comercial al aceleiași organizații. Acest conflict de interese este atenuat prin preînregistrarea grilei în codul sursă, prin publicarea instrumentului de rulare sub licența MIT și prin publicarea unui eșantion aleator stratificat de răspunsuri brute ale motorului.

Semnale de încredere E-E-A-T

⭐

Experienţă

15+ ani de practică în hematologie clinică și medicină de laborator, supervizând selecția panelului de cazuri.

📋

Expertiză

Proiectare de rubrică preînregistrată cu penalizări explicite pentru hiperdiagnosticare și sisteme recunoscute de notare clinică (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoritate

Autor principal dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementare de Julian Emirhan Bulut, CEO al Kantesti Ltd.

🛡️

Încredere

Cadru reproductibil licențiat MIT, răspunsuri brute ale motorului publicate, divulgare deschisă a conflictului de interese, rețea de oglindire de cercetare pe patru platforme.

🏢 Kantesti LTD Înregistrată în Anglia și Țara Galilor · Număr de companie. 17090423 Londra, Regatul Unit · kantesti.net