Perqué existís aqueste bencmark e çò que testejarà
L’interpretacion de analisi de sang amb IA es cada còp mai utilizada dins los fluxes de trabalh de consum e de clinica, mas los quadres d’evaluacion reproducibles adaptats a la medicina de laboratòri son encara rars. Las questions que son mai importantas dins aqueste contèxte son pas las que son cobèrtas per los benchmarks generics de questionari-responsa medicala: un engin pòt separar la deficiéncia de fèrre de l’atribut de talassèmia quand lo volum corpuscular mejà es identic, li fa de diagnosticar de mai la sindròma de Gilbert coma d’epatitisa, e fabrica de patologia dins un panèl de screening completament normal?
Un sol panèl d’analisi de sang contèn generalament pro senhal per sostenir mantun interpretacion competenta, e la responsa del clinician que interpreta es de pesar aquelas interpretacions entre elas mai que pas de cercar una responsa de manual. Un motor que se’n sortís plan dins de cas de libre pòt encara fracassar dins los cas que son mai importants: las falhas de diagnòstic diferencial, las variants benignes que semblan alarmantas se son isoladas, e los panèls completament normals que fan temptar d’assistents segurs a fabricar una patologia.
Aqueste benchmark foguèt bastit precisament sus aqueles modes de fracàs. Cadascun dels quinze cas foguèt causit per una proprietat diagnostica especifica: una microcitòsi per deficiéncia de fèrre que deu demorar distinta de l’atribut de beta-talassèmia amb un volum corpuscular mejançant identic, una presentacion de sindròme de Gilbert ont l’unica anormalitat es una hiperbilirubinèmia indirecta isolada, e un panèl de screening de quinze parametres ont cada analit se tròba dins son interval de referéncia. La rubrica recompenssa los motors que legisson cada cas sus sos tèrmes e penaliza los motors que s’enganan cap a un diagnòstic segur quand i a pas cap de diagnòstic que siá justificat.
Coma Thomas Klein, MD, ai seleccionat lo panèl de cases perque son los patrons que vei mai sovent que los assistants de medicina de laboratòri fan mal. Lo mode de fracàs car es pas " mancar una malautiá rara " — es fabricar una patologia rutinària dins de pacients que l’an pas. Nòstre Validacion medicala descriu lo quadre general; aquesta pagina descriu lo primièr prototipe (proof-of-concept) de la V11 iniciala e la V11 Segonda Actualizacion que l’a escalat fins a 100.000 cases anonimizats tirats d’un repertòri clinic sostengut per SQL, que cobre 127 païses — utilizant la meteissa rubrica de puntuacion, identica per naut (byte-identical), sens afinatge posteriòr permés.
Executat de referéncia recent — V11 Segonda Actualizacion (26 d’abril de 2026)
L’executat de referéncia de la V11 Segonda Actualizacion del 26 d’abril de 2026 a produsit un escòre compausat de 99.80% sus la meteissa rubrica pre-registrada utilizada dins la publicacion iniciala de la V11, avaluada sus 100.000 cases anonimizats tirats del repertòri clinic sostengut per SQL Kantesti e que s’estend 127 païses e dins las lengas 75+. Cada cas s’acabèt sus lo camin principal de l’engine; las activacions de l’indicator de hiperdiagnòstic dins los “trap-cases” demorèron a 0 / 87,412. L’executat original de la V11 lo 23 d’abril de 2026 cobria 15 cases seleccionats e validats manualament (99.12% compausat) e validèt la rubrica; la Segonda Actualizacion mantèn aquela rubrica identica per naut (byte-identical) e espandís l’avaluacion a una cohorta a escala de populacion.
La formula compausada combina tres components: conformitat estructurala amb las set seccions de rapòrt obligatòrias e las sièisze subseccions obligatòrias, exactitud clinica mesurada coma remembrança de paraulas-clau + remembrança del sistèma de puntuacion + una verificacion de validitat de distribucion de probabilitat, e laténcia de responsa contra la tòca de servici (service-level) del camin principal. La descomposicion exacta es mostrada dins la formula de rubrica çai-jos — cap d’aquestes peses ni sub-rubricas foguèt modificat per la Segonda Actualizacion.
Los 0,20 punts de percentatge restants de marge (headroom) se descomposan gaireben tot dins lo sub-escòre clinic — una petita fraccion de cases (principalament dins l’Hepatologia e la Reumatologia) aviá un mot-clau esperat del sistèma de puntuacion absent de l’interpretacion de l’engine, malgrat que lo contengut diagnostic èra corrècte. Cap de cas dins la cohorta de 100.000 cases de la Segonda Actualizacion a perdut la diagnòstica ela-meteissa. La laténcia melhorèt, passant d’una mejana de 20,17 s dins la publicacion iniciala de la V11 a 13,26 s dins la Segonda Actualizacion, çò que reflectís optimizacions de l’engine de produccion entre las doas execucions; la rubrica, lo còdi de puntuacion e l’endpoint de l’API son pas cambiat.
Los escòres compausats per país anavan de 0,9971 (Índia) a 0,9985 (Suïssa) dins los 30 païses mai representats. La coa longa de 97 païses addicionals (≈7.300 cases en total) mostrèt pas de degradacion sistematica. Los principals contributors per nombre de cases foguèron los Estats Units (10.500), lo Brasil (9.500), Espanha (9.000), Itàlia (8.000), Alemanha (7.800), França (7.400), Portugal (5.800), Türkiye (3.400), lo Reialme Unit (2.900) e Mexic (2.500).
De 15 cases a 100.000: evolucion de la cohòrta dins 127 païses
Lo panèl de cases original de la V11 cobria set especialitats — hematologia, endocrinologia, medicina metabolica, hepatologia, nefrologia, cardiologia, reumatologia — e tanben dos cases dedicats de “hyperdiagnosis trap”, amb cada cas un enregistrament vertadièr de pacient anonimizat tirat del repertòri de donadas clinic Kantesti jos consentiment informat escrich. La V11 Segonda Actualizacion espandís l’avaluacion a 100.000 cases anonimizats dins 127 païses, distribuïts dins uèit especialitats (las set originalas plus un “bucket” dedicat de medicina intèrna que absorbe lo subset dels trap). La meteissa rubrica de puntuacion s’aplica identica per naut (byte-identical) dins ambedos los dos execucions.
La desidentificacion foguèt realizada amb l’aprochi Safe Harbor: totes los identificadors directes foguèron removuts o remplaçats, e cada enregistrament foguèt assignat a un còdi de cas intern de referéncia en lo format BT-NNN-LABEL (V11 inicial) o a un case_uid estable anonimizat per la Segonda Actualizacion. La processament foguèt fach en conformitat amb l’Article 9(2)(j) del GDPR per recèrca scientifica amb de salvagardas apropriadas, e las disposicions equivalentas del UK GDPR. Cap informacion personalament identificabla apareis en cap moment dins l’arnès publicat, lo rapòrt tecnic, ni dins las donadas liberadas.
publicacion iniciala de la V11 — 15 cases seleccionats e validats manualament
Lo panèl de cas V11 original foguèt seleccionat manualament per Dr. Thomas Klein per exercitar los patrons de diagnòstic que los assistants de laboratòri de medicina se trompan mai sovent. Cadascun dels quinze cases foguèt causit per una proprietat de diagnòstic especifica, lista çaijós.
Perqué aquesta distribucion particulara
L’ematologia obtèn tres cases perque los diferencials microcitics e los diferencials macrocitics son los pièges de mai granda quantitat dins la practica reala de laboratòri. L’endocrinologia n’obtèn tres perque las presentacions de Hashimoto, de PCOS e de deficita de vitamina D fan exercici de formas diagnosticas diferentas (conduchas per autoanticòrs, conduchas per relacions d’ormonas, conduchas per un sol marcador). Las especialitats d’un sol case son encara significativas perque cadascuna de CKD, risc d’ASCVD e SLE a son pròpri sistèma de puntuacion que l’engine deu invocar (respectivament estadiatge KDIGO, risc 10 ans d’ASCVD, criteris SLE 2019 EULAR/ACR).
V11 Segonda Actualizacion — 100.000 cases anonimizats dins 127 païses
La Segonda Actualizacion remplaça lo literal Python de 15 cases, codificat durament, de V11, per una consulta SQL parametrada, de lectura sola, sul repositori clinic Kantesti (anonymised_blood_panels). La consulta filtra sus consent_research = 1 AND released_for_benchmark = 1 e s’imprime al cap de cada execucion de benchmark per transparéncia. La distribucion de la coòrt per especialitat es mostrada çaijós.
Distribucion geografica — los 10 païses mai importants
La coïhòrta abasta 127 païses (ISO 3166-1 alpha-2). Euròpa aporta 57.7%, las Amèricas 25.4%, Asia-Pacific 6.2%, las entradas nomenadas d’Orient Mejan/Africa 3.4%, e una longa coa de 97 païses suplementaris que fan en total aperaquí 7.3%. Los desèt mai gròs contributors son los Estats Units (10,500), lo Brasil (9,500), Espanha (9,000), Itàlia (8,000), Alemanha (7,800), França (7,400), Portugal (5,800), Türkiye (3,400), lo Reialme Unit (2,900) e Mexic (2,500). Los escòres composites per païs variavan de 0.9971 (Índia) a 0.9985 (Suïssa).
La rubrica pre-registra, explicada
La preinscripcion es la causida metodologica unica mai importanta dins aqueste benchmark. Cada diagnòstic esperat, cada sistèma de puntuacion clinic, e cada seccion de rapòrt foguèt compromés al còdi font abans que l’engine siá invocat. Per aquò, l’ajustament post-hoc de la rubrica per l’afavorir l’engine es impossible.
Tres components fan la puntuacion compausada. Lo component estructural contribuis 35 per cent e mesura se l’engine tornèt las set seccions obligatòrias del rapòrt (capçalera, resumit, troballas principalas, diferencial, sistèmas de puntuacion, recomandacions, seguiment) e las sièis seccions obligatòrias dins elas. La preséncia de seccion pesa 40 per cent e la preséncia de subseccion pesa 60 per cent dins lo calcul estructural.
Lo component clinic contribuis 55 per cent e combina tres causas: remembrança de paraulas clau del diagnòstic (70 per cent del sub-score clinic), remembrança del sistèma de puntuacion (20 per cent — l’engine calcula Mentzer, FIB-4, HOMA-IR, risc d’ASCVD, estadiatge KDIGO, criteris EULAR/ACR quand es pertinent), e una validacion per suma de probabilitats (10 per cent — las probabilitats del diferencial devon sumar dins l’interval [90, 110]). Per los cases piège, se desbasta una penalizacion explicita d’hiperdiagnòstic de fins a 0,30, calculada coma 0,10 per cada marca de patologia fabricada, limitada a tres marcas.
Lo component de laténcia contribuis 10 per cent. Una responsa jos 20 segonds dona la valor completa 0,10, una responsa jos 40 segonds dona 0,05, e tot çò que demora mai dona zero. Lo tèrme de 20 segonds reflectís l’objectiu de nivèl de servici primari de produccion; lo limit de 40 segonds reflectís lo budget de retombada de la Fasa 2 per d’invocacions pesugas de l’engine.
çò que la preinscripcion empacha
Los benchmarks de primièra part son notoriaments capables d’inflar lor pròpris nombres per tuning post-hoc de la rubrica. Lo patròn es gaireben totjorn lo meteis: la còla fa foncionar l’engine, vei ont sota-perfòrma, puèi ajusta discretament la rubrica per que las zònas que sota-perfòrman compten mens. En comprometent la rubrica al còdi font abans la primièra crida de l’engine e en publicant lo banc d’òbra jos licéncia MIT, aqueste ajustament ven visible dins lo contraròtle de versions. Qualqu’un pòt clonar lo repositori, verificar las datas d’autor de la rubrica, e verificar que los resultats de l’engine foguèron pas utilizats per modelar la puntuacion.
Cas de trapa de hiperdiagnòsi — perqué l’“over-calling” es lo vertadièr mòde de fracàs
L’atribucion agressiva de patologia sus d’ecrans normals es un mode de fracàs documentat dels assistants medics orientats al public. Las costoses downstream inclúsen d’enquèstas inutilas, l’angoissa del pacient, e un trabalhament iatrogèn. Los dos cases piège dins aqueste benchmark son desigenats per far visible e puntuable aqueste mode de fracàs.
🟡 Piège 1 — BT-014-GILBERT
Presentacion. Un òme de 24 ans amb un bilirubina totala de 2,4 mg/dL. La fraccion dirècta es normal, las transaminasas e la fosfatasa alcalina se tròban dins lor interval de referéncia, los reticulocits son sensa ren remarcable, e l’haptoglobina e l’LDH descartan l’emòlisi.
Interpretacion corrècta. La malautiá de Gilbert — una polimorfisme benigna de UGT1A1. L’interpretacion deu pas invocar hepatitis, cirrosi, anèmia hemolitica, ni obstruccion biliària.
Resultat v11. Compausada 1.000. Nengun de las sièis marcas d’over-diagnòstic monitoradas apareguèt coma diagnòstic actiu.
🟡 Piège 2 — BT-015-HEALTHY
Presentacion. Una femna de 35 ans amb un panèl rutinari de screening de quinze parametres. Cada analit se tròba confortablament dins son interval de referéncia.
Interpretacion corrècta. Reassegurança e mantenença d’estil de vida. L’interpretacion deu pas fabricar patologia de limit per semblar utila a nivèl clinic.
Resultat v11. Composite 1.000. Cap de las set banderas d’iper-diagnòstic monitorizadas — diabetis, anèmia, hipotiroïdisme, dislipidèmia, hepatitis, malautiá renala, deficita — apareguèt coma diagnòstic actiu.
En totes dos “traps”, tretze banderas d’iper-diagnòstic monitorizadas foguèron verificadas. N’i aguèt pas cap activada. Aqueste es lo resultat mai important per tot clinician que pensa d’utilizar un motor d’IA coma aisina de triatge o de pre-consulta: lo sistèma inventèt pas una malautiá ont i èra pas.
Indèx de Mentzer: separar la deficita d’èr de la traça de talasèmia
Un segond encontre de valor concernís lo ligam de la causa BT-001 (anèmia per deficita de ferrò) amb la causa BT-007 (beta-talassèmia minor). Ambedos presenten una microcitosi e son un entrebanc plan conegut per de classificador ingenu. L’índex de Mentzer, calculat coma MCV dividit per la quantitat de RBC, passa de 13 dins la deficita de ferrò e tomba jos 13 dins lo caractèr de talassèmia.
En BT-001, la pacienta èra una femna de 34 ans amb hemoglobina 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritina 6 ng/mL, e TIBC elevat. L’índex de Mentzer d’aperaquí 17.7 sostèn una deficita absoluda de ferrò. En BT-007, lo pacient èra un òme de 28 ans amb microcitosi (MCV 65.8 fL) mas una nauta quantitat de RBC de 6.2, RDW normal, ferritina normal, e HbA2 de 5.6 per cent. L’índex de Mentzer d’aperaquí 10.6 indica lo caractèr de talassèmia, e l’HbA2 elevat confirma la beta-talassèmia minor.
Ambedos cases obtenguèron 1.000. Lo motor invocèt explícitament l’índex de Mentzer dins ambedos interpretacions e retornèt lo diagnòstic corrècte dins cada cas. Aqueste es lo resultat mai solament reassegurant a nivèl clinic dins tot lo “benchmark”, perque confondre lo caractèr de talassèmia amb la deficita de ferrò mena a una suplementacion de ferrò inapropiada e a oportunitats perdudas de cribratge familiau, e confondre la deficita de ferrò amb la talassèmia retarda una terapia de remplaçament plan dirècta. Nòstre guia de la gamma de ferritina explica lo contèxte mai larg de diferencial.
Resultats per cas de la corrida de referéncia iniciala V11 (23 d’abril de 2026)
La corrida de referéncia V11 originala sus la coïhòrta de prova de 15 casos fa de la basa metodologica de la Segonda Actualizacion: cada detalh per cas çai-sus mòstra cossí la rubrica tractarà una responsa reala del motor. Dotze dels quinze casos obtenguèron l’escòre composite del plafon de 1.000 sus la via principala; tres casos foguèron servits via lo recors de la Fasa 2, perdent la bonificacion de laténcia de 0.05 mentre que tot lo contengut clinica e estructural foguèt conservat. Un cas mancava una sola subseccion obligatòria; un autre tornèt una distribucion de probabilitat reducha marginalament.
Lo cas de PCOS (BT-008) perdèt una sola subsecção obligatòria dins la estructura de responsa — quinze sus sièisanta-e-sèt en luòc de sièisanta-e-sèt sus sièisanta-e-sèt — çò que rodanèt lo còrs estructural de 1,000 a 0,963. Lo cas de SLE (BT-011) tornèt una suma de probabilitats marginalament reducha que baixèt lo còrs clinic a 0,965 mentre que gardava totas las paraulas clau de diagnòstic e lo sistèma de puntuacion. Nòun cap de los dos cases pas-perfèctes manquèt un diagnòstic corrècte.
Agregat V11 Segonda Actualizacion — 100.000 casos
A escala de populacion, las linhas individualas dels casos son pas legiblas per d’umanes, donc la Segonda Actualizacion rapòrta de mètricas agregadas en luòc d’una taula de 100.000 linhas. L’agregat principal es afichat çai-jos; las descomposicions per especialitat e per païs son publicadas dins lo rapòrt tecnic e dins lo depòsit Figshare. Una mostreja aleatòria estratificada de n = 201 responsas raw del motor (semen determinista 20260426) es publicada dins lo repertòri GitHub resultats/ per inspeccion.
çò que lo score de portada nos ditz pas
Un escòre compausat de 99,80 per cent dins aquesta rubrica pre-registrada particulara, sus una coòrt anonimizada de 100.000 casos que cobris 127 païses, representa una performance gaireben al limit — mas cal un encastre prudent. Lo resultat descriu lo comportament de l’engin contra la rubrica que nos avèm compromés a font de còdi dins V11; aquò es pas una pretension universala sus la correccion de l’engin sus totes los panèls d’analisi de sang que existisson dins la natura.
L’escòre ditz que l’engin tractèt las patrons diagnosticas seleccionadas per aquesta avaloracion de biais corrècte dins una coòrt a escala de populacion, sus una metodologia publicada e reproducibla. Ditz pas que l’engin es corrècte sus totes los panèls d’analisi de sang que existisson dins la natura. Ditz pas que l’engin deu remplaçar lo jutjament del clinician. E ditz pas que l’engin es superior als sistèmas d’IA alternatius — las analisis comparativas contra d’autres engins foguèron deliberadament fora de l’encastre d’aqueste rapòrt.
çò que l’escòre establís es una basa. Amb la rubrica e lo “harness” publicats, las versions futurassas de l’engin pòdon èsser avaloradas contra la meteissa rubrica — aplicada als 15 cases inicials de V11, a la coòrt de 100.000 cases de la Segonda actualizacion, o a tota ampliacion posteriora — e la diferéncia entre l’escòre publicat e tota execucion posteriora es ela meteissa mesurable. Aquesta es la valor de la pre-registraçion: çò que convertís de reclamacions de prestacion en reclamacions testables.
Cossí reproduire aqueste benchmark en 10 minutas
La reproduccion necessària solament un parelh de credencials d’API Kantesti e un environament Python 3.10 o mai recent, amb lo requests e reportlab bibliotecas installadas. Lo banc d’assaig complet es un sol modul Python autònom, liberat jos la licéncia MIT.
Quatre passes per una execucion novèla
Un. Clonar lo reposatòri: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dos. Installar las dependéncias amb pip install -r requirements.txt (La Segonda actualizacion apond mysql-connector-python ≥ 8.0 per lo cargador de cases SQL). Tres. Definir KANTESTI_USERNAME e KANTESTI_PASSWORD coma variables d’environament per l’API de l’engin. Per lo cargador de cases SQL de la Segonda actualizacion, establir tanben KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, e KANTESTI_DB_PASSWORD — lo cargador se connecta per una rola de lectura solament (bench_reader) que a pas de privilegis sus l’identificacion de las taulas. Quatre. Executar python benchmark_bloodtest.py --limit 100000 per la reexecuta completa Second-Update, o python benchmark_bloodtest.py --limit 1000 per una iteracion rapida. Las sortidas se pausam dins ./benchmark_results/: un scorecard CSV amb de colomnas per país e per especialitat, un agregat JSON, un mostreatge estratificat-aleatòri de responsas, e un rapòrt en Markdown.
Las reexecutas de referéncia de 23 d’abril de 2026 (V11 inici, 15 casos) e de 26 d’abril de 2026 (V11 Second Update, 100,000 casos) son conservadas dins lo resultats/ repertòri. Una reexecuta novèla produirà un nòu scorecard amb data-ora, en daissant las reexecutas de referéncia sens tocar. Se vòstra reexecuta balha un resultat sensiblement diferent, mercés de dobrir un issue sus GitHub amb la data-ora de la reexecuta e la version de l’engin retornada dins las donadas de metadatas de la responsa.
Limitacions e trabalh futur
Anant encara a 100,000 casos dins 127 païses, quatre limitacions meritan una reconeissença explicit: l’undersampling del long-tail de païses, l’evaluacion d’un sol còp, l’amplet d’un sol engin, e l’origin d’un sol tipe de donadas. Caduna d’aquestas es en cors de tractament dins de trabalh de seguiment actiu.
Cobertura del long-tail de païses. Lo Second Update abasta 127 païses, mas la distribucion es desequilibrada — los 10 primièrs contributors fan ≈66.4% dels casos, e lo long tail de 97 païses suplementaris contribuis ensems ≈7.3% (aproximativ 7,300 casos en total, ~75 casos per país en mejana). Los composites per país dins aqueste long tail son doncas mai bruchoses que çò que suggerisson las xifras de cap. Las reexecutas futuras recrutaran de biais preferencial de païses pauc mostrejats per afinar las estimacions per jurisdiccion.
Avaloracion en un sol còp. Cada cas dins la coòrt foguèt avaluat una sola còp. Los modèls de lenga granda mòstran una variància de sortida non negligibla, quitament a temperatura de mostreatge bassa, donc un protocòl de mantun reexecutas amb cinc avaluacions per cas e una variància reportada es un pas natural — subretot sus la soscòta de casos-trapa, ont la consisténcia jos la jitter de mostreatge fa partida de l’afirmacion de seguretat.
Abast d’un sol engin. Aqueste rapòrt caracteriza un sol engin. Las anàlisis comparativas contra d’autras sistèmas d’IA son fora d’encastre; podèm los perseguir coma una resercha independenta separada, amb una metodologia adaptada, contra lo meteis harness sota licéncia MIT.
Origina de las donadas d’una sola font. Los 100,000 casos son anonimizats, de vertadièrs registres de pacients, tirats d’un sol repertòri clinic (lo magatzem de donadas clinic SQL Kantesti). Representan un flux de produccion curat e son pas una seleccion aleatòria representativa de la populacion a l’escala globala. L’estendre l’avaluacion a de donadas multi-centres tiradas d’origins exterioras es sus la rota.
Al delà d’aquestas quatre, l’extension planificada mai impactanta es la paritat multi-lenga per jurisdiccion. L’Kantesti AI Engine servís d’utilizaires dins 75+ lengas, e l’executar de sub-coòrtis Second-Update estratificats per lenga (turc, alemand, espanhòl, francés, italian, portugués, arab, mandarín) quantificarà la qualitat de las sortidas dins las lengas suportadas per l’engin. Cada anàlisi estratificada per lenga serà publicada amb son pròpri DOI e una branca del harness.