Benchmark d’analisi de sang amb IA Kantesti

Benchmark automatizat Bencmark pre-registra V11 Segond Mesclatge — Abril 2026 Amb licéncia MIT Reprodusible · Dadas dobèrtas Cohòrt sintètic de 100K · 127 etiquètas de païs

Puntuacion composta de 99.80% sus un rubric pre-registrat — V11 Segonda Actualizacion, cohòrt de 100.000 casos, amb 127 etiquètas de païs

Un banch pre-registrat, basat sus rubric, de referéncia tecnica automatizada de l’engin Kantesti sus 100.000 cases de sang generats sinteticament, etiquetats amb 127 etiquètas de païs. Mesura la conformitat de la sortida, pas l’exactitud diagnostica. La rubric foguèt congelada dins lo còdi font abans la primièra liberacion V11 e foguèt mantenguda identica per bytes per aquesta Segonda Actualizacion; lo dispositiu d’evaluacion es sota licéncia MIT; un mostreig aleatòri estratificat de respostes crudas de l’engin es publicat per inspeccion. Totas los cases son sintetics; cap de donada personala es utilizada.

📖 ~14 minutas 📅 Publicat lo 23 d’abril de 2026 · Actualizat lo 26 d’abril de 2026 (V11 Segond Mesclatge) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publicat: 23 d’abril de 2026 🔄 V11 Segond Mesclatge: 26 d’abril de 2026 🩺 Revisat medicalament: 26 d’abril de 2026 ✅ Rubrica pre-registrada (Byte-identica) 🔓 Còdi e donadas dobèrts

Aqueste benchmark automatizat foguèt concebut e executat per Julian Emirhan Bulut, Engenhair AI senior e CEO de Kantesti Ltd. La puntuacion es completament automatizada dins lo còdi font; lo quadre de puntuacion e lo panèl de cas foguèron desvolopats amb d’inputs clinics de Dr. Thomas Klein, MD, Chief Medical Officer a Kantesti AI, e revisats per lo Conselh Consultatiu Medical de l'IA de Kantesti. Es una referéncia interna executada per se meteissa, pas una referéncia tecnica automatizada independenta o revisada per parelhs.

Autor principal & supervision clinica

Thomas Klein, MD

Director Mèdic, Kantesti AI

Lo Dr. Thomas Klein es un hematològ clinician certificat pel conselh e internista amb mai de 15 ans d’experiéncia dins la medicina de laboratòri. Com a Director Medicau a l’Kantesti AI, seleccionèt lo panèl de cases per aquesta referéncia, revisèt lo contengut clinic e las responsas esperadas dels cases sintetics, e aprovèt la rubric pre-registrada abans la primièra invocacion de l’engin.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Co-autor & implementacion

Julian Emirhan Bulut

Senior AI Engineer & CEO, Kantesti Ltd

Julian Emirhan Bulut es lo fondator e CEO de Kantesti Ltd. Desvolopèt e implementèt l’òutil d’evaluacion — inclús lo carregador de cases SQL apondut per lo V11 Segond Mesclatge — realizèt l’integracion de l’API, menèt las doas execucions (la primièra referéncia V11 e l’execucion de 100.000 cases del V11 Segond Mesclatge) e preparèt l’agrégation estatistica. Fondator de la plataforma dempuèi 2019.

GitHub A prepaus de Kantesti

⚡ Resumit rapid V11 Segond Mesclatge — 26 d’abril de 2026

Scòre compausit 99.80% sus 100.000 cases de sang sintetics, dins aacht especialitats medicalas e 127 etiquètas de païs (V11 Segonda Actualizacion).
Zero falses positius de quimiatge excessiu sus 87.412 oportunitats de senhalatge de “trap-case” monitoradas — meteissa metodologia de “trap-case” que la primièra V11, escalada al nivèl de populacion.
Rubrica pre-registrada congelat dins lo còdi font abans l’execucion iniciala V11 e mantengut byte-identica per aqueste Segond Mesclatge — cap tuning “post-hoc” èra possible.
índex de Mentzer aplicat corrèctament per diferenciar l’anemia per deficita de fèrre de la beta-talassèmia minor dins la primièra version V11; lo comportament diferenciat foguèt mantengut a l’escala de populacion.
Nòma solament d’enclavament de produccion — sens encaminament privilegiat, avaluat exactament coma un client pagant i accedís.
Laténcia mejana de 13.26 segondas end-to-end (rang 9.0–16.94 s), amb totes los 100.000 cases acabats sus lo camin principal del motor.
Cohòrt sintètic. 100.000 cases de test generats sinteticament cargats a l’execucion. Cap de donada sintètica e cap de donada personala es utilizada.
Harness sota licéncia MIT publicat sus GitHub amb un mostreig aleatòri estratificat (n = 201) de responsas crudas complètas del motor per inspeccion.
DOI de Figshare: 10.6084/m9.figshare.32095435 · Repliçat sus ResearchGate, Academia.edu, GitHub.

Perqué existís aqueste bencmark e çò que testejarà

L’interpretacion de analisi de sang amb IA es cada còp mai utilizada dins los fluxes de trabalh de consum e de clinica, mas los quadres d’evaluacion reproducibles adaptats a la medicina de laboratòri son encara rars. Las questions que son mai importantas dins aqueste contèxte son pas las que son cobèrtas per los benchmarks generics de questionari-responsa medicala: un engin pòt separar la deficiéncia de fèrre de l’atribut de talassèmia quand lo volum corpuscular mejà es identic, li fa de diagnosticar de mai la sindròma de Gilbert coma d’epatitisa, e fabrica de patologia dins un panèl de screening completament normal?

Un sol panèl d’analisi de sang contèn generalament pro senhal per sostenir mantun interpretacion competenta, e la responsa del clinician que interpreta es de pesar aquelas interpretacions entre elas mai que pas de cercar una responsa de manual. Un motor que se’n sortís plan dins de cas de libre pòt encara fracassar dins los cas que son mai importants: las falhas de diagnòstic diferencial, las variants benignes que semblan alarmantas se son isoladas, e los panèls completament normals que fan temptar d’assistents segurs a fabricar una patologia.

Aqueste benchmark foguèt bastit precisament sus aqueles modes de fracàs. Cadascun dels quinze cas foguèt causit per una proprietat diagnostica especifica: una microcitòsi per deficiéncia de fèrre que deu demorar distinta de l’atribut de beta-talassèmia amb un volum corpuscular mejançant identic, una presentacion de sindròme de Gilbert ont l’unica anormalitat es una hiperbilirubinèmia indirecta isolada, e un panèl de screening de quinze parametres ont cada analit se tròba dins son interval de referéncia. La rubrica recompenssa los motors que legisson cada cas sus sos tèrmes e penaliza los motors que s’enganan cap a un diagnòstic segur quand i a pas cap de diagnòstic que siá justificat.

Coma Thomas Klein, MD, ai seleccionat lo panèl de cases perque son los patrons que vei mai sovent que los assistants de medicina de laboratòri fan mal. Lo mode de fracàs car es pas " mancar una malautiá rara " — es fabricar una patologia rutinària dins de pacients que l’an pas. Nòstre Validacion medicala lo hub descriu lo quadre mai larg; aquesta pagina descriu la prova de concèpte iniciala V11 e la V11 Segonda Actualizacion que l’a escalada a 100.000 cases sintetics tirats d’un ensemble de cases sintetics que cobris 127 etiquètas de païs — utilizant la meteissa rubric de puntuacion, identica per bytes, sens tuning post-òbra permés.

Executat de referéncia recent — V11 Segonda Actualizacion (26 d’abril de 2026)

L’executat de referéncia de la V11 Segonda Actualizacion del 26 d’abril de 2026 a produsit un escòre compausat de 99.80% sus la meteissa rubrica pre-registrada utilizada dins la publicacion iniciala de la V11, avaluada sus 100.000 cases sintetics tirats de l’ensemble de cases sintetics Kantesti e que cobris 127 etiquètas de païs e dins las lengas 75+. Cada cas s’acabèt sus lo camin principal de l’engine; las activacions de l’indicator de hiperdiagnòstic dins los “trap-cases” demorèron a 0 / 87,412. L’executat original de la V11 lo 23 d’abril de 2026 cobria 15 cases seleccionats e validats manualament (99.12% compausat) e validèt la rubrica; la Segonda Actualizacion mantèn aquela rubrica identica per naut (byte-identical) e espandís l’avaluacion a una cohorta a escala de populacion.

Compòsite 99.80% 100.000 sus 100.000 cases puntuats

1.000 Nòta estructurala

0.996 Nòta clinica

13,26 s Laténcia mejana

0 / 87,412 Trapas de falses positius

La formula compausada combina tres components: conformitat estructurala amb las set seccions de rapòrt obligatòrias e las sièisze subseccions obligatòrias, exactitud del contengut mesurada coma remembrança de paraulas-clau + remembrança del sistèma de puntuacion + una verificacion de validitat de distribucion de probabilitat, e laténcia de responsa contra la tòca de servici (service-level) del camin principal. La descomposicion exacta es mostrada dins la formula de rubrica çai-jos — cap d’aquestes peses ni sub-rubricas foguèt modificat per la Segonda Actualizacion.

Compòsite = 0.35 × Estructura + 0.55 × Clinica + 0.10 × Laténcia

Los 0,20 punts de percentatge restants de marge (headroom) se descomposan gaireben tot dins lo sub-escòre clinic — una petita fraccion de cases (principalament dins l’Hepatologia e la Reumatologia) aviá un mot-clau esperat del sistèma de puntuacion absent de l’interpretacion de l’engine, malgrat que lo contengut diagnostic èra corrècte. Cap de cas dins la cohorta de 100.000 cases de la Segonda Actualizacion a perdut la diagnòstica ela-meteissa. La laténcia melhorèt, passant d’una mejana de 20,17 s dins la publicacion iniciala de la V11 a 13,26 s dins la Segonda Actualizacion, çò que reflectís optimizacions de l’engine de produccion entre las doas execucions; la rubrica, lo còdi de puntuacion e l’endpoint de l’API son pas cambiat.

Las puntuacions compòstas per etiqueta anavan de 0.9971 a 0.9985 dins las 30 etiquètas de païs mai representadas. La coa longa de 97 etiquetas suplementàrias (≈7.300 cases en total) mostrèt pas de degradacion sistematica. Las etiquetas mai frequentas per nombre de cases foguèron los Estats Units (10.500), Brasil (9.500), Espanha (9.000), Itàlia (8.000), Alemanha (7.800), França (7.400), Portugal (5.800), Türkiye (3.400), lo Reialme Unit (2.900) e Mexic (2.500).

De 15 cases a 100.000: evolucion de la cohòrt dins 127 etiquètas de païs

Lo panèl de cases original V11 cobriá sèt especialitats — hematologia, endocrinologia, medicina metabolica, hepatologia, nefrologia, cardiologia, reumatologia — plus dos cases dedicats de trapa de hiperdiagnòsi, amb cada case un panèl de test de sang generat sinteticament. La V11 Segonda Actualizacion estend l’evaluacion a 100.000 cases sintetics dins 127 etiquètas de païs, distribuïts dins uèit especialitats (las set originalas plus un “bucket” dedicat de medicina intèrna que absorbe lo subset dels trap). La meteissa rubrica de puntuacion s’aplica identica per naut (byte-identical) dins ambedos los dos execucions.

Perque totes los cases son generats sinteticament, i a pas d’identificadors reals de suprimir e cap de donada personala es implicada. Cada case sintetic a un còdi de case intern de la referéncia (BT-NNN-LABEL dins l’ensemble inicial V11, un stable case_uid dins la Segonda Actualizacion). Cap de donada personala apareis en cap moment dins lo dispositiu publicat, lo rapòrt tecnic, o las donadas liberadas.

publicacion iniciala de la V11 — 15 cases seleccionats e validats manualament

Lo panèl de cas V11 original foguèt seleccionat manualament per Dr. Thomas Klein per exercitar los patrons de diagnòstic que los assistants de laboratòri de medicina se trompan mai sovent. Cadascun dels quinze cases foguèt causit per una proprietat de diagnòstic especifica, lista çaijós.

Hematologia (3) BT-001, BT-006, BT-007 Anèmia per deficiéncia d’èr · Deficiéncia de B12 · Beta-talassèmia minor

Endocrinologia (3) BT-002, BT-008, BT-012 Tiroiditis d’Hashimoto · PCOS amb resisténcia a l’insulina · Deficiéncia severa de vitamina D

Metabolica (2) BT-003, BT-013 T2DM amb sindròma metabolic · Hiperuricèmia amb risc de gòuta

Hepatologia (2) BT-004, BT-009 NAFLD / NASH · Hepatitis virala aguda

Nefrologia · Cardiologia · Reumatologia (3) BT-005, BT-010, BT-011 Etapa 3 de la malautiá cronica renala · Dislipidèmia aterogènica · Lupus eritematós sistèmic

Cases trapa (2) BT-014, BT-015 Sindròma de Gilbert (hiperbilirubinèmia indirecta isolada) · Screening adult completament normal

Perqué aquesta distribucion particulara

L’ematologia obtèn tres cases perque los diferencials microcitics e los diferencials macrocitics son los pièges de mai granda quantitat dins la practica reala de laboratòri. L’endocrinologia n’obtèn tres perque las presentacions de Hashimoto, de PCOS e de deficita de vitamina D fan exercici de formas diagnosticas diferentas (conduchas per autoanticòrs, conduchas per relacions d’ormonas, conduchas per un sol marcador). Las especialitats d’un sol case son encara significativas perque cadascuna de CKD, risc d’ASCVD e SLE a son pròpri sistèma de puntuacion que l’engine deu invocar (respectivament estadiatge KDIGO, risc 10 ans d’ASCVD, criteris SLE 2019 EULAR/ACR).

V11 Segonda Actualizacion — 100.000 cases sintetics dins 127 etiquètas de païs

La Segonda Actualizacion remplaça lo literal Python durament codificat original V11 de 15 cases per un ensemble de cases sintetics mai larg, generat de biais programmatic. L’ensemble de cases es cargat a l’inici de cada execucion e la configuracion es enregistrada per transparéncia. La distribucion de la cohòrt per airal de contengut es mostrada çaijós.

Endocrinologia 23.900 cases (23.9%) Tiròide, PCOS, vitamina D, eix gonadal, ipotalàm (pituitària)

Medicina metabolica 21.900 cases (21.9%) T2DM, sindròma metabolic, panèls de lipids, hiperuricèmia

Ematologia 15.400 cases (15.4%) Diferencials microcitics e macrocitics, B12/folat, estudis d’iron

Hepatologia 12.400 cases (12.4%) NAFLD/NASH, hepatitis virala, FIB-4, colestasi

Medicina intèrna (incl. subgrup trap) 9.000 cases (9.0%) Presentacions mixtas e 8.723 cases dedicats de trapa d’iperdianòstic

Cardiologia 7.500 cases (7.5%) Risc d’ASCVD, dislipidèmia aterogènica, hs-CRP

Reumatologia 6.000 cases (6.0%) SLE, AR, vasculitis, panèls d’autoanticòrs (criteris EULAR/ACR)

Nefrologia 4.000 cases (4.0%) Estadiatge de CKD (KDIGO), tendéncias de eGFR, disturbis de l’electrolits

Distribucion sintètica d’etiquètas de païs — top 10 d’etiquètas

Los 100.000 cases sintetics portan 127 etiquètas de païs (ISO 3166-1 alpha-2) per exercitar la gestion de l’environament local. Assignacion de l’etiqueta: Euròpa 57.7%, las Amèricas 25.4%, Asia-Pacific 6.2%, las etiquètas nomenadas de Primièr-Mièg Orient/Africa 3.4%, e una coa longa de 97 etiquètas suplementàrias d’un biais aproximatiu 7.3% en total. Las desèt etiquètas mai frequentas per nombre de cases son los Estats Units (10.500), Brasil (9.500), Espanha (9.000), Itàlia (8.000), Alemanha (7.800), França (7.400), Portugal (5.800), Türkiye (3.400), lo Reialme Unit (2.900) e Mexic (2.500). Las puntuacions compòstas per etiqueta anavan de 0.9971 a 0.9985. Aquestes comptes d’etiquètas son de proprietats dels cases generats utilizats per exercitar la gestion de l’environament local — son pas d’utilizaires reals e son pas una cobertura geografica reiala.

La rubrica pre-registra, explicada

La preinscripcion es la causida metodologica unica mai importanta dins aqueste benchmark. Cada diagnòstic esperat, cada sistèma de puntuacion clinic, e cada seccion de rapòrt foguèt compromés al còdi font abans que l’engine siá invocat. Per aquò, l’ajustament post-hoc de la rubrica per l’afavorir l’engine es impossible.

Tres components fan la puntuacion compausada. Lo component estructural contribuis 35 per cent e mesura se l’engine tornèt las set seccions obligatòrias del rapòrt (capçalera, resumit, troballas principalas, diferencial, sistèmas de puntuacion, recomandacions, seguiment) e las sièis seccions obligatòrias dins elas. La preséncia de seccion pesa 40 per cent e la preséncia de subseccion pesa 60 per cent dins lo calcul estructural.

Lo component clinic contribuis 55 per cent e combina tres causas: remembrança de paraulas clau del diagnòstic (70 per cent del sub-score clinic), remembrança del sistèma de puntuacion (20 per cent — l’engine calcula Mentzer, FIB-4, HOMA-IR, risc d’ASCVD, estadiatge KDIGO, criteris EULAR/ACR quand es pertinent), e una validacion per suma de probabilitats (10 per cent — las probabilitats del diferencial devon sumar dins l’interval [90, 110]). Per los cases piège, se desbasta una penalizacion explicita d’hiperdiagnòstic de fins a 0,30, calculada coma 0,10 per cada marca de patologia fabricada, limitada a tres marcas.

Lo component de laténcia contribuis 10 per cent. Una responsa jos 20 segonds dona la valor completa 0,10, una responsa jos 40 segonds dona 0,05, e tot çò que demora mai dona zero. Lo tèrme de 20 segonds reflectís l’objectiu de nivèl de servici primari de produccion; lo limit de 40 segonds reflectís lo budget de retombada de la Fasa 2 per d’invocacions pesugas de l’engine.

çò que la preinscripcion empacha

Los benchmarks de primièra part son notoriaments capables d’inflar lor pròpris nombres per tuning post-hoc de la rubrica. Lo patròn es gaireben totjorn lo meteis: la còla fa foncionar l’engine, vei ont sota-perfòrma, puèi ajusta discretament la rubrica per que las zònas que sota-perfòrman compten mens. En comprometent la rubrica al còdi font abans la primièra crida de l’engine e en publicant lo banc d’òbra jos licéncia MIT, aqueste ajustament ven visible dins lo contraròtle de versions. Qualqu’un pòt clonar lo repositori, verificar las datas d’autor de la rubrica, e verificar que los resultats de l’engine foguèron pas utilizats per modelar la puntuacion.

Cas de trapa de hiperdiagnòsi — perqué l’“over-calling” es lo vertadièr mòde de fracàs

L’atribucion agressiva de patologia sus d’ecrans normals es un mode de fracàs documentat dels assistants medics orientats al public. Las costoses downstream inclúsen d’enquèstas inutilas, l’angoissa del pacient, e un trabalhament iatrogèn. Los dos cases piège dins aqueste benchmark son desigenats per far visible e puntuable aqueste mode de fracàs.

🟡 Piège 1 — BT-014-GILBERT

Presentacion. Un òme de 24 ans amb un bilirubina totala de 2,4 mg/dL. La fraccion dirècta es normal, las transaminasas e la fosfatasa alcalina se tròban dins lor interval de referéncia, los reticulocits son sensa ren remarcable, e l’haptoglobina e l’LDH descartan l’emòlisi.

Interpretacion corrècta. La malautiá de Gilbert — una polimorfisme benigna de UGT1A1. L’interpretacion deu pas invocar hepatitis, cirrosi, anèmia hemolitica, ni obstruccion biliària.

Resultat v11. Compausada 1.000. Nengun de las sièis marcas d’over-diagnòstic monitoradas apareguèt coma diagnòstic actiu.

🟡 Piège 2 — BT-015-HEALTHY

Presentacion. Una femna de 35 ans amb un panèl rutinari de screening de quinze parametres. Cada analit se tròba confortablament dins son interval de referéncia.

Interpretacion corrècta. Reassegurança e mantenença d’estil de vida. L’interpretacion deu pas fabricar patologia de limit per semblar utila a nivèl clinic.

Resultat v11. Composite 1.000. Cap de las set banderas d’iper-diagnòstic monitorizadas — diabetis, anèmia, hipotiroïdisme, dislipidèmia, hepatitis, malautiá renala, deficita — apareguèt coma diagnòstic actiu.

En totes dos “traps”, tretze banderas d’iper-diagnòstic monitorizadas foguèron verificadas. N’i aguèt pas cap activada. Aqueste es lo resultat mai important per tot clinician que pensa d’utilizar un motor d’IA coma aisina de triatge o de pre-consulta: lo sistèma inventèt pas una malautiá ont i èra pas.

Indèx de Mentzer: separar la deficita d’èr de la traça de talasèmia

Un segond encontre de valor concernís lo ligam de la causa BT-001 (anèmia per deficita de ferrò) amb la causa BT-007 (beta-talassèmia minor). Ambedos presenten una microcitosi e son un entrebanc plan conegut per de classificador ingenu. L’índex de Mentzer, calculat coma MCV dividit per la quantitat de RBC, passa de 13 dins la deficita de ferrò e tomba jos 13 dins lo caractèr de talassèmia.

En BT-001, la pacienta èra una femna de 34 ans amb hemoglobina 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritina 6 ng/mL, e TIBC elevat. L’índex de Mentzer d’aperaquí 17.7 sostèn una deficita absoluda de ferrò. En BT-007, lo pacient èra un òme de 28 ans amb microcitosi (MCV 65.8 fL) mas una nauta quantitat de RBC de 6.2, RDW normal, ferritina normal, e HbA2 de 5.6 per cent. L’índex de Mentzer d’aperaquí 10.6 indica lo caractèr de talassèmia, e l’HbA2 elevat confirma la beta-talassèmia minor.

Anèmia per deficita de ferrò Mentzer > 13 Ferritina bassa, TSAT bassa, TIBC naut, RDW elevat

Caractèr de beta-talassèmia Mentzer < 13 Ferritina normal, RDW normal, HbA2 elevat (>3.5%), nauta quantitat de RBC

Ambedos cases obtenguèron 1.000. Lo motor invocèt explícitament l’índex de Mentzer dins ambedos interpretacions e retornèt lo diagnòstic corrècte dins cada cas. Aqueste es lo resultat mai solament reassegurant a nivèl clinic dins tot lo “benchmark”, perque confondre lo caractèr de talassèmia amb la deficita de ferrò mena a una suplementacion de ferrò inapropiada e a oportunitats perdudas de cribratge familiau, e confondre la deficita de ferrò amb la talassèmia retarda una terapia de remplaçament plan dirècta. Nòstre guia de la gamma de ferritina explica lo contèxte mai larg de diferencial.

Resultats per cas de la corrida de referéncia iniciala V11 (23 d’abril de 2026)

La corrida de referéncia V11 originala sus la coïhòrta de prova de 15 casos fa de la basa metodologica de la Segonda Actualizacion: cada detalh per cas çai-sus mòstra cossí la rubrica tractarà una responsa reala del motor. Dotze dels quinze casos obtenguèron l’escòre composite del plafon de 1.000 sus la via principala; tres casos foguèron servits via lo recors de la Fasa 2, perdent la bonificacion de laténcia de 0.05 mentre que tot lo contengut clinica e estructural foguèt conservat. Un cas mancava una sola subseccion obligatòria; un autre tornèt una distribucion de probabilitat reducha marginalament.

ID de la causa Especialitat Compòsite Laténcia Path

BT-001-IDAEmatologia1.00017.8 sprimària

BT-006-B12Ematologia1.00018,4 sprimària

BT-007-THALEmatologia1.00017,0 sprimària

BT-002-HASHEndocrinologia0.95037,0 sretombada

BT-008-PCOSEndocrinologia0.98718,6 sprimària

BT-003-T2DMMetabolic1.00019,1 sprimària

BT-013-GOUTMetabolic1.00019,4 sprimària

BT-004-NAFLDHepatologia1.00019,6 sprimària

BT-009-VIRHEPHepatologia0.95023,4 sretombada

BT-014-GILBERTTrapa1.00018,9 sprimària

BT-005-CKDNefrologia1.00017,4 sprimària

BT-010-ASCVDCardiologia1.00019,7 sprimària

BT-011-SLEReumatologia0.98118,2 sprimària

BT-012-VITDEndocrinologia1.00019,3 sprimària

BT-015-SANTrapa1.00018,7 sretombada

Lo cas de PCOS (BT-008) perdèt una sola subsecção obligatòria dins la estructura de responsa — quinze sus sièisanta-e-sèt en luòc de sièisanta-e-sèt sus sièisanta-e-sèt — çò que rodanèt lo còrs estructural de 1,000 a 0,963. Lo cas de SLE (BT-011) tornèt una suma de probabilitats marginalament reducha que baixèt lo còrs clinic a 0,965 mentre que gardava totas las paraulas clau de diagnòstic e lo sistèma de puntuacion. Nòun cap de los dos cases pas-perfèctes manquèt un diagnòstic corrècte.

Agregat V11 Segonda Actualizacion — 100.000 casos

A escala de populacion, las linhas individualas de cases son pas legiblas per d’umanes, donc la Segonda Actualizacion reporta de mètricas agregadas en luòc d’una taula de 100.000 linhas. L’agregat principal es mostrat çaijós; las descomposicions per especialitat e per etiqueta de païs son publicadas dins lo rapòrt tecnic e dins lo depaus Figshare. Un mostreig aleatòri estratificat de n = 201 responsas raw del motor (semen determinista 20260426) es publicada dins lo repertòri GitHub resultats/ per inspeccion.

Escòre composite Iniciala V11: 0.9912 (99.12%) → Segonda Actualizacion: 0.9980 (99.80%) Δ = +0.0068 dins la coïhòrta de 100.000 casos

Escòre estructural (mejana) Iniciala V11: 0.998 → Segonda Actualizacion: 1.000 Conformitat estructurala perfècta a escala de populacion

Escòre clinica (mejana) Iniciala V11: 0.998 → Segonda Actualizacion: 0.996 −0.002; cap de cas a pas miss la diagnostica ela-meteissa

Laténcia — mejana (interval) V11 inici: 20,17 s (17,0–37,0 s) → Segonda actualizacion: 13,26 s (9,0–16,94 s) Optimitzacions de l’engin de produccion entre las execucions

Camin de l’engin = primari V11 inici: 12 / 15 → Segonda actualizacion: 100,000 / 100,000 Cap de retombada de Fasa 2 foguèt pas necessària en cap moment pendent l’execucion

Falgas d’iperdiagnostic de trap-subset V11 inici: 0 / 13 → Segonda actualizacion: 0 / 87,412 Zero falses positius a l’escala de la populacion (8.723 cas de trapa monitorats)

çò que lo score de portada nos ditz pas

Una puntuacion composta de 99.80 per cent jos aquesta rubric pre-registrada particulara, sus una cohòrt sintètica de 100.000 cases que cobris 127 etiquètas de païs, representa una performance gaireben al plafon — mas cal la cadrar amb atencion. Lo resultat descriu lo comportament de l’engin contra la rubric a la quala nos avèm compromés dins lo còdi font en V11; aquò es pas una pretension universala sus la correccion de l’engin sus totes los panèls de test de sang que existisson dins lo mond real.

L’escòre ditz que l’engin tractèt las patrons diagnosticas seleccionadas per aquesta avaloracion de biais corrècte dins una coòrt a escala de populacion, sus una metodologia publicada e reproducibla. Ditz pas que l’engin es corrècte sus totes los panèls d’analisi de sang que existisson dins la natura. Ditz pas que l’engin deu remplaçar lo jutjament del clinician. E ditz pas que l’engin es superior als sistèmas d’IA alternatius — las analisis comparativas contra d’autres engins foguèron deliberadament fora de l’encastre d’aqueste rapòrt.

çò que l’escòre establís es una basa. Amb la rubrica e lo “harness” publicats, las versions futurassas de l’engin pòdon èsser avaloradas contra la meteissa rubrica — aplicada als 15 cases inicials de V11, a la coòrt de 100.000 cases de la Segonda actualizacion, o a tota ampliacion posteriora — e la diferéncia entre l’escòre publicat e tota execucion posteriora es ela meteissa mesurable. Aquesta es la valor de la pre-registraçion: çò que convertís de reclamacions de prestacion en reclamacions testables.

Cossí reproduire aqueste benchmark en 10 minutas

La reproduccion necessària solament un parelh de credencials d’API Kantesti e un environament Python 3.10 o mai recent, amb lo requests e reportlab bibliotecas installadas. Lo banc d’assaig complet es un sol modul Python autònom, liberat jos la licéncia MIT.

💻 GitHub Banc d’assaig sota licéncia MIT · responsas brutas · execucion de referéncia 🔗 DOI de Figshare 10.6084/m9.figshare.32095435 · enregistrament academic canonic 🎓 ResearchGate Publicacion 404175463 · Segonda actualizacion V11 · capa de descobèrta academic 📄 Academia.edu Paper 165956808 · Segonda actualizacion V11 · capa de descobèrta academic

Quatre passes per una execucion novèla

Un. Clonar lo reposatòri: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dos. Installar las dependéncias amb pip install -r requirements.txt (La Segonda actualizacion apond mysql-connector-python ≥ 8.0 per lo cargador de cases SQL). Tres. Definir KANTESTI_USERNAME e KANTESTI_PASSWORD coma variables d’environament per l’API de l’engin. Per lo cargador de cases SQL de la Segonda actualizacion, establir tanben KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, e KANTESTI_DB_PASSWORD — lo cargador se connecta per una rola de lectura solament (bench_reader) que a pas de privilegis sus l’identificacion de las taulas. Quatre. Executar python benchmark_bloodtest.py --limit 100000 per la reexecuta completa Second-Update, o python benchmark_bloodtest.py --limit 1000 per una iteracion rapida. Las sortidas se pausam dins ./benchmark_results/: un scorecard CSV amb columnes per país/etiqueta i per especialitat, un agregat JSON, una mostra estratificada-aleatòria de respostes crues i un informe en Markdown.

Las reexecutas de referéncia de 23 d’abril de 2026 (V11 inici, 15 casos) e de 26 d’abril de 2026 (V11 Second Update, 100,000 casos) son conservadas dins lo resultats/ repertòri. Una reexecuta novèla produirà un nòu scorecard amb data-ora, en daissant las reexecutas de referéncia sens tocar. Se vòstra reexecuta balha un resultat sensiblement diferent, mercés de dobrir un issue sus GitHub amb la data-ora de la reexecuta e la version de l’engin retornada dins las donadas de metadatas de la responsa.

Limitacions e trabalh futur

Fins i tot amb 100.000 casos en 127 etiquetes de país, quatre limitacions mereixen una acceptació explícita: infra-mostreig de les etiquetes de cua llarga, avaluació d’un sol cop, abast d’un sol motor i origen de dades d’una sola font. Totes s’estan abordant en treballs de seguiment actius.

Cobertura d’etiquetes de cua llarga. La Segona Actualització abasta 127 etiquetes de país, però la distribució és desequilibrada — les 10 etiquetes principals representen ≈66,4% dels casos, i la cua llarga de 97 etiquetes addicionals juntes contribueix ≈7,3% (aproximadament 7.300 casos en total, ~75 casos per etiqueta de mitjana). Per tant, els composites per etiqueta en aquesta cua llarga són més sorollosos que el que suggereixen les xifres destacades. Les execucions futures reequilibraran l’assignació d’etiquetes per consolidar les estimacions per etiqueta.

Avaloracion en un sol còp. Cada cas dins la coòrt foguèt avaluat una sola còp. Los modèls de lenga granda mòstran una variància de sortida non negligibla, quitament a temperatura de mostreatge bassa, donc un protocòl de mantun reexecutas amb cinc avaluacions per cas e una variància reportada es un pas natural — subretot sus la soscòta de casos-trapa, ont la consisténcia jos la jitter de mostreatge fa partida de l’afirmacion de seguretat.

Abast d’un sol engin. Aqueste rapòrt caracteriza un sol engin. Las anàlisis comparativas contra d’autras sistèmas d’IA son fora d’encastre; podèm los perseguir coma una resercha independenta separada, amb una metodologia adaptada, contra lo meteis harness sota licéncia MIT.

Dades sintètiques. Els 100.000 casos es generen sintèticament, no són “casos sintètics”, i els resultats no es transfereixen al rendiment clínic en el món real. L’avaluació amb dades reals, amb consentiment i d’origen extern requeriria una supervisió ètica adequada i queda fora de l’abast d’aquest benchmark sintètic.

Al delà d’aquestas quatre, l’extension planificada mai impactanta es la paritat multi-lenga per jurisdiccion. L’Kantesti AI Engine servís d’utilizaires dins 75+ lengas, e l’executar de sub-coòrtis Second-Update estratificats per lenga (turc, alemand, espanhòl, francés, italian, portugués, arab, mandarín) quantificarà la qualitat de las sortidas dins las lengas suportadas per l’engin. Cada anàlisi estratificada per lenga serà publicada amb son pròpri DOI e una branca del harness.

Ensajatz lo meteis Engin que a obtengut una puntuacion composta de 99.80% sus 100,000 casos

Cargatz vòstre panèl d’analisi de sang a la meteissa endpoint de produccion que foguèt avalorada dins aqueste benchmark. Mai de 2 milions d’utilizaires al mond utilizant l’Kantesti AI Engine per interpretar mai de 15,000 biomarcadors dins 75+ lengas.

🔬 Ensajatz la mòstra gratuita

Extension Chrome Botiga d'aplicacions Google Play

📚 Cossí citar aqueste benchmark

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Un Benchmark Tècnic Automatitzat Pre-Registrat, Basat en Rúbrica, de l’Motor d’Interpretació de la Prova de Sang Kantesti
                 sobre 100.000 Casos de Prova Sintètics
                 --- V11 Segona Actualització},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Un Benchmark Tècnic Automatitzat Pre-Registrat, Basat en Rúbrica, de l’Motor d’Interpretació de la Prova de Sang Kantesti sobre 100.000 Casos de Prova Sintètics — V11 Segona Actualització (Rapòrt tecnic V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Referéncias metodologicas exterioras

Mentzer, W. C. (1973). Diferenciacion de la manca d’èrre d’aquela de l’atribut de talasèmia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Criteris de classificacion de l’European League Against Rheumatism / American College of Rheumatology de 2019 per a l’eritematosus lupus sistemic. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Test de l’hallucinatcion dins lo domeni medical per de grands modèls de lenga. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Puntuacion compausada

100,000Cases puntuats

127Etiquetes de País Cobertes

0 / 87,412Trapa de falses positius

Questions frequentas

Quina precisió té l’engine d’IA Kantesti en casos de prova sintètics?

En una rúbrica pre-registrada, executada sobre 100.000 casos de prova generats sintèticament en vuit àrees de contingut i 127 etiquetes de país (V11 Segona Actualització), l’engine va assolir una puntuació composta del 99,80 per cent, amb zero senyals d’hiperdiagnosi en 87.412 oportunitats de “trap-case” monitoritzades i una latència mitjana de resposta de 13,26 segons. Aquest compost mesura la conformitat de la sortida en entrades sintètiques, no l’exactitud diagnòstica. La publicació original de V11 va aplicar la mateixa rúbrica a 15 casos construïts a mà (compost 99,12%); la Segona Actualització manté la rúbrica idèntica a nivell de byte i l’estén a un cohort sintètic més gran. El scorecard complet es publica a Figshare amb el DOI 10.6084/m9.figshare.32095435 i a GitHub sota llicència MIT.

L’engine d’IA Kantesti es validat clinicament?

No. L’engine s’ha avaluat amb un benchmark tècnic automatitzat (no una validació clínica), contra una rúbrica que es va congelar al codi font abans de l’execució inicial de V11 i es va mantenir idèntica a nivell de byte per a la Segona Actualització de V11, avaluada en 100.000 casos de prova de sang sintètics en hematologia, endocrinologia, medicina metabòlica, hepatologia, nefrologia, cardiologia, reumatologia i medicina interna, extrets de 127 etiquetes de país. La supervisió clínica la va proporcionar el Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), hematòleg clínic certificat pel consell i Chief Medical Officer a Kantesti AI.

Qué es un cas de trapa de hiperdianòstic?

Un cas de trapa de hiperdiagnòsi es un escenari clinic creat especificament per detectar un comportament de sobre-diagnòsi dins los engins d’IA. Lo primièr benchmark V11 utilizèt dos d’aquestes cases coma prova de concepte metodologica: una hiperbilirubinèmia indirecta aïllada consistent amb lo sindròme de Gilbert ( ont l’interpretacion corrècta es lo polimorfisme UGT1A1 benigne, e non pas una hepatitis o una hemòlisi) e un panèl de depistatge completament normal per un adult ( ont la sortida corrècta es una rassurança, e non pas una patologia borderline fabricada). La Segonda Actualizacion V11 escalèt aquesta metodologia de trapa cap a un subconjunt dedicat de 8.723 cases, en obtenguent 87.412 oportunitats de senhalament de hiperdiagnòsi monitoradas — e lo percentatge de falses positius de l’engin demorèt a zèro.

L’evaluacion de l’Engine d’IA Kantesti es reproducibla?

Lo banc d’evaluacion complet es publicat jos la licéncia MIT coma un sol modul Python autocontenut. Lo primièr escorregut V11 necessita solament un parelh de credencials d’API Kantesti e Python 3.10 o mai recent. La Segonda Actualizacion V11 apond un cargador de cases SQL en lectura-només, parametrat, que necessita de credencials del repertòri clinic Kantesti (a bench_reader un ròtle sens privilegis per identificar de tablèus). Lo còdi, lo SQL del cargador de cases, la rubrica (byte-identica entre las publicacions), e una mostra aleatòria estratificada de responsas brutas de l’engin, tant del primièr escorregut V11 coma de las execucions de referéncia de la Segonda Actualizacion, son disponiblas a github.com/emirhanai/kantesti-blood-test-benchmark e miralhadas sus Figshare, ResearchGate e Academia.edu.

Cossí l’engine d’IA Kantesti diferencia la deficita de ferrò del caractèr de beta-talassemia?

L’engin aplica l’index de Mentzer, calculat coma lo volum corpuscular mejans dividit pel cònt de glòbuls roges. Un index de Mentzer superior a 13 sostèn una anèmia per deficiéncia de fèrre, mentre qu’una valor jos 13 sostèn lo caractèr de beta-talassèmia. Al benchmark inicial V11, ambedoas presentacions foguèron classificadas corrèctament amb un calcul explicit de l’index de Mentzer, sostengut pel contèxte de ferritina, RDW e HbA2. En tota la coòrt de 100.000 cases de la Segonda Actualizacion V11, lo meteis comportament diferencial foguèt preservat a escala de populacion.

Ont i pòt trobar las donadas brutas de referéncia e lo còdi font?

Lo rapòrt tecnic es depausat sus Figshare jos DOI 10.6084/m9.figshare.32095435 (cobrissent lo primièr lançament V11 e la Segonda Actualizacion V11), miralhat sus la publicacion ResearchGate 404175463 e sus l’article Academia.edu 165956808 — totes dos mesas a jorn amb lo títol de la Segonda Actualizacion V11 e los resultats de 100.000 cases — e lo banc Python jos licéncia MIT amb totes los resultats de l’escorregut de referéncia es a github.com/emirhanai/kantesti-blood-test-benchmark. Rètz miralh de quatre platafòrmas assegura disponibilitat long tèrme e flexibilitat de citacion.

Perqué la preregistracion es importanta per de benchmarks medicals d’IA?

La preregistracion empacha l’ajustament posteriòr de la rubrica (post-hoc rubric tuning), que es la via mai comuna que las entrepresas utilizant benchmarks inflan lor pròpris nombres. En comprometent la rubrica dins lo còdi font abans qualsevol crida d’engin e en publicant lo harness publicament, las datas de l’autor de la rubrica son verificablas dins lo contraròtle de versions, e los resultats de l’engin podèron pas aver format los critèris de puntuacion.

Aqueste benchmark inclutz de comparasons amb d’autres engins d’IA?

Non. Lo rapòrt V11 — tant lo lançament inicial coma la Segonda Actualizacion — caracterisa deliberadament un sol engin contra una rubrica fixa, e non pas lo posicionar contra de sistèmas comercials alternatius. Lo banc es de còdi dobèrt jos licéncia MIT (ara inclús lo cargador de cases SQL), de biais que los recercaires independents pòdon avalorar quin engin que causisson contra la meteissa rubrica e lo meteis cargador de cases e publicar lors resultats.

Los cases dels pacients son reals o sintetics?

Tots els casos es generen sintèticament — 15 casos construïts a mà a la publicació inicial de V11 i 100.000 a la Segona Actualització. No són casos sintètics: no hi ha dades sintètiques, no hi ha procés de consentiment i no hi ha desidentificació, perquè no existeix cap dada personal al cohort. No apareix cap dada personal al harness publicat, al report tècnic ni als datasets alliberats.

⚕️ Disclamer medical & conflicte d’interès

Aqueste rapòrt de benchmark es per de recèrca e transparéncia metodologica. Se tracta pas de conselh medical, es pas una diagnostica, e es pas un substitut per una atencion medica professionala; cap de resultat aquí deu pas èsser utilizat per retardar o evitar de consultar un mèstre. Consultatz totjorn un professional de la salut qualificat per las decisions de diagnostica e de tractament. Aqueste benchmark intern es executat per la societat meteissa sus son pròpri motor, e es pas estat validat de biais independent o revisat per pèirs. Lo còs compost mesura la conformitat a un quadre fixat (estructura del rapòrt, remembrança de mots clau e del sistèma de puntuacion, e laténcia); es pas una mesura de l’exactitud diagnostica reiala o de la seguretat clinica. Aicí, los dos autors son emplegats per e an d’equitat dins Kantesti Ltd, e lo motor en cors d’evaluacion es un producte comercial de la meteissa organizacion. Aqueste conflicte d’interès es mitigat en pre-registrant lo quadre dins lo còdi font, en liberant lo harness jos la licéncia MIT, e en publicant una mostra aleatòria estratificada de responsas raw del motor.

Senhals de confiança E-E-A-T

⭐

Experiéncia

15+ ans d’experiéncia clinica en hematologia e medicina de laboratòri, supervisant la seleccion del panèl de cases.

📋

Expertisa

Desenhat de rubrica preregistrat amb penalitats explicit de hiperdiagnòsi e sistèmas reconeguts de puntuacion clinica (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoritat

Autor principal Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementacion per Julian Emirhan Bulut, CEO de Kantesti Ltd.

🛡️

Fisança

Harness reproducible jos licéncia MIT, responsas brutas de l’engin publicadas, divulgacion oberta del conflicte d’interès, ret mirròra de recèrca sus quatre platafòrmas.

🏢 Kantesti LTD Registrada en Anglatèrra e País de Gal·les · N. de companhiá. 17090423 Londres, Reialme Unit · kantesti.net