Kantesti referencia de análise de sangue con IA: validación clínica

Benchmark automatizado Benchmark preinscrito V11 Segunda actualización — abril de 2026 con licenza MIT Reproducible · Datos abertos Cohorte sintética 100K · 127 etiquetas de países

Puntuación composta 99.80% nunha rúbrica pre-rexistrada — V11 segunda actualización, cohorte de 100.000 casos en 127 etiquetas de países

Unha referencia técnica automatizada pre-rexistrada baseada en rúbrica do motor Kantesti sobre 100.000 casos de probas de sangue xerados sinteticamente e etiquetados con 127 etiquetas de países. Mide a conformidade da saída, non a precisión diagnóstica. A rúbrica foi conxelada no código fonte antes do lanzamento inicial da V11 e mantívose byte-por-byte idéntica para esta Segunda Actualización; o armazón de avaliación está baixo licenza MIT; publícase unha mostra aleatoria estratificada das respostas do motor en bruto para a súa inspección. Todos os casos son sintéticos; non se usan datos persoais.

📖 ~14 minutos 📅 Publicado o 23 de abril de 2026 · Actualizado o 26 de abril de 2026 (V11 Segunda actualización) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publicado: 23 de abril de 2026 🔄 V11 Segunda actualización: 26 de abril de 2026 🩺 Revisado médicamente: 26 de abril de 2026 ✅ Rúbrica pre-rexistrada (byte-identica) 🔓 Código e datos abertos

Este benchmark automatizado foi deseñado e executado por Julián Emirhan Bulut, enxeñeiro sénior de IA e CEO de Kantesti Ltd. A puntuación está totalmente automatizada no código fonte; a rúbrica de puntuación e o panel de casos foron desenvolvidos con achegas clínicas de Doutor Thomas Klein, doutor en medicina, director médico (Chief Medical Officer) en Kantesti AI, e revisados por Consello Asesor Médico de IA de Kantesti. É un benchmark interno executado por si mesmo, non un benchmark técnico automatizado independente nin revisado por pares.

Autor principal e supervisión clínica

Thomas Klein, doutor en medicina

Xefe médico, Kantesti AI

O doutor Thomas Klein é un hematólogo clínico e internista certificado polo consello, con máis de 15 anos de experiencia en medicina de laboratorio. Como director médico en Kantesti AI, seleccionou o panel de casos para este benchmark, revisou o contido clínico e as respostas esperadas dos casos sintéticos, e aprobou a rúbrica pre-rexistrada antes da primeira invocación do motor.

ORCID 0009-0009-1490-1321 ResearchGate Google Académico

Coautor e implementación

Julián Emirhan Bulut

Enxeñeiro sénior de IA e CEO, Kantesti Ltd

Julian Emirhan Bulut é o fundador e CEO de Kantesti Ltd. Deseñou e implementou o banco de avaliación — incluíndo o cargador de casos SQL engadido para a V11 Segunda actualización — realizou a integración da API, levou a cabo tanto a execución de referencia inicial de V11 como a execución de 100.000 casos da V11 Segunda actualización, e preparou a agregación estatística. Fundador da plataforma desde 2019.

GitHub Acerca de Kantesti

⚡ Resumo rápido V11 Segunda actualización — 26 de abril de 2026

Puntuación composta 99.80% en 100.000 casos sintéticos de probas de sangue en oito especialidades médicas e 127 etiquetas de países (V11 Segunda Actualización).
Sen falsos positivos de hiperdianóstico en 87.412 oportunidades de sinalización de casos trampa monitorizadas — a mesma metodoloxía de casos trampa que na V11 inicial, escalada a nivel poboacional.
Rúbrica pre-rexistrada conxelada no código fonte antes da execución inicial de V11 e mantida byte-identica para esta Segunda actualización — non foi posible facer axustes post-hoc.
Índice de Mentzer aplicado correctamente para diferenciar a anemia ferropénica da beta-talassemia menor na V11 inicial; o comportamento diferencial mantívose a escala poboacional.
Endpoint só de produción — sen enrutamento privilexiado, avaliado exactamente como accedería un cliente de pago.
13.26 segundos de latencia media extremo a extremo (intervalo 9.0–16.94 s), con todos os 100.000 casos completados no camiño principal do motor.
Cohorte sintética. 100.000 casos de proba xerados sinteticamente cargados en tempo de execución. Non se usan datos sintéticos nin datos persoais.
Bancada (harness) con licenza MIT publicado en GitHub cunha mostra aleatoria estratificada (n = 201) de respostas crúas completas do motor para a súa inspección.
DOI de Figshare: 10.6084/m9.figshare.32095435 · Espelhado en ResearchGate, Academia.edu, GitHub.

Por que existe este benchmark e que proba

A interpretación de análise de sangue con IA asistida cada vez se usa máis en fluxos de traballo de consumo e clínicos, pero seguen sendo pouco comúns os marcos de avaliación reproducibles adaptados á medicina de laboratorio. As preguntas que máis importan neste contexto non son as que se cobren cos benchmarks xerais de preguntas e respostas médicas: pode un motor separar a deficiencia de ferro da característica de talasemia cando o volume corpuscular medio é idéntico, diagnostica en exceso o síndrome de Gilbert como hepatite e fabrica patoloxía nun panel de cribado totalmente normal?

Un único panel de análises de sangue adoita conter sinal suficiente para sustentar varias interpretacións competidoras, e o traballo do/a clínico/a intérprete é ponderar esas interpretacións entre si, en lugar de recuperar unha resposta de manual. Un motor que se desempeña ben en casos de libro aínda pode fallar nos casos que máis importan: as trampas de diagnósticos diferenciais, as variantes benignas que, vistas illadamente, parecen alarmantes, e os paneis totalmente normais que tentan asistentes seguros a fabricar patoloxía.

Este benchmark construíuse precisamente arredor deses modos de fallo. Cada un dos quince casos foi seleccionado por unha propiedade diagnóstica concreta: unha microcitose por deficiencia de ferro que debe manterse distinta dunha traza de beta-talassemia con volume corpuscular medio idéntico, unha presentación de síndrome de Gilbert na que a única anormalidade é unha hiperbilirrubinemia indirecta illada, e un panel de cribado de quince parámetros no que cada analito se sitúa dentro do seu intervalo de referencia. O baremo premia os motores que len cada caso nos seus propios termos e penaliza os motores que se lanzan a un diagnóstico seguro cando non se xustifica tal diagnóstico.

Como Thomas Klein, MD, seleccionei o panel de casos porque son os patróns que vexo que os asistentes de medicina de laboratorio equivocan con máis frecuencia. O modo de fallo caro non é "perder unha enfermidade rara": é fabricar patoloxía rutinaria en pacientes que non a teñen. O noso Validación médica o hub describe o marco máis amplo; esta páxina describe a proba de concepto inicial da V11 e a V11 Segunda Actualización que a escalou a 100.000 casos sintéticos extraídos dun conxunto de casos sintéticos que abarca 127 etiquetas de países — usando a mesma rúbrica de puntuación, byte-por-byte idéntica, sen permitir axustes post-hoc.

Execución de referencia máis recente — V11 Second Update (26 de abril de 2026)

A execución de referencia do V11 Second Update do 26 de abril de 2026 produciu unha puntuación composta de 99.80% na mesma rúbrica pre-rexistrada usada na primeira versión do V11, avaliadas en 100.000 casos sintéticos extraídos do conxunto de casos sintéticos de Kantesti e que abarcan 127 etiquetas de países e linguaxes 75+. Cada caso completouse no camiño principal do motor; as activacións do sinalizador de hiperdiagnóstico en casos trampa mantivéronse en 0 / 87,412. A execución orixinal do V11 do 23 de abril de 2026 cubriu 15 casos curados a man (composta 99.12%) e validou a rúbrica; o Second Update mantén esa rúbrica idéntica en bytes e estende a avaliación a unha cohorte a escala poboacional.

Composta 99.80% 100.000 de 100.000 casos puntuados

1.000 Puntuación estrutural

0.996 Puntuación clínica

13.26 s Latencia media

0 / 87,412 Falsos positivos das trampas

A fórmula composta combina tres compoñentes: conformidade estrutural coas sete seccións de informe obrigatorias e dezaseis subseccións obrigatorias, precisión da información medida como recuperación de palabras clave máis recuperación do sistema de puntuación máis unha comprobación de validez da distribución de probabilidades, e latencia de resposta fronte ao obxectivo de nivel de servizo do camiño principal. A descomposición exacta móstrase na fórmula da rúbrica a continuación — ningunha destas ponderacións nin sub-rúbricas foi alterada para o Second Update.

Composta = 0.35 × Estrutural + 0.55 × Clínica + 0.10 × Latencia

Os restantes 0.20 puntos porcentuais de marxe descomponse case por completo na subpuntuación clínica — unha pequena fracción de casos (predominantemente en Hepatoloxía e Reumatoloxía) tiña unha palabra clave esperada do sistema de puntuación ausente da interpretación do motor malia que o contido diagnóstic o era correcto. Ningún caso na cohorte de 100.000 casos do Second Update perdeu o diagnóstico en si. A latencia mellorou desde unha media de 20.17 s na primeira versión do V11 ata 13.26 s no Second Update, reflectindo optimizacións do motor de produción entre as dúas execucións; a rúbrica, o código de puntuación e o endpoint da API non cambiaron.

As puntuacións compostas por etiqueta oscilaron entre 0.9971 e 0.9985 nas 30 etiquetas de países máis representadas. A longa cola de 97 etiquetas adicionais (≈7.300 casos en conxunto) non mostrou degradación sistemática. As etiquetas máis frecuentes segundo o número de casos foron os Estados Unidos (10.500), Brasil (9.500), España (9.000), Italia (8.000), Alemaña (7.800), Francia (7.400), Portugal (5.800), Türkiye (3.400), o Reino Unido (2.900) e México (2.500).

De 15 casos a 100.000: evolución da cohorte en 127 etiquetas de países

O panel de casos orixinal da V11 cubría sete especialidades — hematoloxía, endocrinoloxía, medicina metabólica, hepatoloxía, nefroloxía, cardioloxía, reumatoloxía — ademais de dous casos dedicados de trampa de hipediagnóstico, con cada caso un panel de probas de sangue xerado sinteticamente. A V11 Segunda Actualización estende a avaliación a 100.000 casos sintéticos en 127 etiquetas de países, distribuídos en oito especialidades (as sete orixinais máis un compartimento interno de medicina dedicado que absorbe o subconxunto de trampa). A mesma rúbrica de puntuación aplícase idéntica en bytes en ambas as execucións.

Dado que todos os casos se xeran sinteticamente, non hai identificadores reais que eliminar e non se inclúen datos persoais. Cada caso sintético leva un código de caso interno do benchmark (BT-NNN-LABEL no conxunto inicial da V11, un estable case_uid na Segunda Actualización). Non aparece ningún dato persoal en ningures no armazón publicado, no informe técnico nin nos conxuntos de datos publicados.

primeira versión do V11 — 15 casos curados a man

O panel de casos V11 orixinal foi seleccionado manualmente polo doutor Thomas Klein para exercitar os patróns diagnósticos que os asistentes de medicina de laboratorio adoitan interpretar mal. Cada un dos quince casos foi escollido por unha propiedade diagnóstica específica, listada a continuación.

Hematoloxía (3) BT-001, BT-006, BT-007 Anemia ferropénica · Deficiencia de B12 · Beta-talassemia menor

Endocrinoloxía (3) BT-002, BT-008, BT-012 Tiroidite de Hashimoto · PCOS con resistencia á insulina · Deficiencia severa de vitamina D

Metabólica (2) BT-003, BT-013 T2DM con síndrome metabólica · Hiperuricemia con risco de gota

Hepatoloxía (2) BT-004, BT-009 NAFLD / NASH · Hepatite viral aguda

Nefroloxía · Cardioloxía · Reumatoloxía (3) BT-005, BT-010, BT-011 Enfermidade renal crónica estadio 3 · Dislipidemia disxenerativa ateroxénica · Lupus eritematoso sistémico

Casos trampa (2) BT-014, BT-015 Síndrome de Gilbert (hiperbilirrubinemia indirecta illada) · Cribado adulto totalmente normal

Por que esta distribución en particular

A hematoloxía recibe tres casos porque os diagnósticos diferenciais microcíticos e macrocíticos son as trampas de maior volume na práctica real de laboratorio. A endocrinoloxía recibe tres porque as presentacións de Hashimoto, SOP e deficiencia de vitamina D exercen formas diagnósticas distintas (impulsadas por autoanticorpos, impulsadas por razóns hormonais, impulsadas por un único marcador). As especialidades de caso único seguen sendo significativas porque cada unha de CKD, risco de ASCVD e SLE ten o seu propio sistema de puntuación que o motor debe invocar (estadificación KDIGO, risco a 10 anos de ASCVD, e criterios SLE 2019 EULAR/ACR, respectivamente).

V11 Segunda Actualización — 100.000 casos sintéticos en 127 etiquetas de países

A Segunda Actualización substitúe o literal de Python orixinal da V11, codificado de forma fixa, de 15 casos, por un conxunto de casos sintéticos máis grande xerado programaticamente. O conxunto de casos cárgase ao inicio de cada execución e a configuración rexístrase para transparencia. A distribución da cohorte por área de contido móstrase a continuación.

Endocrinoloxía 23.900 casos (23.9%) Tiroide, PCOS, vitamina D, eixe gonadal, hipófise

Medicina metabólica 21.900 casos (21.9%) T2DM, síndrome metabólica, paneles lipídicos, hiperuricemia

Hematoloxía 15.400 casos (15.4%) Diferenciais microcíticos e macrocíticos, B12/folato, estudos de ferro

Hepatoloxía 12.400 casos (12.4%) NAFLD/NASH, hepatite viral, FIB-4, colestase

Medicina interna (incl. subconxunto trap) 9.000 casos (9.0%) Presentacións mixtas e 8.723 casos dedicados de hyperdiagnosis trap

Cardiología 7.500 casos (7.5%) Risco de ASCVD, dislipidemia ateroxénica, hs-CRP

Reumatoloxía 6.000 casos (6.0%) SLE, AR, vasculite, paneles de autoanticorpos (criterios EULAR/ACR)

Nefroloxía 4.000 casos (4.0%) Estadificación de CKD (KDIGO), tendencias de eGFR, alteración electrolítica

Distribución sintética de etiquetas de países — top 10 etiquetas

Os 100.000 casos sintéticos levan 127 etiquetas de países (ISO 3166-1 alpha-2) para exercitar o manexo de configuración local. Asignación de etiquetas: Europa 57.7%, as Américas 25.4%, Asia-Pacífico 6.2%, etiquetas nomeadas de Oriente Medio/África 3.4%, e unha longa cola de 97 etiquetas adicionais aproximadamente 7.3% en conxunto. As dez etiquetas máis frecuentes segundo o número de casos son os Estados Unidos (10.500), Brasil (9.500), España (9.000), Italia (8.000), Alemaña (7.800), Francia (7.400), Portugal (5.800), Türkiye (3.400), o Reino Unido (2.900) e México (2.500). As puntuacións compostas por etiqueta oscilaron entre 0.9971 e 0.9985. Estas cantidades de etiquetas son propiedades dos casos xerados usados para exercitar o manexo de configuración local — non son usuarios reais e non representan cobertura xeográfica real.

O baremo preinscrito, explicado

O rexistro previo é a elección metodolóxica máis importante neste benchmark. Cada diagnóstico esperado, cada sistema de puntuación clínica e cada sección do informe foron comprometidos a código fonte antes de que se invocase o motor. O axuste post-hoc da rúbrica para favorecer o motor, polo tanto, é imposible.

Tres compoñentes forman a puntuación composta. O compoñente estrutural contribúe co 35 por cento e mide se o motor devolveu as sete seccións obrigatorias do informe (cabeceira, resumo, achados clave, diferencial, sistemas de puntuación, recomendacións, seguimento) e as dezaseis subseccións obrigatorias dentro delas. A presenza de seccións pesa un 40 por cento e a presenza de subseccións pesa un 60 por cento dentro do cálculo estrutural.

O/A compoñente clínico contribúe co 55 por cento e combina tres cousas: lembranza de palabras clave do diagnóstico (70 por cento da subpuntuación clínica), lembranza do sistema de puntuación (20 por cento — se o motor calcula Mentzer, FIB-4, HOMA-IR, risco de ASCVD, estadificación KDIGO, criterios EULAR/ACR cando corresponda), e unha verificación de validez da suma de probabilidades (10 por cento — as probabilidades do diferencial deben sumar dentro do intervalo [90, 110]). Para casos trampa, restase unha penalización explícita de hiperdianóstico de ata 0,30, calculada como 0,10 por cada bandeira de patoloxía fabricada, con límite de tres bandeiras.

O/A compoñente de latencia contribúe co 10 por cento. Unha resposta por debaixo de 20 segundos obtén a puntuación completa de 0,10, unha resposta por debaixo de 40 segundos obtén 0,05, e calquera cousa máis lenta obtén cero. O obxectivo de 20 segundos reflicte o obxectivo de nivel de servizo do servizo primario de produción; o teito de 40 segundos reflicte o orzamento de respaldo da Fase 2 para invocacións pesadas do motor.

O que evita o rexistro previo

Os benchmarks de primeira parte son notorios por inflar os seus propios números mediante axustes post-hoc da rúbrica. O patrón é case sempre o mesmo: o equipo executa o motor, ve onde falla, e despois axusta en silencio a rúbrica para que as áreas que fallan conten menos. Ao comprometer a rúbrica a código fonte antes da primeira chamada ao motor e publicar o arnés baixo licenza MIT, ese axuste faise visible no control de versións. Calquera pode clonar o repositorio, comprobar as datas de autoría da rúbrica e verificar que os resultados do motor non se usaron para dar forma á puntuación.

Casos trampa de hiperdianóstico: por que a sobrechamada é o verdadeiro modo de fallo

O sobrediagnóstico agresivo de patoloxía en pantallas normais é un modo de fallo documentado de asistentes médicos orientados ao consumidor. Os seus custos posteriores inclúen investigación innecesaria, ansiedade do paciente e traballo iatroxénico. Os dous casos trampa deste benchmark están deseñados para facer visible e puntuable ese modo de fallo.

🟡 Trampa 1 — BT-014-GILBERT

Presentación. Un home de 24 anos cunha bilirrubina total de 2,4 mg/dL. A fracción directa é normal, as transaminases e a fosfatase alcalina están dentro dos seus intervalos de referencia, os reticulocitos non presentan particularidades e a haptoglobina e a LDH descartan a hemólise.

Interpretación correcta. Síndrome de Gilbert — unha polimorfia benigna de UGT1A1. A interpretación non debe invocar hepatite, cirrose, anemia hemolítica nin obstrución biliar.

Resultado V11. Composta 1.000. Ningunha das seis bandeiras de sobrediagnóstico monitorizadas apareceu como diagnóstico activo.

🟡 Trampa 2 — BT-015-SAUDABLE

Presentación. Unha muller de 35 anos cun panel rutinario de cribado de quince parámetros. Cada analito está cómodamente dentro do seu intervalo de referencia.

Interpretación correcta. Tranquilidade e mantemento do estilo de vida. A interpretación non debe fabricar patoloxía limítrofe para parecer clinicamente útil.

Resultado V11. Composto 1.000. Ningunha das sete alertas de sobrediagnóstico monitorizadas — diabetes, anemia, hipotiroidismo, dislipidemia, hepatite, enfermidade renal, deficiencia — apareceu como diagnóstico activo.

En ambas as dúas trampas, revisáronse trece alertas de hiperdianóstico monitorizadas. Non se activou ningunha. Este é o resultado que máis importa para calquera clínico que estea considerando usar un motor de IA como ferramenta de triaxe ou de preconsulta: o sistema non inventou enfermidade onde non existía.

Índice de Mentzer: separar a deficiencia de ferro da traza de talasemia

Un segundo achado de alto valor está relacionado co emparellamento do caso BT-001 (anemia ferropénica) co caso BT-007 (beta-talassemia menor). Ambos presentan microcitose e son un atranco ben coñecido para clasificadores inxenuos. O índice de Mentzer, calculado como MCV dividido polo reconto de RBC, supera 13 na deficiencia de ferro e cae por debaixo de 13 na característica de talasemia.

En BT-001, a paciente era unha muller de 34 anos con hemoglobina 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritina 6 ng/mL e TIBC elevado. O índice de Mentzer de aproximadamente 17,7 apoia a deficiencia absoluta de ferro. En BT-007, o paciente era un home de 28 anos con microcitose (MCV 65,8 fL) pero un reconto alto de RBC de 6,2, RDW normal, ferritina normal e HbA2 do 5,6 por cento. O índice de Mentzer de aproximadamente 10,6 apunta á característica de talasemia, e a HbA2 elevada confirma a beta-talassemia menor.

Anemia ferropénica Mentzer > 13 Ferritina baixa, TSAT baixo, TIBC alto, RDW elevado

Característica de beta-talassemia Mentzer < 13 Ferritina normal, RDW normal, HbA2 elevada (>3,5%), reconto alto de RBC

Ambos casos obtiveron 1.000. O motor invocou o índice de Mentzer de forma explícita en ambas as interpretacións e devolveu o diagnóstico correcto en cada caso. Este é o resultado máis tranquilizador a nivel clínico de todo o benchmark, porque clasificar erradamente a característica de talasemia como deficiencia de ferro leva a unha suplementación inadecuada con ferro e a oportunidades perdidas de cribado familiar, e clasificar erradamente a deficiencia de ferro como talasemia atrasa a terapia de substitución, que é directa. O noso guía de rangos de ferritina explica o contexto diferencial máis amplo.

Resultados por caso da execución de referencia inicial da V11 (23 de abril de 2026)

A execución de referencia orixinal da V11 na cohorte de proba de concepto de 15 casos serve como a base metodolóxica da Second Update: cada detalle por caso de abaixo ilustra como o baremo xestiona unha resposta real do motor. Doce de quince casos acadaron o teito da puntuación composta de 1.000 no camiño principal; tres casos servíronse mediante o fallback da Fase 2, perdendo o bono de latencia de 0.05 mentres se preservaba todo o contido clínico e estrutural. Un caso carecía dunha única subsección obrigatoria; un devolveu unha suma de distribución de probabilidades lixeiramente reducida.

ID do caso Especialidade Composta Latencia Ruta

BT-001-IDAHematoloxía1.00017,8 sprimaria

BT-006-B12Hematoloxía1.00018.4 sprimaria

BT-007-THALHematoloxía1.00017.0 sprimaria

BT-002-HASHEndocrinoloxía0.95037.0 salternativa

BT-008-PCOSEndocrinoloxía0.98718.6 sprimaria

BT-003-T2DMMetabólico1.00019.1 sprimaria

BT-013-GOUTMetabólico1.00019.4 sprimaria

BT-004-NAFLDHepatoloxía1.00019.6 sprimaria

BT-009-VIRHEPHepatoloxía0.95023.4 salternativa

BT-014-GILBERTTrampa1.00018.9 sprimaria

BT-005-CKDNefroloxía1.00017.4 sprimaria

BT-010-ASCVDCardiología1.00019.7 sprimaria

BT-011-SLEReumatoloxía0.98118,2 sprimaria

BT-012-VITDEndocrinoloxía1.00019,3 sprimaria

BT-015-SAUDABLETrampa1.00018,7 salternativa

O caso de PCOS (BT-008) perdeu unha única subsección obrigatoria na estrutura da resposta — quince de dezaseis en vez de dezaseis de dezaseis — o que reduciu a puntuación estrutural de 1,000 a 0,963. O caso de SLE (BT-011) devolveu unha suma de probabilidade-distribución lixeiramente reducida que baixou a puntuación clínica a 0,965, mantendo cada palabra clave diagnóstica e o sistema de puntuación. Ningún dos dous casos non perfectos perdeu un diagnóstico correcto.

Agregado da V11 Second Update — 100,000 casos

A escala poboacional, as filas individuais de casos non son lexibles por humanos, polo que a Segunda Actualización informa métricas agregadas en lugar dunha táboa de 100.000 filas. O agregado principal móstrase a continuación; as desagregacións por especialidade e por etiqueta de país publícanse no informe técnico e no depósito de Figshare. Publícase unha mostra aleatoria estratificada de n = 201 respostas crúas do motor (semente determinista 20260426) no directorio de GitHub results/ para a súa inspección.

Puntuación composta Inicial V11: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 na cohorte de 100,000 casos

Puntuación estrutural (media) Inicial V11: 0.998 → Second Update: 1.000 Conformidade estrutural perfecta a escala poboacional

Puntuación clínica (media) Inicial V11: 0.998 → Second Update: 0.996 −0.002; ningún caso perdeu o diagnóstico en si

Latencia — media (intervalo) V11 inicial: 20,17 s (17,0–37,0 s) → Segunda actualización: 13,26 s (9,0–16,94 s) Optimizacións do motor de produción entre execucións

Ruta do motor = primaria V11 inicial: 12 / 15 → Segunda actualización: 100,000 / 100,000 Non foi necesario ningún fallback da Fase 2 en ningún momento durante a execución

Bandeiras de hiperdetección (hyperdiagnosis) do subconxunto de trampas V11 inicial: 0 / 13 → Segunda actualización: 0 / 87,412 Cero falsos positivos a escala poboacional (8.723 casos de trampas monitorizados)

O que non nos di a puntuación do titular

Unha puntuación composta do 99.80 por cento baixo esta rúbrica pre-rexistrada en particular, nunha cohorte sintética de 100.000 casos que abarca 127 etiquetas de países, representa un rendemento moi próximo ao teito — pero merece unha contextualización coidadosa. O resultado describe o comportamento do motor fronte á rúbrica coa que nos comprometemos no código fonte na V11; non é unha afirmación universal sobre a corrección do motor en cada panel de probas de sangue que exista no mundo real.

A puntuación indica que o motor xestionou correctamente os patróns diagnósticos seleccionados para esta avaliación en toda unha cohorte a escala poboacional, nunha metodoloxía publicada e reproducible. Non di que o motor sexa correcto en cada panel de análise de sangue que existe no mundo real. Non di que o motor deba substituír o xuízo clínico. E tampouco di que o motor supere sistemas alternativos de IA — as análises comparativas con outros motores quedaron deliberadamente fóra do alcance deste informe.

O que si establece a puntuación é unha liña de base. Coa rúbrica e o arnés públicos, as versións futuras do motor pódense avaliar fronte á mesma rúbrica — aplicada aos 15 casos iniciais de V11, á cohorte de 100.000 casos da Segunda actualización, ou a calquera expansión posterior — e a diferenza entre a puntuación publicada e calquera execución posterior é, por si mesma, medible. Este é o valor da pre-rexistración: converte as afirmacións de rendemento en afirmacións comprobables.

Como reproducir este benchmark en 10 minutos

A reproducibilidade require só un par de credenciais de API Kantesti e un entorno de Python 3.10 ou posterior co requests e reportlab bibliotecas instaladas. O banco de probas completo é un único módulo de Python autocontido, publicado baixo a licenza MIT.

💻 GitHub Banco de probas con licenza MIT · respostas brutas · execución de referencia 🔗 DOI de Figshare 10.6084/m9.figshare.32095435 · rexistro académico canónico 🎓 ResearchGate Publicación 404175463 · Segunda actualización de V11 · capa de descubrimento académico 📄 Academia.edu Paper 165956808 · Segunda actualización de V11 · capa de descubrimento académico

Catro pasos para unha execución nova

Un. Clona o repositorio: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dous. Instala as dependencias con pip install -r requirements.txt (A Segunda actualización engade mysql-connector-python ≥ 8.0 para o cargador de casos SQL). Tres. Define KANTESTI_USERNAME e KANTESTI_PASSWORD como variables de contorno para a API do motor. Para o cargador de casos SQL da Segunda actualización, tamén define KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, e KANTESTI_DB_PASSWORD — o cargador conecta mediante un rol de só lectura (bench_reader) que non ten privilexios para identificar táboas. Catro. Executa python benchmark_bloodtest.py --limit 100000 para a execución completa de Second-Update, ou python benchmark_bloodtest.py --limit 1000 para unha iteración rápida. Os resultados gárdanse en ./benchmark_results/: unha tarxeta de puntuación CSV con columnas por país-etiqueta e por especialidade, un agregado JSON, unha mostra estratificada-aleatoria de respostas en bruto e un informe en Markdown.

As execucións de referencia de 23 de abril de 2026 (V11 inicial, 15 casos) e de 26 de abril de 2026 (V11 Second Update, 100,000 casos) consérvanse no results/ directorio do repositorio. Unha execución nova xerará un novo scorecard con marca temporal, deixando as execucións de referencia intactas. Se a túa execución produce un resultado significativamente diferente, por favor abre un problema en GitHub coa marca temporal da execución e a versión do motor devolta nos metadatos da resposta.

Limitacións e traballo futuro

Mesmo con 100.000 casos en 127 etiquetas de país, catro limitacións merecen un recoñecemento explícito: infraamostrado de etiquetas de longa cola, avaliación de disparo único, alcance dun único motor e orixe de datos dunha única fonte. Cada unha está a ser abordada en traballo de seguimento activo.

Cobertura de etiquetas de longa cola. A Segunda Actualización abarca 127 etiquetas de país, pero a distribución é desbalanceada — as 10 etiquetas principais representan ≈66,4% dos casos, e a longa cola de 97 etiquetas adicionais xuntas achega ≈7,3% (aprox. 7.300 casos combinados, ~75 casos por etiqueta en media). Polo tanto, os compostos por etiqueta nesta longa cola son máis ruidosos do que suxiren as cifras destacadas. As execucións futuras reequilibrarán a asignación de etiquetas para consolidar as estimacións por etiqueta.

Avaliación dunha soa vez. Cada caso do conxunto foi avaliado unha única vez. Os modelos de linguaxe grande presentan unha variación de saída non trivial incluso a baixa temperatura de mostreo, polo que un protocolo de múltiples execucións con cinco avaliacións por caso e a variancia reportada é un seguinte paso natural — especialmente no subconxunto de casos trampa, onde a consistencia baixo axitación de mostreo forma parte da afirmación de seguridade.

Alcance dun só motor. Este informe caracteriza un único motor. As análises comparativas fronte a sistemas de IA alternativos quedan fóra do alcance aquí; podemos abordalas como un estudo independente separado con metodoloxía adecuada, contra o mesmo arnés con licenza MIT.

Datos sintéticos. Os 100.000 casos xéranse sinteticamente, non son casos sintéticos, e os resultados non se transfiren ao rendemento clínico no mundo real. A avaliación con datos reais, con consentimento e procedentes de fontes externas requiriría unha supervisión ética adecuada e queda fóra do alcance deste benchmark sintético.

Máis aló destas catro, a extensión planificada con maior impacto é a paridade multilingüe por xurisdición. O Kantesti AI Engine atende usuarios en 75+ linguas, e executar sub-cohortes estratificadas por lingua do Second Update (turco, alemán, español, francés, italiano, portugués, árabe, mandarín) cuantificará a calidade das saídas nas linguas admitidas polo motor. Cada análise estratificada por lingua publicarase co seu propio DOI e rama do arnés.

Proba o mesmo motor que conseguiu unha puntuación composta do 99.80% en 100,000 casos

Carga o teu propio panel de análises de sangue no mesmo endpoint de produción que se avaliou neste benchmark. Máis de 2 millóns de usuarios en todo o mundo usan o motor de IA Kantesti para interpretar máis de 15.000 biomarcadores en 75+ linguas.

🔬 Proba a demostración gratuíta

Extensión de Chrome App Store Google Play

📚 Como citar este benchmark

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Un Benchmark Técnico Automatizado Baseado nunha Rúbrica e Rexistrado Previamente do Motor de Interpretación de Análises de Sangue Kantesti en 100.000 Casos de Proba Sintéticos — V11 Segunda Actualización (Technical Report V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Referencias metodolóxicas externas

Mentzer, W. C. (1973). Diferenciación da deficiencia de ferro da traza de talasemia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Criterios de clasificación da European League Against Rheumatism / American College of Rheumatology para a lupus eritematoso sistémico (2019). Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test for Large Language Models. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Puntuación composta

100,000Casos puntuados

127Etiquetas de País Cubertas

0 / 87,412Falsos positivos do “trap”

Preguntas frecuentes

Que precisión ten o motor de IA Kantesti en casos de proba sintéticos?

Nunha rúbrica rexistrada previamente, executada en 100.000 casos de proba xerados sinteticamente en oito áreas de contido e 127 etiquetas de país (V11 Segunda Actualización), o motor acadou unha puntuación composta do 99,80 por cento, con cero bandeiras de hiperdianóstico en 87.412 oportunidades de casos trampa monitorizadas e cunha latencia media de resposta de 13,26 segundos. Este composto mide a conformidade da saída en entradas sintéticas, non a precisión diagnóstica. O lanzamento orixinal de V11 aplicou a mesma rúbrica a 15 casos construídos a man (composto 99,12%); a Segunda Actualización mantén a rúbrica idéntica a nivel de byte e amplíaa a un conxunto sintético máis grande. A tarxeta de puntuación completa publícase en Figshare baixo o DOI 10.6084/m9.figshare.32095435 e en GitHub baixo licenza MIT.

O motor de IA Kantesti está validado clinicamente?

Non. O motor foi avaliado cun benchmark técnico automatizado (non unha validación clínica), fronte a unha rúbrica que se conxelou no código fonte antes da execución inicial de V11 e se mantivo idéntica a nivel de byte para a Segunda Actualización de V11, avaliándose en 100.000 casos sintéticos de análises de sangue en hematoloxía, endocrinoloxía, medicina metabólica, hepatoloxía, nefroloxía, cardioloxía, reumatoloxía e medicina interna, extraídos de 127 etiquetas de país. A supervisión clínica foi proporcionada polo Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), hematólogo clínico certificado polo consello e Chief Medical Officer en Kantesti AI.

Que é un caso de trampa de hiperdiagnóstico?

Un caso trampa de hipediagnóstico é un escenario clínico deseñado especificamente para detectar condutas de sobrediagnóstico nos motores de IA. O benchmark inicial V11 utilizou dous destes casos como proba de concepto metodolóxica: unha hiperbilirrubinemia indirecta illada consistente coa síndrome de Gilbert (onde a interpretación correcta é a variante polimórfica benigna UGT1A1, e non hepatite nin hemólise) e un panel de cribado adulto totalmente normal (onde a saída correcta é tranquilización, e non unha patoloxía limítrofe fabricada). A Segunda Actualización V11 escalou esta metodoloxía de trampa a un subconxunto dedicado de 8.723 casos, obtendo 87.412 oportunidades de bandeira de hipediagnóstico monitorizadas — e a taxa de falsos positivos do motor permaneceu en cero.

A avaliación do motor de IA Kantesti é reproducible?

O banco completo de avaliación publícase baixo a licenza MIT como un único módulo Python autocontido. A execución inicial V11 require só un par de credenciais de API de Kantesti e Python 3.10 ou posterior. A Segunda Actualización V11 engade un cargador de casos SQL parametrizado e de só lectura que require credenciais do repositorio clínico de Kantesti (un bench_reader rol sen privilexios para identificar táboas). O código, o SQL do cargador de casos, o baremo (byte-a-byte idéntico entre versións) e unha mostra aleatoria estratificada de respostas brutas do motor tanto das execucións de referencia iniciais V11 como da Segunda Actualización están dispoñibles en github.com/emirhanai/kantesti-blood-test-benchmark e espelladas en Figshare, ResearchGate e Academia.edu.

Como o motor de IA Kantesti diferencia a deficiencia de ferro da treita de beta-talassemia?

O motor aplica o índice de Mentzer, calculado como o volume corpuscular medio dividido polo reconto de glóbulos vermellos. Un índice de Mentzer por riba de 13 apoia a anemia ferropénica, mentres que un valor por baixo de 13 apoia a característica de beta-talassemia. No benchmark inicial V11, ambas presentacións clasificáronse correctamente cun cálculo explícito do índice de Mentzer, apoiado polo contexto de ferritina, RDW e HbA2. Ao longo da cohorte de 100.000 casos da Segunda Actualización V11, preservouse o mesmo comportamento diferencial a escala poboacional.

Onde podo atopar os datos de referencia en bruto e o código fonte?

O informe técnico deposítase en Figshare baixo DOI 10.6084/m9.figshare.32095435 (que cobre tanto a primeira versión V11 como a Segunda Actualización V11), espellado na publicación de ResearchGate 404175463 e no artigo de Academia.edu 165956808 — ambos actualizados co título da Segunda Actualización V11 e os resultados de 100.000 casos — e o banco Python con licenza MIT con todos os resultados das execucións de referencia está en github.com/emirhanai/kantesti-blood-test-benchmark. A rede de espellos en catro plataformas garante dispoñibilidade a longo prazo e flexibilidade de citación.

Por que é importante a preinscrición para os benchmarks médicos con IA?

A preinscrición evita o axuste post hoc da rúbrica, que é a forma máis común en que os benchmarks dirixidos por empresas inflan os seus propios números. Ao comprometer a rúbrica no código fonte antes de calquera chamada ao motor e publicar o banco publicamente, as datas do autor da rúbrica fanse inspeccionables no control de versións, e os resultados do motor non puideron moldear os criterios de puntuación.

Este benchmark inclúe comparacións con outros motores de IA?

Non. O informe V11 — tanto a versión inicial como a Segunda Actualización — caracteriza deliberadamente un único motor fronte a un baremo fixo, en lugar de posicionarse fronte a sistemas comerciais alternativos. O banco é de código aberto baixo licenza MIT (agora incluíndo o cargador de casos SQL), polo que investigadores independentes poden avaliar calquera motor que elixan fronte ao mesmo baremo e cargador de casos e publicar os seus resultados.

Os casos de pacientes son reais ou sintéticos?

Todos os casos xéranse sinteticamente — 15 casos construídos a man na versión inicial de V11 e 100.000 na Segunda Actualización. Non son casos sintéticos: non hai datos sintéticos, non hai proceso de consentimento e non hai desidentificación, porque non existe ningún dato persoal no conxunto. Non aparece ningún dato persoal no armazón publicado, no informe técnico nin nos conxuntos de datos liberados.

⚕️ Aviso médico e conflito de intereses

Este informe do benchmark está destinado a fins de investigación e transparencia metodolóxica. Non constitúe consello médico, non é un diagnóstico e non substitúe a atención médica profesional; ningún resultado aquí debe empregarse para atrasar ou evitar acudir a un médico. Consulte sempre a un profesional sanitario cualificado para decisións de diagnóstico e tratamento. Trátase dun benchmark interno autoxestionado do motor propio da empresa e non foi validado de forma independente nin revisado por pares. A puntuación composta mide a conformidade cunha rúbrica fixa (estrutura do informe, recuperación de palabras clave e do sistema de puntuación, e latencia); non é unha medida da precisión diagnóstica no mundo real nin da seguridade clínica. Ambos os autores están empregados por Kantesti Ltd e posúen participacións (equity) na empresa, e o motor que se avalía é un produto comercial da mesma organización. Este conflito de intereses mitígase mediante a preinscrición da rúbrica no código fonte, a publicación do harness baixo a licenza MIT e a publicación dunha mostra aleatoria estratificada de respostas brutas do motor.

Sinais de confianza E-E-A-T

⭐

Experiencia

15+ anos de práctica clínica en hematoloxía e medicina de laboratorio supervisando a selección do panel de casos.

📋

Experiencia

Deseño de rúbrica preinscrito con penalizacións explícitas por hipediagnóstico e sistemas de puntuación clínicos recoñecidos (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoridade

Autor principal: doutor Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementación por Julian Emirhan Bulut, CEO de Kantesti Ltd.

🛡️

Fiabilidade

Banco reproducible con licenza MIT, respostas brutas do motor publicadas, divulgación aberta de conflito de intereses, rede de espellos de investigación en catro plataformas.

🏢 Kantesti LTD Rexistrada en Inglaterra e Gales · Número de empresa. 17090423 Londres, Reino Unido · kantesti.net