Kantesti referencia de análise de sangue con IA: validación clínica

Validación clínica Benchmark preinscrito V11 — abril de 2026 con licenza MIT verificable por pares

Puntuación composta 99.12% nunha rúbrica pre-rexistrada con cero falsos positivos de hiperdetección

Unha avaliación clínica independente e preinscrita do motor de IA Kantesti en casos de análises de sangue anonimizados. O baremo foi conxelado no código fonte antes da primeira chamada ao motor, o armazón de avaliación ten licenza MIT e cada resposta en bruto publícase.

📖 ~14 minutos 📅 23 de abril de 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publicado: 23 de abril de 2026 🩺 Revisado médicamente: 23 de abril de 2026 ✅ Baremo preinscrito 🔓 Código e datos abertos

Este estudo de validación clínica foi dirixido por Doutor Thomas Klein, doutor en medicina, director médico (Chief Medical Officer) de Kantesti AI, en colaboración con Julián Emirhan Bulut, enxeñeiro sénior de IA e CEO de Kantesti Ltd. A metodoloxía e o baremo foron revisados por Consello Asesor Médico de IA de Kantesti.

Autor principal e supervisión clínica

Thomas Klein, doutor en medicina

Xefe médico, Kantesti AI

O doutor Thomas Klein é un hematólogo clínico e internista certificado polo consello, con máis de 15 anos de experiencia en medicina de laboratorio. Como director médico (Chief Medical Officer) de Kantesti AI, seleccionou o panel de casos para este benchmark, revisou todas as verdades diagnósticas e aprobou o baremo preinscrito antes da primeira invocación do motor.

ORCID 0009-0009-1490-1321 ResearchGate Google Académico

Coautor e implementación

Julián Emirhan Bulut

Enxeñeiro sénior de IA e CEO, Kantesti Ltd

Julian Emirhan Bulut é o fundador e CEO de Kantesti Ltd. Deseñou e implementou o armazón de avaliación, realizou a integración da API, levou a cabo a execución do benchmark de abril de 2026 e preparou a agregación estatística. Fundador da plataforma desde 2019.

GitHub Acerca de Kantesti

⚡ Resumo rápido V11 — 23 de abril de 2026

Puntuación composta 99.12% en 15 casos reais de análise de sangue de pacientes anonimizados en sete especialidades médicas.
Sen falsos positivos de hiperdianóstico en ambos os casos trampa (síndrome de Gilbert e un cribado totalmente normal en adulto).
Rúbrica pre-rexistrada conxelada no código fonte antes da primeira chamada ao motor — non foi posible facer axustes post-hoc.
Índice de Mentzer aplicado correctamente para diferenciar a anemia ferropénica da beta-talassemia menor.
Endpoint só de produción — sen enrutamento privilexiado, avaliado exactamente como accedería un cliente de pago.
Latencia media de 20,17 segundos de punta a punta, con 12 de 15 casos por debaixo do obxectivo principal de 20 segundos.
Bancada (harness) con licenza MIT publicada en GitHub con cada resposta bruta do motor — admítese a reprodución independente.
DOI de Figshare: 10.6084/m9.figshare.32095435 · Espelhado en ResearchGate, Academia.edu, GitHub.

Por que existe este benchmark e que proba

A interpretación de análise de sangue con IA asistida cada vez se usa máis en fluxos de traballo de consumo e clínicos, pero seguen sendo pouco comúns os marcos de avaliación reproducibles adaptados á medicina de laboratorio. As preguntas que máis importan neste contexto non son as que se cobren cos benchmarks xerais de preguntas e respostas médicas: pode un motor separar a deficiencia de ferro da característica de talasemia cando o volume corpuscular medio é idéntico, diagnostica en exceso o síndrome de Gilbert como hepatite e fabrica patoloxía nun panel de cribado totalmente normal?

Un único panel de análises de sangue adoita conter sinal suficiente para sustentar varias interpretacións competidoras, e o traballo do/a clínico/a intérprete é ponderar esas interpretacións entre si, en lugar de recuperar unha resposta de manual. Un motor que se desempeña ben en casos de libro aínda pode fallar nos casos que máis importan: as trampas de diagnósticos diferenciais, as variantes benignas que, vistas illadamente, parecen alarmantes, e os paneis totalmente normais que tentan asistentes seguros a fabricar patoloxía.

Este benchmark construíuse precisamente arredor deses modos de fallo. Cada un dos quince casos foi seleccionado por unha propiedade diagnóstica concreta: unha microcitose por deficiencia de ferro que debe manterse distinta dunha traza de beta-talassemia con volume corpuscular medio idéntico, unha presentación de síndrome de Gilbert na que a única anormalidade é unha hiperbilirrubinemia indirecta illada, e un panel de cribado de quince parámetros no que cada analito se sitúa dentro do seu intervalo de referencia. O baremo premia os motores que len cada caso nos seus propios termos e penaliza os motores que se lanzan a un diagnóstico seguro cando non se xustifica tal diagnóstico.

Como Thomas Klein, MD, seleccionei o panel de casos porque son os patróns que vexo que os asistentes de medicina de laboratorio equivocan con máis frecuencia. O modo de fallo caro non é "perder unha enfermidade rara": é fabricar patoloxía rutinaria en pacientes que non a teñen. O noso Validación médica hub describe o marco máis amplo; esta páxina describe o seu resultado aplicado no motor V11.

Última execución de referencia — V11 (abril de 2026)

A execución de referencia de abril de 2026 do Kantesti AI Engine V11 produciu unha puntuación composta de 99.12% no baremo pre-rexistrado de quince casos. Ambos casos trampa de hiperdianóstico puntuaron no teito. O índice de Mentzer aplicouse correctamente no diferencial ferrodeficiencia fronte a talasemia.

Composta 99.12% 15 de 15 casos puntuaron

0.998 Puntuación estrutural

0.998 Puntuación clínica

20.17 s Latencia media

0 / 13 Falsos positivos das trampas

A fórmula composta combina tres compoñentes: conformidade estrutural coas sete seccións de informe obrigatorias e dezaseis subseccións obrigatorias, precisión clínica medida como recuperación de palabras clave máis recuperación do sistema de puntuación máis unha comprobación de validez da distribución de probabilidades, e latencia de resposta fronte ao obxectivo principal de nivel de servizo de 20 segundos. A descomposición exacta móstrase na fórmula do baremo de abaixo.

Composta = 0.35 × Estrutural + 0.55 × Clínica + 0.10 × Latencia

As restantes 0,88 puntos porcentuais de marxe libre descomponse case por completo en perda de latencia: tres invocacións de reserva da Fase 2, cada unha con -0,05 composta, achegaron aproximadamente 0,60 dos 0,88 puntos de déficit, en vez de contido clínico. O motor non fallou un diagnóstico correcto en ningún dos quince casos; onde quedou curto, foi ao tardar lixeiramente máis que o obxectivo primario de 20 segundos nunha pequena minoría de invocacións.

Quince casos en sete especialidades médicas

O panel de casos abrangue sete especialidades — hematoloxía, endocrinoloxía, medicina metabólica, hepatoloxía, nefroloxía, cardioloxía, reumatoloxía — ademais de dous casos dedicados de trampa de hiperdetección. Cada caso é un rexistro real anonimizado dun paciente, extraído do repositorio de datos clínicos Kantesti baixo consentimento informado por escrito.

A desidentificación realizouse baixo o enfoque Safe Harbor: elimináronse ou substituíronse todos os identificadores directos, e a cada rexistro asignóuselle un código de caso interno de referencia no formato BT-NNN-LABEL. O procesamento realizouse de acordo con Artigo 9(2)(j) do RGPD para investigación científica con salvagardas adecuadas, e as disposicións equivalentes do RGPD do Reino Unido. Non aparece ningunha información persoalmente identificable en ningunha parte do banco de probas publicado, do informe técnico nin dos conxuntos de datos liberados.

Hematoloxía (3) BT-001, BT-006, BT-007 Anemia ferropénica · Deficiencia de B12 · Beta-talassemia menor

Endocrinoloxía (3) BT-002, BT-008, BT-012 Tiroidite de Hashimoto · PCOS con resistencia á insulina · Deficiencia severa de vitamina D

Metabólica (2) BT-003, BT-013 T2DM con síndrome metabólica · Hiperuricemia con risco de gota

Hepatoloxía (2) BT-004, BT-009 NAFLD / NASH · Hepatite viral aguda

Nefroloxía · Cardioloxía · Reumatoloxía (3) BT-005, BT-010, BT-011 Enfermidade renal crónica estadio 3 · Dislipidemia disxenerativa ateroxénica · Lupus eritematoso sistémico

Casos trampa (2) BT-014, BT-015 Síndrome de Gilbert (hiperbilirrubinemia indirecta illada) · Cribado adulto totalmente normal

Por que esta distribución en particular

A hematoloxía recibe tres casos porque os diagnósticos diferenciais microcíticos e macrocíticos son as trampas de maior volume na práctica real de laboratorio. A endocrinoloxía recibe tres porque as presentacións de Hashimoto, SOP e deficiencia de vitamina D exercen formas diagnósticas distintas (impulsadas por autoanticorpos, impulsadas por razóns hormonais, impulsadas por un único marcador). As especialidades de caso único seguen sendo significativas porque cada unha de CKD, risco de ASCVD e SLE ten o seu propio sistema de puntuación que o motor debe invocar (estadificación KDIGO, risco a 10 anos de ASCVD, e criterios SLE 2019 EULAR/ACR, respectivamente).

O baremo preinscrito, explicado

O rexistro previo é a elección metodolóxica máis importante neste benchmark. Cada diagnóstico esperado, cada sistema de puntuación clínica e cada sección do informe foron comprometidos a código fonte antes de que se invocase o motor. O axuste post-hoc da rúbrica para favorecer o motor, polo tanto, é imposible.

Tres compoñentes forman a puntuación composta. O compoñente estrutural contribúe co 35 por cento e mide se o motor devolveu as sete seccións obrigatorias do informe (cabeceira, resumo, achados clave, diferencial, sistemas de puntuación, recomendacións, seguimento) e as dezaseis subseccións obrigatorias dentro delas. A presenza de seccións pesa un 40 por cento e a presenza de subseccións pesa un 60 por cento dentro do cálculo estrutural.

O/A compoñente clínico contribúe co 55 por cento e combina tres cousas: lembranza de palabras clave do diagnóstico (70 por cento da subpuntuación clínica), lembranza do sistema de puntuación (20 por cento — se o motor calcula Mentzer, FIB-4, HOMA-IR, risco de ASCVD, estadificación KDIGO, criterios EULAR/ACR cando corresponda), e unha verificación de validez da suma de probabilidades (10 por cento — as probabilidades do diferencial deben sumar dentro do intervalo [90, 110]). Para casos trampa, restase unha penalización explícita de hiperdianóstico de ata 0,30, calculada como 0,10 por cada bandeira de patoloxía fabricada, con límite de tres bandeiras.

O/A compoñente de latencia contribúe co 10 por cento. Unha resposta por debaixo de 20 segundos obtén a puntuación completa de 0,10, unha resposta por debaixo de 40 segundos obtén 0,05, e calquera cousa máis lenta obtén cero. O obxectivo de 20 segundos reflicte o obxectivo de nivel de servizo do servizo primario de produción; o teito de 40 segundos reflicte o orzamento de respaldo da Fase 2 para invocacións pesadas do motor.

O que evita o rexistro previo

Os benchmarks de primeira parte son notorios por inflar os seus propios números mediante axustes post-hoc da rúbrica. O patrón é case sempre o mesmo: o equipo executa o motor, ve onde falla, e despois axusta en silencio a rúbrica para que as áreas que fallan conten menos. Ao comprometer a rúbrica a código fonte antes da primeira chamada ao motor e publicar o arnés baixo licenza MIT, ese axuste faise visible no control de versións. Calquera pode clonar o repositorio, comprobar as datas de autoría da rúbrica e verificar que os resultados do motor non se usaron para dar forma á puntuación.

Casos trampa de hiperdianóstico: por que a sobrechamada é o verdadeiro modo de fallo

O sobrediagnóstico agresivo de patoloxía en pantallas normais é un modo de fallo documentado de asistentes médicos orientados ao consumidor. Os seus custos posteriores inclúen investigación innecesaria, ansiedade do paciente e traballo iatroxénico. Os dous casos trampa deste benchmark están deseñados para facer visible e puntuable ese modo de fallo.

🟡 Trampa 1 — BT-014-GILBERT

Presentación. Un home de 24 anos cunha bilirrubina total de 2,4 mg/dL. A fracción directa é normal, as transaminases e a fosfatase alcalina están dentro dos seus intervalos de referencia, os reticulocitos non presentan particularidades e a haptoglobina e a LDH descartan a hemólise.

Interpretación correcta. Síndrome de Gilbert — unha polimorfia benigna de UGT1A1. A interpretación non debe invocar hepatite, cirrose, anemia hemolítica nin obstrución biliar.

Resultado V11. Composta 1.000. Ningunha das seis bandeiras de sobrediagnóstico monitorizadas apareceu como diagnóstico activo.

🟡 Trampa 2 — BT-015-SAUDABLE

Presentación. Unha muller de 35 anos cun panel rutinario de cribado de quince parámetros. Cada analito está cómodamente dentro do seu intervalo de referencia.

Interpretación correcta. Tranquilidade e mantemento do estilo de vida. A interpretación non debe fabricar patoloxía limítrofe para parecer clinicamente útil.

Resultado V11. Composto 1.000. Ningunha das sete alertas de sobrediagnóstico monitorizadas — diabetes, anemia, hipotiroidismo, dislipidemia, hepatite, enfermidade renal, deficiencia — apareceu como diagnóstico activo.

En ambas as dúas trampas, revisáronse trece alertas de hiperdianóstico monitorizadas. Non se activou ningunha. Este é o resultado que máis importa para calquera clínico que estea considerando usar un motor de IA como ferramenta de triaxe ou de preconsulta: o sistema non inventou enfermidade onde non existía.

Índice de Mentzer: separar a deficiencia de ferro da traza de talasemia

Un segundo achado de alto valor está relacionado co emparellamento do caso BT-001 (anemia ferropénica) co caso BT-007 (beta-talassemia menor). Ambos presentan microcitose e son un atranco ben coñecido para clasificadores inxenuos. O índice de Mentzer, calculado como MCV dividido polo reconto de RBC, supera 13 na deficiencia de ferro e cae por debaixo de 13 na característica de talasemia.

En BT-001, a paciente era unha muller de 34 anos con hemoglobina 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritina 6 ng/mL e TIBC elevado. O índice de Mentzer de aproximadamente 17,7 apoia a deficiencia absoluta de ferro. En BT-007, o paciente era un home de 28 anos con microcitose (MCV 65,8 fL) pero un reconto alto de RBC de 6,2, RDW normal, ferritina normal e HbA2 do 5,6 por cento. O índice de Mentzer de aproximadamente 10,6 apunta á característica de talasemia, e a HbA2 elevada confirma a beta-talassemia menor.

Anemia ferropénica Mentzer > 13 Ferritina baixa, TSAT baixo, TIBC alto, RDW elevado

Característica de beta-talassemia Mentzer < 13 Ferritina normal, RDW normal, HbA2 elevada (>3,5%), reconto alto de RBC

Ambos casos obtiveron 1.000. O motor invocou o índice de Mentzer de forma explícita en ambas as interpretacións e devolveu o diagnóstico correcto en cada caso. Este é o resultado máis tranquilizador a nivel clínico de todo o benchmark, porque clasificar erradamente a característica de talasemia como deficiencia de ferro leva a unha suplementación inadecuada con ferro e a oportunidades perdidas de cribado familiar, e clasificar erradamente a deficiencia de ferro como talasemia atrasa a terapia de substitución, que é directa. O noso guía de rangos de ferritina explica o contexto diferencial máis amplo.

Resultados por caso da execución de abril de 2026

Doce de quince casos acadaron o teito da puntuación composta de 1.000 na ruta primaria. Tres casos foron servidos mediante o fallback da Fase 2, perdendo o bono de latencia de 0,05 mentres se preservaba todo o contido clínico e estrutural. Un caso carecía dunha única subsección obrigatoria; un devolveu unha suma de distribución de probabilidade lixeiramente reducida.

ID do caso Especialidade Composta Latencia Ruta

BT-001-IDAHematoloxía1.00017,8 sprimaria

BT-006-B12Hematoloxía1.00018.4 sprimaria

BT-007-THALHematoloxía1.00017.0 sprimaria

BT-002-HASHEndocrinoloxía0.95037.0 salternativa

BT-008-PCOSEndocrinoloxía0.98718.6 sprimaria

BT-003-T2DMMetabólico1.00019.1 sprimaria

BT-013-GOUTMetabólico1.00019.4 sprimaria

BT-004-NAFLDHepatoloxía1.00019.6 sprimaria

BT-009-VIRHEPHepatoloxía0.95023.4 salternativa

BT-014-GILBERTTrampa1.00018.9 sprimaria

BT-005-CKDNefroloxía1.00017.4 sprimaria

BT-010-ASCVDCardiología1.00019.7 sprimaria

BT-011-SLEReumatoloxía0.98118,2 sprimaria

BT-012-VITDEndocrinoloxía1.00019,3 sprimaria

BT-015-SAUDABLETrampa1.00018,7 salternativa

O caso de PCOS (BT-008) perdeu unha única subsección obrigatoria na estrutura da resposta — quince de dezaseis en vez de dezaseis de dezaseis — o que reduciu a puntuación estrutural de 1,000 a 0,963. O caso de SLE (BT-011) devolveu unha suma de probabilidade-distribución lixeiramente reducida que baixou a puntuación clínica a 0,965, mantendo cada palabra clave diagnóstica e o sistema de puntuación. Ningún dos dous casos non perfectos perdeu un diagnóstico correcto.

O que non nos di a puntuación do titular

Unha puntuación composta do 99,12 por cento baixo esta rúbrica pre-rexistrada concreta representa un rendemento moi próximo ao teito, pero merece unha contextualización coidadosa. O resultado describe o comportamento do motor fronte a quince casos anonimizados coidadosamente seleccionados, avaliados unha vez cada un, fronte a unha única rúbrica. Somos explícitos sobre o que o número si e o que non establece.

A puntuación di que o motor V11 xestionou correctamente os patróns diagnósticos seleccionados para esta avaliación, cunha metodoloxía publicada e reproducible. Non di que o motor sexa correcto en cada panel de análise de sangue que existe no mundo real. Non di que o motor deba substituír o criterio clínico. E tampouco di que o motor supere sistemas alternativos de IA — as análises comparativas con outros motores quedaron deliberadamente fóra do alcance deste informe.

O que si establece a puntuación é unha liña de base. Coa rúbrica e o banco de probas públicos, as versións futuras do motor poden avaliarse cos mesmos quince casos, e a diferenza entre a puntuación publicada e calquera execución posterior é, por si mesma, medible. Este é o valor da preinscrición: converte as afirmacións de rendemento en afirmacións comprobables.

Como reproducir este benchmark en 10 minutos

A reproducibilidade require só un par de credenciais de API Kantesti e un entorno de Python 3.10 ou posterior co requests e reportlab bibliotecas instaladas. O banco de probas completo é un único módulo de Python autocontido, publicado baixo a licenza MIT.

💻 GitHub Banco de probas con licenza MIT · respostas brutas · execución de referencia 🔗 DOI de Figshare 10.6084/m9.figshare.32095435 · rexistro académico canónico 🎓 ResearchGate Publicación 404175463 · capa de descubrimento académico 📄 Academia.edu Paper 165956808 · capa de descubrimento académico

Catro pasos para unha execución nova

Un. Clona o repositorio: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dous. Instala as dependencias con pip install -r requirements.txt. Tres. Define KANTESTI_USERNAME e KANTESTI_PASSWORD como variables de entorno: as credenciais léense en tempo de execución e non se codifica nada de forma fixa no script. Catro. Executa python benchmark_bloodtest.py e inspecciona os catro artefactos emitidos no directorio de traballo: un scorecard CSV, un scorecard JSON, un volcado JSON completo que inclúe as respostas crúas do motor e un informe en Markdown lexible para humanos.

A execución de referencia do 23 de abril de 2026 consérvase en results/ no directorio do repositorio. Unha execución nova xerará un novo scorecard con marca de tempo, deixando a execución de referencia intacta. Se a túa execución produce un resultado de forma significativamente diferente, por favor abre un issue en GitHub coa marca de tempo da execución e a versión do motor devolta nos metadatos da resposta.

Limitacións e traballo futuro

Catro limitacións merecen un recoñecemento explícito: tamaño da mostra, avaliación dunha soa vez, alcance dun só motor e orixe dos datos dunha soa fonte. Cada unha está a ser abordada en traballo de seguimento activo.

Tamaño da mostra. Quince casos en oito categorías de especialidade son suficientes para unha proba de concepto, pero non para análise por subgrupos dentro dunha especialidade. Está prevista a ampliación a cincuenta casos e incluirá paneis de coagulación, cribado de malignidades hematolóxicas, paneis de embarazo e presentacións pediátricas.

Avaliación dunha soa vez. Cada caso foi avaliado unha única vez. Os modelos de linguaxe grande presentan unha variación de saída non trivial incluso a baixa temperatura de mostreo, polo que un protocolo de múltiples execucións con cinco avaliacións por caso e a variación reportada é un seguinte paso natural.

Alcance dun só motor. Este informe caracteriza un único motor. As análises comparativas fronte a sistemas de IA alternativos quedan fóra do alcance aquí; poderiamos abordalas como un estudo independente separado con metodoloxía adecuada.

Orixe dos datos dunha soa fonte. Os quince casos son rexistros reais anonimizados de pacientes, extraídos dun único repositorio clínico. Representan unha mostra curada e non son unha selección aleatoria representativa da poboación. Estender a avaliación a datos de múltiples centros está no plan de traballo.

A extensión planificada máis impactante é a paridade multilingüe. O motor de IA Kantesti serve usuarios en 75+ idiomas, e executar o mesmo arnés de quince casos en turco, alemán, español, francés e árabe cuantificará a calidade da saída nos idiomas soportados polo motor. Publicaremos cada execución específica de idioma co seu propio DOI e coa súa rama de arnés.

Proba o mesmo motor que conseguiu unha puntuación composta de 99.12%

Carga o teu propio panel de análises de sangue no mesmo endpoint de produción que se avaliou neste benchmark. Máis de 2 millóns de usuarios en todo o mundo usan o motor de IA Kantesti para interpretar máis de 15.000 biomarcadores en 75+ linguas.

🔬 Proba a demostración gratuíta

Extensión de Chrome App Store Google Play

📚 Como citar este benchmark

BibTeX

@techreport{klein2026kantesti,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {Validación clínica do motor de IA Kantesti (2.78T)  
                 en 15 casos de análises de sangue anonimizados: un benchmark  
                 rexistrado previamente baseado en rúbrica, que inclúe casos  
                 do “hyperdiagnosis trap” en sete especialidades médicas},  
  institution = {Kantesti Ltd},  
  address     = {Londres, Reino Unido},  
  year        = {2026},  
  month       = {Abril},  
  type        = {Informe técnico},  
  number      = {V11},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Validación clínica do motor de IA Kantesti (2.78T) en 15 casos de análises de sangue anonimizados: un benchmark rexistrado previamente baseado en rúbrica, que inclúe casos do “hyperdiagnosis trap” en sete especialidades médicas (Informe técnico V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Traballos relacionados de validación Kantesti

Klein, T. (2025). Marco de validación clínica para a interpretación de análises de sangue con IA: metodoloxía de validación tripla cega, métricas de rendemento e protocolos de garantía de calidade. Investigación médica con IA de Kantesti.

🎓 ResearchGate

📖 Referencias metodolóxicas externas

Mentzer, W. C. (1973). Diferenciación da deficiencia de ferro da traza de talasemia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Criterios de clasificación da European League Against Rheumatism / American College of Rheumatology para a lupus eritematoso sistémico (2019). Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test for Large Language Models. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Puntuación composta

15Casos puntuados

7Especialidades

0Falsos positivos do “trap”

Preguntas frecuentes

Que precisión ten o motor de IA Kantesti en casos reais de análise de sangue?

Nunha rúbrica rexistrada previamente de 15 casos reais de análises de sangue anonimizados de sete especialidades médicas, o motor de IA Kantesti V11 acadou unha puntuación composta do 99,12 por cento, con cero falsos positivos de hiperdianóstico tanto nos casos do “trap” como cunha latencia media de resposta de 20,17 segundos. O cadro de puntuación completo por caso publícase en Figshare baixo o DOI 10.6084/m9.figshare.32095435 e en GitHub baixo licenza MIT.

O motor de IA Kantesti está validado clinicamente?

Si. O motor foi validado clinicamente fronte a unha rúbrica que se conxelou no código fonte antes de invocar o motor, avaliándose en 15 casos de análises de sangue anonimizados en hematoloxía, endocrinoloxía, medicina metabólica, hepatoloxía, nefroloxía, cardioloxía e reumatoloxía. A supervisión clínica foi proporcionada polo doutor Thomas Klein, MD (ORCID 0009-0009-1490-1321), hematólogo clínico certificado polo consello e director médico (Chief Medical Officer) en Kantesti AI.

Que é un caso de trampa de hiperdiagnóstico?

Un caso de trampa de hipediagnóstico é un escenario clínico deseñado especificamente para detectar condutas de sobrediagnóstico nos motores de IA. O benchmark Kantesti V11 utiliza dous destes casos. O primeiro é unha hiperbilirrubinemia indirecta illada consistente coa síndrome de Gilbert, onde a interpretación correcta é a variante polimórfica benigna de UGT1A1, en lugar de hepatite ou hemólise. O segundo é un panel de cribado totalmente normal en adultos, onde a saída correcta é tranquilización e mantemento do estilo de vida, en lugar dunha patoloxía limítrofe fabricada.

A avaliación do motor de IA Kantesti é reproducible?

O banco completo de avaliación publícase baixo a licenza MIT como un único módulo de Python autocontido. A reprodución require só un par de credenciais de API de Kantesti e Python 3.10 ou posterior. O código, as definicións dos casos e cada resposta bruta do motor da execución de referencia de abril de 2026 están dispoñibles en github.com/emirhanai/kantesti-blood-test-benchmark e espelladas en Figshare, ResearchGate e Academia.edu.

Como o motor de IA Kantesti diferencia a deficiencia de ferro da treita de beta-talassemia?

O motor aplica o índice de Mentzer, calculado como o volume corpuscular medio dividido polo reconto de glóbulos vermellos. Un índice de Mentzer por riba de 13 apoia a anemia ferropénica, mentres que un valor por baixo de 13 apoia a característica de beta-talassemia. No benchmark V11, ambas as presentacións clasificáronse correctamente con cálculo explícito do índice de Mentzer, apoiado polo contexto de ferritina, RDW e HbA2.

Onde podo atopar os datos de referencia en bruto e o código fonte?

O informe técnico está depositado en Figshare baixo DOI 10.6084/m9.figshare.32095435, espellado na publicación de ResearchGate 404175463 e no artigo de Academia.edu 165956808, e o banco de Python con licenza MIT con todos os resultados da execución de referencia está en github.com/emirhanai/kantesti-blood-test-benchmark. A rede de espellos en catro plataformas garante a dispoñibilidade a longo prazo e flexibilidade de citación.

Por que é importante a preinscrición para os benchmarks médicos con IA?

A preinscrición evita o axuste post hoc da rúbrica, que é a forma máis común en que os benchmarks dirixidos por empresas inflan os seus propios números. Ao comprometer a rúbrica no código fonte antes de calquera chamada ao motor e publicar o banco publicamente, as datas do autor da rúbrica fanse inspeccionables no control de versións, e os resultados do motor non puideron moldear os criterios de puntuación.

Este benchmark inclúe comparacións con outros motores de IA?

Non. O informe V11 caracteriza deliberadamente un único motor fronte a unha rúbrica fixa, en lugar de situalo fronte a sistemas comerciais alternativos. O banco é de código aberto baixo licenza MIT, polo que investigadores independentes poden avaliar calquera motor que elixan fronte aos mesmos quince casos e rúbrica e publicar os seus resultados.

Os casos de pacientes son reais ou sintéticos?

Os quince casos son rexistros reais de pacientes anonimizados, extraídos do repositorio de datos clínicos de Kantesti baixo consentimento informado por escrito. A desidentificación realizouse baixo o enfoque de Safe Harbor, eliminando ou substituíndo todos os identificadores directos. O procesamento realizouse de acordo co artigo 9(2)(j) do GDPR e as disposicións equivalentes do UK GDPR. Non aparece información persoal identificable no banco publicado, no informe técnico nin nos conxuntos de datos liberados.

⚕️ Aviso médico e conflito de intereses

Este informe de benchmark é para fins de investigación e transparencia metodolóxica. Non constitúe consello médico. Consulte sempre un profesional sanitario cualificado para decisións de diagnóstico e tratamento. Ambos os autores están empregados por e posúen participación en Kantesti Ltd, e o motor que se avalía é un produto comercial da mesma organización. Este conflito de intereses mitígase preinscribindo a rúbrica no código fonte, liberando o banco baixo a licenza MIT e publicando cada resposta bruta do motor.

Sinais de confianza E-E-A-T

⭐

Experiencia

15+ anos de práctica clínica en hematoloxía e medicina de laboratorio supervisando a selección do panel de casos.

📋

Experiencia

Deseño de rúbrica preinscrito con penalizacións explícitas por hipediagnóstico e sistemas de puntuación clínicos recoñecidos (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoridade

Autor principal: doutor Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementación por Julian Emirhan Bulut, CEO de Kantesti Ltd.

🛡️

Fiabilidade

Banco reproducible con licenza MIT, respostas brutas do motor publicadas, divulgación aberta de conflito de intereses, rede de espellos de investigación en catro plataformas.

🏢 Kantesti LTD Rexistrada en Inglaterra e Gales · Número de empresa. 17090423 Londres, Reino Unido · kantesti.net