Benchmark de IA de Exame de Sangue Kantesti

Benchmark Automatizado Benchmark Pré-Registrado V11 Segunda Atualização — Abril de 2026 Licenciado pelo MIT Reprodutível · Dados Abertos Coorte sintética de 100 mil · 127 rótulos de países

Pontuação composta de 99,80% em uma rubrica pré-registrada — V11 Segunda Atualização, coorte de 100.000 casos em 127 rótulos de países

Um benchmark técnico automatizado pré-registrado, baseado em rubrica, do motor Kantesti em 100.000 casos de testes de sangue gerados sinteticamente e marcados com 127 rótulos de países. Ele mede conformidade da saída, não acurácia diagnóstica. A rubrica foi congelada no código-fonte antes do lançamento inicial da V11 e mantida idêntica em bytes para esta Segunda Atualização; o conjunto de avaliação é licenciado pela MIT; uma amostra aleatória estratificada das respostas brutas do motor é publicada para inspeção. Todos os casos são sintéticos; nenhum dado pessoal é usado.

📖 ~14 minutos 📅 Publicado em 23 de abril de 2026 · Atualizado em 26 de abril de 2026 (V11 Segunda Atualização) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publicado: 23 de abril de 2026 🔄 V11 Segunda Atualização: 26 de abril de 2026 🩺 Revisado por: 26 de abril de 2026 ✅ Rubrica Pré-Registrada (Idêntica em Bytes) 🔓 Código e Dados Abertos

Este benchmark automatizado foi concebido e executado por Julian Emirhan Bulut, Engenheiro Sénior de IA e CEO da Kantesti Ltd. A pontuação é totalmente automatizada no código-fonte; a grelha de pontuação e o painel de casos foram desenvolvidos com contributo clínico de Dr. Thomas Klein, médico, Diretor(a) Médico(a) Chefe da Kantesti AI, e revistos por Conselho Consultivo Médico da Kantesti AI. É um benchmark interno executado por conta própria, não um benchmark técnico automatizado independente ou revisado por pares.

Autor Principal & Supervisão Clínica

Thomas Klein, MD

Diretor Médico da Kantesti AI

O Dr. Thomas Klein é um hematologista clínico e internista certificado pelo conselho, com mais de 15 anos de experiência em medicina laboratorial. Como Diretor Médico da Kantesti AI, ele selecionou o painel de casos para este benchmark, revisou o conteúdo clínico e as respostas esperadas dos casos sintéticos e aprovou a rubrica pré-registrada antes da primeira invocação do motor.

ORCID 0009-0009-1490-1321 ResearchGate Google Acadêmico

Coautor(a) & Implementação

Julian Emirhan Bulut

Engenheiro(a) Sênior de IA & CEO, Kantesti Ltd

Julian Emirhan Bulut é o fundador e CEO da Kantesti Ltd. Ele projetou e implementou o ambiente de avaliação — incluindo o carregador de casos SQL adicionado para a V11 Segunda Atualização — realizou a integração da API, conduziu tanto a execução de referência inicial da V11 quanto a execução da V11 Segunda Atualização com 100.000 casos, e preparou a agregação estatística. Fundador da plataforma desde 2019.

GitHub Sobre Kantesti

⚡ Resumo rápido V11 Segunda Atualização — 26 de abril de 2026

Pontuação composta 99.80% em 100.000 casos de testes de sangue sintéticos em oito especialidades médicas e 127 rótulos de países (V11 Segunda Atualização).
Zero falsos positivos de hiperdianóstico em 87.412 oportunidades de flag de casos-armadilha monitorados — mesma metodologia de casos-armadilha da V11 inicial, escalada para nível populacional.
Rubrica pré-registrada congelado no código-fonte antes da execução inicial da V11 e mantido idêntico em bytes para esta Segunda Atualização — não foi possível fazer ajuste pós-hoc.
Índice de Mentzer aplicado corretamente para diferenciar anemia ferropriva de beta-talassemia menor na V11 inicial; o comportamento diferencial foi preservado em escala populacional.
Apenas endpoint de produção — sem roteamento privilegiado, avaliado exatamente como um cliente pagante o acessaria.
Latência média de 13,26 segundos ponta a ponta (intervalo 9,0–16,94 s), com todos os 100.000 casos concluídos no caminho primário do motor.
Coorte sintética. 100.000 casos de teste gerados sinteticamente carregados em tempo de execução. Nenhum dado sintético e nenhum dado pessoal são usados.
Estrutura (harness) com licença MIT disponibilizado no GitHub com uma amostra aleatória estratificada (n = 201) de respostas brutas completas do motor para inspeção.
DOI do Figshare: 10.6084/m9.figshare.32095435 · Espelhado no ResearchGate, Academia.edu, GitHub.

Por que este benchmark existe e o que ele testa

A análise de sangue por IA com assistência está sendo cada vez mais usada em fluxos de trabalho de consumo e clínicos; ainda assim, frameworks de avaliação reproduzíveis voltados para medicina laboratorial permanecem incomuns. As perguntas que mais importam neste contexto não são as que são cobertas por benchmarks gerais de perguntas e respostas médicas: um motor consegue separar deficiência de ferro de traço de talassemia quando o volume corpuscular médio é idêntico, ele faz sobrediagnóstico da síndrome de Gilbert como hepatite e ele fabrica patologia em um painel de triagem totalmente normal?

Um único painel de exames de sangue normalmente contém sinal suficiente para sustentar várias interpretações concorrentes, e o trabalho do clínico que interpreta é ponderar essas interpretações entre si, em vez de buscar uma resposta de livro-texto. Um mecanismo que se sai bem em casos de livro-texto ainda pode falhar justamente nos casos que mais importam: as armadilhas de diagnóstico diferencial, as variantes benignas que parecem alarmantes quando isoladas e os painéis totalmente normais que tentam assistentes confiantes a fabricar patologia.

Este benchmark foi construído exatamente em torno desses modos de falha. Cada um dos quinze casos foi selecionado por uma propriedade diagnóstica específica: uma microcitose por deficiência de ferro que precisa ser mantida distinta de uma característica de beta-talassemia com volume corpuscular médio idêntico, uma apresentação de síndrome de Gilbert em que a única alteração é uma hiperbilirrubinemia indireta isolada e um painel de triagem com quinze parâmetros em que cada analito está dentro do seu intervalo de referência. A rubrica recompensa motores que leem cada caso em seus próprios termos e penaliza motores que chegam a um diagnóstico confiante quando não há justificativa para tal diagnóstico.

Como Thomas Klein, MD, selecionei o painel de casos porque são esses os padrões que vejo com mais frequência os assistentes de medicina laboratorial interpretarem de forma incorreta. O modo de falha caro não é "deixar de detectar uma doença rara" — é fabricar patologia rotineira em pacientes que não a têm. Nosso Validação médica o hub descreve a estrutura mais ampla; esta página descreve a prova de conceito inicial da V11 e a V11 Segunda Atualização que a escalou para 100.000 casos sintéticos extraídos de um conjunto de casos sintéticos que abrange 127 rótulos de países — usando a mesma rubrica de pontuação, idêntica em bytes, sem permitir ajuste pós-hoc.

Execução de referência mais recente — V11 Second Update (26 de abril de 2026)

A execução de referência da V11 Second Update de 26 de abril de 2026 produziu uma pontuação composta de 99.80% na mesma rubrica pré-registrada usada no lançamento inicial da V11, avaliada em 100.000 casos sintéticos extraídos do conjunto de casos sintéticos Kantesti e abrangendo 127 rótulos de países e as linguagens 75+. Cada caso foi concluído no caminho primário do mecanismo; ativações do sinalizador de hiperdetecção em casos-armadilha permaneceram em 0 / 87,412. A execução original da V11 em 23 de abril de 2026 cobriu 15 casos curados manualmente (composto 99.12%) e validou a rubrica; a Second Update mantém essa rubrica idêntica em bytes e estende a avaliação para um coorte em escala populacional.

Composta 99.80% 100.000 de 100.000 casos pontuados

1.000 Pontuação estrutural

0.996 Pontuação clínica

13,26 s Latência média

0 / 87,412 Falsos positivos nas armadilhas

A fórmula composta combina três componentes: conformidade estrutural com as sete seções obrigatórias do relatório e dezesseis subseções obrigatórias, precisão da exatidão do conteúdo medida como recuperação de palavras-chave mais recuperação do sistema de pontuação mais uma verificação de validade da distribuição de probabilidade, e latência de resposta em relação à meta de nível de serviço do caminho primário. A decomposição exata é mostrada na fórmula da rubrica abaixo — nenhum desses pesos ou sub-rubricas foi alterado para a Second Update.

Composta = 0.35 × Estrutural + 0.55 × Clínica + 0.10 × Latência

Os 0,20 pontos percentuais restantes de folga se decompõem quase inteiramente na subpontuação clínica — uma pequena fração dos casos (predominantemente em Hepatologia e Reumatologia) teve uma palavra-chave esperada do sistema de pontuação ausente da interpretação do mecanismo, apesar de o conteúdo diagnóstico estar correto. Nenhum caso no coorte de 100.000 casos da Second Update perdeu o diagnóstico em si. A latência melhorou de uma média de 20,17 s no lançamento inicial da V11 para 13,26 s na Second Update, refletindo otimizações do mecanismo de produção entre as duas execuções; a rubrica, o código de pontuação e o endpoint da API permanecem inalterados.

As pontuações compostas por rótulo variaram de 0,9971 a 0,9985 entre os 30 rótulos de países mais representados. A cauda longa de 97 rótulos adicionais (≈7.300 casos no total) não mostrou degradação sistemática. Os rótulos mais frequentes por contagem de casos foram os Estados Unidos (10.500), Brasil (9.500), Espanha (9.000), Itália (8.000), Alemanha (7.800), França (7.400), Portugal (5.800), Türkiye (3.400), o Reino Unido (2.900) e México (2.500).

De 15 casos a 100.000: evolução da coorte em 127 rótulos de países

O painel original de casos da V11 cobria sete especialidades — hematologia, endocrinologia, medicina metabólica, hepatologia, nefrologia, cardiologia, reumatologia — além de dois casos dedicados de armadilha de hipediagnóstico, com cada caso sendo um painel de testes de sangue gerado sinteticamente. A V11 Segunda Atualização estende a avaliação para 100.000 casos sintéticos em 127 rótulos de países, distribuídos em oito especialidades (as sete originais mais um compartimento dedicado de medicina interna que absorve o subconjunto de armadilha). A mesma rubrica de pontuação é aplicada idêntica em bytes em ambas as execuções.

Como todos os casos são gerados sinteticamente, não há identificadores reais a remover e não há envolvimento de dados pessoais. Cada caso sintético traz um código de caso interno do benchmark (BT-NNN-LABEL no conjunto inicial da V11, um estável case_uid na Segunda Atualização). Nenhum dado pessoal aparece em lugar algum no conjunto publicado, no relatório técnico ou nos conjuntos de dados disponibilizados.

lançamento inicial da V11 — 15 casos curados manualmente

O painel de casos V11 original foi selecionado manualmente pelo Dr. Thomas Klein para exercitar os padrões diagnósticos que os assistentes de medicina laboratorial mais frequentemente interpretam de forma incorreta. Cada um dos quinze casos foi escolhido por uma propriedade diagnóstica específica, listada abaixo.

Hematologia (3) BT-001, BT-006, BT-007 Anemia ferropriva · Deficiência de B12 · Beta-talassemia minor

Endocrinologia (3) BT-002, BT-008, BT-012 Tireoidite de Hashimoto · SOP com resistência à insulina · Deficiência grave de vitamina D

Metabólica (2) BT-003, BT-013 T2DM com síndrome metabólica · Hiperuricemia com risco de gota

Hepatologia (2) BT-004, BT-009 Doença hepática gordurosa não alcoólica (NAFLD) / NASH · Hepatite viral aguda

Nefrologia · Cardiologia · Reumatologia (3) BT-005, BT-010, BT-011 DRC estádio 3 · Dislipidemia aterogénica · Lúpus eritematoso sistémico

Casos de armadilha (2) BT-014, BT-015 Síndrome de Gilbert (hiperbilirrubinémia indireta isolada) · Rastreio de adultos totalmente normal

Por que esta distribuição em particular

A hematologia recebe três casos porque diferenciais microcíticos e diferenciais macrocíticos são as armadilhas de maior volume na prática laboratorial do mundo real. A endocrinologia recebe três porque as apresentações de Hashimoto, SOPC e deficiência de vitamina D exercitam formatos diagnósticos diferentes (orientados por autoanticorpos, orientados por proporções hormonais, orientados por um único marcador). As especialidades de caso único ainda são significativas porque cada uma de DRC, risco de ASCVD e LES tem seu próprio sistema de pontuação que o motor deve acionar (estadiamento KDIGO, risco ASCVD em 10 anos, e critérios de LES EULAR/ACR de 2019, respectivamente).

V11 Segunda Atualização — 100.000 casos sintéticos em 127 rótulos de países

A Segunda Atualização substitui o literal Python original de 15 casos, codificado de forma fixa na V11, por um conjunto maior de casos sintéticos gerado programaticamente. O conjunto de casos é carregado no início de cada execução e a configuração é registrada para transparência. A distribuição da coorte por área de conteúdo é mostrada abaixo.

Endocrinologia 23.900 casos (23,9%) Tireoide, SOP, vitamina D, eixo gonadal, hipófise

Medicina metabólica 21.900 casos (21,9%) T2DM, síndrome metabólica, painéis lipídicos, hiperuricemia

Hematologia 15.400 casos (15,4%) Diferenciais microcíticos e macrocíticos, B12/folato, estudos de ferro

Hepatologia 12.400 casos (12,4%) NAFLD/NASH, hepatite viral, FIB-4, colestase

Medicina interna (incl. subconjunto trap) 9.000 casos (9,0%) Apresentações mistas e 8.723 casos dedicados de armadilha de hiperdetecção

Cardiologia 7.500 casos (7,5%) Risco de ASCVD, dislipidemia aterogênica, hs-CRP

Reumatologia 6.000 casos (6,0%) LES, AR, vasculite, painéis de autoanticorpos (critérios EULAR/ACR)

Nefrologia 4.000 casos (4,0%) Estadiamento de DRC (KDIGO), tendências de eGFR, distúrbio eletrolítico

Distribuição sintética de rótulos de países — top 10 rótulos

Os 100.000 casos sintéticos trazem 127 rótulos de países (ISO 3166-1 alpha-2) para exercitar o tratamento de localidade. Atribuição de rótulos: Europa 57,7%, as Américas 25,4%, Ásia-Pacífico 6,2%, rótulos nomeados do Oriente Médio/África 3,4% e uma cauda longa de 97 rótulos adicionais, somados aproximadamente 7,3%. Os dez rótulos mais frequentes por contagem de casos são os Estados Unidos (10.500), Brasil (9.500), Espanha (9.000), Itália (8.000), Alemanha (7.800), França (7.400), Portugal (5.800), Türkiye (3.400), o Reino Unido (2.900) e México (2.500). As pontuações compostas por rótulo variaram de 0,9971 a 0,9985. Essas contagens de rótulos são propriedades dos casos gerados usados para exercitar o tratamento de localidade — elas não são usuários reais e não representam cobertura geográfica do mundo real.

A rubrica pré-registrada, explicada

O pré-registro é a escolha metodológica única mais importante neste benchmark. Cada diagnóstico esperado, cada sistema de pontuação clínica e cada seção do relatório foram comprometidos com o código-fonte antes de o motor ser acionado. Portanto, o ajuste a posteriori da rubrica para favorecer o motor é impossível.

Três componentes compõem a pontuação composta. O componente estrutural contribui com 35% e mede se o motor retornou as sete seções obrigatórias do relatório (cabeçalho, resumo, principais achados, diferencial, sistemas de pontuação, recomendações, acompanhamento) e as dezesseis subseções obrigatórias dentro delas. A presença de seções pesa 40% e a presença de subseções pesa 60% dentro do cálculo estrutural.

O componente clínico contribui com 55% e combina três coisas: recuperação de palavras-chave do diagnóstico (70% da subpontuação clínica), recuperação do sistema de pontuação (20% — o motor calcula Mentzer, FIB-4, HOMA-IR, risco de ASCVD, estadiamento KDIGO, critérios EULAR/ACR quando relevante), e uma verificação de validade da soma de probabilidades (10% — as probabilidades do diferencial devem somar dentro do intervalo [90, 110]). Para casos de armadilha, uma penalidade explícita de hiperdia gnosticação de até 0,30 é subtraída, calculada como 0,10 por sinalizador de patologia fabricado, limitada a três sinalizadores.

O componente de latência contribui com 10%. Uma resposta em menos de 20 segundos recebe a pontuação total de 0,10, uma resposta em menos de 40 segundos recebe 0,05, e qualquer coisa mais lenta recebe zero. A meta de 20 segundos reflete o objetivo de nível de serviço do serviço primário de produção; o teto de 40 segundos reflete o orçamento de fallback da Fase 2 para invocações pesadas do motor.

O que o pré-registro impede

Benchmarks de primeira parte são notórios por inflar seus próprios números por meio de ajuste a posteriori da rubrica. O padrão quase sempre é o mesmo: a equipe executa o motor, vê onde ele tem desempenho inferior e então ajusta silenciosamente a rubrica para que as áreas com desempenho inferior contem menos. Ao comprometer a rubrica com o código-fonte antes da primeira chamada ao motor e publicar o harness sob licença MIT, esse ajuste fica visível no controle de versão. Qualquer pessoa pode clonar o repositório, verificar as datas de autoria da rubrica e confirmar que os resultados do motor não foram usados para moldar a pontuação.

Casos-armadilha de hiperdia gnosticação — por que a superchamada é o modo de falha real

Superchamadas agressivas de patologia em telas normais é um modo de falha documentado de assistentes médicos voltados ao consumidor. Seus custos a jusante incluem investigação desnecessária, ansiedade do paciente e investigação iatrogênica. Os dois casos de armadilha neste benchmark são projetados para tornar esse modo de falha visível e pontuável.

🟡 Armadilha 1 — BT-014-GILBERT

Apresentação. Um homem de 24 anos com bilirrubina total de 2,4 mg/dL. A fração direta é normal, as transaminases e a fosfatase alcalina ficam dentro de seus intervalos de referência, os reticulócitos são pouco notáveis, e haptoglobina e LDH descartam hemólise.

Interpretação correta. Síndrome de Gilbert — uma polimorfismo benigno de UGT1A1. A interpretação não deve invocar hepatite, cirrose, anemia hemolítica ou obstrução biliar.

Resultado da v11. Composto 1,000. Nenhuma das seis sinalizações de superdiagnóstico monitoradas apareceu como diagnóstico ativo.

🟡 Armadilha 2 — BT-015-HEALTHY

Apresentação. Uma mulher de 35 anos com um painel de triagem de rotina com quinze parâmetros. Cada analito está confortavelmente dentro do seu intervalo de referência.

Interpretação correta. Tranquilização e manutenção do estilo de vida. A interpretação não deve fabricar patologia limítrofe para soar clinicamente útil.

Resultado da v11. Composto 1.000. Nenhuma das sete sinalizações de sobrediagnóstico monitoradas — diabetes, anemia, hipotireoidismo, dislipidemia, hepatite, doença renal, deficiência — apareceu como diagnóstico ativo.

Em ambas as armadilhas, foram verificadas treze sinalizações de hiperdianóstico monitoradas. Nenhuma foi acionada. Este é o resultado que mais importa para qualquer clínico que esteja considerando usar um mecanismo de IA como ferramenta de triagem ou pré-consulta: o sistema não inventou doença onde não existia.

Índice de Mentzer: separando deficiência de ferro de traço de talassemia

Um segundo achado de alto valor diz respeito ao pareamento do caso BT-001 (anemia ferropriva) com o caso BT-007 (traço beta-talassêmico menor). Ambos apresentam microcitose e são um obstáculo bem conhecido para classificadores ingênuos. O índice de Mentzer, calculado como MCV dividido pela contagem de RBC, excede 13 na deficiência de ferro e fica abaixo de 13 no traço talassêmico.

Em BT-001, a paciente era uma mulher de 34 anos com hemoglobina 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritina 6 ng/mL e TIBC elevado. O índice de Mentzer de aproximadamente 17,7 apoia deficiência absoluta de ferro. Em BT-007, o paciente era um homem de 28 anos com microcitose (MCV 65,8 fL), mas com contagem de RBC alta de 6,2, RDW normal, ferritina normal e HbA2 de 5,6%. O índice de Mentzer de aproximadamente 10,6 aponta para traço talassêmico, e o HbA2 elevado confirma beta-talassemia menor.

Anemia ferropriva Mentzer > 13 Ferritina baixa, TSAT baixo, TIBC alto, RDW elevado

Traço beta-talassêmico Mentzer < 13 Ferritina normal, RDW normal, HbA2 elevado (>3,5%), contagem de RBC alta

Ambos os casos pontuaram 1.000. O mecanismo invocou explicitamente o índice de Mentzer em ambas as interpretações e retornou o diagnóstico correto em cada instância. Este é o resultado mais tranquilizador do ponto de vista clínico em todo o benchmark, porque classificar erroneamente o traço talassêmico como deficiência de ferro leva à suplementação inadequada de ferro e a oportunidades perdidas de triagem familiar, e classificar erroneamente a deficiência de ferro como talassemia atrasa a terapia de reposição direta. Nosso guia de faixa de ferritina explica o contexto diferencial mais amplo.

Resultados por caso da execução de referência inicial da V11 (23 de abril de 2026)

A execução de referência original da V11 na coorte de prova de conceito com 15 casos serve como a base metodológica da Second Update: cada detalhe por caso abaixo ilustra como a rubrica lida com uma resposta real do motor. Doze dos quinze casos atingiram a pontuação composta máxima de 1.000 no caminho primário; três casos foram atendidos via fallback da Fase 2, perdendo o bônus de latência de 0.05 enquanto preservavam todo o conteúdo clínico e estrutural. Um caso estava faltando uma única subseção obrigatória; um retornou uma soma de distribuição de probabilidade marginalmente reduzida.

ID do caso Especialidade Composta Latência Caminho

BT-001-IDAHematologia1.00017,8 sprimário

BT-006-B12Hematologia1.00018,4 sprimário

BT-007-THALHematologia1.00017,0 sprimário

BT-002-HASHEndocrinologia0.95037,0 salternativa

BT-008-PCOSEndocrinologia0.98718,6 sprimário

BT-003-T2DMMetabólico1.00019,1 sprimário

BT-013-GOUTMetabólico1.00019,4 sprimário

BT-004-NAFLDHepatologia1.00019,6 sprimário

BT-009-VIRHEPHepatologia0.95023,4 salternativa

BT-014-GILBERTArmadilha1.00018,9 sprimário

BT-005-CKDNefrologia1.00017,4 sprimário

BT-010-ASCVDCardiologia1.00019,7 sprimário

BT-011-SLEReumatologia0.98118,2 sprimário

BT-012-VITDEndocrinologia1.00019,3 sprimário

BT-015-SAUDÁVELArmadilha1.00018,7 salternativa

O caso de PCOS (BT-008) perdeu uma única subseção obrigatória na estrutura da resposta — quinze de dezesseis em vez de dezesseis de dezesseis — o que reduziu a pontuação estrutural de 1,000 para 0,963. O caso de LES (BT-011) retornou uma soma de probabilidade-distribuição marginalmente reduzida, que diminuiu a pontuação clínica para 0,965, preservando todas as palavras-chave diagnósticas e o sistema de pontuação. Nenhum dos dois casos abaixo do ideal deixou de identificar um diagnóstico correto.

Agregado da V11 Second Update — 100.000 casos

Em escala populacional, as linhas individuais de casos não são legíveis por humanos, então a Segunda Atualização relata métricas agregadas em vez de uma tabela com 100.000 linhas. O agregado principal é mostrado abaixo; as segmentações por especialidade e por rótulo de país são publicadas no relatório técnico e no depósito do Figshare. Uma amostra aleatória estratificada de n = 201 respostas brutas do motor (semente determinística 20260426) é publicada no GitHub results/ diretório para inspeção.

Pontuação composta Inicial da V11: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 na coorte de 100.000 casos

Pontuação estrutural (média) Inicial da V11: 0.998 → Second Update: 1.000 Conformidade estrutural perfeita em escala populacional

Pontuação clínica (média) Inicial da V11: 0.998 → Second Update: 0.996 −0.002; nenhum caso perdeu o diagnóstico em si

Latência — média (intervalo) V11 inicial: 20,17 s (17,0–37,0 s) → Segunda atualização: 13,26 s (9,0–16,94 s) Otimizações do mecanismo entre execuções

Caminho do mecanismo = primário V11 inicial: 12 / 15 → Segunda atualização: 100,000 / 100,000 Nenhuma alternativa de fallback da Fase 2 foi necessária em nenhum momento durante a execução

Sinais de hiperdetecção (hyperdiagnosis) do subconjunto de armadilhas V11 inicial: 0 / 13 → Segunda atualização: 0 / 87,412 Zero falsos positivos em escala populacional (8.723 casos de armadilha monitorados)

O que a pontuação do título não nos diz

Uma pontuação composta de 99,80 por cento nesta rubrica pré-registrada específica, em uma coorte sintética de 100.000 casos que abrange 127 rótulos de países, representa desempenho próximo ao teto — mas merece enquadramento cuidadoso. O resultado descreve o comportamento do motor em relação à rubrica com a qual nos comprometemos no código-fonte na V11; não é uma alegação universal sobre a correção do motor em cada painel de exame de sangue que existe no mundo real.

A pontuação diz que o mecanismo lidou corretamente com os padrões diagnósticos selecionados para esta avaliação em uma coorte em escala populacional, em uma metodologia que é publicada e reproduzível. Ela não diz que o mecanismo está correto em cada painel de exame de sangue que existe no mundo real. Ela não diz que o mecanismo deve substituir o julgamento clínico. E também não diz que o mecanismo supera sistemas alternativos de IA — análises comparativas com outros mecanismos ficaram deliberadamente fora do escopo deste relatório.

O que a pontuação de fato estabelece é uma linha de base. Com o rubric e o harness públicos, versões futuras do mecanismo podem ser avaliadas usando o mesmo rubric — aplicado aos 15 casos iniciais da V11, à coorte de 100.000 casos da Segunda atualização, ou a qualquer expansão subsequente — e a diferença entre a pontuação publicada e qualquer execução subsequente é, por si só, mensurável. Este é o valor do pré-registro: ele transforma alegações de desempenho em alegações testáveis.

Como reproduzir este benchmark em 10 minutos

A reprodução exige apenas um par de credenciais de API Kantesti e um ambiente Python 3.10 ou posterior com o requests e reportlab bibliotecas instaladas. O harness completo é um único módulo Python autocontido, lançado sob a licença MIT.

💻 GitHub Harness com licença MIT · respostas brutas · execução de referência 🔗 DOI do Figshare 10.6084/m9.figshare.32095435 · registro acadêmico canônico 🎓 ResearchGate Publicação 404175463 · V11 Segunda atualização · camada de descoberta acadêmica 📄 Academia.edu Paper 165956808 · V11 Segunda atualização · camada de descoberta acadêmica

Quatro etapas para uma execução nova

Uma. Clone o repositório: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Duas. Instale as dependências com pip install -r requirements.txt (A Segunda atualização adiciona mysql-connector-python ≥ 8.0 para o carregador de casos do SQL). Três. Defina KANTESTI_USERNAME e KANTESTI_PASSWORD como variáveis de ambiente para a API do mecanismo. Para o carregador de casos do SQL da Segunda atualização, também defina KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, e KANTESTI_DB_PASSWORD — o carregador conecta-se por meio de uma função somente leitura (bench_reader) que não tem privilégios para identificar tabelas. Quatro. Execute python benchmark_bloodtest.py --limit 100000 para a execução completa do Second-Update, ou python benchmark_bloodtest.py --limit 1000 para iteração rápida. As saídas são enviadas para ./benchmark_results/: um scorecard em CSV com colunas por rótulo de país e por especialidade, um agregado em JSON, uma amostra estratificada-aleatória de respostas brutas e um relatório em Markdown.

As execuções de referência de 23 de abril de 2026 (V11 inicial, 15 casos) e de 26 de abril de 2026 (V11 Second Update, 100,000 casos) são preservadas no results/ diretório do repositório. Uma execução nova produzirá um novo scorecard com timestamp, deixando as execuções de referência intactas. Se a sua execução produzir um resultado significativamente diferente, por favor abra uma issue no GitHub com o timestamp da execução e a versão do mecanismo retornada nos metadados da resposta.

Limitações e trabalhos futuros

Mesmo com 100.000 casos em 127 rótulos de país, quatro limitações merecem reconhecimento explícito: subamostragem de rótulos de cauda longa, avaliação de disparo único, escopo de motor único e origem única dos dados. Cada uma está sendo endereçada em trabalho de acompanhamento ativo.

Cobertura de rótulos de cauda longa. A Segunda Atualização abrange 127 rótulos de país, mas a distribuição é desbalanceada — os 10 principais rótulos respondem por ≈66.4% dos casos, e a cauda longa de 97 rótulos adicionais, juntos, contribui com ≈7.3% (aproximadamente 7.300 casos no total, ~75 casos por rótulo em média). Portanto, os compósitos por rótulo nessa cauda longa são mais ruidosos do que os números de destaque sugerem. As execuções futuras irão rebalancear a atribuição de rótulos para consolidar estimativas por rótulo.

Avaliação de disparo único. Cada caso no conjunto foi avaliado uma única vez. Modelos de linguagem de grande porte exibem variância de saída não trivial mesmo com baixa temperatura de amostragem, então um protocolo com múltiplas execuções, com cinco avaliações por caso e variância reportada, é um próximo passo natural — especialmente no subconjunto de casos-armadilha, onde consistência sob variação de amostragem faz parte da alegação de segurança.

Escopo de um único motor. Este relatório caracteriza um único mecanismo. Análises comparativas contra sistemas de IA alternativos estão fora do escopo aqui; podemos persegui-las como um estudo independente separado com metodologia apropriada, usando o mesmo harness licenciado pela MIT.

Dados sintéticos. Os 100.000 casos são gerados sinteticamente, não são “casos sintéticos”, e os resultados não se transferem para desempenho clínico no mundo real. A avaliação em dados reais, consentidos e provenientes de fontes externas exigiria supervisão ética apropriada e está fora do escopo deste benchmark sintético.

Além dessas quatro, a extensão planejada com maior impacto é a paridade multilíngue por jurisdição. O Kantesti AI Engine atende usuários em 75+ idiomas, e executar subcoortes do Second-Update estratificadas por idioma (turco, alemão, espanhol, francês, italiano, português, árabe, mandarim) quantificará a qualidade das saídas nos idiomas suportados pelo mecanismo. Cada análise estratificada por idioma será publicada com seu próprio DOI e branch do harness.

Experimente o Mesmo Mecanismo que Obteve uma Pontuação Composta de 99.80% em 100,000 Casos

Envie o seu próprio painel de exames de sangue para o mesmo endpoint de produção que foi avaliado neste benchmark. Mais de 2 milhões de utilizadores em todo o mundo usam o motor de IA Kantesti para interpretar mais de 15.000 biomarcadores em 75+ idiomas.

🔬 Experimente a demonstração gratuita

Extensão do Chrome App Store Google Play

📚 Como citar este benchmark

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Um Benchmark Técnico Automatizado Baseado em Rubrica e Pré-Registrado do Motor de Interpretação de Exame de Sangue Kantesti em 100.000 Casos de Teste Sintéticos — V11 Segunda Atualização (Relatório Técnico V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Referências metodológicas externas

Mentzer, W. C. (1973). Diferenciação da deficiência de ferro da característica de talassemia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Critérios de classificação da European League Against Rheumatism / American College of Rheumatology de 2019 para lúpus eritematoso sistémico. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Teste de alucinação no domínio médico para grandes modelos de linguagem. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Pontuação composta

100,000Casos pontuados

127Rótulos de País Abrangidos

0 / 87,412Falsos positivos na armadilha

Perguntas frequentes

Quão preciso é o mecanismo de IA Kantesti em casos de teste sintéticos?

Em uma rubrica pré-registrada, executada em 100.000 casos de teste gerados sinteticamente em oito áreas de conteúdo e 127 rótulos de país (V11 Segunda Atualização), o motor atingiu uma pontuação composta de 99,80 por cento, com zero sinalizações de hiperdianóstico em 87.412 oportunidades de armadilhas monitoradas e um tempo médio de latência de resposta de 13,26 segundos. Esse compósito mede conformidade da saída em entradas sintéticas, não acurácia diagnóstica. O lançamento original da V11 aplicou a mesma rubrica em 15 casos construídos manualmente (compósito 99.12%); a Segunda Atualização mantém a rubrica idêntica em bytes e a estende para um coorte sintético maior. O scorecard completo é publicado no Figshare sob o DOI 10.6084/m9.figshare.32095435 e no GitHub sob licença MIT.

O mecanismo de IA Kantesti foi validado clinicamente?

Não. O motor foi avaliado com um benchmark técnico automatizado (não uma validação clínica), contra uma rubrica que foi congelada no código-fonte antes da execução inicial da V11 e mantida idêntica em bytes para a V11 Segunda Atualização, avaliada em 100.000 casos sintéticos de exames de sangue em hematologia, endocrinologia, medicina metabólica, hepatologia, nefrologia, cardiologia, reumatologia e medicina interna, extraídos de 127 rótulos de país. A supervisão clínica foi fornecida pelo Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), hematologista clínico certificado pelo conselho e Chief Medical Officer na Kantesti AI.

O que é um caso de armadilha de hiperdianóstico?

Um caso de armadilha de hiperdetecção (hyperdiagnosis trap) é um cenário clínico especificamente concebido para detetar comportamento de sobre-diagnóstico em motores de IA. O benchmark inicial da V11 usou dois desses casos como prova de conceito metodológica: uma hiperbilirrubinémia indireta isolada compatível com a síndrome de Gilbert (em que a interpretação correta é a variante polimórfica benigna UGT1A1, e não hepatite ou hemólise) e um painel de rastreio totalmente normal em adultos (em que a saída correta é tranquilização, e não uma patologia limítrofe fabricada). A V11 Second Update escalou esta metodologia de armadilha para um subconjunto dedicado de 8.723 casos, gerando 87.412 oportunidades monitorizadas de sinalização de hiperdetecção — e a taxa de falsos positivos do motor permaneceu em zero.

A avaliação do mecanismo de IA Kantesti é reproduzível?

O conjunto completo de avaliação (evaluation harness) é disponibilizado sob a licença MIT como um único módulo Python auto-contido. A execução inicial da V11 requer apenas um par de credenciais de API da Kantesti e Python 3.10 ou posterior. A V11 Second Update adiciona um carregador de casos SQL parametrizado e somente de leitura que requer credenciais do repositório clínico da Kantesti (um bench_reader perfil sem privilégios para identificar tabelas). O código, o SQL do carregador de casos, a rubrica (idêntica em bytes entre versões) e uma amostra aleatória estratificada de respostas brutas do motor de ambas as execuções de referência, a inicial da V11 e a Second Update, estão disponíveis em github.com/emirhanai/kantesti-blood-test-benchmark e espelhadas no Figshare, ResearchGate e Academia.edu.

Como o mecanismo de IA Kantesti diferencia a deficiência de ferro da característica de beta-talassemia?

O motor aplica o índice de Mentzer, calculado como o volume corpuscular médio dividido pela contagem de glóbulos vermelhos. Um índice de Mentzer acima de 13 apoia anemia por deficiência de ferro, enquanto um valor abaixo de 13 apoia a característica de beta-talassemia. No benchmark inicial da V11, ambas as apresentações foram classificadas corretamente com cálculo explícito do índice de Mentzer, apoiado por ferritina, RDW e contexto de HbA2. Ao longo da coorte de 100.000 casos da V11 Second Update, o mesmo comportamento diferencial foi preservado em escala populacional.

Onde posso encontrar os dados brutos de referência e o código-fonte?

O relatório técnico está depositado no Figshare sob DOI 10.6084/m9.figshare.32095435 (cobrindo tanto o lançamento inicial da V11 quanto a V11 Second Update), espelhado na publicação do ResearchGate 404175463 e no artigo do Academia.edu 165956808 — ambos atualizados com o título da V11 Second Update e os resultados de 100.000 casos — e o harness Python com licença MIT com todos os resultados das execuções de referência está em github.com/emirhanai/kantesti-blood-test-benchmark. A rede de espelhamento em quatro plataformas garante disponibilidade a longo prazo e flexibilidade de citação.

Por que o pré-registro é importante para benchmarks médicos de IA?

O pré-registro impede o ajuste da rubrica “a posteriori” (post-hoc), que é a forma única mais comum pela qual benchmarks conduzidos por empresas inflacionam seus próprios números. Ao comprometer a rubrica no código-fonte antes de qualquer chamada ao motor e publicar o conjunto publicamente, as datas do autor da rubrica tornam-se verificáveis no controle de versão, e os resultados do motor não podem ter moldado os critérios de pontuação.

Este benchmark inclui comparações com outros motores de IA?

Não. O relatório da V11 — tanto o lançamento inicial quanto a Second Update — caracteriza deliberadamente um único motor em relação a uma rubrica fixa, em vez de posicioná-lo face a sistemas comerciais alternativos. O harness é open source sob licença MIT (agora incluindo o carregador de casos SQL), de modo que investigadores independentes possam avaliar qualquer motor que escolherem contra a mesma rubrica e o mesmo carregador de casos e publicar os seus resultados.

Os casos dos pacientes são reais ou sintéticos?

Todos os casos são gerados sinteticamente — 15 casos construídos manualmente no lançamento inicial da V11 e 100.000 na Segunda Atualização. Eles não são “casos sintéticos”: não há dados sintéticos, não há processo de consentimento e não há desidentificação envolvidos, porque não existem dados pessoais no coorte. Nenhum dado pessoal aparece no harness publicado, no relatório técnico ou nos conjuntos de dados disponibilizados.

⚕️ Aviso Médico & Conflito de Interesses

Este relatório de benchmark destina-se a fins de investigação e transparência metodológica. Não constitui aconselhamento médico, não é um diagnóstico e não substitui cuidados médicos profissionais; nenhum resultado aqui deve ser usado para atrasar ou evitar consultar um médico. Consulte sempre um profissional de saúde qualificado para decisões de diagnóstico e tratamento. Este é um benchmark interno autoexecutado do motor próprio da empresa e não foi validado de forma independente nem revisto por pares. A pontuação composta mede a conformidade com uma grelha fixa (estrutura do relatório, recuperação de palavras-chave e do sistema de pontuação, e latência); não é uma medida de exatidão diagnóstica em contexto real nem de segurança clínica. Ambos os autores são empregados pela e detêm participação acionária na Kantesti Ltd, e o motor em avaliação é um produto comercial da mesma organização. Este conflito de interesses é mitigado ao pré-registar a grelha no código-fonte, disponibilizar o harness sob a licença MIT e publicar uma amostra aleatória estratificada de respostas brutas do motor.

Sinais de confiança E-E-A-T

⭐

Experiência

Mais de 15 anos de prática em hematologia clínica e medicina laboratorial, supervisionando a seleção do painel de casos.

📋

Especialização

Design de rubrica pré-registrado com penalidades explícitas de hiperdetecção e sistemas reconhecidos de pontuação clínica (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoridade

Autor principal Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementação por Julian Emirhan Bulut, CEO da Kantesti Ltd.

🛡️

Confiabilidade

Harness reproduzível com licença MIT, respostas brutas do motor publicadas, divulgação aberta de conflito de interesses, rede de espelhamento de pesquisa em quatro plataformas.

🏢 Kantesti LTD Registrada na Inglaterra e País de Gales · Número da empresa. 17090423 Londres, Reino Unido · kantesti.net