Benchmark d’IA d’anàlisi de sang Kantesti

Benchmark automatitzat Benchmark pre-registrat V11 Segona actualització — abril de 2026 Amb llicència MIT Reproduïble · Dades obertes Cohort sintètic de 100K · 127 etiquetes de països

Puntuació composta de 99.80% en una rúbrica pre-registrada — V11 Segona actualització, cohort de 100.000 casos en 127 etiquetes de països

Un benchmark tècnic automatitzat pre-registrat basat en rúbrica de l’motor Kantesti sobre 100.000 casos de proves de sang generats sintèticament i etiquetats amb 127 etiquetes de països. Mesura la conformitat de la sortida, no l’exactitud diagnòstica. La rúbrica es va congelar al codi font abans del llançament inicial de la V11 i es va mantenir byte-identica per a aquesta Segona actualització; el banc d’avaluació té llicència MIT; es publica una mostra aleatòria estratificada de respostes crues de l’engine per a la seva inspecció. Tots els casos són sintètics; no s’utilitzen dades personals.

📖 ~14 minuts 📅 Publicat el 23 d’abril de 2026 · Actualitzat el 26 d’abril de 2026 (V11 Segona actualització) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publicat: 23 d’abril de 2026 🔄 V11 Segona actualització: 26 d’abril de 2026 🩺 Revisat mèdicament: 26 d’abril de 2026 ✅ Rúbrica preregistrada (byte-identica) 🔓 Codi i dades oberts

Aquest benchmark automatitzat va ser dissenyat i executat per Julian Emirhan Bulut, enginyer sènior d’IA i CEO de Kantesti Ltd. La puntuació està totalment automatitzada en codi font; el barem de puntuació i el panell de casos es van desenvolupar amb aportacions clíniques de Dr. Thomas Klein, MD, director mèdic (Chief Medical Officer) de Kantesti AI, i va ser revisat per Consell Assessor Mèdic d'IA de Kantesti. És un benchmark intern autònom, no un benchmark tècnic automatitzat independent ni revisat per parells.

Autor principal i supervisió clínica

Thomas Klein, doctor en medicina

Cap mèdic, Kantesti AI

El Dr. Thomas Klein és un hematòleg clínic i internista certificat pel consell, amb més de 15 anys d’experiència en medicina de laboratori. Com a Director Mèdic (Chief Medical Officer) a Kantesti AI, va seleccionar el panell de casos per a aquest benchmark, va revisar el contingut clínic i les respostes esperades dels casos sintètics, i va aprovar la rúbrica pre-registrada abans de la primera invocació de l’engine.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Coautor i implementació

Julian Emirhan Bulut

Enginyer sènior d’IA i CEO, Kantesti Ltd

Julian Emirhan Bulut és el fundador i CEO de Kantesti Ltd. Va dissenyar i implementar el banc d’avaluació — incloent el carregador de casos SQL afegit per a la V11 Segona actualització — va dur a terme la integració de l’API, va realitzar tant l’execució de referència inicial de la V11 com l’execució de 100.000 casos de la V11 Segona actualització, i va preparar l’agregació estadística. Fundador de la plataforma des de 2019.

GitHub Sobre Kantesti

⚡ Resum ràpid V11 Segona actualització — 26 d’abril de 2026

puntuació composta 99.80% en 100.000 casos de proves de sang sintètics en vuit especialitats mèdiques i 127 etiquetes de països (V11 Segona actualització).
Zero falsos positius d’hiperdiagnosi en 87.412 oportunitats de flag de trap-case monitoritzades — la mateixa metodologia de trap-case que a la V11 inicial, escalada a nivell de població.
Rúbrica preregistrada congelat al codi font abans de l’execució inicial de la V11 i mantingut byte-identica per a aquesta Segona actualització — no es va poder fer cap ajust post-hoc.
Índex de Mentzer aplicat correctament per diferenciar l’anèmia ferropènica de la beta-talassèmia menor en el llançament inicial de la V11; el comportament diferencial es va preservar a escala de població.
Només endpoint de producció — sense rutes privilegiades; avaluat exactament com hi accediria un client de pagament.
latència mitjana de 13,26 segons de punta a punta (interval 9,0–16,94 s), amb tots els 100.000 casos completats pel camí principal de l’enginy.
Cohort sintètica. 100.000 casos de prova generats sintèticament carregats en temps d’execució. No s’utilitzen dades sintètiques i no s’utilitzen dades personals.
Harness amb llicència MIT publicat a GitHub amb una mostra aleatòria estratificada (n = 201) de respostes crues completes de l’enginy per a la seva inspecció.
DOI de Figshare: 10.6084/m9.figshare.32095435 · Mirall a ResearchGate, Academia.edu, GitHub.

Per què existeix aquest benchmark i què prova

L’AI-assisted blood test interpretation s’utilitza cada cop més en fluxos de treball de consum i clínics, però els marcs d’avaluació reproduïbles adaptats a la medicina de laboratori continuen sent poc habituals. Les preguntes que més importen en aquest context no són les que cobreixen els benchmarks generals de resposta a preguntes mèdiques: pot un engine separar la deficiència de ferro de la característica de talassèmia quan el volum corpuscular mitjà és idèntic, sobrediagnostica la síndrome de Gilbert com a hepatitis, i fabrica patologia en un panell de cribratge completament normal?

Un sol panell d’anàlisi de sang típicament conté prou senyal per donar suport a diverses interpretacions competidores, i la feina del clínic que interpreta és ponderar aquestes interpretacions entre si, en lloc de recuperar una resposta de manual. Un motor que va bé en casos de llibre pot continuar fallant en els casos que més importen: els paranys de diagnòstic diferencial, les variants benignes que semblen alarmants quan es consideren aïlladament i els panells plenament normals que tempten els assistents segurs a fabricar patologia.

Aquest benchmark es va construir precisament al voltant d’aquests modes de fallada. Cada un dels quinze casos es va seleccionar per una propietat diagnòstica específica: una microcitosi per dèficit de ferro que cal mantenir diferenciada d’un tret de beta-talassèmia amb un volum corpuscular mitjà idèntic, una presentació de síndrome de Gilbert on l’única anormalitat és una hiperbilirubinèmia indirecta aïllada, i un panell de cribratge de quinze paràmetres en què cada analit se situa dins del seu rang de referència. La rúbrica premia els motors que llegeixen cada cas en els seus propis termes i penalitza els motors que s’avancen a un diagnòstic segur quan no es justifica cap diagnòstic d’aquest tipus.

Com a Thomas Klein, MD, vaig seleccionar el panell de casos perquè són els patrons que veig que els assistents de medicina de laboratori s’equivoquen més sovint. El mode de fallada car no és "passar per alt una malaltia rara": és fabricar patologia rutinària en pacients que no la tenen. El nostre Validació mèdica el hub descriu el marc més ampli; aquesta pàgina descriu la prova de concepte inicial de la V11 i la V11 Segona actualització que la va escalar fins a 100.000 casos sintètics extrets d’un conjunt de casos sintètics que abasta 127 etiquetes de països — utilitzant la mateixa rúbrica de puntuació, byte-identica, sense permetre ajustos posteriors (post-hoc).

Última execució de referència — Actualització segona V11 (26 d’abril de 2026)

L’execució de referència de l’actualització segona V11 del 26 d’abril de 2026 va produir una puntuació composta de 99.80% sobre la mateixa rúbrica preregistrada utilitzada en la publicació inicial de la V11, avaluada a 100.000 casos sintètics extrets del conjunt de casos sintètics de l’Kantesti i que abasten 127 etiquetes de països i els idiomes 75+. Cada cas es va completar pel camí principal de l’engine; les activacions de la bandera d’hiperdiagnosi en casos trampa es van mantenir en 0 / 87,412. L’execució original de la V11 del 23 d’abril de 2026 va cobrir 15 casos curats manualment (puntuació composta 99.12%) i va validar la rúbrica; l’actualització segona manté aquesta rúbrica idèntica a nivell de bytes i amplia l’avaluació fins a una cohort a escala poblacional.

Composta 99.80% 100.000 de 100.000 casos puntuats

1.000 Puntuació estructural

0.996 Puntuació clínica

13,26 s Latència mitjana

0 / 87,412 Falsos positius dels paranys

La fórmula composta combina tres components: conformitat estructural amb les set seccions de notificació obligatòries i setze subseccions obligatòries, precisió del contingut mesurada com a recuperació de paraules clau més recuperació del sistema de puntuació més una comprovació de validesa de la distribució de probabilitat, i latència de resposta respecte de l’objectiu de nivell de servei del camí principal. La descomposició exacta es mostra a la fórmula de la rúbrica a continuació — cap d’aquests pesos ni subrúbriques es va alterar per a l’actualització segona.

Composta = 0.35 × Estructural + 0.55 × Clínica + 0.10 × Latència

Els 0,20 punts percentuals restants de marge es descomponen gairebé íntegrament en la subpuntuació clínica — una petita fracció de casos (predominantment a Hepatologia i Reumatologia) tenia una paraula clau esperada del sistema de puntuació absent de la interpretació de l’engine tot i que el contingut diagnòstic era correcte. Cap cas de la cohort de 100.000 casos de l’actualització segona va fallar el diagnòstic en si mateix. La latència va millorar des d’una mitjana de 20,17 s a la publicació inicial de la V11 fins a 13,26 s a l’actualització segona, reflectint optimitzacions de l’engine de producció entre les dues execucions; la rúbrica, el codi de puntuació i el punt final de l’API no han canviat.

Les puntuacions compostes per etiqueta van oscil·lar entre 0.9971 i 0.9985 al llarg de les 30 etiquetes de països més representades. La cua llarga de 97 etiquetes addicionals (≈7.300 casos en total) no va mostrar cap degradació sistemàtica. Les etiquetes més freqüents segons el nombre de casos van ser els Estats Units (10.500), el Brasil (9.500), Espanya (9.000), Itàlia (8.000), Alemanya (7.800), França (7.400), Portugal (5.800), Türkiye (3.400), el Regne Unit (2.900) i Mèxic (2.500).

De 15 casos a 100.000: evolució de la cohort en 127 etiquetes de països

El panell de casos original de la V11 cobria set especialitats — hematologia, endocrinologia, medicina metabòlica, hepatologia, nefrologia, cardiologia, reumatologia — més dos casos dedicats de trampa d’hiperdiagnosi, amb cada cas un panell de proves de sang generat sintèticament. La V11 Segona actualització amplia l’avaluació a 100.000 casos sintètics en 127 etiquetes de països, distribuïts en vuit especialitats (les set originals més un grup intern de medicina que absorbeix el subconjunt de trampa). La mateixa rúbrica de puntuació s’aplica de manera idèntica a nivell de bytes en ambdues execucions.

Com que tots els casos es generen sintèticament, no hi ha identificadors reals per eliminar i no hi ha dades personals implicades. Cada cas sintètic inclou un codi de cas intern del benchmark (BT-NNN-LABEL en el conjunt inicial de la V11, un case_uid a la Segona actualització). No apareixen dades personals enlloc del banc publicat, l’informe tècnic o els conjunts de dades publicats.

publicació inicial de la V11 — 15 casos curats manualment

El panell de casos original de la V11 va ser curat manualment pel Dr. Thomas Klein per exercitar els patrons diagnòstics que els assistents de medicina de laboratori solen equivocar més sovint. Cada un dels quinze casos es va seleccionar per a una propietat diagnòstica específica, llistada a continuació.

Hematologia (3) BT-001, BT-006, BT-007 Anèmia ferropènica · Deficiència de B12 · Beta-talassèmia menor

Endocrinologia (3) BT-002, BT-008, BT-012 Tiroiditis de Hashimoto · PCOS amb resistència a la insulina · Deficiència severa de vitamina D

Metabòlic (2) BT-003, BT-013 T2DM amb síndrome metabòlica · Hiperuricèmia amb risc de gota

Hepatologia (2) BT-004, BT-009 Fetge gras no alcohòlic / NASH · Hepatitis viral aguda

Nefrologia · Cardiologia · Reumatologia (3) BT-005, BT-010, BT-011 Malaltia renal crònica estadi 3 · Dislipidèmia aterogènica · Lupus eritematós sistèmic

Casos trampa (2) BT-014, BT-015 Síndrome de Gilbert (hiperbilirubinèmia indirecta aïllada) · Cribratge adult totalment normal

Per què aquesta distribució en particular

La hematologia obté tres casos perquè els diferencials microcítics i els diferencials macrocítics són els paranys de major volum en la pràctica real de laboratori. L’endocrinologia n’obté tres perquè les presentacions de la malaltia de Hashimoto, la SOP i la deficiència de vitamina D fan exercitar formes diagnòstiques diferents (impulsades per autoanticossos, impulsades per la relació hormonal i impulsades per un sol marcador). Les especialitats d’un sol cas encara són significatives perquè cadascuna de la ERC, el risc d’ASCVD i l’LES té el seu propi sistema de puntuació que l’engine hauria d’invocar (respectivament, estadificació KDIGO, risc a 10 anys d’ASCVD i criteris d’LES EULAR/ACR 2019).

V11 Segona actualització — 100.000 casos sintètics en 127 etiquetes de països

La Segona actualització substitueix el literal de Python de 15 casos codificat durament de l’original V11 per un conjunt de casos sintètics més gran generat programàticament. El conjunt de casos es carrega a l’inici de cada execució i la configuració es registra per transparència. La distribució de la cohort per àrea de contingut es mostra a continuació.

Endocrinologia 23.900 casos (23,9%) Tiroides, PCOS, vitamina D, eix gonadal, hipòfisi

Medicina metabòlica 21.900 casos (21,9%) T2DM, síndrome metabòlic, panells lipídics, hiperuricèmia

Hematologia 15.400 casos (15,4%) Diferencials microcítics i macrocítics, B12/folat, estudis d’iron

Hepatologia 12.400 casos (12,4%) NAFLD/NASH, hepatitis viral, FIB-4, colestasi

Medicina interna (incl. submostra trap) 9.000 casos (9,0%) Presentacions mixtes i 8.723 casos dedicats de trampa d’hiperdiagnosi

Cardiologia 7.500 casos (7,5%) Risc d’ASCVD, dislipidèmia aterogènica, hs-CRP

Reumatologia 6.000 casos (6,0%) SLE, AR, vasculitis, panells d’autoanticossos (criteris EULAR/ACR)

Nefrologia 4.000 casos (4,0%) Estadificació de la CKD (KDIGO), tendències de eGFR, alteració electrolítica

Distribució sintètica d’etiquetes de països — top 10 etiquetes

Els 100.000 casos sintètics inclouen 127 etiquetes de països (ISO 3166-1 alpha-2) per exercitar el maneig de la configuració regional (locale). Assignació d’etiquetes: Europa 57.7%, les Amèriques 25.4%, Àsia-Pacífic 6.2%, etiquetes anomenades de l’Orient Mitjà/Àfrica 3.4%, i una cua llarga de 97 etiquetes addicionals aproximadament 7.3% en total. Les deu etiquetes més freqüents segons el nombre de casos són els Estats Units (10.500), el Brasil (9.500), Espanya (9.000), Itàlia (8.000), Alemanya (7.800), França (7.400), Portugal (5.800), Türkiye (3.400), el Regne Unit (2.900) i Mèxic (2.500). Les puntuacions compostes per etiqueta van oscil·lar entre 0.9971 i 0.9985. Aquestes quantitats d’etiquetes són propietats dels casos generats utilitzats per exercitar el maneig de la configuració regional — no són usuaris reals i no representen cobertura geogràfica del món real.

El barem pre-registrat, explicat

El preregistre és la decisió metodològica més important d’aquest benchmark. Cada diagnòstic esperat, cada sistema de puntuació clínica i cada secció de l’informe es van comprometre al codi font abans que s’invoqués l’engine. Per tant, no és possible ajustar a posteriori la rúbrica per afalagar l’engine.

Tres components formen la puntuació composta. El component estructural contribueix amb el 35% i mesura si l’engine va retornar les set seccions obligatòries de l’informe (capçalera, resum, troballes clau, diferencial, sistemes de puntuació, recomanacions, seguiment) i les setze subseccions obligatòries dins d’aquestes. La presència de seccions pesa un 40% i la presència de subseccions pesa un 60% dins del càlcul estructural.

El component clínic contribueix amb el 55% i combina tres coses: record de paraules clau del diagnòstic (70% del subròs clínic), record del sistema de puntuació (20% — si l’engine calcula Mentzer, FIB-4, HOMA-IR, el risc d’ASCVD, l’estadificació KDIGO i els criteris EULAR/ACR quan sigui rellevant), i una comprovació de validesa de suma de probabilitats (10% — les probabilitats del diferencial s’han de sumar dins l’interval [90, 110]). En casos parany, es resta una penalització explícita d’hiperdiagnosi de fins a 0,30, calculada com 0,10 per cada bandera de patologia fabricada, amb un límit de tres banderes.

El component de latència contribueix amb el 10%. Una resposta de menys de 20 segons obté el 0,10 complet, una resposta de menys de 40 segons obté 0,05, i qualsevol cosa més lenta obté zero. L’objectiu de 20 segons reflecteix l’objectiu de nivell de servei del servei primari de producció; el sostre de 40 segons reflecteix el pressupost de reserva de la Fase 2 per a invocacions pesades de l’engine.

Què evita el preregistre

Els benchmarks de primera part són famosos per inflar els seus propis resultats mitjançant l’ajust a posteriori de la rúbrica. El patró gairebé sempre és el mateix: l’equip executa l’engine, veu on no assoleix el rendiment, i després ajusta tranquil·lament la rúbrica perquè les àrees que no rendeixen comptin menys. En comprometre la rúbrica al codi font abans de la primera crida a l’engine i publicar el banc sota llicència MIT, aquest ajust es fa visible en el control de versions. Qualsevol pot clonar el repositori, comprovar les dates d’autoria de la rúbrica i verificar que els resultats de l’engine no es van utilitzar per donar forma a la puntuació.

Casos trampa d’hiperdiagnosi — per què el veritable mode de fallada és sobreanomenar

L’atribució agressiva de patologia en pantalles normals és un mode de fallada documentat de les assistències mèdiques orientades al consumidor. Els costos derivats inclouen investigació innecessària, ansietat del pacient i exploració i tractament iatrogènics. Els dos casos parany d’aquest benchmark estan dissenyats per fer visible i puntuable aquest mode de fallada.

🟡 Parany 1 — BT-014-GILBERT

Presentació. Un home de 24 anys amb una bilirrubina total de 2,4 mg/dL. La fracció directa és normal, les transaminases i la fosfatasa alcalina estan dins dels seus intervals de referència, els reticulòcits no presenten res destacable i la haptoglobina i la LDH descarten l’hemòlisi.

Interpretació correcta. La síndrome de Gilbert — una polimorfisme benigna de l’UGT1A1. La interpretació no hauria d’invocar hepatitis, cirrosi, anèmia hemolítica ni obstrucció biliar.

Resultat V11. Composta 1.000. Cap de les sis banderes de sobre-diagnosi monitoritzades va aparèixer com a diagnòstic actiu.

🟡 Parany 2 — BT-015-SALUDABLE

Presentació. Una dona de 35 anys amb un panell rutinari de cribratge de quinze paràmetres. Tots els analits estan còmodament dins del seu interval de referència.

Interpretació correcta. Tranquil·lització i manteniment de l’estil de vida. La interpretació no hauria de fabricar patologia limítrofa per semblar clínicament útil.

Resultat V11. Composició 1.000. Cap de les set alertes de sobre-diagnòstic monitoritzades —diabetis, anèmia, hipotiroïdisme, dislipidèmia, hepatitis, malaltia renal, dèficit— va aparèixer com a diagnòstic actiu.

En ambdós paranys, es van revisar tretze alertes de hiperdetecció monitoritzades. No se’n va activar cap. Aquest és el resultat que més importa per a qualsevol clínic que consideri utilitzar un motor d’IA com a eina de triatge o de pre-consulta: el sistema no va inventar cap malaltia quan no n’hi havia.

Índex de Mentzer: separar la deficiència de ferro de la característica de la talassèmia

Un segon resultat d’alt valor es refereix a l’associació del cas BT-001 (anèmia ferropènica) amb el cas BT-007 (beta-talassèmia menor). Tots dos presenten microcitosi i són un entrebanc ben conegut per als classificadors poc experts. L’índex de Mentzer, calculat com el MCV dividit pel recompte de RBC, supera 13 en la deficiència de ferro i cau per sota de 13 en el tret de talassèmia.

A BT-001, la pacient era una dona de 34 anys amb hemoglobina 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritina 6 ng/mL i TIBC elevat. L’índex de Mentzer d’aproximadament 17,7 recolza una deficiència absoluta de ferro. A BT-007, el pacient era un home de 28 anys amb microcitosi (MCV 65,8 fL) però un recompte alt de RBC de 6,2, RDW normal, ferritina normal i HbA2 de 5,6 per cent. L’índex de Mentzer d’aproximadament 10,6 apunta al tret de talassèmia, i l’HbA2 elevat confirma la beta-talassèmia menor.

Anèmia ferropènica Mentzer > 13 Ferritina baixa, TSAT baix, TIBC alt, RDW elevat

Tret de beta-talassèmia Mentzer < 13 Ferritina normal, RDW normal, HbA2 elevat (>3,5%), recompte alt de RBC

Ambdós casos van obtenir una puntuació d’1.000. El motor va invocar explícitament l’índex de Mentzer en les dues interpretacions i va retornar el diagnòstic correcte en cada cas. Aquest és el resultat únic que més tranquil·litza clínicament de tot el benchmark, perquè classificar erròniament el tret de talassèmia com a deficiència de ferro condueix a una suplementació de ferro inadequada i a oportunitats perdudes de cribratge familiar, i classificar erròniament la deficiència de ferro com a talassèmia retarda una teràpia de substitució senzilla. El nostre guia del rang de ferritina explica el context diferencial més ampli.

Resultats per cas de l’execució de referència inicial de la V11 (23 d’abril de 2026)

L’execució de referència original de la V11 en la cohort de prova de concepte de 15 casos serveix com a fonament metodològic de la Segona Actualització: cada detall per cas a continuació il·lustra com la rúbrica gestiona una resposta real del motor. Dotze de quinze casos van assolir el sostre del score compost de 1.000 en el camí principal; tres casos es van servir via el fallback de la Fase 2, perdent el bonus de latència de 0.05 mentre es preservava tot el contingut clínic i estructural. Un cas mancava d’una subsecció obligatòria; un altre va retornar una suma de distribució de probabilitat lleugerament reduïda.

Identificador de cas Especialitat Composta Latència Via

BT-001-IDAHematologia1.00017,8 sprincipal

BT-006-B12Hematologia1.00018,4 sprincipal

BT-007-THALHematologia1.00017,0 sprincipal

BT-002-HASHEndocrinologia0.95037,0 sreserva

BT-008-PCOSEndocrinologia0.98718,6 sprincipal

BT-003-T2DMMetabòlica1.00019,1 sprincipal

BT-013-GOTAMetabòlica1.00019,4 sprincipal

BT-004-NAFLDHepatologia1.00019,6 sprincipal

BT-009-VIRHEPHepatologia0.95023,4 sreserva

BT-014-GILBERTTrampa1.00018,9 sprincipal

BT-005-ERCNefrologia1.00017,4 sprincipal

BT-010-ASCVDCardiologia1.00019,7 sprincipal

BT-011-SLEReumatologia0.98118,2 sprincipal

BT-012-VITDEndocrinologia1.00019,3 sprincipal

BT-015-SALUDABLETrampa1.00018,7 sreserva

El cas de la PCOS (BT-008) va perdre una única subsecció obligatòria en l’estructura de la resposta — quinze de setze en lloc de setze de setze — cosa que va reduir la puntuació estructural de 1,000 a 0,963. El cas de l’SLE (BT-011) va retornar una suma de probabilitats lleugerament reduïda que va fer baixar la puntuació clínica fins a 0,965, tot preservant cada paraula clau diagnòstica i el sistema de puntuació. Cap dels dos casos no perfectes va fallar un diagnòstic correcte.

Agregat de la V11 Segona Actualització — 100,000 casos

A escala poblacional, les files individuals de casos no són llegibles per humans, de manera que la Segona actualització informa mètriques agregades en lloc d’una taula de 100.000 files. L’agregat principal es mostra a continuació; les desglossades per especialitat i per etiqueta de país es publiquen a l’informe tècnic i al dipòsit de Figshare. Es publica una mostra aleatòria estratificada de n = 201 respostes crues del motor (llavor determinista 20260426) es publica al directori de GitHub carpeta results/ per a la seva inspecció.

Score compost V11 inicial: 0.9912 (99.12%) → Segona Actualització: 0.9980 (99.80%) Δ = +0.0068 al llarg de la cohort de 100,000 casos

Score estructural (mitjana) V11 inicial: 0.998 → Segona Actualització: 1.000 Conformitat estructural perfecta a escala poblacional

Score clínic (mitjana) V11 inicial: 0.998 → Segona Actualització: 0.996 −0.002; cap cas va fallar el diagnòstic en si mateix

Latència — mitjana (interval) V11 inicial: 20,17 s (17,0–37,0 s) → Segona actualització: 13,26 s (9,0–16,94 s) Optimitzacions del motor de producció entre execucions

Camí del motor = principal V11 inicial: 12 / 15 → Segona actualització: 100,000 / 100,000 En cap moment durant l’execució no calia cap recurs de segona fase (Phase 2)

Senyalitzadors d’hiperdiagnosi de subconjunt de trampes V11 inicial: 0 / 13 → Segona actualització: 0 / 87,412 Zero falsos positius a escala poblacional (8.723 casos de trampa monitoritzats)

El que la puntuació del titular no ens diu

Una puntuació composta del 99.80 per cent sota aquesta rúbrica pre-registrada en particular, en una cohort sintètica de 100.000 casos que abasta 127 etiquetes de països, representa un rendiment gairebé al sostre — però mereix una contextualització acurada. El resultat descriu el comportament de l’engine en relació amb la rúbrica a la qual ens vam comprometre al codi font a la V11; no és una afirmació universal sobre la correcció de l’engine en cada panell de proves de sang que existeix al món real.

La puntuació diu que el motor va gestionar correctament els patrons diagnòstics seleccionats per a aquesta avaluació en un cohort a escala poblacional, amb una metodologia publicada i reproduïble. No diu que el motor sigui correcte en cada panell d’anàlisi de sang que existeix a la natura. No diu que el motor hagi de substituir el criteri clínic. I no diu que el motor superi sistemes d’IA alternatius — les anàlisis comparatives amb altres motors van quedar deliberadament fora de l’abast d’aquest informe.

El que sí que estableix la puntuació és una línia de base. Amb la rúbrica i el banc de proves fets públics, les versions futures del motor es poden avaluar amb la mateixa rúbrica — aplicada als 15 casos inicials de V11, al cohort de 100.000 casos de la Segona actualització, o a qualsevol ampliació posterior — i la bretxa entre la puntuació publicada i qualsevol execució posterior és, al seu torn, mesurable. Aquest és el valor de la preinscripció: converteix les afirmacions de rendiment en afirmacions comprovables.

Com reproduir aquest benchmark en 10 minuts

La reproducció només requereix un parell de credencials d’API Kantesti i un entorn de Python 3.10 o posterior amb el requests i reportlab biblioteques instal·lades. El banc de proves complet és un únic mòdul de Python autònom, publicat sota la llicència MIT.

💻 GitHub Banc de proves amb llicència MIT · respostes en brut · execució de referència 🔗 DOI de Figshare 10.6084/m9.figshare.32095435 · registre acadèmic canònic 🎓 ResearchGate Publicació 404175463 · Segona actualització de V11 · capa de descobriment acadèmic 📄 Academia.edu Paper 165956808 · Segona actualització de V11 · capa de descobriment acadèmic

Quatre passos per a una execució nova

Un. Clona el repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dos. Instal·la les dependències amb pip install -r requirements.txt (La Segona actualització afegeix mysql-connector-python ≥ 8.0 per al carregador de casos SQL). Tres. Defineix KANTESTI_USERNAME i KANTESTI_PASSWORD com a variables d’entorn per a l’API del motor. Per al carregador de casos SQL de la Segona actualització, també cal definir KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, i KANTESTI_DB_PASSWORD — el carregador es connecta mitjançant un rol de només lectura (bench_reader) que no té privilegis per identificar taules. Quatre. Executa python benchmark_bloodtest.py --limit 100000 per a l’execució completa de la Segona Actualització, o python benchmark_bloodtest.py --limit 1000 per a iteració ràpida. Les sortides s’aboquen a ./benchmark_results/: un scorecard CSV amb columnes per país/etiqueta i per especialitat, un agregat JSON, una mostra estratificada-aleatòria de respostes en brut i un informe en Markdown.

Les execucions de referència de l’23 d’abril de 2026 (V11 inicial, 15 casos) i del 26 d’abril de 2026 (V11 Segona Actualització, 100,000 casos) es conserven al carpeta results/ directori del repositori. Una execució nova generarà un nou scorecard amb marca de temps, deixant les execucions de referència intactes. Si la teva execució produeix un resultat significativament diferent, obre un issue de GitHub amb la marca de temps de l’execució i la versió de l’enginy retornada a les metadades de resposta.

Limitacions i treball futur

Fins i tot amb 100.000 casos per a 127 etiquetes de país, quatre limitacions mereixen una acceptació explícita: infra-mostreig de les etiquetes de cua llarga, avaluació d’una sola vegada, abast d’un sol motor i origen de dades d’una sola font. Totes s’estan abordant en treballs de seguiment actius.

Cobertura d’etiquetes de cua llarga. La Segona Actualització abasta 127 etiquetes de país, però la distribució és desequilibrada — les 10 etiquetes principals representen aproximadament el 66,4% dels casos, i la cua llarga de 97 etiquetes addicionals aporta conjuntament aproximadament el 7,3% (aproximadament 7.300 casos en total, ~75 casos per etiqueta de mitjana). Per tant, els composites per etiqueta en aquesta cua llarga són més sorollosos del que suggereixen les xifres destacades. Les futures execucions reequilibraran l’assignació d’etiquetes per consolidar les estimacions per etiqueta.

Avaluació d’una sola vegada. Cada cas del conjunt s’ha avaluat una sola vegada. Els models de llenguatge gran mostren una variància de sortida no trivial fins i tot amb una temperatura de mostreig baixa, de manera que un protocol de múltiples execucions amb cinc avaluacions per cas i la variància reportada és el següent pas natural — especialment en el subconjunt de casos trampa, on la consistència sota el “jitter” de mostreig forma part de l’afirmació de seguretat.

Abast d’un sol engine. Aquest informe caracteritza un sol motor. Les anàlisis comparatives amb sistemes d’IA alternatius queden fora de l’abast aquí; podem perseguir-les com un estudi independent separat amb la metodologia adequada, utilitzant el mateix banc de proves amb llicència MIT.

Dades sintètiques. Els 100.000 casos es generen sintèticament, no són “casos sintètics” en el sentit de dades reals; els resultats no es transfereixen al rendiment clínic en el món real. L’avaluació amb dades reals, amb consentiment i d’origen extern requeriria una supervisió ètica adequada i queda fora de l’abast d’aquest banc de proves sintètic.

Més enllà d’aquestes quatre, l’extensió planificada amb més impacte és la paritat multilingüe per jurisdicció. L’Kantesti AI Engine atén usuaris en 75+ idiomes, i executar sub-conjunts de la Segona Actualització estratificats per idioma (turc, alemany, espanyol, francès, italià, portuguès, àrab, mandarí) quantificarà la qualitat de la sortida a través dels idiomes compatibles del motor. Cada anàlisi estratificada per idioma es publicarà amb el seu propi DOI i branca del banc de proves.

Prova el mateix motor que va aconseguir una puntuació composta del 99.80% en 100,000 casos

Pengeu el vostre propi panell d’anàlisi de sang al mateix endpoint de producció que s’ha avaluat en aquest benchmark. Més de 2 milions d’usuaris a tot el món utilitzen el motor d’IA Kantesti per interpretar més de 15.000 biomarcadors en 75+ idiomes.

🔬 Prova la demostració gratuïta

Extensió de Chrome Botiga d'aplicacions Google Play

📚 Com citar aquest benchmark

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Informe tècnic V11 Segona Actualització). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Referències metodològiques externes

Mentzer, W. C. (1973). Diferenciació de la deficiència de ferro de la característica de talassèmia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Criteris de classificació de la European League Against Rheumatism / American College of Rheumatology per a l’esclerosi sistèmica l’eritematós. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test for Large Language Models. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Puntuació composta

100,000Casos puntuats

127Etiquetes de país cobertes

0 / 87,412Falsos positius de la trampa

Preguntes freqüents

Quina precisió té el motor d’IA Kantesti en casos de prova sintètics?

En un rubric pre-registrat, executat sobre 100.000 casos de prova generats sintèticament en vuit àrees de contingut i 127 etiquetes de país (V11 Second Update), l’enginy va assolir una puntuació composta del 99,80 per cent, amb zero senyals d’hiperdiagnosi en 87.412 oportunitats de “trap-case” monitoritzades i una latència mitjana de resposta de 13,26 segons. Aquest compost mesura la conformitat de la sortida en entrades sintètiques, no l’exactitud diagnòstica. La publicació original de V11 va aplicar el mateix rubric a 15 casos construïts manualment (compost 99,12%); la Segona Actualització manté el rubric idèntic a nivell de bytes i l’estén a un conjunt sintètic més gran. El scorecard complet es publica a Figshare amb el DOI 10.6084/m9.figshare.32095435 i a GitHub sota llicència MIT.

L’Kantesti motor d’IA està validat clínicament?

No. L’enginy s’ha avaluat amb un banc de proves tècnic automatitzat (no una validació clínica), contra un rubric que es va congelar al codi font abans de l’execució inicial de V11 i es va mantenir idèntic a nivell de bytes per a la Segona Actualització de V11, avaluat en 100.000 casos de proves de sang sintètics en hematologia, endocrinologia, medicina metabòlica, hepatologia, nefrologia, cardiologia, reumatologia i medicina interna, extrets de 127 etiquetes de país. La supervisió clínica la va proporcionar el Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), hematòleg clínic certificat pel board i Chief Medical Officer a Kantesti AI.

Què és un cas de trampa de hiperdetecció?

Un cas trampa de hiperdetecció és un escenari clínic dissenyat específicament per detectar conductes d’hiperdiagnosi en motors d’IA. El benchmark inicial de la V11 va utilitzar dos d’aquests casos com a prova de concepte metodològica: una hiperbilirrubinèmia indirecta aïllada compatible amb la síndrome de Gilbert (on la interpretació correcta és la polimorfisme benigne de l’UGT1A1, en lloc d’hepatitis o hemòlisi) i un panell de cribratge adult completament normal (on la sortida correcta és tranquil·lització, en lloc d’una patologia limítrofa fabricada). La Segona Actualització de la V11 va escalar aquesta metodologia de cas trampa a un subconjunt dedicat de 8.723 casos, generant 87.412 oportunitats de bandera d’hiperdetecció monitoritzades, i la taxa de falsos positius del motor es va mantenir en zero.

L’avaluació del motor d’IA Kantesti és reproduïble?

El banc d’avaluació complet es publica sota la llicència MIT com un únic mòdul Python autònom. L’execució inicial de la V11 només requereix un parell de credencials d’API de Kantesti i Python 3.10 o posterior. La Segona Actualització de la V11 afegeix un carregador de casos SQL de només lectura i parametrizat que requereix credencials del repositori clínic de Kantesti (a bench_reader ) un rol sense privilegis per identificar taules. El codi, el SQL del carregador de casos, la rúbrica (byte-a-byte idèntica entre versions) i una mostra aleatòria estratificada de respostes crues del motor tant de l’execució inicial de la V11 com de l’actualització de referència de la Segona Actualització estan disponibles a github.com/emirhanai/kantesti-blood-test-benchmark i també reflectides a Figshare, ResearchGate i Academia.edu.

Com diferencia l’Kantesti motor d’IA la deficiència de ferro de la característica de la beta-talassèmia?

El motor aplica l’índex de Mentzer, calculat com el volum corpuscular mitjà dividit pel recompte de glòbuls vermells. Un índex de Mentzer per sobre de 13 recolza anèmia ferropènica, mentre que un valor per sota de 13 recolza el tret de beta-talassèmia. En el benchmark inicial de la V11, ambdues presentacions es van classificar correctament amb un càlcul explícit de l’índex de Mentzer, recolzat pel context de ferritina, RDW i HbA2. Al llarg de la cohort de 100.000 casos de la Segona Actualització de la V11, el mateix comportament diferencial es va preservar a escala poblacional.

On puc trobar les dades de referència (benchmark) en brut i el codi font?

L’informe tècnic es diposita a Figshare sota el DOI 10.6084/m9.figshare.32095435 (cobrint tant el llançament inicial de la V11 com la Segona Actualització de la V11), reflectit a la publicació de ResearchGate 404175463 i al document d’Academia.edu 165956808 — tots actualitzats amb el títol de la Segona Actualització de la V11 i els resultats de 100.000 casos — i el banc Python amb llicència MIT amb tots els resultats de les execucions de referència és a github.com/emirhanai/kantesti-blood-test-benchmark. La xarxa de miralls en quatre plataformes garanteix disponibilitat a llarg termini i flexibilitat de citació.

Per què és important la preregistració per als benchmarks mèdics d’IA?

La preregistració evita el reajustament post hoc de la rúbrica, que és la manera més habitual que els benchmarks gestionats per empreses inflen els seus propis resultats. En comprometre la rúbrica al codi font abans de qualsevol crida de l’engine i publicar el banc d’avaluació públicament, les dates de l’autor de la rúbrica es poden inspeccionar en el control de versions, i els resultats de l’engine no poden haver modelat els criteris de puntuació.

Aquest benchmark inclou comparacions amb altres engines d’IA?

No. L’informe de la V11 — tant el llançament inicial com la Segona Actualització — caracteritza deliberadament un únic motor enfront d’una rúbrica fixa, en lloc de posicionar-lo enfront de sistemes comercials alternatius. El banc és codi obert sota llicència MIT (ara incloent el carregador de casos SQL), de manera que investigadors independents poden avaluar qualsevol motor que triïn enfront de la mateixa rúbrica i el mateix carregador de casos i publicar els seus resultats.

Els casos de pacients són reals o sintètics?

Tots els casos es generen sintèticament — 15 casos construïts manualment a la publicació inicial de V11 i 100.000 a la Segona Actualització. No són “casos sintètics”: no hi ha dades sintètiques, no hi ha procés de consentiment i no hi ha desidentificació, perquè no existeix cap dada personal en la cohort. No apareix cap dada personal al banc de proves publicat, a l’informe tècnic ni als datasets alliberats.

⚕️ Declaració mèdica de responsabilitat i conflicte d’interessos

Aquest informe de benchmark és per a finalitats de recerca i transparència metodològica. No constitueix consell mèdic, no és un diagnòstic i no substitueix l’atenció mèdica professional; cap resultat aquí s’hauria d’utilitzar per retardar o evitar consultar un metge. Consulteu sempre un proveïdor qualificat d’atenció sanitària per a decisions de diagnòstic i tractament. Aquest és un benchmark intern autogestionat del motor propi de l’empresa i no ha estat validat de manera independent ni revisat per parells. La puntuació composta mesura la conformitat amb un barem fix (estructura de l’informe, record de paraules clau i del sistema de puntuació, i latència); no és una mesura de la precisió diagnòstica en el món real ni de la seguretat clínica. Ambdós autors estan empleats per i tenen participacions (equity) a Kantesti Ltd, i el motor que s’està avaluant és un producte comercial de la mateixa organització. Aquest conflicte d’interessos es mitiga mitjançant la preinscripció del barem en el codi font, la publicació del harness sota la llicència MIT i la publicació d’una mostra aleatòria estratificada de respostes crues del motor.

Senyals de confiança E-E-A-T

⭐

Experiència

15+ anys de pràctica clínica en hematologia i medicina de laboratori supervisant la selecció del panell de casos.

📋

Experiència

Disseny de rúbrica preregistrat amb penalitzacions explícites per hiperdetecció i sistemes de puntuació clínics reconeguts (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoritat

Autor principal: Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementació per Julian Emirhan Bulut, CEO de Kantesti Ltd.

🛡️

Fiabilitat

Banc d’avaluació reproduïble amb llicència MIT, respostes crues de l’engine publicades, divulgació oberta del conflicte d’interessos, xarxa de miralls de recerca en quatre plataformes.

🏢 Kantesti LTD Registrada a Anglaterra i Gal·les · Número d’empresa. 17090423 Londres, Regne Unit · kantesti.net