Benchmark d’analisi de sang amb IA Kantesti

Validacion Clinica Bencmark pre-registra V11 — Abril 2026 Amb licéncia MIT Verificable pels pars

Puntuacion composta 99.12% sus una rubrica pre-registada amb zero falses positius d’hiperdiagnòsi

Una evaluacion clinica independenta, pre-registra, de l’Engine d’IA Kantesti sus de cas de resultats d’analisi de sang anonimizats. La rubrica foguèt congelada dins lo còdi font abans la primièra crida de l’engine, l’òrgane d’evaluacion es amb licéncia MIT, e totes los responsas brutas son publicadas.

📖 ~14 minutas 📅 23 d’abril de 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publicat: 23 d’abril de 2026 🩺 Revisat medicalament: 23 d’abril de 2026 ✅ Rubrica pre-registra 🔓 Còdi e donadas dobèrts

Aqueste estudi de validacion clinica foguèt menat per Dr. Thomas Klein, MD, Chief Medical Officer (Cap de medicina) a Kantesti AI, en collaboracion amb Julian Emirhan Bulut, Senior AI Engineer e CEO de Kantesti Ltd. La metodologia e la rubrica foguèron revisadas pel Conselh Consultatiu Medical de l'IA de Kantesti.

Autor principal & supervision clinica

Thomas Klein, MD

Director Mèdic, Kantesti AI

Dr. Thomas Klein es un hematològ clinician internista certificat per conselh d’administracion, amb mai de 15 ans d’experiéncia dins la medicina de laboratòri. Coma Chief Medical Officer a Kantesti AI, seleccionèt lo panèl de cas per aqueste bencmark, revisèt totes los “ground truths” diagnostics, e aprovèt la rubrica pre-registra abans la primièra invocacion de l’engine.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Co-autor & implementacion

Julian Emirhan Bulut

Senior AI Engineer & CEO, Kantesti Ltd

Julian Emirhan Bulut es lo fondator e CEO de Kantesti Ltd. Desvolopèt e implementèt l’òrgane d’evaluacion, realizèt l’integracion de l’API, menèt la corrida del bencmark d’Abril 2026, e preparèt l’aggregacion estatistica. Fondator de la plataforma dempuèi 2019.

GitHub A prepaus de Kantesti

⚡ Resumit rapid V11 — 23 d’abril de 2026

score compausat 99.12% sus 15 casos reals de sang anonimizats de pacients, dins sèt especialitats medicalas.
Zero falses positius de quimiatge excessiu sus ambedós cases trapa (sindròma de Gilbert e un escart adult completament normal).
Rubrica pre-registrada congelada dins lo còdi font abans la primièra crida de l’engin — cap ajustament posteriòr èra possible.
índex de Mentzer aplicat corrèctament per diferenciar l’anèmia per deficiéncia de fèrre de la beta-talassèmia minor.
Nòma solament d’enclavament de produccion — sens encaminament privilegiat, avaluat exactament coma un client pagant i accedís.
Laténcia mejana de 20,17 segondas end-to-end, amb 12 de 15 cases jos la mira primària de 20 segondas.
Harness sota licéncia MIT publicat sus GitHub amb cada responsa bruta de l’engin — la reproduccion independenta es sostenguda.
DOI de Figshare: 10.6084/m9.figshare.32095435 · Repliçat sus ResearchGate, Academia.edu, GitHub.

Perqué existís aqueste bencmark e çò que testejarà

L’interpretacion de analisi de sang amb IA es cada còp mai utilizada dins los fluxes de trabalh de consum e de clinica, mas los quadres d’evaluacion reproducibles adaptats a la medicina de laboratòri son encara rars. Las questions que son mai importantas dins aqueste contèxte son pas las que son cobèrtas per los benchmarks generics de questionari-responsa medicala: un engin pòt separar la deficiéncia de fèrre de l’atribut de talassèmia quand lo volum corpuscular mejà es identic, li fa de diagnosticar de mai la sindròma de Gilbert coma d’epatitisa, e fabrica de patologia dins un panèl de screening completament normal?

Un sol panèl d’analisi de sang contèn generalament pro senhal per sostenir mantun interpretacion competenta, e la responsa del clinician que interpreta es de pesar aquelas interpretacions entre elas mai que pas de cercar una responsa de manual. Un motor que se’n sortís plan dins de cas de libre pòt encara fracassar dins los cas que son mai importants: las falhas de diagnòstic diferencial, las variants benignes que semblan alarmantas se son isoladas, e los panèls completament normals que fan temptar d’assistents segurs a fabricar una patologia.

Aqueste benchmark foguèt bastit precisament sus aqueles modes de fracàs. Cadascun dels quinze cas foguèt causit per una proprietat diagnostica especifica: una microcitòsi per deficiéncia de fèrre que deu demorar distinta de l’atribut de beta-talassèmia amb un volum corpuscular mejançant identic, una presentacion de sindròme de Gilbert ont l’unica anormalitat es una hiperbilirubinèmia indirecta isolada, e un panèl de screening de quinze parametres ont cada analit se tròba dins son interval de referéncia. La rubrica recompenssa los motors que legisson cada cas sus sos tèrmes e penaliza los motors que s’enganan cap a un diagnòstic segur quand i a pas cap de diagnòstic que siá justificat.

Coma Thomas Klein, MD, ai seleccionat lo panèl de cases perque son los patrons que vei mai sovent que los assistants de medicina de laboratòri fan mal. Lo mode de fracàs car es pas " mancar una malautiá rara " — es fabricar una patologia rutinària dins de pacients que l’an pas. Nòstre Validacion medicala hub descriu lo quadre mai larg; aquesta pagina descriu son resultat aplicat sus l’engin V11.

Darrièra corrida de referéncia — V11 (Abril 2026)

L’execucion de referéncia del mes d’abril de 2026 de l’Kantesti AI Engine V11 a produsit una nota compausada de 99.12% sus la rubrica pre-registrada de quinze cas. Ambedos los cas de trapa de hiperdianòstic an marcat al limit. L’índex de Mentzer foguèt aplicat corrèctament dins lo diferencial entre deficiéncia de fèrre e talassèmia.

Compòsite 99.12% 15 sus 15 cases an marcat

0.998 Nòta estructurala

0.998 Nòta clinica

20.17 s Laténcia mejana

0 / 13 Trapas de falses positius

La formula compausada combina tres components: conformitat estructurala amb las set seccions de rapòrt obligatòrias e las sièisze subseccions obligatòrias, exactitud clinica mesurada coma remembrança de paraulas-clau + remembrança del sistèma de puntuacion + una verificacion de validitat de distribucion de probabilitat, e laténcia de responsa contra lo tèrme principal de servici de 20 segonds. La descomposicion exacta es mostrada dins la formula de rubrica çai-josa.

Compòsite = 0.35 × Estructura + 0.55 × Clinica + 0.10 × Laténcia

Los 0,88 punts de percentatge restants de marge se descomponen gaireben tot en pèrda de laténcia — tres invocacions de retombada Phase 2 a -0,05 cadascuna, compausadas, an aportat gaireben 0,60 dels 0,88 punts de dèficit — e non pas en contengut clinic. L’enginhètz a pas mancat cap diagnòstic corrècte dins las quinze cas; ont s’escalfèt, aquò foguèt en prene un pauc mai de temps que la mira primària de 20 segonds, dins una petita minoria d’invocacions.

Quinze cases dins sèt especialitats medicalas

Lo panèl de cas cobèrta sèt especialitats — hematologia, endocrinologia, medicina metabolica, hepatologia, nefrologia, cardiologia, reumatologia — plus dos cases dedicats de trapa de hiperdeteccion. Cada cas es un enregistrament vertadièr de pacient anonimizat, tirat del repertòri de donadas clinicas Kantesti jos consentiment informat escrich.

La desidentificacion foguèt realizada jos l’aprocha Safe Harbor: totes los identificadors directs foguèron removuts o remplaçats, e cada enregistrament foguèt assignat a un còdi de cas intern de referéncia, dins lo format BT-NNN-LABEL. La processament foguèt fach en conformitat amb l’Article 9(2)(j) del GDPR per recèrca scientifica amb de salvagardas apropriadas, e las disposicions equivalentas del UK GDPR. Cap informacion personalament identificabla apareis en cap moment dins l’arnès publicat, lo rapòrt tecnic, ni dins las donadas liberadas.

Hematologia (3) BT-001, BT-006, BT-007 Anèmia per deficiéncia d’èr · Deficiéncia de B12 · Beta-talassèmia minor

Endocrinologia (3) BT-002, BT-008, BT-012 Tiroiditis d’Hashimoto · PCOS amb resisténcia a l’insulina · Deficiéncia severa de vitamina D

Metabolica (2) BT-003, BT-013 T2DM amb sindròma metabolic · Hiperuricèmia amb risc de gòuta

Hepatologia (2) BT-004, BT-009 NAFLD / NASH · Hepatitis virala aguda

Nefrologia · Cardiologia · Reumatologia (3) BT-005, BT-010, BT-011 Etapa 3 de la malautiá cronica renala · Dislipidèmia aterogènica · Lupus eritematós sistèmic

Cases trapa (2) BT-014, BT-015 Sindròma de Gilbert (hiperbilirubinèmia indirecta isolada) · Screening adult completament normal

Perqué aquesta distribucion particulara

L’ematologia obtèn tres cases perque los diferencials microcitics e los diferencials macrocitics son los pièges de mai granda quantitat dins la practica reala de laboratòri. L’endocrinologia n’obtèn tres perque las presentacions de Hashimoto, de PCOS e de deficita de vitamina D fan exercici de formas diagnosticas diferentas (conduchas per autoanticòrs, conduchas per relacions d’ormonas, conduchas per un sol marcador). Las especialitats d’un sol case son encara significativas perque cadascuna de CKD, risc d’ASCVD e SLE a son pròpri sistèma de puntuacion que l’engine deu invocar (respectivament estadiatge KDIGO, risc 10 ans d’ASCVD, criteris SLE 2019 EULAR/ACR).

La rubrica pre-registra, explicada

La preinscripcion es la causida metodologica unica mai importanta dins aqueste benchmark. Cada diagnòstic esperat, cada sistèma de puntuacion clinic, e cada seccion de rapòrt foguèt compromés al còdi font abans que l’engine siá invocat. Per aquò, l’ajustament post-hoc de la rubrica per l’afavorir l’engine es impossible.

Tres components fan la puntuacion compausada. Lo component estructural contribuis 35 per cent e mesura se l’engine tornèt las set seccions obligatòrias del rapòrt (capçalera, resumit, troballas principalas, diferencial, sistèmas de puntuacion, recomandacions, seguiment) e las sièis seccions obligatòrias dins elas. La preséncia de seccion pesa 40 per cent e la preséncia de subseccion pesa 60 per cent dins lo calcul estructural.

Lo component clinic contribuis 55 per cent e combina tres causas: remembrança de paraulas clau del diagnòstic (70 per cent del sub-score clinic), remembrança del sistèma de puntuacion (20 per cent — l’engine calcula Mentzer, FIB-4, HOMA-IR, risc d’ASCVD, estadiatge KDIGO, criteris EULAR/ACR quand es pertinent), e una validacion per suma de probabilitats (10 per cent — las probabilitats del diferencial devon sumar dins l’interval [90, 110]). Per los cases piège, se desbasta una penalizacion explicita d’hiperdiagnòstic de fins a 0,30, calculada coma 0,10 per cada marca de patologia fabricada, limitada a tres marcas.

Lo component de laténcia contribuis 10 per cent. Una responsa jos 20 segonds dona la valor completa 0,10, una responsa jos 40 segonds dona 0,05, e tot çò que demora mai dona zero. Lo tèrme de 20 segonds reflectís l’objectiu de nivèl de servici primari de produccion; lo limit de 40 segonds reflectís lo budget de retombada de la Fasa 2 per d’invocacions pesugas de l’engine.

çò que la preinscripcion empacha

Los benchmarks de primièra part son notoriaments capables d’inflar lor pròpris nombres per tuning post-hoc de la rubrica. Lo patròn es gaireben totjorn lo meteis: la còla fa foncionar l’engine, vei ont sota-perfòrma, puèi ajusta discretament la rubrica per que las zònas que sota-perfòrman compten mens. En comprometent la rubrica al còdi font abans la primièra crida de l’engine e en publicant lo banc d’òbra jos licéncia MIT, aqueste ajustament ven visible dins lo contraròtle de versions. Qualqu’un pòt clonar lo repositori, verificar las datas d’autor de la rubrica, e verificar que los resultats de l’engine foguèron pas utilizats per modelar la puntuacion.

Cas de trapa de hiperdiagnòsi — perqué l’“over-calling” es lo vertadièr mòde de fracàs

L’atribucion agressiva de patologia sus d’ecrans normals es un mode de fracàs documentat dels assistants medics orientats al public. Las costoses downstream inclúsen d’enquèstas inutilas, l’angoissa del pacient, e un trabalhament iatrogèn. Los dos cases piège dins aqueste benchmark son desigenats per far visible e puntuable aqueste mode de fracàs.

🟡 Piège 1 — BT-014-GILBERT

Presentacion. Un òme de 24 ans amb un bilirubina totala de 2,4 mg/dL. La fraccion dirècta es normal, las transaminasas e la fosfatasa alcalina se tròban dins lor interval de referéncia, los reticulocits son sensa ren remarcable, e l’haptoglobina e l’LDH descartan l’emòlisi.

Interpretacion corrècta. La malautiá de Gilbert — una polimorfisme benigna de UGT1A1. L’interpretacion deu pas invocar hepatitis, cirrosi, anèmia hemolitica, ni obstruccion biliària.

Resultat v11. Compausada 1.000. Nengun de las sièis marcas d’over-diagnòstic monitoradas apareguèt coma diagnòstic actiu.

🟡 Piège 2 — BT-015-HEALTHY

Presentacion. Una femna de 35 ans amb un panèl rutinari de screening de quinze parametres. Cada analit se tròba confortablament dins son interval de referéncia.

Interpretacion corrècta. Reassegurança e mantenença d’estil de vida. L’interpretacion deu pas fabricar patologia de limit per semblar utila a nivèl clinic.

Resultat v11. Composite 1.000. Cap de las set banderas d’iper-diagnòstic monitorizadas — diabetis, anèmia, hipotiroïdisme, dislipidèmia, hepatitis, malautiá renala, deficita — apareguèt coma diagnòstic actiu.

En totes dos “traps”, tretze banderas d’iper-diagnòstic monitorizadas foguèron verificadas. N’i aguèt pas cap activada. Aqueste es lo resultat mai important per tot clinician que pensa d’utilizar un motor d’IA coma aisina de triatge o de pre-consulta: lo sistèma inventèt pas una malautiá ont i èra pas.

Indèx de Mentzer: separar la deficita d’èr de la traça de talasèmia

Un segond encontre de valor concernís lo ligam de la causa BT-001 (anèmia per deficita de ferrò) amb la causa BT-007 (beta-talassèmia minor). Ambedos presenten una microcitosi e son un entrebanc plan conegut per de classificador ingenu. L’índex de Mentzer, calculat coma MCV dividit per la quantitat de RBC, passa de 13 dins la deficita de ferrò e tomba jos 13 dins lo caractèr de talassèmia.

En BT-001, la pacienta èra una femna de 34 ans amb hemoglobina 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritina 6 ng/mL, e TIBC elevat. L’índex de Mentzer d’aperaquí 17.7 sostèn una deficita absoluda de ferrò. En BT-007, lo pacient èra un òme de 28 ans amb microcitosi (MCV 65.8 fL) mas una nauta quantitat de RBC de 6.2, RDW normal, ferritina normal, e HbA2 de 5.6 per cent. L’índex de Mentzer d’aperaquí 10.6 indica lo caractèr de talassèmia, e l’HbA2 elevat confirma la beta-talassèmia minor.

Anèmia per deficita de ferrò Mentzer > 13 Ferritina bassa, TSAT bassa, TIBC naut, RDW elevat

Caractèr de beta-talassèmia Mentzer < 13 Ferritina normal, RDW normal, HbA2 elevat (>3.5%), nauta quantitat de RBC

Ambedos cases obtenguèron 1.000. Lo motor invocèt explícitament l’índex de Mentzer dins ambedos interpretacions e retornèt lo diagnòstic corrècte dins cada cas. Aqueste es lo resultat mai solament reassegurant a nivèl clinic dins tot lo “benchmark”, perque confondre lo caractèr de talassèmia amb la deficita de ferrò mena a una suplementacion de ferrò inapropiada e a oportunitats perdudas de cribratge familiau, e confondre la deficita de ferrò amb la talassèmia retarda una terapia de remplaçament plan dirècta. Nòstre guia de la gamma de ferritina explica lo contèxte mai larg de diferencial.

Resultats per cas de l’execucion d’abril de 2026

Dotze de quinze cases obtenguèron lo score composite del plafon de 1.000 sus la path primària. Tres cases foguèron servits via lo “Phase 2 fallback”, perdent la bonificacion de laténcia de 0.05 mentre se calquèt tot lo contengut clinic e estructural. Un cas mancava una sola subseccion obligatòria; un autre retornèt una suma de distribucion de probabilitat marginalament reducha.

ID de la causa Especialitat Compòsite Laténcia Path

BT-001-IDAEmatologia1.00017.8 sprimària

BT-006-B12Ematologia1.00018,4 sprimària

BT-007-THALEmatologia1.00017,0 sprimària

BT-002-HASHEndocrinologia0.95037,0 sretombada

BT-008-PCOSEndocrinologia0.98718,6 sprimària

BT-003-T2DMMetabolic1.00019,1 sprimària

BT-013-GOUTMetabolic1.00019,4 sprimària

BT-004-NAFLDHepatologia1.00019,6 sprimària

BT-009-VIRHEPHepatologia0.95023,4 sretombada

BT-014-GILBERTTrapa1.00018,9 sprimària

BT-005-CKDNefrologia1.00017,4 sprimària

BT-010-ASCVDCardiologia1.00019,7 sprimària

BT-011-SLEReumatologia0.98118,2 sprimària

BT-012-VITDEndocrinologia1.00019,3 sprimària

BT-015-SANTrapa1.00018,7 sretombada

Lo cas de PCOS (BT-008) perdèt una sola subsecção obligatòria dins la estructura de responsa — quinze sus sièisanta-e-sèt en luòc de sièisanta-e-sèt sus sièisanta-e-sèt — çò que rodanèt lo còrs estructural de 1,000 a 0,963. Lo cas de SLE (BT-011) tornèt una suma de probabilitats marginalament reducha que baixèt lo còrs clinic a 0,965 mentre que gardava totas las paraulas clau de diagnòstic e lo sistèma de puntuacion. Nòun cap de los dos cases pas-perfèctes manquèt un diagnòstic corrècte.

çò que lo score de portada nos ditz pas

Una puntuacion compausada de 99,12 per cent jos aquesta rubrica pre-registrada particulara representa una prestacion gaireben al limit, mas cal una presentacion precisa. Lo resultat descriu lo comportament del motor contra quinze cases anonimizats seleccionats amb cura, avalorats una sola còp cadun, contra una sola rubrica. Sem avèm explicit sus çò que lo nombre fa e çò que lo nombre establís pas.

La puntuacion ditz que lo motor V11 geriguèt corrèctament los patrons de diagnòstic seleccionats per aquesta avaloracion, sus una metodologia publicada e reproducibla. Dis pas que lo motor es corrècte sus totes los panèls d’analisi de sang que existisson dins lo mond. Dis pas que lo motor deu remplaçar lo jutjament del clinician. E dis pas que lo motor es superior a d’autras sistèmas d’IA — las analisis comparativas contra d’autres motors foguèron deliberadament fora de l’abast d’aqueste rapòrt.

Çò que la puntuacion establís, aquò, es una basa. Amb la rubrica e lo banc d’assaig public, las versions futuras del motor pòdon èsser avaloradas contra los meteisses quinze cases, e la diferéncia entre la puntuacion publicada e qualsevol execucion posteriora es ela meteissa mesurable. Aquesta es la valor de la pre-registracion: çò que convertís de reclamacions de prestacion en reclamacions testables.

Cossí reproduire aqueste benchmark en 10 minutas

La reproduccion necessària solament un parelh de credencials d’API Kantesti e un environament Python 3.10 o mai recent, amb lo requests e reportlab bibliotecas installadas. Lo banc d’assaig complet es un sol modul Python autònom, liberat jos la licéncia MIT.

💻 GitHub Banc d’assaig sota licéncia MIT · responsas brutas · execucion de referéncia 🔗 DOI de Figshare 10.6084/m9.figshare.32095435 · enregistrament academic canonic 🎓 ResearchGate Publicacion 404175463 · capa de descobèrta academic 📄 Academia.edu Paper 165956808 · capa de descobèrta academic

Quatre passes per una execucion novèla

Un. Clonar lo reposatòri: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dos. Installar las dependéncias amb pip install -r requirements.txt. Tres. Definir KANTESTI_USERNAME e KANTESTI_PASSWORD coma variables d'environament — las credencials son legidas al moment de l'execucion e i a pas res de codificat en dur dins lo script. Quatre. Executar python benchmark_bloodtest.py e inspeccionar los quatre artefaches emeses dins lo repertòri de trabalh: un scorecard CSV, un scorecard JSON, un escampatge JSON complet incloent las responsas brutas de l'engin, e un rapòrt en Markdown legible per l’uman.

La reializacion de referéncia del 23 d’abril de 2026 es conservada dins lo resultats/ repertòri del reposatòri. Una reializacion novèla produirà un nòu scorecard amb nòu data-orari, sens tocar la reializacion de referéncia. Se vòstre execucion produtz un resultat sensiblement diferent, mercés de dobrir un issue sus GitHub amb l’ora/data de l’execucion e la version de l’engin retornada dins las donadas de metadatas de la responsa.

Limitacions e trabalh futur

Quatre limitacions meritan una reconeissença explicit: talha de mostra, avaloracion en un sol còp, abast d’un sol engin, e origina de las donadas d’una sola font. Caduna es en cors de tractament dins un trabalh de seguiment actiu.

Talha de mostra. Quinze casos dins uèit gropes d’especialitat son pro per una prova de concèpte mas pas per l’analisi de subgropes dins una especialitat. L’espandiment cap a cinquanta casos es previst e inclourà panèls de coagulacion, depistatge de malignitats hematologicas, panèls de maternitat, e presentacions pediatricas.

Avaloracion en un sol còp. Cada cas foguèt avalorat una sola còp. Los modèls de lenga granda mòstran una variància de sortida non triviala quitament a temperatura de mostratge bassa, donc un protocòl de mantun còps amb cinc avaloracions per cas e la variància reportada es un pas natural.

Abast d’un sol engin. Aqueste rapòrt caracteriza un sol engin. Las analisas comparativas contra d’autras sistèmas d’IA son fora d’encastre; podèm perseguir aquò coma una estudi independent separada amb una metodologia apropriada.

Origina de las donadas d’una sola font. Los quinze casos son de registres reals de pacients anonimizats tirats d’un sol reposatòri clinic. Representan una mostra seleccionada e son pas una tirada aleatòria representativa de la populacion. L’espandiment de l’avaloracion cap a de donadas multi-centres es sus la rota.

L’extension planificada mai impactanta es la paritat multi-lenga. L’engin d’IA Kantesti serveish los utilizaires dins 75+ lengas, e executar lo meteis harness de quinze casos en turc, alemand, espanhòl, francés e arabic quantificarà la qualitat de las sortidas dins las lengas suportadas per l’engin. Publicarem cada execucion especifica per lenga amb son pròpri DOI e una branca del harness.

Ensajar lo meteis Engin qu’a obtengut un Score Composite de 99.12%

Cargatz vòstre panèl d’analisi de sang a la meteissa endpoint de produccion que foguèt avalorada dins aqueste benchmark. Mai de 2 milions d’utilizaires al mond utilizant l’Kantesti AI Engine per interpretar mai de 15,000 biomarcadors dins 75+ lengas.

🔬 Ensajatz la mòstra gratuita

Extension Chrome Botiga d'aplicacions Google Play

📚 Cossí citar aqueste benchmark

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Validacion clinica de l’Kantesti AI Engine (2.78T)
                 sus 15 cases d’analisi de sang anonimizats: un benchmark
                 pre-registrat basat sus una rubrica, incloent de casos de trapa
                 d’hiperdiagnòsi en totas sèt especialitats medicalas},
  institution = {Kantesti Ltd},
  address     = {Londres, Reialme Unit},
  year        = {2026},
  month       = {Abril},
  type        = {Rapòrt tecnic},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Validacion clinica de l’Kantesti AI Engine (2.78T) sus 15 cases d’analisi de sang anonimizats: un benchmark pre-registrat basat sus una rubrica, incloent de casos de trapa d’hiperdiagnòsi en totas sèt especialitats medicalas (Rapòrt tecnic V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Obra de validacion relacionada de Kantesti

Klein, T. (2025). Encastre de validacion clinica per l'interpretacion de tèsts de sang basats per l'IA: metodologia de validacion tripla òrba, metricas de performància e protocòls d'assegurança de la qualitat. Recèrca medica amb IA de Kantesti.

🎓 ResearchGate

📖 Referéncias metodologicas exterioras

Mentzer, W. C. (1973). Diferenciacion de la manca d’èrre d’aquela de l’atribut de talasèmia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Criteris de classificacion de l’European League Against Rheumatism / American College of Rheumatology de 2019 per a l’eritematosus lupus sistemic. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Test de l’hallucinatcion dins lo domeni medical per de grands modèls de lenga. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Puntuacion compausada

15Cases puntuats

7Especialitats

0Trapa de falses positius

Questions frequentas

Quina es la precisió de l’engine d’IA Kantesti sus de cas reals d’analisi de sang?

Sus una rubrica pre-registrada de 15 cases reals d’analisi de sang anonimizats, en totas sèt especialitats medicalas, l’Kantesti AI Engine V11 a obtengut una puntuacion compausada de 99.12 per cent, amb zero falses positius d’hiperdiagnòsi dins los dos cases de trapa e una laténcia de responsa mejana de 20.17 segondas. Lo tablèu complet de puntuacion per cas es publicat sus Figshare jos DOI 10.6084/m9.figshare.32095435 e sus GitHub jos licéncia MIT.

L’engine d’IA Kantesti es validat clinicament?

Òc. L’engin es estat validat clinicament contra una rubrica que foguèt congelada dins lo còdi font abans que l’engin siá invocat, e foguèt avalorada sus 15 cas anonimizats d’analisi de sang en hematologia, endocrinologia, medicina metabolica, hepatologia, nefrologia, cardiologia e reumatologia. La supervison clinica foguèt assegurada per Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), hematològista clinic certificat pel conselh e director medical (Chief Medical Officer) a Kantesti AI.

Qué es un cas de trapa de hiperdianòstic?

Un cas de trapa de hiperdiagnòsi es un escenari clinic creat especificament per detectar un comportament de sobre-diagnòsi dins los engins d’IA. Lo benchmark Kantesti V11 utiliza dos d’aquestes cases. Lo primièr es una hiperbilirubinèmia indirecta isolada, consistent amb lo sindròme de Gilbert, ont l’interpretacion corrècta es la polimorfisme UGT1A1 benigna, e non pas una hepatitis o una hemòlisi. Lo segond es un panèl de depistatge completament normal per un adult, ont la sortida corrècta es una confirmacion rassurant e la mantenença de l’òrdre de vida, e non pas una patologia borderline fabricada.

L’evaluacion de l’Engine d’IA Kantesti es reproducibla?

Lo dispositiu complet d’avaloracion (evaluation harness) es publicat jos la licéncia MIT coma un sol mòdul Python autocontenut. La reproduccion necessària solament un parell de credencials d’API de Kantesti e Python 3.10 o mai recent. Lo còdi, las definicions dels cases, e totes los responsas brutas de l’engin del corrent de referéncia d’abril de 2026 son disponibles a github.com/emirhanai/kantesti-blood-test-benchmark e mirorradas sus Figshare, ResearchGate e Academia.edu.

Cossí l’engine d’IA Kantesti diferencia la deficita de ferrò del caractèr de beta-talassemia?

L’engin aplica l’index de Mentzer, calculat coma lo volum corpuscular mejans dividit pel nombre de glòbuls roges. Un index de Mentzer mai naut que 13 sostèn una anèmia per deficiéncia de fèrre, mentre que una valor jos 13 sostèn lo caractèr de beta-talassèmia. Al benchmark V11, totes dos presentacions foguèron classificadas corrèctament amb un calcul explicit de l’index de Mentzer, sostengut pel context de ferritina, RDW e HbA2.

Ont i pòt trobar las donadas brutas de referéncia e lo còdi font?

Lo rapòrt tecnic es depausat sus Figshare jos DOI 10.6084/m9.figshare.32095435, mirorrat sus la publicacion ResearchGate 404175463 e sus l’article Academia.edu 165956808, e lo harness Python jos licéncia MIT amb totes los resultats del corrent de referéncia es a github.com/emirhanai/kantesti-blood-test-benchmark. La ret mirròra sus quatre platafòrmas assegura disponibilitat long tèrme e flexibilitat de citacion.

Perqué la preregistracion es importanta per de benchmarks medicals d’IA?

La preregistracion empacha l’ajustament posteriòr de la rubrica (post-hoc rubric tuning), que es la via mai comuna que las entrepresas utilizant benchmarks inflan lor pròpris nombres. En comprometent la rubrica dins lo còdi font abans qualsevol crida d’engin e en publicant lo harness publicament, las datas de l’autor de la rubrica son verificablas dins lo contraròtle de versions, e los resultats de l’engin podèron pas aver format los critèris de puntuacion.

Aqueste benchmark inclutz de comparasons amb d’autres engins d’IA?

Non. Lo rapòrt V11 caracteriza deliberadament un sol engin contra una rubrica fixa, e non pas lo posiciona contra de sistèmas comercials alternatius. Lo harness es de còdi dobèrt jos licéncia MIT, de biais que los recercaires independents pòdon avalorar quin engin que siá contra los meteisses quinze cases e la meteissa rubrica, e publicar lors resultats.

Los cases dels pacients son reals o sintetics?

Los quinze cases son de registres reals de pacients anonimizats, tirats del reposatòri de donadas clinicas de Kantesti jos consentiment informat escrich. La desidentificacion foguèt realizada amb l’aprocha Safe Harbor, amb totes los identificadors directes removuts o remplaçats. La transformacion foguèt realizada en conformitat amb l’Article 9(2)(j) del GDPR e las disposicions equivalentas del UK GDPR. N’i a pas d’informacion d’identificacion personala dins lo harness publicat, lo rapòrt tecnic, ni dins los datasets liberats.

⚕️ Disclamer medical & conflicte d’interès

Aqueste rapòrt de benchmark es per de finalitats de recèrca e de transparéncia metodologica. Se pòt pas considerar coma conselh medical. Consultatz totjorn un proveïdor de salut qualificat per las decisions de diagnostica e de tractament. Los dos autors son emplegats per e detenon d’equitat dins Kantesti Ltd, e l’engin en cors d’avaloracion es un producte comercial de la meteissa organizacion. Aqueste conflicte d’interès es mitigat en preregistrant la rubrica dins lo còdi font, en liberant lo harness jos licéncia MIT, e en publicant cada responsa bruta de l’engin.

Senhals de confiança E-E-A-T

⭐

Experiéncia

15+ ans d’experiéncia clinica en hematologia e medicina de laboratòri, supervisant la seleccion del panèl de cases.

📋

Expertisa

Desenhat de rubrica preregistrat amb penalitats explicit de hiperdiagnòsi e sistèmas reconeguts de puntuacion clinica (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoritat

Autor principal Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementacion per Julian Emirhan Bulut, CEO de Kantesti Ltd.

🛡️

Fisança

Harness reproducible jos licéncia MIT, responsas brutas de l’engin publicadas, divulgacion oberta del conflicte d’interès, ret mirròra de recèrca sus quatre platafòrmas.

🏢 Kantesti LTD Registrada en Anglatèrra e País de Gal·les · N. de companhiá. 17090423 Londres, Reialme Unit · kantesti.net