Benchmark d’IA d’anàlisi de sang Kantesti

Validació Clínica Benchmark pre-registrat V11 — abril de 2026 Amb llicència MIT Verificable per iguals

Puntuació composta 99.12% en una rúbrica preinscrita amb zero falsos positius de hiperdetecció

Una avaluació clínica independent i pre-registrada de l’Kantesti AI Engine en casos d’anàlisi de sang anonimitzats. El barem es va congelar al codi font abans de la primera crida de l’enginy; el banc d’avaluació té llicència MIT, i cada resposta en brut es publica.

📖 ~14 minuts 📅 23 d’abril de 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publicat: 23 d’abril de 2026 🩺 Revisat mèdicament: 23 d’abril de 2026 ✅ Barem pre-registrat 🔓 Codi i dades oberts

Aquest estudi de validació clínica va estar liderat per Dr. Thomas Klein, MD, director mèdic (Chief Medical Officer) de l’Kantesti AI, en col·laboració amb Julian Emirhan Bulut, enginyer sènior d’IA i CEO de l’Kantesti Ltd. La metodologia i el barem van ser revisats per Consell Assessor Mèdic d'IA de Kantesti.

Autor principal i supervisió clínica

Thomas Klein, doctor en medicina

Cap mèdic, Kantesti AI

El Dr. Thomas Klein és un hematòleg clínic i internista certificat pel consell, amb més de 15 anys d’experiència en medicina de laboratori. Com a director mèdic (Chief Medical Officer) de l’Kantesti AI, va seleccionar el panell de casos per a aquest benchmark, va revisar totes les veritats diagnòstiques de base i va aprovar el barem pre-registrat abans de la primera invocació de l’enginy.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Coautor i implementació

Julian Emirhan Bulut

Enginyer sènior d’IA i CEO, Kantesti Ltd

Julian Emirhan Bulut és el fundador i CEO de l’Kantesti Ltd. Va dissenyar i implementar el banc d’avaluació, va fer la integració de l’API, va dur a terme l’execució del benchmark de l’abril de 2026 i va preparar l’agregació estadística. Fundador de la plataforma des de 2019.

GitHub Sobre Kantesti

⚡ Resum ràpid V11 — 23 d’abril de 2026

Puntuació composta 99.12% en 15 casos reals de proves de sang anonimitzades de pacients, de set especialitats mèdiques.
Zero falsos positius d’hiperdiagnosi en ambdós casos trampa (síndrome de Gilbert i una pantalla d’adult completament normal).
Rúbrica preregistrada congelada al codi font abans de la primera crida de l’engine — no es va poder fer cap ajustament post hoc.
Índex de Mentzer aplicat correctament per diferenciar l’anèmia ferropènica de la beta-talassèmia minor.
Només endpoint de producció — sense rutes privilegiades; avaluat exactament com hi accediria un client de pagament.
Latència mitjana de 20,17 segons de punta a punta, amb 12 de 15 casos per sota del temps objectiu primari de 20 segons.
Harness amb llicència MIT publicat a GitHub amb cada resposta crua de l’engine — es dona suport a la reproducció independent.
DOI de Figshare: 10.6084/m9.figshare.32095435 · Mirall a ResearchGate, Academia.edu, GitHub.

Per què existeix aquest benchmark i què prova

L’AI-assisted blood test interpretation s’utilitza cada cop més en fluxos de treball de consum i clínics, però els marcs d’avaluació reproduïbles adaptats a la medicina de laboratori continuen sent poc habituals. Les preguntes que més importen en aquest context no són les que cobreixen els benchmarks generals de resposta a preguntes mèdiques: pot un engine separar la deficiència de ferro de la característica de talassèmia quan el volum corpuscular mitjà és idèntic, sobrediagnostica la síndrome de Gilbert com a hepatitis, i fabrica patologia en un panell de cribratge completament normal?

Un sol panell d’anàlisi de sang típicament conté prou senyal per donar suport a diverses interpretacions competidores, i la feina del clínic que interpreta és ponderar aquestes interpretacions entre si, en lloc de recuperar una resposta de manual. Un motor que va bé en casos de llibre pot continuar fallant en els casos que més importen: els paranys de diagnòstic diferencial, les variants benignes que semblen alarmants quan es consideren aïlladament i els panells plenament normals que tempten els assistents segurs a fabricar patologia.

Aquest benchmark es va construir precisament al voltant d’aquests modes de fallada. Cada un dels quinze casos es va seleccionar per una propietat diagnòstica específica: una microcitosi per dèficit de ferro que cal mantenir diferenciada d’un tret de beta-talassèmia amb un volum corpuscular mitjà idèntic, una presentació de síndrome de Gilbert on l’única anormalitat és una hiperbilirubinèmia indirecta aïllada, i un panell de cribratge de quinze paràmetres en què cada analit se situa dins del seu rang de referència. La rúbrica premia els motors que llegeixen cada cas en els seus propis termes i penalitza els motors que s’avancen a un diagnòstic segur quan no es justifica cap diagnòstic d’aquest tipus.

Com a Thomas Klein, MD, vaig seleccionar el panell de casos perquè són els patrons que veig que els assistents de medicina de laboratori s’equivoquen més sovint. El mode de fallada car no és "passar per alt una malaltia rara": és fabricar patologia rutinària en pacients que no la tenen. El nostre Validació mèdica hub descriu el marc més ampli; aquesta pàgina descriu el seu resultat aplicat a l’enginy V11.

Última execució de referència — V11 (abril de 2026)

L’execució de referència d’abril de 2026 de l’Kantesti AI Engine V11 va produir una puntuació composta de 99.12% a la rúbrica pre-registrada de quinze casos. Ambdós casos del parany d’hiperdiagnosi van puntuar al sostre. L’índex de Mentzer es va aplicar correctament en el diferencial entre dèficit de ferro i talassèmia.

Composta 99.12% 15 de 15 casos han puntuat

0.998 Puntuació estructural

0.998 Puntuació clínica

20.17 s Latència mitjana

0 / 13 Falsos positius dels paranys

La fórmula composta combina tres components: conformitat estructural amb les set seccions de notificació obligatòries i setze subseccions obligatòries, precisió clínica mesurada com a recuperació de paraules clau més recuperació del sistema de puntuació més una comprovació de validesa de la distribució de probabilitat, i latència de resposta en relació amb l’objectiu principal de nivell de servei de 20 segons. La descomposició exacta es mostra a la fórmula de la rúbrica següent.

Composta = 0.35 × Estructural + 0.55 × Clínica + 0.10 × Latència

Les 0,88 punts percentuals restants de marge lliure es descomponen gairebé íntegrament en pèrdua de latència: tres invocacions de reserva de la fase 2, cadascuna amb un -0,05 compost, van aportar aproximadament 0,60 dels 0,88 punts de dèficit; en lloc de contingut clínic. El motor no va fallar cap diagnòstic correcte en cap dels quinze casos; quan va quedar curt, ho va fer perquè va trigar una mica més que l’objectiu principal de 20 segons en una petita minoria d’invocacions.

Quince casos de set especialitats mèdiques

El panell de casos cobreix set especialitats: hematologia, endocrinologia, medicina metabòlica, hepatologia, nefrologia, cardiologia i reumatologia, a més de dos casos dedicats de trampa de hiperdetecció. Cada cas és un registre real de pacient anonimitzat, extret del repositori de dades clíniques Kantesti, amb consentiment informat per escrit.

La desidentificació es va dur a terme amb l’enfocament Safe Harbor: es van eliminar o substituir tots els identificadors directes, i a cada registre se li va assignar un codi intern de cas de referència en el format BT-NNN-LABEL. El processament es va fer d’acord amb l’article 9(2)(j) del GDPR per a recerca científica amb salvaguardes adequades i les disposicions equivalents del GDPR del Regne Unit. No apareix cap informació personalment identificable enlloc del banc publicat, l’informe tècnic ni els conjunts de dades alliberats.

Hematologia (3) BT-001, BT-006, BT-007 Anèmia ferropènica · Deficiència de B12 · Beta-talassèmia menor

Endocrinologia (3) BT-002, BT-008, BT-012 Tiroiditis de Hashimoto · PCOS amb resistència a la insulina · Deficiència severa de vitamina D

Metabòlic (2) BT-003, BT-013 T2DM amb síndrome metabòlica · Hiperuricèmia amb risc de gota

Hepatologia (2) BT-004, BT-009 Fetge gras no alcohòlic / NASH · Hepatitis viral aguda

Nefrologia · Cardiologia · Reumatologia (3) BT-005, BT-010, BT-011 Malaltia renal crònica estadi 3 · Dislipidèmia aterogènica · Lupus eritematós sistèmic

Casos trampa (2) BT-014, BT-015 Síndrome de Gilbert (hiperbilirubinèmia indirecta aïllada) · Cribratge adult totalment normal

Per què aquesta distribució en particular

La hematologia obté tres casos perquè els diferencials microcítics i els diferencials macrocítics són els paranys de major volum en la pràctica real de laboratori. L’endocrinologia n’obté tres perquè les presentacions de la malaltia de Hashimoto, la SOP i la deficiència de vitamina D fan exercitar formes diagnòstiques diferents (impulsades per autoanticossos, impulsades per la relació hormonal i impulsades per un sol marcador). Les especialitats d’un sol cas encara són significatives perquè cadascuna de la ERC, el risc d’ASCVD i l’LES té el seu propi sistema de puntuació que l’engine hauria d’invocar (respectivament, estadificació KDIGO, risc a 10 anys d’ASCVD i criteris d’LES EULAR/ACR 2019).

El barem pre-registrat, explicat

El preregistre és la decisió metodològica més important d’aquest benchmark. Cada diagnòstic esperat, cada sistema de puntuació clínica i cada secció de l’informe es van comprometre al codi font abans que s’invoqués l’engine. Per tant, no és possible ajustar a posteriori la rúbrica per afalagar l’engine.

Tres components formen la puntuació composta. El component estructural contribueix amb el 35% i mesura si l’engine va retornar les set seccions obligatòries de l’informe (capçalera, resum, troballes clau, diferencial, sistemes de puntuació, recomanacions, seguiment) i les setze subseccions obligatòries dins d’aquestes. La presència de seccions pesa un 40% i la presència de subseccions pesa un 60% dins del càlcul estructural.

El component clínic contribueix amb el 55% i combina tres coses: record de paraules clau del diagnòstic (70% del subròs clínic), record del sistema de puntuació (20% — si l’engine calcula Mentzer, FIB-4, HOMA-IR, el risc d’ASCVD, l’estadificació KDIGO i els criteris EULAR/ACR quan sigui rellevant), i una comprovació de validesa de suma de probabilitats (10% — les probabilitats del diferencial s’han de sumar dins l’interval [90, 110]). En casos parany, es resta una penalització explícita d’hiperdiagnosi de fins a 0,30, calculada com 0,10 per cada bandera de patologia fabricada, amb un límit de tres banderes.

El component de latència contribueix amb el 10%. Una resposta de menys de 20 segons obté el 0,10 complet, una resposta de menys de 40 segons obté 0,05, i qualsevol cosa més lenta obté zero. L’objectiu de 20 segons reflecteix l’objectiu de nivell de servei del servei primari de producció; el sostre de 40 segons reflecteix el pressupost de reserva de la Fase 2 per a invocacions pesades de l’engine.

Què evita el preregistre

Els benchmarks de primera part són famosos per inflar els seus propis resultats mitjançant l’ajust a posteriori de la rúbrica. El patró gairebé sempre és el mateix: l’equip executa l’engine, veu on no assoleix el rendiment, i després ajusta tranquil·lament la rúbrica perquè les àrees que no rendeixen comptin menys. En comprometre la rúbrica al codi font abans de la primera crida a l’engine i publicar el banc sota llicència MIT, aquest ajust es fa visible en el control de versions. Qualsevol pot clonar el repositori, comprovar les dates d’autoria de la rúbrica i verificar que els resultats de l’engine no es van utilitzar per donar forma a la puntuació.

Casos trampa d’hiperdiagnosi — per què el veritable mode de fallada és sobreanomenar

L’atribució agressiva de patologia en pantalles normals és un mode de fallada documentat de les assistències mèdiques orientades al consumidor. Els costos derivats inclouen investigació innecessària, ansietat del pacient i exploració i tractament iatrogènics. Els dos casos parany d’aquest benchmark estan dissenyats per fer visible i puntuable aquest mode de fallada.

🟡 Parany 1 — BT-014-GILBERT

Presentació. Un home de 24 anys amb una bilirrubina total de 2,4 mg/dL. La fracció directa és normal, les transaminases i la fosfatasa alcalina estan dins dels seus intervals de referència, els reticulòcits no presenten res destacable i la haptoglobina i la LDH descarten l’hemòlisi.

Interpretació correcta. La síndrome de Gilbert — una polimorfisme benigna de l’UGT1A1. La interpretació no hauria d’invocar hepatitis, cirrosi, anèmia hemolítica ni obstrucció biliar.

Resultat V11. Composta 1.000. Cap de les sis banderes de sobre-diagnosi monitoritzades va aparèixer com a diagnòstic actiu.

🟡 Parany 2 — BT-015-SALUDABLE

Presentació. Una dona de 35 anys amb un panell rutinari de cribratge de quinze paràmetres. Tots els analits estan còmodament dins del seu interval de referència.

Interpretació correcta. Tranquil·lització i manteniment de l’estil de vida. La interpretació no hauria de fabricar patologia limítrofa per semblar clínicament útil.

Resultat V11. Composició 1.000. Cap de les set alertes de sobre-diagnòstic monitoritzades —diabetis, anèmia, hipotiroïdisme, dislipidèmia, hepatitis, malaltia renal, dèficit— va aparèixer com a diagnòstic actiu.

En ambdós paranys, es van revisar tretze alertes de hiperdetecció monitoritzades. No se’n va activar cap. Aquest és el resultat que més importa per a qualsevol clínic que consideri utilitzar un motor d’IA com a eina de triatge o de pre-consulta: el sistema no va inventar cap malaltia quan no n’hi havia.

Índex de Mentzer: separar la deficiència de ferro de la característica de la talassèmia

Un segon resultat d’alt valor es refereix a l’associació del cas BT-001 (anèmia ferropènica) amb el cas BT-007 (beta-talassèmia menor). Tots dos presenten microcitosi i són un entrebanc ben conegut per als classificadors poc experts. L’índex de Mentzer, calculat com el MCV dividit pel recompte de RBC, supera 13 en la deficiència de ferro i cau per sota de 13 en el tret de talassèmia.

A BT-001, la pacient era una dona de 34 anys amb hemoglobina 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritina 6 ng/mL i TIBC elevat. L’índex de Mentzer d’aproximadament 17,7 recolza una deficiència absoluta de ferro. A BT-007, el pacient era un home de 28 anys amb microcitosi (MCV 65,8 fL) però un recompte alt de RBC de 6,2, RDW normal, ferritina normal i HbA2 de 5,6 per cent. L’índex de Mentzer d’aproximadament 10,6 apunta al tret de talassèmia, i l’HbA2 elevat confirma la beta-talassèmia menor.

Anèmia ferropènica Mentzer > 13 Ferritina baixa, TSAT baix, TIBC alt, RDW elevat

Tret de beta-talassèmia Mentzer < 13 Ferritina normal, RDW normal, HbA2 elevat (>3,5%), recompte alt de RBC

Ambdós casos van obtenir una puntuació d’1.000. El motor va invocar explícitament l’índex de Mentzer en les dues interpretacions i va retornar el diagnòstic correcte en cada cas. Aquest és el resultat únic que més tranquil·litza clínicament de tot el benchmark, perquè classificar erròniament el tret de talassèmia com a deficiència de ferro condueix a una suplementació de ferro inadequada i a oportunitats perdudes de cribratge familiar, i classificar erròniament la deficiència de ferro com a talassèmia retarda una teràpia de substitució senzilla. El nostre guia del rang de ferritina explica el context diferencial més ampli.

Resultats per cas de l’execució d’abril de 2026

Dotze de quinze casos van assolir el sostre de la puntuació composta d’1.000 en la via principal. Tres casos es van servir mitjançant el mecanisme de reserva de la Fase 2, perdent el bonus de latència de 0,05 mentre es preservava tot el contingut clínic i estructural. Un cas no tenia una subsecció obligatòria; un altre va retornar una suma de distribució de probabilitat lleugerament reduïda.

Identificador de cas Especialitat Composta Latència Via

BT-001-IDAHematologia1.00017,8 sprincipal

BT-006-B12Hematologia1.00018,4 sprincipal

BT-007-THALHematologia1.00017,0 sprincipal

BT-002-HASHEndocrinologia0.95037,0 sreserva

BT-008-PCOSEndocrinologia0.98718,6 sprincipal

BT-003-T2DMMetabòlica1.00019,1 sprincipal

BT-013-GOTAMetabòlica1.00019,4 sprincipal

BT-004-NAFLDHepatologia1.00019,6 sprincipal

BT-009-VIRHEPHepatologia0.95023,4 sreserva

BT-014-GILBERTTrampa1.00018,9 sprincipal

BT-005-ERCNefrologia1.00017,4 sprincipal

BT-010-ASCVDCardiologia1.00019,7 sprincipal

BT-011-SLEReumatologia0.98118,2 sprincipal

BT-012-VITDEndocrinologia1.00019,3 sprincipal

BT-015-SALUDABLETrampa1.00018,7 sreserva

El cas de la PCOS (BT-008) va perdre una única subsecció obligatòria en l’estructura de la resposta — quinze de setze en lloc de setze de setze — cosa que va reduir la puntuació estructural de 1,000 a 0,963. El cas de l’SLE (BT-011) va retornar una suma de probabilitats lleugerament reduïda que va fer baixar la puntuació clínica fins a 0,965, tot preservant cada paraula clau diagnòstica i el sistema de puntuació. Cap dels dos casos no perfectes va fallar un diagnòstic correcte.

El que la puntuació del titular no ens diu

Una puntuació composta del 99,12 per cent en aquesta rúbrica preinscrita concreta representa un rendiment gairebé al sostre, però mereix una contextualització acurada. El resultat descriu el comportament del motor enfront de quinze casos anonimitzats seleccionats amb cura, avaluats una sola vegada cadascun, segons una única rúbrica. Expliquem de manera explícita què estableix i què no estableix el nombre.

La puntuació diu que el motor V11 va gestionar correctament els patrons diagnòstics seleccionats per a aquesta avaluació, amb una metodologia publicada i reproduïble. No diu que el motor sigui correcte en cada panell d’anàlisi de sang que existeix al món real. No diu que el motor hagi de substituir el criteri clínic. I tampoc diu que el motor superi altres sistemes d’IA — les anàlisis comparatives amb altres motors van quedar deliberadament fora de l’abast d’aquest informe.

El que sí que estableix la puntuació és una línia de base. Amb la rúbrica i el banc de proves fets públics, les versions futures del motor es poden avaluar contra els mateixos quinze casos, i la diferència entre la puntuació publicada i qualsevol execució posterior és, alhora, mesurable. Aquest és el valor de la preinscripció: converteix les afirmacions de rendiment en afirmacions comprovables.

Com reproduir aquest benchmark en 10 minuts

La reproducció només requereix un parell de credencials d’API Kantesti i un entorn de Python 3.10 o posterior amb el requests i reportlab biblioteques instal·lades. El banc de proves complet és un únic mòdul de Python autònom, publicat sota la llicència MIT.

💻 GitHub Banc de proves amb llicència MIT · respostes en brut · execució de referència 🔗 DOI de Figshare 10.6084/m9.figshare.32095435 · registre acadèmic canònic 🎓 ResearchGate Publicació 404175463 · capa de descobriment acadèmic 📄 Academia.edu Paper 165956808 · capa de descobriment acadèmic

Quatre passos per a una execució nova

Un. Clona el repositori: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Dos. Instal·la les dependències amb pip install -r requirements.txt. Tres. Defineix KANTESTI_USERNAME i KANTESTI_PASSWORD com a variables d’entorn — les credencials es llegeixen en temps d’execució i no es codifica res de manera fixa al script. Quatre. Executa python benchmark_bloodtest.py i inspecciona els quatre artefactes emesos al directori de treball: un scorecard CSV, un scorecard JSON, un abocament JSON complet incloent respostes crues de l’engine, i un informe Markdown llegible per humans.

La execució de referència de l’23 d’abril de 2026 es conserva a la carpeta results/ del repositori. Una execució nova generarà un nou scorecard amb marca de temps mentre deixa la execució de referència intacta. Si la teva execució produeix un resultat significativament diferent, obre un issue de GitHub amb la marca de temps de l’execució i la versió de l’engine retornada a les metadades de la resposta.

Limitacions i treball futur

Quatre limitacions mereixen un reconeixement explícit: mida de la mostra, avaluació d’una sola vegada, abast d’un sol engine i origen de dades d’una sola font. Totes s’estan abordant en treball de seguiment actiu.

Mida de la mostra. Quinze casos en vuit categories d’especialitat és suficient per a una prova de concepte però no per a l’anàlisi per subgrups dins d’una especialitat. Es preveu ampliar a cinquanta casos i s’hi inclouran panells de coagulació, cribratge de malignitats hematològiques, panells d’embaràs i presentacions pediàtriques.

Avaluació d’una sola vegada. Cada cas es va avaluar una sola vegada. Els models de llenguatge gran mostren una variància de sortida no trivial fins i tot a baixa temperatura de mostreig, de manera que un protocol de múltiples execucions amb cinc avaluacions per cas i la variància reportada és el següent pas natural.

Abast d’un sol engine. Aquest informe caracteritza un sol engine. Les anàlisis comparatives contra sistemes d’IA alternatius queden fora de l’abast aquí; podem perseguir-les com un estudi independent separat amb la metodologia adequada.

Origen de dades d’una sola font. Els quinze casos són registres reals de pacients anonimitzats extrets d’un únic repositori clínic. Representen una mostra curada i no són una selecció aleatòria representativa de la població. L’extensió de l’avaluació a dades multicentre està en el full de ruta.

L’extensió planificada més impactant és la paritat multilingüe. L’Kantesti AI Engine ofereix servei a usuaris en 75+ idiomes, i executar el mateix banc de proves de quinze casos en turc, alemany, espanyol, francès i àrab quantificarà la qualitat de la sortida a través dels idiomes suportats per l’engine. Publicarem cada execució específica de cada idioma amb el seu propi DOI i la branca del banc de proves.

Prova el mateix engine que va aconseguir una puntuació composta de 99.12%

Pengeu el vostre propi panell d’anàlisi de sang al mateix endpoint de producció que s’ha avaluat en aquest benchmark. Més de 2 milions d’usuaris a tot el món utilitzen el motor d’IA Kantesti per interpretar més de 15.000 biomarcadors en 75+ idiomes.

🔬 Prova la demostració gratuïta

Extensió de Chrome Botiga d'aplicacions Google Play

📚 Com citar aquest benchmark

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Validació clínica del motor d’IA Kantesti (2.78T)
                 en 15 casos d’anàlisi de sang anonimitzats: un benchmark
                 pre-registrat basat en rúbrica que inclou casos de trampa d’hiperdiagnosi
                 en set especialitats mèdiques},
  institution = {Kantesti Ltd},
  address     = {Londres, Regne Unit},
  year        = {2026},
  month       = {abril},
  type        = {Informe tècnic},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Validació clínica del motor d’IA Kantesti (2.78T) en 15 casos d’anàlisi de sang anonimitzats: un benchmark pre-registrat basat en rúbrica que inclou casos de trampa d’hiperdiagnosi en set especialitats mèdiques (Informe tècnic V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Treballs relacionats de validació Kantesti

Klein, T. (2025). Marc de validació clínica per a la interpretació d'anàlisis de sang amb IA: metodologia de validació triple cec, mètriques de rendiment i protocols de garantia de qualitat. Recerca mèdica amb IA de Kantesti.

🎓 ResearchGate

📖 Referències metodològiques externes

Mentzer, W. C. (1973). Diferenciació de la deficiència de ferro de la característica de talassèmia. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Criteris de classificació de la European League Against Rheumatism / American College of Rheumatology per a l’esclerosi sistèmica l’eritematós. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test for Large Language Models. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Puntuació composta

15Casos puntuats

7Especialitats

0Falsos positius de la trampa

Preguntes freqüents

Quina precisió té el motor d’IA Kantesti en casos reals d’anàlisis de sang?

En una rúbrica pre-registrada de 15 casos reals d’anàlisi de sang anonimitzats de pacients en set especialitats mèdiques, el motor d’IA Kantesti V11 va assolir una puntuació composta del 99,12 per cent, amb zero falsos positius d’hiperdiagnosi en ambdós casos de trampa i una latència mitjana de resposta de 20,17 segons. El desglossament complet per cas es publica a Figshare amb el DOI 10.6084/m9.figshare.32095435 i a GitHub sota llicència MIT.

L’Kantesti motor d’IA està validat clínicament?

Sí. L’engine s’ha validat clínicament contra una rúbrica que es va congelar al codi font abans d’invocar l’engine, avaluada en 15 casos d’anàlisi de sang anonimitzats en hematologia, endocrinologia, medicina metabòlica, hepatologia, nefrologia, cardiologia i reumatologia. La supervisió clínica la va proporcionar el Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), hematòleg clínic certificat pel consell i Chief Medical Officer a Kantesti AI.

Què és un cas de trampa de hiperdetecció?

Un cas de trampa de hiperdetecció és un escenari clínic dissenyat específicament per detectar conductes d’hiperdetecció en engines d’IA. El benchmark Kantesti V11 utilitza dos d’aquests casos. El primer és una hiperbilirrubinèmia indirecta aïllada compatible amb la síndrome de Gilbert, on la interpretació correcta és el polimorfisme benigne de l’UGT1A1 en lloc d’hepatitis o hemòlisi. El segon és un panell de cribratge adult completament normal, on la sortida correcta és tranquil·lització i manteniment de l’estil de vida en lloc d’una patologia límit fabricada.

L’avaluació del motor d’IA Kantesti és reproduïble?

El banc d’avaluació complet es publica sota la llicència MIT com un únic mòdul Python autònom. La reproducció només requereix un parell de credencials d’API de Kantesti i Python 3.10 o posterior. El codi, les definicions dels casos i cada resposta crua de l’engine del llançament de referència d’abril de 2026 estan disponibles a github.com/emirhanai/kantesti-blood-test-benchmark i també reflectits a Figshare, ResearchGate i Academia.edu.

Com diferencia l’Kantesti motor d’IA la deficiència de ferro de la característica de la beta-talassèmia?

L’engine aplica l’índex de Mentzer, calculat com el volum corpuscular mitjà dividit pel recompte de glòbuls vermells. Un índex de Mentzer superior a 13 recolza l’anèmia ferropènica, mentre que un valor inferior a 13 recolza la característica de beta-talassèmia. Al benchmark V11, ambdues presentacions es van classificar correctament amb el càlcul explícit de l’índex de Mentzer, recolzat pel context de ferritina, RDW i HbA2.

On puc trobar les dades de referència (benchmark) en brut i el codi font?

L’informe tècnic es diposita a Figshare amb el DOI 10.6084/m9.figshare.32095435, reflectit a la publicació de ResearchGate 404175463 i al document d’Academia.edu 165956808, i el banc d’avaluació Python amb llicència MIT amb tots els resultats del llançament de referència és a github.com/emirhanai/kantesti-blood-test-benchmark. La xarxa de miralls en quatre plataformes garanteix disponibilitat a llarg termini i flexibilitat de citació.

Per què és important la preregistració per als benchmarks mèdics d’IA?

La preregistració evita el reajustament post hoc de la rúbrica, que és la manera més habitual que els benchmarks gestionats per empreses inflen els seus propis resultats. En comprometre la rúbrica al codi font abans de qualsevol crida de l’engine i publicar el banc d’avaluació públicament, les dates de l’autor de la rúbrica es poden inspeccionar en el control de versions, i els resultats de l’engine no poden haver modelat els criteris de puntuació.

Aquest benchmark inclou comparacions amb altres engines d’IA?

No. El informe V11 caracteritza deliberadament un únic engine contra una rúbrica fixa en lloc de posicionar-lo davant de sistemes comercials alternatius. El banc d’avaluació és de codi obert sota llicència MIT, de manera que els investigadors independents poden avaluar qualsevol engine que triïn contra els mateixos quinze casos i la mateixa rúbrica i publicar els seus resultats.

Els casos de pacients són reals o sintètics?

Els quinze casos són registres reals de pacients anonimitzats, extrets del repositori de dades clíniques de Kantesti sota consentiment informat per escrit. La desidentificació es va fer amb l’enfocament Safe Harbor, eliminant o substituint tots els identificadors directes. El processament es va dur a terme d’acord amb l’article 9(2)(j) del GDPR i les disposicions equivalents del GDPR del Regne Unit. No hi apareix cap informació personal identificable als bancs d’avaluació publicats, a l’informe tècnic ni als conjunts de dades alliberats.

⚕️ Declaració mèdica de responsabilitat i conflicte d’interessos

Aquest informe de benchmark és per a finalitats de recerca i transparència metodològica. No constitueix assessorament mèdic. Consulteu sempre un proveïdor qualificat de salut per a decisions de diagnòstic i tractament. Ambdós autors treballen per a Kantesti Ltd i tenen participació en el capital, i l’engine que s’està avaluant és un producte comercial de la mateixa organització. Aquest conflicte d’interessos es mitiga preregistran la rúbrica al codi font, publicant el banc d’avaluació sota la llicència MIT i publicant cada resposta crua de l’engine.

Senyals de confiança E-E-A-T

⭐

Experiència

15+ anys de pràctica clínica en hematologia i medicina de laboratori supervisant la selecció del panell de casos.

📋

Experiència

Disseny de rúbrica preregistrat amb penalitzacions explícites per hiperdetecció i sistemes de puntuació clínics reconeguts (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoritat

Autor principal: Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementació per Julian Emirhan Bulut, CEO de Kantesti Ltd.

🛡️

Fiabilitat

Banc d’avaluació reproduïble amb llicència MIT, respostes crues de l’engine publicades, divulgació oberta del conflicte d’interessos, xarxa de miralls de recerca en quatre plataformes.

🏢 Kantesti LTD Registrada a Anglaterra i Gal·les · Número d’empresa. 17090423 Londres, Regne Unit · kantesti.net