Benchmark AI pentru analize de sânge Kantesti

Validare clinică Benchmark pre-înregistrat V11 — aprilie 2026 Licențiat MIT Verificabil de către colegi

Scor compozit 99.12% pe o rubrică pre-înregistrată, cu zero rezultate fals-pozitive de hiperdia gnoză

O evaluare clinică independentă, pre-înregistrată, a motorului AI Kantesti pe cazuri anonimizate de analize de sânge. Criteriile (rubrica) au fost înghețate în codul sursă înainte de prima apelare a motorului, cadrul de evaluare este licențiat MIT, iar fiecare răspuns brut este publicat.

📖 ~14 minute 📅 April 23, 2026 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publicat: April 23, 2026 🩺 Revizuit medical: April 23, 2026 ✅ Rubrică pre-înregistrată 🔓 Cod & date deschise

Acest studiu de validare clinică a fost coordonat de Dr. Thomas Klein, medic, Chief Medical Officer la Kantesti AI, în colaborare cu Julian Emirhan Bulut, Senior AI Engineer și CEO al Kantesti Ltd. Metodologia și rubrica au fost revizuite de Consiliul Consultativ Medical pentru IA din Kantesti.

Autor principal & supraveghere clinică

Thomas Klein, doctor în medicină

Director medical șef, Kantesti AI

Dr. Thomas Klein este hematolog clinician certificat și internist, cu peste 15 ani de experiență în medicina de laborator. În calitate de Chief Medical Officer la Kantesti AI, a selectat setul de cazuri pentru acest benchmark, a revizuit toate adevărurile diagnostice (ground truths) și a aprobat rubrica pre-înregistrată înainte de prima invocare a motorului.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Co-autor & implementare

Julian Emirhan Bulut

Senior AI Engineer & CEO, Kantesti Ltd

Julian Emirhan Bulut este fondatorul și CEO al Kantesti Ltd. A proiectat și implementat cadrul de evaluare, a realizat integrarea API, a efectuat rularea benchmarkului din aprilie 2026 și a pregătit agregarea statistică. Fondator al platformei din 2019.

GitHub Despre Kantesti

⚡ Rezumat rapid V11 — April 23, 2026

Scor compozit 99.12% pe 15 cazuri reale de analize de sânge, anonimizate, din șapte specialități medicale.
Fără fals pozitive de hiperdignosticare pe ambele cazuri-capcană (sindromul Gilbert și un screening complet normal la un adult).
Grilă preînregistrată înghețată în codul sursă înainte de prima apelare a motorului — nu a fost posibilă ajustarea post-hoc.
Indicele Mentzer aplicat corect pentru a diferenția anemia prin deficit de fier de beta-talasemia minoră.
Doar endpoint de producție — fără rutare privilegiată, evaluat exact așa cum ar fi accesat de un client plătitor.
latență medie de 20,17 secunde end-to-end, cu 12 din 15 cazuri sub ținta principală de 20 de secunde.
Suport (harness) sub licență MIT publicat pe GitHub cu fiecare răspuns brut al motorului — reproducerea independentă este susținută.
DOI Figshare: 10.6084/m9.figshare.32095435 · Oglindit pe ResearchGate, Academia.edu, GitHub.

De ce există acest benchmark și ce testează

Interpretarea asistată de AI a analizelor de sânge este folosită din ce în ce mai mult în fluxuri de lucru pentru consumatori și în cele clinice, însă cadrele de evaluare reproductibile adaptate medicinei de laborator rămân rare. Întrebările care contează cel mai mult în acest context nu sunt cele acoperite de benchmarkurile generale de tip medical question-answering: poate un motor să separe deficitul de fier de trăsătura de talasemie atunci când volumul celular mediu este identic, supra-diagnostichează sindromul Gilbert ca hepatită și produce patologie într-un panou de screening complet normal?

Un singur panou de analize de sânge conține, de obicei, suficient semnal pentru a susține mai multe interpretări concurente, iar rolul clinicianului care interpretează este să le cântărească între ele, nu să caute un răspuns „din manual”. Un motor care se descurcă bine în cazuri tipice din manual poate totuși să eșueze în cazurile care contează cel mai mult: capcanele de diagnostic diferențial, variantele benigne care par alarmante atunci când sunt privite izolat și panourile complet normale care îi ispitește pe asistenții încrezători să „genereze” patologie.

Acest benchmark a fost construit exact în jurul acestor moduri de eșec. Fiecare dintre cele cincisprezece cazuri a fost selectat pentru o anumită proprietate diagnostică: o microcitoză prin deficit de fier care trebuie menținută distinctă de o trăsătură de beta-talasemie cu același volum celular mediu, o prezentare de sindrom Gilbert în care singura anomalie este o hiperbilirubinemie indirectă izolată și un panou de screening cu cincisprezece parametri în care fiecare analit se află în intervalul său de referință. Rubrica recompensează motoarele care citesc fiecare caz în termenii săi și penalizează motoarele care ajung la un diagnostic sigur atunci când un astfel de diagnostic nu este justificat.

În calitate de Thomas Klein, MD, am selectat acest set de cazuri deoarece acestea sunt tiparele pe care le văd cel mai des greșite la asistenții de medicină de laborator. Modul de eșec scump nu este "să ratezi o boală rară" — ci să inventezi patologie de rutină la pacienți care nu o au. Noastre Validare medicală hub descrie cadrul mai larg; această pagină descrie rezultatul său aplicat pe motorul V11.

Cea mai recentă rulare de referință — V11 (aprilie 2026)

Runda de referință din aprilie 2026 a Kantesti AI Engine V11 a produs un scor compozit de 99.12% în rubrica preînregistrată cu cincisprezece cazuri. Ambele cazuri-capcană de hiperdia gnosticare au obținut scorul maxim. Indicele Mentzer a fost aplicat corect în diferențialul deficit de fier versus talasemie.

Compozit 99.12% 15 din 15 cazuri au obținut scor

0.998 Scor structural

0.998 Scor clinic

20.17 s Latență medie

0 / 13 Fals pozitive în capcane

Formula compozită combină trei componente: conformitate structurală cu cele șapte secțiuni obligatorii de raport și cele șaisprezece subsecțiuni obligatorii, acuratețe clinică măsurată ca rechemare pe cuvinte-cheie plus rechemare în sistemul de notare plus o verificare a validității distribuției de probabilitate și latența răspunsului față de ținta principală de nivel de serviciu de 20 de secunde. Descompunerea exactă este prezentată în formula rubricii de mai jos.

Compozit = 0.35 × Structural + 0.55 × Clinic + 0.10 × Latență

Cele 0,88 puncte procentuale rămase de „headroom” se descompun aproape integral în pierdere de latență — trei invocări de fallback pentru Faza 2, fiecare cu câte -0,05 compozit, au contribuit cu aproximativ 0,60 din deficitul de 0,88 puncte — nu în conținut clinic. Motorul nu a ratat niciun diagnostic corect în niciuna dintre cele cincisprezece cazuri; acolo unde a rămas în urmă, a făcut-o prin faptul că a durat ușor mai mult decât ținta principală de 20 de secunde într-o mică minoritate de invocări.

Cincisprezece cazuri din șapte specialități medicale

Panoul de cazuri acoperă șapte specialități — hematologie, endocrinologie, medicină metabolică, hepatologie, nefrologie, cardiologie, reumatologie — plus două cazuri dedicate de „hyperdiagnosis trap”. Fiecare caz este un registru real anonimizat al unui pacient, extras din depozitul de date clinice Kantesti, sub consimțământ informat scris.

De-identificarea a fost efectuată prin abordarea Safe Harbor: toți identificatorii direcți au fost eliminați sau înlocuiți, iar fiecărui registru i s-a atribuit un cod intern de caz, în formatul BT-NNN-LABEL. Prelucrarea a fost realizată în conformitate cu GDPR articolul 9(2)(j) pentru cercetare științifică, cu măsuri de protecție adecvate, și cu prevederile echivalente din UK GDPR. Nicio informație de identificare personală nu apare nicăieri în dispozitivul publicat, în raportul tehnic sau în seturile de date eliberate.

Hematologie (3) BT-001, BT-006, BT-007 Anemie feriprivă · deficit de B12 · beta-talasemie minoră

Endocrinologie (3) BT-002, BT-008, BT-012 Tiroidită Hashimoto · PCOS cu rezistență la insulină · deficit sever de vitamina D

Metabolic (2) BT-003, BT-013 T2DM cu sindrom metabolic · hiperuricemie cu risc de gută

Hepatologie (2) BT-004, BT-009 NAFLD / NASH · hepatită virală acută

Nefrologie · Cardiologie · Reumatologie (3) BT-005, BT-010, BT-011 Boală cronică de rinichi stadiul 3 · dislipidemie aterogenă · lupus eritematos sistemic

Cazuri tip „trap” (2) BT-014, BT-015 Sindromul Gilbert (hiperbilirubinemie indirectă izolată) · screening complet normal la adult

De ce această distribuție anume

Hematologia primește trei cazuri deoarece diferențialele microcitare și diferențialele macrocitare sunt cele mai mari „capcane” ca volum în practica reală de laborator. Endocrinologia primește trei deoarece prezentările de la Hashimoto, PCOS și deficitul de vitamina D exercită forme diagnostice diferite (determinate de autoanticorpi, determinate de raporturi hormonale, determinate de un singur marker). Specialitățile cu un singur caz rămân totuși relevante deoarece fiecare dintre CKD, riscul ASCVD și SLE are propriul sistem de scor pe care motorul ar trebui să îl invoce (respectiv stadializarea KDIGO, riscul ASCVD pe 10 ani, criteriile 2019 EULAR/ACR pentru SLE).

Rubrica pre-înregistrată, explicată

Înregistrarea prealabilă (pre-registration) este cea mai importantă alegere metodologică din acest benchmark. Fiecare diagnostic așteptat, fiecare sistem de scor clinic și fiecare secțiune de raport au fost angajate în cod sursă înainte ca motorul să fie invocat. Prin urmare, ajustarea post-hoc a rubricii pentru a „îndulci” performanța motorului este imposibilă.

Trei componente alcătuiesc scorul compozit. Componenta structurală contribuie cu 35 la sută și măsoară dacă motorul a returnat cele șapte secțiuni obligatorii ale raportului (header, summary, key findings, differential, scoring systems, recommendations, follow-up) și cele șaisprezece subsecțiuni obligatorii din cadrul acestora. Prezența secțiunilor cântărește 40 la sută, iar prezența subsecțiunilor cântărește 60 la sută în calculul structural.

The componenta clinică contribuie cu 55 la sută și combină trei lucruri: rechemarea (recall) diagnozei pe baza cuvintelor-cheie (70 la sută din subscorul clinic), rechemarea sistemului de scor (20 la sută — dacă motorul calculează Mentzer, FIB-4, HOMA-IR, riscul ASCVD, stadializarea KDIGO, criteriile EULAR/ACR unde este relevant), și o verificare de validitate prin sumă de probabilități (10 la sută — probabilitățile din diferențial ar trebui să însumeze în intervalul [90, 110]). Pentru cazurile-capcană, se scade o penalizare explicită de hiperdia gnoză de până la 0,30, calculată ca 0,10 per indicator de patologie fabricat, plafonată la trei indicatori.

The componenta de latență contribuie cu 10 la sută. Un răspuns sub 20 de secunde primește 0,10 integral, un răspuns sub 40 de secunde primește 0,05, iar orice este mai lent primește zero. Ținta de 20 de secunde reflectă obiectivul de nivel de serviciu (service-level objective) pentru producția primary-path; plafonul de 40 de secunde reflectă bugetul de fallback din Faza 2 pentru invocări grele ale motorului.

Ce previne pre-registration

Benchmark-urile de primă parte sunt notorii pentru umflarea propriilor rezultate prin ajustări post-hoc ale rubricii. Tiparul este aproape întotdeauna același: echipa rulează motorul, vede unde subperform ează, apoi ajustează în liniște rubrica astfel încât zonele care subperform ează să conteze mai puțin. Prin angajarea rubricii în cod sursă înainte de prima invocare a motorului și publicarea harness-ului sub licență MIT, această ajustare devine vizibilă în controlul versiunilor. Oricine poate clona repository-ul, verifica datele de autor ale rubricii și confirma că rezultatele motorului nu au fost folosite pentru a modela scorarea.

Cazuri-capcană de hiperdia gnoză — de ce supraestimarea este modul real de eșec

Apelarea agresivă a patologiei pe ecrane normale este un mod de eșec documentat al asistenților medicali orientați către consumatori. Costurile din aval includ investigații inutile, anxietatea pacientului și evaluare/lucru (workup) iatrogen. Cele două cazuri-capcană din acest benchmark sunt proiectate pentru a face acest mod de eșec vizibil și punctabil.

🟡 Capcana 1 — BT-014-GILBERT

Prezentare. Un bărbat de 24 de ani cu bilirubină totală de 2,4 mg/dL. Fracția directă este normală, transaminazele și fosfataza alcalină se află în intervalele lor de referință, reticulocitele sunt ne remarcabile, iar haptoglobina și LDH exclud hemoliza.

Interpretare corectă. Sindromul Gilbert — o polimorfism UGT1A1 benign. Interpretarea nu ar trebui să invoce hepatită, ciroză, anemie hemolitică sau obstrucție biliară.

Rezultat V11. Compozit 1.000. Niciunul dintre cele șase steaguri monitorizate de supra-diagnosticare nu a apărut ca diagnostic activ.

🟡 Capcana 2 — BT-015-HEALTHY

Prezentare. O femeie de 35 de ani cu un panou de screening de rutină cu cincisprezece parametri. Fiecare analit se află confortabil în intervalul său de referință.

Interpretare corectă. Asigurare și menținerea stilului de viață. Interpretarea nu ar trebui să inventeze o patologie „la limită” pentru a părea utilă clinic.

Rezultat V11. Scor compozit 1.000. Niciuna dintre cele șapte alerte de supra-diagnostic monitorizate — diabet, anemie, hipotiroidism, dislipidemie, hepatită, boală renală, deficit — nu a apărut ca diagnostic activ.

În ambele „capcane”, au fost verificate treisprezece alerte de hiperdia gnostic monitorizate. Niciuna nu a fost declanșată. Acesta este rezultatul care contează cel mai mult pentru orice clinician care ia în considerare utilizarea unui motor AI ca instrument de triere sau pre-consultare: sistemul nu a inventat o boală acolo unde nu exista.

Indicele Mentzer: separarea deficitului de fier de trăsătura talasemiei

O a doua constatare de mare valoare privește asocierea cazului BT-001 (anemie feriprivă) cu cazul BT-007 (beta-talasemie minor). Ambele se prezintă cu microcitoză și reprezintă un obstacol bine-cunoscut pentru clasificatoarele naive. Indicele Mentzer, calculat ca MCV împărțit la numărul de RBC, depășește 13 în deficitul de fier și scade sub 13 în trăsătura talasemiei.

În BT-001, pacientul era o femeie de 34 de ani cu hemoglobină 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritină 6 ng/mL și TIBC crescut. Indicele Mentzer de aproximativ 17,7 susține un deficit absolut de fier. În BT-007, pacientul era un bărbat de 28 de ani cu microcitoză (MCV 65,8 fL), dar cu un număr de RBC crescut de 6,2, RDW normal, feritină normală și HbA2 de 5,6 la sută. Indicele Mentzer de aproximativ 10,6 indică trăsătura talasemiei, iar HbA2 crescut confirmă beta-talasemia minoră.

Anemie feriprivă Mentzer > 13 Feritină scăzută, TSAT scăzut, TIBC crescut, RDW crescut

Trăsătură beta-talasemică Mentzer < 13 Feritină normală, RDW normal, HbA2 crescut (>3,5%), număr crescut de RBC

Ambele cazuri au obținut scorul 1.000. Motorul a invocat explicit indicele Mentzer în ambele interpretări și a returnat diagnosticul corect în fiecare caz. Acesta este singurul rezultat cu cea mai mare liniște clinică din întregul benchmark, deoarece clasificarea greșită a trăsăturii talasemice ca deficit de fier duce la suplimentare neadecvată cu fier și la oportunități ratate de screening familial, iar clasificarea greșită a deficitului de fier ca talasemie întârzie terapia de substituție simplă. Al nostru pentru intervalul de feritină explică contextul mai larg al diagnosticului diferențial.

Rezultate pe caz din rularea din aprilie 2026

Douăsprezece din cincisprezece cazuri au atins scorul compozit maxim de 1.000 pe calea principală. Trei cazuri au fost deservite prin „fallback” din Faza 2, pierzând bonusul de latență de 0,05, dar păstrând tot conținutul clinic și structural. Un caz lipsea o singură subsecțiune obligatorie; unul a returnat o sumă a distribuției de probabilitate ușor redusă.

ID caz Specialitate Compozit Latență Cale

BT-001-IDAHematologie1.00017,8 sprimară

BT-006-B12Hematologie1.00018,4 sprimară

BT-007-THALHematologie1.00017,0 sprimară

BT-002-HASHEndocrinologie0.95037,0 srevenire la varianta de rezervă

BT-008-PCOSEndocrinologie0.98718,6 sprimară

BT-003-T2DMMetabolic1.00019,1 sprimară

BT-013-GOUTMetabolic1.00019,4 sprimară

BT-004-NAFLDHepatologie1.00019,6 sprimară

BT-009-VIRHEPHepatologie0.95023,4 srevenire la varianta de rezervă

BT-014-GILBERTCapcană1.00018,9 sprimară

BT-005-CKDNefrologie1.00017,4 sprimară

BT-010-ASCVDCardiologie1.00019,7 sprimară

BT-011-SLEReumatologie0.98118,2 sprimară

BT-012-VITDEndocrinologie1.00019,3 sprimară

BT-015-SĂNĂTOSCapcană1.00018,7 srevenire la varianta de rezervă

Cazul de PCOS (BT-008) a pierdut o singură subsecțiune obligatorie în structura răspunsului — cincisprezece din șaisprezece în loc de șaisprezece din șaisprezece — ceea ce a redus scorul structural de la 1,000 la 0,963. Cazul de SLE (BT-011) a returnat o sumă a probabilităților ușor redusă, care a coborât scorul clinic la 0,965, păstrând în același timp fiecare cuvânt-cheie de diagnostic și sistemul de punctaj. Niciunul dintre cazurile sub-perfecțiune nu a ratat un diagnostic corect.

Ce nu ne spune scorul principal

Un scor compozit de 99,12 la sută în cadrul acestei rubrici preînregistrate, specifice, reprezintă o performanță aproape de plafon, dar merită o încadrare atentă. Rezultatul descrie comportamentul motorului față de cincisprezece cazuri anonimizate atent selectate, evaluate o singură dată fiecare, în raport cu o singură rubrică. Suntem expliciți cu privire la ceea ce numărul stabilește și ceea ce nu stabilește.

Scorul spune că motorul V11 a gestionat corect tiparele de diagnostic selectate pentru această evaluare, folosind o metodologie publicată și reproductibilă. Nu spune că motorul este corect pentru fiecare panou de analize de sânge existent în lumea reală. Nu spune că motorul ar trebui să înlocuiască judecata clinicianului. Și nu spune că motorul depășește alte sisteme AI — analizele comparative cu alte motoare au fost deliberat în afara domeniului de aplicare al acestui raport.

Ceea ce stabilește scorul este un punct de bază. Cu rubrica și cadrul (harness) publice, versiunile viitoare ale motorului pot fi evaluate față de aceleași cincisprezece cazuri, iar diferența dintre scorul publicat și orice rulare ulterioară este, la rândul ei, măsurabilă. Aceasta este valoarea preînregistrării: transformă afirmațiile de performanță în afirmații testabile.

Cum să reproduci acest benchmark în 10 minute

Reproducerea necesită doar o pereche de acreditări API Kantesti și un mediu Python 3.10 sau ulterior, cu requests şi reportlab bibliotecile instalate. Întregul harness este un singur modul Python autonom, lansat sub licența MIT.

💻 GitHub Harness cu licență MIT · răspunsuri brute · rulare de referință 🔗 DOI Figshare 10.6084/m9.figshare.32095435 · înregistrare academică canonică 🎓 ResearchGate Publicație 404175463 · strat de descoperire academică 📄 Academia.edu Lucrare 165956808 · strat de descoperire academică

Patru pași pentru o rulare nouă

Unu. Clonați repository-ul: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Doi. Instalați dependențele cu pip install -r requirements.txt. Trei. Setați KANTESTI_USERNAME şi KANTESTI_PASSWORD ca variabile de mediu — acreditările sunt citite la rulare și nu este nimic hard-codat în script. Patru. Rulați python benchmark_bloodtest.py și inspectați cele patru artefacte emise în directorul de lucru: un scorecard CSV, un scorecard JSON, o descărcare JSON completă inclusiv răspunsurile brute ale motorului și un raport Markdown lizibil de către oameni.

Rularea de referință din 23 aprilie 2026 este păstrată în results/ directorul din repository. O rulare nouă va produce un scorecard nou, cu timestamp, lăsând rularea de referință neatinsă. Dacă rularea dvs. produce un rezultat semnificativ diferit, vă rugăm să deschideți o problemă (GitHub issue) cu timestamp-ul rulării și versiunea motorului returnată în metadatele răspunsului.

Limitări și lucrări viitoare

Patru limitări merită o recunoaștere explicită: dimensiunea eșantionului, evaluarea dintr-o singură încercare, domeniul limitat la un singur motor și originea datelor dintr-o singură sursă. Fiecare este abordată în lucrări de urmărire active.

Dimensiunea eșantionului. Cincisprezece cazuri în opt categorii de specialitate sunt suficiente pentru un proof of concept, dar nu și pentru analiza pe subgrupuri în cadrul unei specialități. Extinderea la cincizeci de cazuri este planificată și va include panouri de coagulare, screening pentru malignități hematologice, panouri pentru sarcină și prezentări pediatrice.

Evaluare dintr-o singură încercare. Fiecare caz a fost evaluat o singură dată. Modelele de limbaj mari prezintă o variație de ieșire semnificativă chiar și la temperaturi de eșantionare scăzute, astfel încât un protocol cu mai multe rulări, cu cinci evaluări per caz și raportarea variației, este un pas natural următor.

Domeniul limitat la un singur motor. Acest raport caracterizează un singur motor. Analizele comparative față de sisteme AI alternative sunt în afara domeniului aici; le putem urmări ca un studiu independent separat, cu o metodologie adecvată.

Originea datelor dintr-o singură sursă. Cele cincisprezece cazuri sunt înregistrări reale anonimizate ale pacienților, extrase dintr-un singur repository clinic. Ele reprezintă un eșantion selectat și nu sunt o extragere aleatorie reprezentativă pentru o populație. Extinderea evaluării la date multi-centru este pe foaia de parcurs.

Cea mai importantă extensie planificată este paritatea multi-limbă. Motorul AI Kantesti servește utilizatorii în 75+ limbi, iar rularea aceluiași harness cu cincisprezece cazuri în turcă, germană, spaniolă, franceză și arabă va cuantifica calitatea ieșirii în limbile acceptate de motor. Vom publica fiecare rulare specifică limbii cu propriul DOI și cu ramura harness.

Încercați același motor care a obținut un scor compozit de 99.12%

Încărcați propriul set de analize de sânge pe același endpoint de producție care a fost evaluat în acest benchmark. Peste 2 milioane de utilizatori din întreaga lume folosesc motorul AI Kantesti pentru a interpreta peste 15.000 de biomarkeri în 75+ limbi.

🔬 Încearcă versiunea demo gratuită

Extensie Chrome Magazin de aplicații Google Play

📚 Cum se citează acest benchmark

BibTeX

@techreport{klein2026kantesti,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {Validare clinică a motorului AI Kantesti (2.78T)
                 pe 15 cazuri anonimizate de analize de sânge: un benchmark pre-înregistrat
                 bazat pe rubrică, incluzând cazuri cu capcană de hiperdia gnoză
                 în șapte specialități medicale},
  institution = {Kantesti Ltd},
  address     = {Londra, Regatul Unit},
  year        = {2026},
  month       = {Aprilie},
  type        = {Raport tehnic},
  number      = {V11},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). Validarea clinică a motorului AI Kantesti (2.78T) pe 15 cazuri anonimizate de analize de sânge: un benchmark pre-înregistrat bazat pe rubrică, incluzând cazuri cu capcană de hiperdia gnoză în șapte specialități medicale (Raport tehnic V11). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Lucrări conexe de validare Kantesti

Klein, T. (2025). Cadrul de validare clinică pentru interpretarea testelor de sânge bazate pe inteligență artificială: Metodologia de validare triplu-orb, indicatori de performanță și protocoale de asigurare a calității. Kantesti cercetare medicală cu AI.

🎓 ResearchGate

📖 Referințe metodologice externe

Mentzer, W. C. (1973). Diferențierea deficitului de fier de trăsătura de talasemie. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). Criterii de clasificare 2019 ale Ligii Europene Împotriva Reumatismului / Colegiului American de Reumatologie pentru lupus eritematos sistemic. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Test de halucinație în domeniul medical pentru modele de limbaj mari. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.12%Scor compozit

15Cazuri evaluate

7Specialități

0Capcane cu fals pozitive

Întrebări frecvente

Cât de precis este motorul AI Kantesti pe cazuri reale de analize de sânge?

Pe o rubrică pre-înregistrată de 15 cazuri reale anonimizate de analize de sânge din șapte specialități medicale, motorul AI Kantesti V11 a obținut un scor compozit de 99,12 la sută, cu zero fals pozitive de hiperdia gnoză atât în cazurile capcană, cât și cu o latență medie a răspunsului de 20,17 secunde. Tabloul de scor complet pe caz este publicat pe Figshare sub DOI 10.6084/m9.figshare.32095435 și pe GitHub sub licență MIT.

Este motorul AI Kantesti validat clinic?

Da. Motorul a fost validat clinic față de o rubrică înghețată în codul sursă înainte ca motorul să fie invocat, evaluată pe 15 cazuri anonimizate de analize de sânge în hematologie, endocrinologie, medicină metabolică, hepatologie, nefrologie, cardiologie și reumatologie. Supravegherea clinică a fost asigurată de dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), hematolog clinician certificat de consiliu și Chief Medical Officer la Kantesti AI.

Ce este un caz de „capcană de hiperdia gnoză”?

Un caz-capcană de hiperdiagnosticare este un scenariu clinic conceput special pentru a detecta comportamentul de supra-diagnosticare în motoarele AI. Benchmarkul Kantesti V11 folosește două astfel de cazuri. Primul este o hiperbilirubinemie indirectă izolată, compatibilă cu sindromul Gilbert, unde interpretarea corectă este polimorfismul benign UGT1A1, nu hepatita sau hemoliza. Al doilea este un panou de screening complet normal la adult, unde ieșirea corectă este reasigurarea și menținerea stilului de viață, nu o patologie limită fabricată.

Evaluarea motorului AI Kantesti este reproductibilă?

Întregul cadru de evaluare este lansat sub licența MIT ca un singur modul Python auto-conținut. Reproducerea necesită doar o pereche de acreditări API Kantesti și Python 3.10 sau o versiune ulterioară. Codul, definițiile cazurilor și fiecare răspuns brut al motorului din rularea de referință din aprilie 2026 sunt disponibile la github.com/emirhanai/kantesti-blood-test-benchmark și sunt oglindite pe Figshare, ResearchGate și Academia.edu.

Cum diferențiază motorul AI Kantesti deficitul de fier de trăsătura de beta-talasemie?

Motorul aplică indicele Mentzer, calculat ca volumul celular mediu împărțit la numărul de globule roșii. Un indice Mentzer peste 13 susține anemia prin deficit de fier, în timp ce o valoare sub 13 susține trăsătura de beta-talasemie. În benchmarkul V11, ambele prezentări au fost clasificate corect cu calcul explicit al indicelui Mentzer, susținut de contextul feritinei, RDW și HbA2.

Unde pot găsi datele brute de referință și codul sursă?

Raportul tehnic este depus pe Figshare sub DOI 10.6084/m9.figshare.32095435, oglindit pe publicația ResearchGate 404175463 și pe lucrarea Academia.edu 165956808, iar cadrul Python licențiat MIT cu toate rezultatele rulării de referință este la github.com/emirhanai/kantesti-blood-test-benchmark. Rețeaua de oglindire pe patru platforme asigură disponibilitate pe termen lung și flexibilitate în citare.

De ce este importantă preînregistrarea pentru benchmarkurile medicale AI?

Preînregistrarea previne ajustarea post-hoc a rubricii, care este cea mai comună modalitate prin care benchmarkurile conduse de companii își umflă propriile rezultate. Prin angajarea rubricii în codul sursă înainte de orice apel al motorului și publicarea cadrului în mod public, datele autorului rubricii devin verificabile în controlul versiunilor, iar rezultatele motorului nu pot fi modelat criteriile de notare.

Acest benchmark include comparații cu alte motoare AI?

Nu. Raportul V11 caracterizează deliberat un singur motor față de o rubrică fixă, mai degrabă decât să îl poziționeze față de sisteme comerciale alternative. Cadrul este open source sub licența MIT, astfel încât cercetătorii independenți pot evalua orice motor pe care îl aleg față de aceleași cincisprezece cazuri și aceeași rubrică și pot publica rezultatele lor.

Cazurile de pacienți sunt reale sau sintetice?

Cele cincisprezece cazuri sunt înregistrări reale anonimizate ale pacienților, extrase din depozitul de date clinice Kantesti, în baza consimțământului informat scris. De-identificarea a fost efectuată prin abordarea Safe Harbor, cu toți identificatorii direcți eliminați sau înlocuiți. Prelucrarea s-a realizat în conformitate cu articolul 9(2)(j) din GDPR și cu prevederile echivalente din UK GDPR. Nicio informație personală de identificare nu apare în cadrul publicat, în raportul tehnic sau în seturile de date lansate.

⚕️ Declarație medicală & Conflict de interese

Acest raport de benchmark este destinat scopurilor de cercetare și transparență metodologică. Nu constituie sfat medical. Consultați întotdeauna un furnizor calificat de servicii de sănătate pentru deciziile de diagnostic și tratament. Ambii autori sunt angajați de și dețin participații în Kantesti Ltd, iar motorul evaluat este un produs comercial al aceleiași organizații. Acest conflict de interese este atenuat prin preînregistrarea rubricii în codul sursă, lansarea cadrului sub licența MIT și publicarea fiecărui răspuns brut al motorului.

Semnale de încredere E-E-A-T

⭐

Experienţă

15+ ani de practică în hematologie clinică și medicină de laborator, supervizând selecția panelului de cazuri.

📋

Expertiză

Proiectare de rubrică preînregistrată cu penalizări explicite pentru hiperdiagnosticare și sisteme recunoscute de notare clinică (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Autoritate

Autor principal dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementare de Julian Emirhan Bulut, CEO al Kantesti Ltd.

🛡️

Încredere

Cadru reproductibil licențiat MIT, răspunsuri brute ale motorului publicate, divulgare deschisă a conflictului de interese, rețea de oglindire de cercetare pe patru platforme.

🏢 Kantesti LTD Înregistrată în Anglia și Țara Galilor · Număr de companie. 17090423 Londra, Regatul Unit · kantesti.net