Ngano nga naa kini nga benchmark ug unsa ang gisulayan niini

Ang AI-assisted nga pagsabot sa resulta sa blood test kay nagagamit na sa mas daghang consumer ug clinical workflows, apan ang mga framework nga ma-reproduce ug gipahiangay sa laboratory medicine dili pa kasagaran. Ang mga pangutana nga labing importante sa maong kahimtang dili mao kadtong gitabonan sa general nga medical question-answering benchmarks: makabahin ba ang usa ka engine sa iron deficiency gikan sa thalassaemia trait kung parehas ang mean corpuscular volume, nag-over-diagnose ba kini og Gilbert's syndrome isip hepatitis, ug naghimo ba kini og pathology sa usa ka hingpit nga normal nga screening panel?

Pre-registered nga rubric flow diagram nga nagpakita kung giunsa ang pag-evaluate sa Kantesti AI Engine batok sa frozen scoring criteria
Hulagway 1: Ang benchmark architecture — ang matag kaso, matag keyword, matag scoring system fixed sa source code sa wala pa makita sa engine ang bisan unsang PDF. Dili mahimo ang post-hoc rubric tuning pinaagi sa disenyo.

Ang usa ka single nga blood test panel kasagaran adunay igo nga signal aron masuportahan ang daghang nagkompetensyang interpretasyon, ug ang buluhaton sa nag-interpretar nga clinician mao ang pagtimbang niadtong mga interpretasyon batok sa usag usa imbis nga mangita ug tubag nga sama sa textbook. Ang usa ka engine nga maayo sa mga textbook case mahimo gihapon mapakyas sa mga kaso nga labing importante: ang mga sayop sa differential-diagnosis, ang mga benign variants nga tan-awon nga makalilisang kung mag-inusara, ug ang hingpit nga normal nga mga panel nga makalimbong sa mga confident nga assistant ngadto sa paghimo ug pathology.

Kini nga benchmark gitukod eksakto alang niining mga matang sa kapakyasan. Ang napulog ug lima ka mga kaso gipili alang sa usa ka espesipikong diagnostic nga kabtangan: usa ka iron-deficient microcytosis nga kinahanglan nga lahion gikan sa beta-thalassaemia trait nga adunay parehas nga mean corpuscular volume, usa ka presentation sa Gilbert's syndrome diin ang bugtong abnormalidad mao ang isolated indirect hyperbilirubinaemia, ug usa ka fifteen-parameter screening panel diin ang matag analyte naa sulod sa iyang reference range. Ang rubric nagantus sa mga engine nga nagbasa sa matag kaso base sa kaugalingong kahimtang niini ug nagpanot sa mga engine nga moabot sa usa ka confident nga diagnosis diin walay angay nga ingon niana nga diagnosis.

Ingon ni Thomas Klein, MD, gipili nako ang case panel kay mao kini ang mga pattern nga akong makita nga labing kasagaran masayop sa laboratory-medicine assistants. Ang mahal nga matang sa kapakyasan dili "pagpalya sa usa ka talagsaon nga sakit"—kundi ang paghimo ug routine nga pathology sa mga pasyente nga wala niini. Atong Medical Validation hub naghulagway sa mas lapad nga framework; kining panid naghulagway sa iyang gigamit nga resulta sa V11 engine.

Pinakabag-o nga reference run — V11 (Abril 2026)

Ang April 2026 reference run sa Kantesti AI Engine V11 naghimo ug composite score nga 99.12% sa pre-registered nga fifteen-case rubric. Ang duha ka hyperdiagnosis trap cases nakakuha sa pinakataas nga limit. Ang Mentzer index gigamit sa husto sa differential tali sa iron-deficiency ug thalassaemia.

Composite 99.12% 15 sa 15 ka kaso ang naka-score
0.998 Structural score
0.998 Clinical score
20.17 s Mean latency
0 / 13 Trap false-positives

Ang composite formula naghiusa sa tulo ka components: structural conformance sa pito ka mandatory report sections ug napulog ug unom ka mandatory subsections, clinical accuracy gisukod isip keyword recall plus scoring-system recall plus usa ka probability-distribution validity check, ug response latency batok sa 20-seconds nga primary-path service-level target. Ang eksaktong pagbahin gipakita sa rubric formula sa ubos.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

Ang nahabilin nga 0.88 porsiyento nga mga punto sa headroom nagbungkag halos sa tibuok ngadto sa latency loss — tulo ka Phase 2 fallback nga pag-invoke nga matag usa naghatag ug mga 0.60 sa 0.88-point nga kakulangan, gikan sa minus 0.05 composite matag usa — imbis nga ngadto sa clinical content. Wala ma-miss sa engine ang husto nga diagnosis sa bisan usa sa napulog ug lima ka mga kaso; diin kini kulang, mao kana ang pagkuha ug gamay ra nga mas dugay kaysa sa 20-segundo nga primary-path target sa usa ka gamay nga bahin sa mga pag-invoke.

Labing-limang (15) ka kaso sa pito (7) ka medikal nga espesyalidad

Ang case panel naglangkob ug pito ka espesyalidad — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — plus duha ka gipahinungod nga hyperdiagnosis trap cases. Ang matag kaso usa ka anonymised nga tinuod nga rekord sa pasyente nga gikuha gikan sa Kantesti clinical data repository ubos sa sinulat nga informed consent.

Coverage map sa napulog ug lima ka anonymised nga mga kaso sa blood test nga giapod-apod sa pito ka medikal nga espesyalidad, lakip ang mga hyperdiagnosis trap cases
Hulagway 2: Pagbahin-bahin sa mga kaso tali sa hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology, plus duha ka trap cases — Gilbert's syndrome ug usa ka hingpit nga normal nga screening panel.

Ang de-identification gihimo ubos sa Safe Harbor nga pamaagi: ang tanan nga direct identifiers gikuha o gipuli, ug ang matag rekord gihatagan ug benchmark-internal case code sa pormat BT-NNN-LABEL. Ang pagproseso gihimo sumala sa GDPR Article 9(2)(j) alang sa siyentipikong panukiduki nga adunay angay nga mga panalipod, ug ang katumbas nga mga probisyon sa UK GDPR. Wala’y bisan unsang personal nga makaila nga impormasyon nga makita bisan asa sa gipatik nga harness, ang teknikal nga report, o ang gipagawas nga mga dataset.

Hematology (3) BT-001, BT-006, BT-007 Iron deficiency anaemia · Kakulang sa B12 · Beta-thalassaemia minor
Endocrinology (3) BT-002, BT-008, BT-012 Hashimoto's thyroiditis · PCOS nga adunay insulin resistance · Grabe nga kakulangan sa vitamin D
Metabolic (2) BT-003, BT-013 T2DM nga adunay metabolic syndrome · Hyperuricaemia nga adunay risgo sa gout
Hepatology (2) BT-004, BT-009 NAFLD / NASH · Acute viral hepatitis
Nephrology · Cardiology · Rheumatology (3) BT-005, BT-010, BT-011 CKD stage 3 · Atherogenic dyslipidaemia · Systemic lupus erythematosus
Trap cases (2) BT-014, BT-015 Gilbert's syndrome (isolated indirect hyperbilirubinaemia) · Hingpit nga normal nga adult screen

Ngano nga kining partikular nga pagbahin-bahin

Ang Hematology nakakuha og tulo ka kaso kay ang microcytic differentials ug macrocytic differentials mao ang pinakadaghan nga “traps” sa tinuod nga praktis sa laboratoryo. Ang Endocrinology nakakuha og tulo kay ang mga presentasyon sa Hashimoto's, PCOS, ug kakulangan sa vitamin D nag-ehersisyo og lain-laing porma sa pagdayagnos (ginadumala sa autoantibody, ginadumala sa ratio sa hormone, ginadumala sa usa ka marker). Ang mga specialty nga usa ra ka kaso gihapon makabuluhan kay ang matag usa sa CKD, ASCVD risk, ug SLE adunay kaugalingong scoring system nga kinahanglan tawgon sa engine (KDIGO staging, ASCVD 10-year risk, ug 2019 EULAR/ACR SLE criteria matag-usa).

Ang pre-registered rubric, gipasabot

Ang pre-registration mao ang labing importante nga pagpili sa metodolohiya sa maong benchmark. Ang matag gipaabot nga diagnosis, ang matag clinical scoring system, ug ang matag seksyon sa report gi-commit sa source code sa wala pa tawgon ang engine. Busa, ang post-hoc tuning sa rubric aron paboran ang engine dili mahimo.

Tulo ka komponent ang naglangkob sa composite score. Ang structural component nag-amot og 35 porsyento ug nagtan-aw kon ang engine ba mibalik sa pito ka mandatory nga report sections (header, summary, key findings, differential, scoring systems, recommendations, follow-up) ug ang labing-16 ka mandatory nga subsections sulod niini. Ang presensya sa seksyon nagkantidad og 40 porsyento ug ang presensya sa subsection nagkantidad og 60 porsyento sulod sa structural calculation.

Ang clinical component nag-amot og 55 porsyento ug naghiusa og tulo ka butang: diagnosis-keyword recall (70 porsyento sa clinical sub-score), scoring-system recall (20 porsyento — kon ang engine ba nagkalkula sa Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR criteria kung may kalabutan), ug usa ka probability-sum validity check (10 porsyento — ang differential probabilities kinahanglan mo-sum sulod sa interval nga [90, 110]). Alang sa trap cases, usa ka klaro nga hyperdiagnosis penalty hangtod sa 0.30 ang ibawas, gikalkula nga 0.10 kada fabricated pathology flag, ug gi-cap sa tulo ka flags.

Ang latency component nag-amot og 10 porsyento. Ang response nga ubos sa 20 segundos makakuha og bug-os nga 0.10, ang ubos sa 40 segundos makakuha og 0.05, ug ang bisan unsa nga mas hinay makakuha og zero. Ang target nga 20 segundos nagpakita sa production primary-path service-level objective; ang 40-seconds nga kisame nagpakita sa Phase 2 nga fallback budget alang sa mabug-at nga engine invocations.

Terminal screenshot sa MIT-licensed Kantesti benchmark harness nga nagdagan ug nagpagawas ug mga iskor kada kaso
Hulagway 3: Ang harness sa pagpatuman. Ang matag kaso ginare-render ngadto sa A4 PDF, gi-post sa production v11 endpoint, ug gi-score batok sa frozen rubric. Ang matag raw response gi-persist uban sa aggregated scorecard.

Unsa ang gipugngan sa pre-registration

Ang first-party benchmarks nailhan nga makapadako sa ilang kaugalingong mga numero pinaagi sa post-hoc rubric tuning. Ang pattern halos kanunay pareho: ang team magpadagan sa engine, makita kung asa sila kulang, dayon hilom nga i-adjust ang rubric aron ang mga lugar nga nag-underperform maihap nga gamay ra. Pinaagi sa pag-commit sa rubric sa source code sa wala pa ang unang engine call ug pag-publish sa harness ilalom sa MIT licence, ang maong adjustment makita na sa version control. Bisan kinsa makakopya sa repository, makatan-aw sa mga petsa sa pag-author sa rubric, ug makabaton og pag-verify nga ang mga resulta sa engine wala gigamit aron hubaron ang scoring.

Mga kaso sa hyperdiagnosis trap — ngano nga ang sobra nga pagtag-an mao ang tinuod nga failure mode

Ang agresibong pag-over-calling sa pathology sa normal nga screens usa ka dokumentadong failure mode sa consumer-facing medical assistants. Ang downstream nga gasto naglakip og dili kinahanglan nga imbestigasyon, kabalaka sa pasyente, ug iatrogenic workup. Ang duha ka trap cases sa maong benchmark gidisenyo aron makita ug ma-scoreable ang maong failure mode.

Magkauban nga pagtandi sa usa ka naive AI nga naghimog hepatitis sa usa ka Gilbert's syndrome panel batok sa Kantesti engine nga husto nga nakaila sa benign UGT1A1 polymorphism
Hulagway 4: Ang trap-case design. Ang engine nga kumpiyansa nga nag-label sa Gilbert's syndrome isip hepatitis, o nga nagmugna og borderline pathology sa usa ka hingpit nga normal nga screen, pagasultionan—dili pagantihon tungod kay “makaingon og klinikal” ra.

🟡 Trap 1 — BT-014-GILBERT

Presentasyon. Usa ka 24-anyos nga lalaki nga adunay total bilirubin nga 2.4 mg/dL. Ang direct fraction normal, ang transaminases ug alkaline phosphatase naa sulod sa ilang reference ranges, ang reticulocytes dili makapahibalo, ug ang haptoglobin ug LDH nagwagtang sa haemolysis.

Sakto nga pagsabot sa resulta. Gilbert's syndrome — usa ka benign UGT1A1 polymorphism. Ang interpretasyon dili kinahanglan mag-invoke og hepatitis, cirrhosis, haemolytic anaemia, o biliary obstruction.

Resulta sa V11. Composite 1.000. Wala sa unom ka monitored over-diagnosis flags ang mitungha isip active diagnoses.

🟡 Trap 2 — BT-015-HEALTHY

Presentasyon. Usa ka 35-anyos nga babaye nga adunay 15-parameter nga routine screening panel. Ang matag analyte komportable nga naa sulod sa iyang reference range.

Sakto nga pagsabot sa resulta. Paghatag og kahupayan ug pagpadayon sa estilo sa kinabuhi. Ang pagsabot kinahanglan dili maghimo og borderline nga patolohiya aron lang mahimong makalingaw sa klinikal nga gamit.

Resulta sa V11. Komposit 1.000. Wala sa pito ka gi-monitor nga over-diagnosis flags—diabetes, anemia, hypothyroidism, dyslipidaemia, hepatitis, sakit sa kidney, kakulangan—ang mitungha isip aktibong diagnosis.

Sa duha ka traps, napulo’g tulo ka gi-monitor nga hyperdiagnosis flags ang gisusi. Wala’y usa ang na-trigger. Kini ang resulta nga labing importante para sa bisan unsang clinician nga naghunahuna sa paggamit sa usa ka AI engine isip triage o pre-consultation nga himan: wala gyud kini mag-imbento og sakit kung walay bisan unsa nga naa.

Mentzer index: pagbulag sa kakulangan sa iron gikan sa thalassaemia trait

Ang ikaduhang taas nga bili nga nakit-an may kalabotan sa pagpares sa case BT-001 (iron deficiency anaemia) ug case BT-007 (beta-thalassaemia minor). Pareho silang nagpakita og microcytosis ug usa kini ka nailhan nga babag alang sa mga walay kasinatian nga classifier. Ang Mentzer index, nga gikalkula isip MCV gibahin sa RBC count, molapas sa 13 sa iron deficiency ug mubos sa 13 sa thalassaemia trait.

Sa BT-001, ang pasyente usa ka 34-anyos nga babaye nga adunay hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, ug taas nga TIBC. Ang Mentzer index nga mga 17.7 nagsuporta sa absolute iron deficiency. Sa BT-007, ang pasyente usa ka 28-anyos nga lalaki nga adunay microcytosis (MCV 65.8 fL) apan taas nga RBC count nga 6.2, normal RDW, normal ferritin, ug HbA2 nga 5.6 percent. Ang Mentzer index nga mga 10.6 nagpunting sa thalassaemia trait, ug ang taas nga HbA2 nagpamatuod sa beta-thalassaemia minor.

Iron deficiency anaemia Mentzer > 13 Ubos nga ferritin, ubos nga TSAT, taas nga TIBC, taas nga RDW
Beta-thalassaemia trait Mentzer < 13 Normal nga ferritin, normal nga RDW, taas nga HbA2 (>3.5%), taas nga RBC count

Ang duha ka kaso nakakuha og 1.000. Gi-invoke sa engine ang Mentzer index dayon sa duha ka interpretasyon ug mihatag ang husto nga diagnosis sa matag higayon. Kini ang usa ka pinakaluwas nga resulta sa klinika sa tibuok benchmark, kay ang sayop nga pagklasipikar sa thalassaemia trait isip iron deficiency mosangpot sa dili angay nga paghatag og iron supplementation ug napalangan nga mga oportunidad sa pag-screen sa pamilya, ug ang sayop nga pagklasipikar sa iron deficiency isip thalassaemia naglangan sa dayon nga replacement therapy. Ang among giya sa range sa ferritin nagpatin-aw sa mas lapad nga differential nga konteksto.

Mga resulta kada kaso gikan sa pag-run sa Abril 2026

Napulo’g duha sa napulo’g lima ka mga kaso nakab-ot ang ceiling composite score nga 1.000 sa primary path. Tulo ka kaso ang giservihan pinaagi sa Phase 2 fallback, nawad-an sa 0.05 latency bonus samtang gipreserbar ang tanan nga klinikal ug structural nga sulod. Usa ka kaso kulang og usa ka mandatory nga subsection; ang usa nagbalik og marginally nga pagkunhod sa probability distribution sum.

Case ID Specialty Composite Latency Path
BT-001-IDAHematology1.00017.8 sprimary
BT-006-B12Hematology1.00018.4 sprimary
BT-007-THALHematology1.00017.0 sprimary
BT-002-HASHEndocrinology0.95037.0 sfallback
BT-008-PCOSEndocrinology0.98718.6 sprimary
BT-003-T2DMMetaboliko1.00019.1 sprimary
BT-013-GOUTMetaboliko1.00019.4 sprimary
BT-004-NAFLDHepatology1.00019.6 sprimary
BT-009-VIRHEPHepatology0.95023.4 sfallback
BT-014-GILBERTTrap1.00018.9 sprimary
BT-005-CKDNefrolohiya1.00017.4 sprimary
BT-010-ASCVDCardiology1.00019.7 sprimary
BT-011-SLERheumatology0.98118.2 sprimary
BT-012-VITDEndocrinology1.00019.3 sprimary
BT-015-HEALTHYTrap1.00018.7 sfallback

Ang kaso sa PCOS (BT-008) nawala ug usa ka mandatory nga subseksyon sa istruktura sa tubag—napulo’ ug lima sa napulo’ ug unom imbis nga napulo’ ug unom sa napulo’ ug unom—nga nagputol sa structural score gikan sa 1.000 ngadto sa 0.963. Ang kaso sa SLE (BT-011) mibalik ug gamay’ng pagkunhod sa kabuuan sa probability-distribution nga nagpaubos sa clinical score ngadto sa 0.965 samtang gihuptan ang matag diagnostic keyword ug scoring system. Wala’y bisan usa sa duha ka sub-perfect nga kaso nga nakalimot sa husto nga diagnosis.

Unsa ang dili isulti sa headline nga score kanato

Ang composite score nga 99.12 porsyento sa maong partikular nga pre-registered rubric nagpasabot ug hapit-ceiling nga performance, apan angay kini nga ipresentar ug maampingong pagbutang sa konteksto. Ang resulta naghulagway sa pamatasan sa engine batok sa napulo’ ug lima ka maampingong gipili nga anonymised nga mga kaso, gi-evaluate kinsa kausa ra, batok sa usa ra ka rubric. Klaro kami kung unsa ang gipasabot sa numero ug unsa ang dili niini gipasabot.

Ang score nag-ingon nga husto nga giatubang sa V11 engine ang mga diagnostic pattern nga gipili alang sa maong evaluation, sa usa ka methodology nga gimantala ug mapamatud-an. Dili kini nag-ingon nga ang engine husto sa matag blood test panel nga anaa sa tinuod nga kalibutan. Dili usab kini nag-ingon nga ang engine kinahanglan mopuli sa paghukom sa clinician. Ug dili usab kini nag-ingon nga ang engine mas maayo pa kaysa sa ubang alternative nga AI systems—ang comparative analyses batok sa ubang engine gi-assign dayon nga wala sakop sa maong report.

Ang gipasabot sa score mao ang usa ka baseline. Kung ang rubric ug harness naa na sa publiko, ang mga sunod nga bersyon sa engine mahimong i-evaluate batok sa parehas nga napulo’ ug lima ka kaso, ug ang kal-ang tali sa gimantala nga score ug bisan unsang sunod nga run masusukod mismo. Mao kana ang bili sa pre-registration: kini nag-ilis sa mga pag-angkon sa performance ngadto sa mga pag-angkon nga masusi.

Unsaon pag-usab pagpadagan niini nga benchmark sulod sa 10 minutos

Ang reproduction nanginahanglan ra ug usa ka Kantesti API credential pair ug usa ka Python 3.10 o mas bag-ong environment nga adunay ang requests ug reportlab nga mga library nga na-install. Ang tibuok harness usa ra ka single nga self-contained Python module nga gipagawas ilalom sa MIT licence.

Reproducibility network diagram nga nagpakita nga ang benchmark gi-mirror sa Figshare, ResearchGate, Academia.edu ug GitHub, uban sa Figshare DOI isip canonical anchor
Hulagway 5: Ang benchmark gi-mirror sa upat ka research platform. Ang Figshare DOI mao ang canonical scholarly identifier; ang ResearchGate, Academia.edu, ug GitHub nag-host ug parallel nga mga kopya uban ang code ug raw data.

Upat ka lakang alang sa bag-ong run

Usa. I-clone ang repository: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Ikaduha. I-install ang mga dependency gamit ang pip install -r requirements.txt. Tulo. I-set KANTESTI_USERNAME ug KANTESTI_PASSWORD isip mga environment variable—ang mga kredensyal gibalikon sa runtime ug walay gi-hard-code sa script. Apat. Patakboka python benchmark_bloodtest.py ug susihon ang upat ka artepakto nga mogawas sa working directory: usa ka CSV scorecard, usa ka JSON scorecard, usa ka kompleto nga JSON dump lakip ang raw engine responses, ug usa ka human-readable Markdown report.

Ang reference run gikan sa 23 Abril 2026 gitipigan sa results/ nga directory sa repository. Ang bag-ong run mohatag ug bag-ong timestamped scorecard samtang biyaan ang reference run nga dili mausab. Kung ang imong run makahatag ug klarong lahi nga resulta, palihog ablihi ang usa ka GitHub issue gamit ang run timestamp ug ang engine version nga gibalik sa response metadata.

Mga limitasyon ug umaabot nga trabaho

Upat ka limitasyon ang angay nga klarong ipahibalo: gidaghanon sa sample, single-shot evaluation, single-engine scope, ug single-source data origin. Ang matag usa niini giatubang sa aktibong follow-up nga trabaho.

Gidaghanon sa sample. Napulog-lima ka kaso sa walo ka specialty bucket igo alang sa proof of concept apan dili alang sa subgroup analysis sulod sa usa ka specialty. Ang pagpalapad ngadto sa kalim-an ka kaso giplano ug moapil sa coagulation panels, haematological malignancy screening, pregnancy panels, ug mga presentasyon sa bata.

Single-shot evaluation. Ang matag kaso gi-evaluate kausa ra. Ang mga large language model nagpakita ug dili-trivial nga output variance bisan sa ubos nga sampling temperature, mao nga ang multi-run protocol nga adunay lima ka evaluations kada kaso ug gireport nga variance mao ang natural nga sunod nga lakang.

Single-engine scope. Kini nga report naghulagway sa usa ka engine. Ang comparative analyses batok sa ubang AI system wala sa sakop dinhi; mahimo namo kini i-pursue isip laing bulag nga independent study nga adunay angay nga methodology.

Single-source data origin. Ang napulog-lima ka kaso mga anonymised real patient records nga gikuha gikan sa usa ka clinical repository. Nagrepresentar kini sa usa ka curated sample ug dili usa ka population-representative random draw. Ang pagpalapad sa evaluation ngadto sa multi-centre nga datos naa sa roadmap.

Ang labing makapabug-at nga planned extension mao ang multi-language parity. Ang Kantesti AI Engine nagserbisyo sa mga user sa 75+ nga mga pinulongan, ug ang pagpatakbo sa parehas nga napulog-lima ka kaso nga harness sa Turkish, German, Spanish, French, ug Arabic magkuwantiya sa output quality sa tibuok nga suportadong mga pinulongan sa engine. Publikon namo ang matag language-specific run uban ang kaugalingong DOI ug harness branch.