Kantesti AI Blood Test Benchmark — Klinikal nga Pagpamatud-an

Awtomatikong Benchmark Pre-Registered Benchmark V11 Ikaduhang Update — Abril 2026 MIT-Lisensyado Maulit ug Mapamatud-an · Open Data 100K Sintetikong Cohort · 127 Mga Label sa Bansa

99.80% Komposit nga Marka sa usa ka Pre-Registered Rubric — V11 Ikaduhang Update, 100,000-Kaso nga Cohort sa 127 Mga Label sa Bansa

Usa ka pre-registered, rubric-based nga automated teknikal nga benchmark sa Kantesti engine sa 100,000 sintetikong ginmugna nga mga kaso sa blood-test nga gimarkahan sa 127 mga label sa bansa. Gisukod niini ang pagsunod sa output, dili ang katukma sa diagnostic. Ang rubric gi-freeze sa source code sa wala pa ang unang V11 nga pagpagawas ug gitipigan nga byte-identical alang niini nga Ikaduhang Update; ang evaluation harness lisensyado sa MIT; usa ka stratified random sample sa mga raw nga tugon sa engine ang gipatik para sa pag-inspeksyon. Ang tanan nga mga kaso sintetik; walay gigamit nga personal data.

📖 ~14 minutos 📅 Gi-publish Abril 23, 2026 · Na-update Abril 26, 2026 (V11 Ikaduhang Update) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Nai-publish: Abril 23, 2026 🔄 V11 Ikaduhang Update: Abril 26, 2026 🩺 Medikal nga gisusi: Abril 26, 2026 ✅ Pre-Registered Rubric (Byte-Identical) 🔓 Bukas nga Code ug Data

Kini nga awtomatikong benchmark gidisenyo ug gi-implementa ni Julian Emirhan Bulut, Senior AI Engineer ug CEO sa Kantesti Ltd. Ang pagmarka hingpit nga awtomatiko sa source code; ang scoring rubric ug case panel gihimo uban sa clinical input gikan sa Dr. Thomas Klein, MD, Chief Medical Officer sa Kantesti AI, ug gisusi sa Konseho sa Pagtambag sa Medikal nga Kantesti AI. Kini usa ka self-run nga internal benchmark, dili usa ka independente o peer-reviewed nga automated teknikal nga benchmark.

Lead Author ug Klinikal nga Pagdumala

Thomas Klein, MD

Punong Opisyal Medikal, Kantesti AI

Si Dr. Thomas Klein usa ka board-certified nga clinical hematologist ug internist nga adunay kapin sa 15 ka tuig nga kasinatian sa laboratory medicine. Isip Chief Medical Officer sa Kantesti AI, gipili niya ang case panel alang niini nga benchmark, gisusi ang klinikal nga nilalaman ug ang gipaabot nga mga tubag sa mga sintetikong kaso, ug gi-aprubahan ang pre-registered rubric sa wala pa ang unang engine invocation.

ORCID 0009-0009-1490-1321 ResearchGate Google Scholar

Co-Author ug Implementation

Julian Emirhan Bulut

Senior AI Engineer ug CEO, Kantesti Ltd

Si Julian Emirhan Bulut mao ang founder ug CEO sa Kantesti Ltd. Gisugdan ug gipatuman niya ang evaluation harness — lakip ang SQL case loader nga gidugang alang sa V11 Ikaduhang Update — gihimo ang API integration, gihimo ang duha ka V11 initial reference run ug ang V11 Ikaduhang Update 100,000-kaso nga run, ug giandam ang estadistikal nga pag-aggregate. Founder sa plataporma sukad 2019.

GitHub Mahitungod sa Kantesti

⚡ Paspas nga Summary V11 Ikaduhang Update — Abril 26, 2026

99.80% composite score sa 100,000 sintetikong mga kaso sa blood-test sa walo ka medikal nga espesyalidad ug 127 mga label sa bansa (V11 Ikaduhang Update).
Walay hyperdiagnosis nga false-positives sa 87,412 nga na-monitor nga trap-case flag opportunities — parehas nga trap-case methodology sa V11 initial, gi-scale ngadto sa lebel sa populasyon.
Pre-registered nga rubric gi-freeze sa source code sa wala pa ang V11 initial run ug gitipigan nga byte-identical alang niining Ikaduhang Update — walay post-hoc tuning nga mahimo.
Mentzer index nga husto nga gi-apply sa pagbulag sa iron deficiency anaemia gikan sa beta-thalassaemia minor sa V11 initial release; ang differential nga pamatasan napanatili sa lebel sa populasyon.
Production endpoint ra — walay privileged routing, gi-evaluate gyud sama sa pag-access sa usa ka nagbayad nga customer.
13.26 segundo nga mean latency end-to-end (range 9.0–16.94 s), nga ang tanan nga 100,000 ka kaso nakompleto sa primary path sa engine.
Sintetikong cohort. 100,000 sintetikong ginmugna nga test cases nga gi-load sa runtime. Walay gigamit nga sintetikong data ug walay personal data.
MIT-licensed nga harness gi-release sa GitHub uban sa usa ka stratified random sample (n = 201) sa bug-os nga raw nga engine responses para sa pag-inspeksyon.
Figshare DOI: 10.6084/m9.figshare.32095435 · Gi-mirror sa ResearchGate, Academia.edu, GitHub.

Ngano nga naa kini nga benchmark ug unsa ang gisulayan niini

Ang AI-assisted nga pagsabot sa resulta sa blood test kay nagagamit na sa mas daghang consumer ug clinical workflows, apan ang mga framework nga ma-reproduce ug gipahiangay sa laboratory medicine dili pa kasagaran. Ang mga pangutana nga labing importante sa maong kahimtang dili mao kadtong gitabonan sa general nga medical question-answering benchmarks: makabahin ba ang usa ka engine sa iron deficiency gikan sa thalassaemia trait kung parehas ang mean corpuscular volume, nag-over-diagnose ba kini og Gilbert's syndrome isip hepatitis, ug naghimo ba kini og pathology sa usa ka hingpit nga normal nga screening panel?

Ang usa ka single nga blood test panel kasagaran adunay igo nga signal aron masuportahan ang daghang nagkompetensyang interpretasyon, ug ang buluhaton sa nag-interpretar nga clinician mao ang pagtimbang niadtong mga interpretasyon batok sa usag usa imbis nga mangita ug tubag nga sama sa textbook. Ang usa ka engine nga maayo sa mga textbook case mahimo gihapon mapakyas sa mga kaso nga labing importante: ang mga sayop sa differential-diagnosis, ang mga benign variants nga tan-awon nga makalilisang kung mag-inusara, ug ang hingpit nga normal nga mga panel nga makalimbong sa mga confident nga assistant ngadto sa paghimo ug pathology.

Kini nga benchmark gitukod eksakto alang niining mga matang sa kapakyasan. Ang napulog ug lima ka mga kaso gipili alang sa usa ka espesipikong diagnostic nga kabtangan: usa ka iron-deficient microcytosis nga kinahanglan nga lahion gikan sa beta-thalassaemia trait nga adunay parehas nga mean corpuscular volume, usa ka presentation sa Gilbert's syndrome diin ang bugtong abnormalidad mao ang isolated indirect hyperbilirubinaemia, ug usa ka fifteen-parameter screening panel diin ang matag analyte naa sulod sa iyang reference range. Ang rubric nagantus sa mga engine nga nagbasa sa matag kaso base sa kaugalingong kahimtang niini ug nagpanot sa mga engine nga moabot sa usa ka confident nga diagnosis diin walay angay nga ingon niana nga diagnosis.

Ingon ni Thomas Klein, MD, gipili nako ang case panel kay mao kini ang mga pattern nga akong makita nga labing kasagaran masayop sa laboratory-medicine assistants. Ang mahal nga matang sa kapakyasan dili "pagpalya sa usa ka talagsaon nga sakit"—kundi ang paghimo ug routine nga pathology sa mga pasyente nga wala niini. Atong Medical Validation gihulagway sa hub ang mas lapad nga framework; kining panid naghulagway sa V11 initial proof-of-concept ug sa V11 Ikaduhang Update nga nagpalapad niini ngadto sa 100,000 sintetikong mga kaso nga gikuha gikan sa usa ka sintetikong set sa kaso nga naglangkob sa 127 mga label sa bansa — gamit ang parehas nga scoring rubric, byte-identical, ug walay gitugotan nga post-hoc tuning.

Pinakabag-o nga reference run—V11 Second Update (Abril 26, 2026)

Ang reference run sa V11 Second Update niadtong 26 Abril 2026 naghimo og composite score nga 99.80% sa parehas nga pre-registered rubric nga gigamit sa V11 initial release, gi-evaluate sa 100,000 sintetikong mga kaso gikan sa Kantesti sintetikong set sa kaso ug naglangkob sa 127 mga label sa bansa ug mga lengguwahe sa 75+. Ang matag kaso nahuman sa primary path sa engine; ang trap-case hyperdiagnosis flag activations nagpabilin sa 0 / 87,412. Ang orihinal nga V11 run niadtong 23 Abril 2026 naglangkob sa 15 ka hand-curated cases (composite 99.12%) ug nagpamatuod sa rubric; ang Second Update nagpadayon niana nga byte-identical nga rubric ug gipalapdan ang evaluation ngadto sa population-scale cohort.

Composite 99.80% 100,000 sa 100,000 nga cases ang naka-score

1.000 Structural score

0.996 Clinical score

13.26 s Mean latency

0 / 87,412 Trap false-positives

Ang composite formula naghiusa sa tulo ka components: structural conformance sa pito ka mandatory report sections ug napulog ug unom ka mandatory subsections, katukma sa sulod gisukod isip keyword recall plus scoring-system recall plus usa ka probability-distribution validity check, ug response latency batok sa primary-path service-level target. Ang eksaktong pagbahin gipakita sa rubric formula sa ubos—walay bisan kinsa sa mga timbang o sub-rubrics nga giusab alang sa Second Update.

Composite = 0.35 × Structural + 0.55 × Clinical + 0.10 × Latency

Ang nahabilin nga 0.20 percentage points sa headroom halos hingpit nga nagbahin ngadto sa clinical sub-score—gamay nga bahin sa mga kaso (panguna sa Hepatology ug Rheumatology) adunay usa ka expected scoring-system keyword nga wala makita sa interpretation sa engine bisan pa husto ang diagnostic content. Wala’y bisan usa ka kaso sa 100,000-case Second-Update cohort nga nakalimot sa mismong diagnosis. Ang latency miayo gikan sa mean nga 20.17 s sa V11 initial release ngadto sa 13.26 s sa Second Update, nagpakita sa mga optimisations sa production engine taliwala sa duha ka run; ang rubric, ang scoring code, ug ang API endpoint wala mausab.

Ang per-label nga komposit nga mga marka nagkalahi gikan sa 0.9971 ngadto sa 0.9985 sa 30 ka labing daghang-representa nga mga label sa bansa. Ang long tail sa 97 pa nga mga label (≈7,300 ka kaso nga hiniusa) wala magpakita og sistematikong pagkunhod. Ang labing kasagaran nga mga label base sa gidaghanon sa kaso mao ang United States (10,500), Brazil (9,500), Spain (9,000), Italy (8,000), Germany (7,800), France (7,400), Portugal (5,800), Türkiye (3,400), United Kingdom (2,900), ug Mexico (2,500).

Gikan sa 15 ka kaso ngadto sa 100,000: ebolusyon sa cohort sa 127 mga label sa bansa

Ang orihinal nga V11 case panel nagtabon sa pito ka espesyalidad — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — ug usab duha ka dedicated hyperdiagnosis trap cases, nga ang matag kaso usa ka synthetically generated nga blood-test panel. Ang V11 Ikaduhang Update nagpalapad sa evaluation ngadto sa 100,000 sintetikong mga kaso sa 127 mga label sa bansa, nga gibahin sa walo ka specialty (ang orihinal nga pito plus usa ka dedicated internal-medicine bucket nga mosuhop sa trap subset). Ang parehas nga scoring rubric gigamit nga byte-identical sa duha ka run.

Tungod kay ang tanan nga mga kaso sintetikong ginmugna, walay tinuod nga identifiers nga tangtangon ug walay personal data nga nalambigit. Ang matag sintetikong kaso adunay benchmark-internal nga case code (BT-NNN-LABEL sa V11 initial set, usa ka stable case_uid sa Ikaduhang Update). Walay personal data nga makita bisan asa sa gipatik nga harness, teknikal nga report, o sa mga released dataset.

V11 initial release—15 ka hand-curated cases

Ang orihinal nga V11 case panel gi-hand-curate ni Dr. Thomas Klein aron ma-ehersisyo ang mga diagnostic pattern nga kasagaran mapakyas sa mga assistant sa laboratory-medicine. Ang matag usa sa napulog ug lima ka mga kaso gipili alang sa usa ka espesipikong diagnostic nga kabtangan, nga gilista sa ubos.

Hematology (3) BT-001, BT-006, BT-007 Iron deficiency anaemia · Kakulang sa B12 · Beta-thalassaemia minor

Endocrinology (3) BT-002, BT-008, BT-012 Hashimoto's thyroiditis · PCOS nga adunay insulin resistance · Grabe nga kakulangan sa vitamin D

Metabolic (2) BT-003, BT-013 T2DM nga adunay metabolic syndrome · Hyperuricaemia nga adunay risgo sa gout

Hepatology (2) BT-004, BT-009 NAFLD / NASH · Acute viral hepatitis

Nephrology · Cardiology · Rheumatology (3) BT-005, BT-010, BT-011 CKD stage 3 · Atherogenic dyslipidaemia · Systemic lupus erythematosus

Trap cases (2) BT-014, BT-015 Gilbert's syndrome (isolated indirect hyperbilirubinaemia) · Hingpit nga normal nga adult screen

Ngano nga kining partikular nga pagbahin-bahin

Ang Hematology nakakuha og tulo ka kaso kay ang microcytic differentials ug macrocytic differentials mao ang pinakadaghan nga “traps” sa tinuod nga praktis sa laboratoryo. Ang Endocrinology nakakuha og tulo kay ang mga presentasyon sa Hashimoto's, PCOS, ug kakulangan sa vitamin D nag-ehersisyo og lain-laing porma sa pagdayagnos (ginadumala sa autoantibody, ginadumala sa ratio sa hormone, ginadumala sa usa ka marker). Ang mga specialty nga usa ra ka kaso gihapon makabuluhan kay ang matag usa sa CKD, ASCVD risk, ug SLE adunay kaugalingong scoring system nga kinahanglan tawgon sa engine (KDIGO staging, ASCVD 10-year risk, ug 2019 EULAR/ACR SLE criteria matag-usa).

V11 Ikaduhang Update — 100,000 sintetikong mga kaso sa 127 mga label sa bansa

Ilisan sa Ikaduhang Update ang orihinal nga V11 hard-coded 15-case nga Python literal gamit ang mas dako, programmatically generated nga sintetikong set sa kaso. Ang case set gi-load sa sinugdanan sa matag run ug ang configuration gi-log alang sa transparency. Ang distribusyon sa cohort pinaagi sa content area gipakita sa ubos.

Endocrinology 23,900 ka mga kaso (23.9%) Thyroid, PCOS, vitamin D, gonadal axis, pituitary

Metabolic medicine 21,900 ka mga kaso (21.9%) T2DM, metabolic syndrome, lipid panels, hyperuricaemia

Hematology 15,400 ka mga kaso (15.4%) Microcytic ug macrocytic differentials, B12/folate, iron studies

Hepatology 12,400 ka mga kaso (12.4%) NAFLD/NASH, viral hepatitis, FIB-4, cholestasis

Internal medicine (lakip ang trap subset) 9,000 ka mga kaso (9.0%) Mixed presentations ug 8,723 nakadiskubreng hyperdiagnosis trap nga mga kaso

Cardiology 7,500 ka mga kaso (7.5%) ASCVD risk, atherogenic dyslipidaemia, hs-CRP

Rheumatology 6,000 ka mga kaso (6.0%) SLE, RA, vasculitis, autoantibody panels (EULAR/ACR criteria)

Nefrolohiya 4,000 ka mga kaso (4.0%) CKD staging (KDIGO), mga uso sa eGFR, electrolyte disturbance

Sintetikong distribusyon sa label sa bansa — top 10 nga mga label

Ang 100,000 sintetikong mga kaso nagdala og 127 nga mga label sa bansa (ISO 3166-1 alpha-2) aron ma-exercise ang locale handling. Pagtalaga sa label: Europe 57.7%, ang Americas 25.4%, Asia-Pacific 6.2%, mga ngalan nga Middle-East/Africa labels 3.4%, ug usa ka long tail sa 97 pa nga mga label nga halos 7.3% nga hiniusa. Ang napulo ka labing kasagaran nga mga label base sa gidaghanon sa kaso mao ang United States (10,500), Brazil (9,500), Spain (9,000), Italy (8,000), Germany (7,800), France (7,400), Portugal (5,800), Türkiye (3,400), United Kingdom (2,900), ug Mexico (2,500). Ang per-label nga komposit nga mga marka nagkalahi gikan sa 0.9971 ngadto sa 0.9985. Kining mga gidaghanon sa label mga kabtangan sa mga ginmugna nga kaso nga gigamit aron ma-exercise ang locale handling — dili kini tinuod nga mga user ug dili usab tinuod nga geographic coverage.

Ang pre-registered rubric, gipasabot

Ang pre-registration mao ang labing importante nga pagpili sa metodolohiya sa maong benchmark. Ang matag gipaabot nga diagnosis, ang matag clinical scoring system, ug ang matag seksyon sa report gi-commit sa source code sa wala pa tawgon ang engine. Busa, ang post-hoc tuning sa rubric aron paboran ang engine dili mahimo.

Tulo ka komponent ang naglangkob sa composite score. Ang structural component nag-amot og 35 porsyento ug nagtan-aw kon ang engine ba mibalik sa pito ka mandatory nga report sections (header, summary, key findings, differential, scoring systems, recommendations, follow-up) ug ang labing-16 ka mandatory nga subsections sulod niini. Ang presensya sa seksyon nagkantidad og 40 porsyento ug ang presensya sa subsection nagkantidad og 60 porsyento sulod sa structural calculation.

Ang clinical component nag-amot og 55 porsyento ug naghiusa og tulo ka butang: diagnosis-keyword recall (70 porsyento sa clinical sub-score), scoring-system recall (20 porsyento — kon ang engine ba nagkalkula sa Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR criteria kung may kalabutan), ug usa ka probability-sum validity check (10 porsyento — ang differential probabilities kinahanglan mo-sum sulod sa interval nga [90, 110]). Alang sa trap cases, usa ka klaro nga hyperdiagnosis penalty hangtod sa 0.30 ang ibawas, gikalkula nga 0.10 kada fabricated pathology flag, ug gi-cap sa tulo ka flags.

Ang latency component nag-amot og 10 porsyento. Ang response nga ubos sa 20 segundos makakuha og bug-os nga 0.10, ang ubos sa 40 segundos makakuha og 0.05, ug ang bisan unsa nga mas hinay makakuha og zero. Ang target nga 20 segundos nagpakita sa production primary-path service-level objective; ang 40-seconds nga kisame nagpakita sa Phase 2 nga fallback budget alang sa mabug-at nga engine invocations.

Unsa ang gipugngan sa pre-registration

Ang first-party benchmarks nailhan nga makapadako sa ilang kaugalingong mga numero pinaagi sa post-hoc rubric tuning. Ang pattern halos kanunay pareho: ang team magpadagan sa engine, makita kung asa sila kulang, dayon hilom nga i-adjust ang rubric aron ang mga lugar nga nag-underperform maihap nga gamay ra. Pinaagi sa pag-commit sa rubric sa source code sa wala pa ang unang engine call ug pag-publish sa harness ilalom sa MIT licence, ang maong adjustment makita na sa version control. Bisan kinsa makakopya sa repository, makatan-aw sa mga petsa sa pag-author sa rubric, ug makabaton og pag-verify nga ang mga resulta sa engine wala gigamit aron hubaron ang scoring.

Mga kaso sa hyperdiagnosis trap — ngano nga ang sobra nga pagtag-an mao ang tinuod nga failure mode

Ang agresibong pag-over-calling sa pathology sa normal nga screens usa ka dokumentadong failure mode sa consumer-facing medical assistants. Ang downstream nga gasto naglakip og dili kinahanglan nga imbestigasyon, kabalaka sa pasyente, ug iatrogenic workup. Ang duha ka trap cases sa maong benchmark gidisenyo aron makita ug ma-scoreable ang maong failure mode.

🟡 Trap 1 — BT-014-GILBERT

Presentasyon. Usa ka 24-anyos nga lalaki nga adunay total bilirubin nga 2.4 mg/dL. Ang direct fraction normal, ang transaminases ug alkaline phosphatase naa sulod sa ilang reference ranges, ang reticulocytes dili makapahibalo, ug ang haptoglobin ug LDH nagwagtang sa haemolysis.

Sakto nga pagsabot sa resulta. Gilbert's syndrome — usa ka benign UGT1A1 polymorphism. Ang interpretasyon dili kinahanglan mag-invoke og hepatitis, cirrhosis, haemolytic anaemia, o biliary obstruction.

Resulta sa V11. Composite 1.000. Wala sa unom ka monitored over-diagnosis flags ang mitungha isip active diagnoses.

🟡 Trap 2 — BT-015-HEALTHY

Presentasyon. Usa ka 35-anyos nga babaye nga adunay 15-parameter nga routine screening panel. Ang matag analyte komportable nga naa sulod sa iyang reference range.

Sakto nga pagsabot sa resulta. Paghatag og kahupayan ug pagpadayon sa estilo sa kinabuhi. Ang pagsabot kinahanglan dili maghimo og borderline nga patolohiya aron lang mahimong makalingaw sa klinikal nga gamit.

Resulta sa V11. Komposit 1.000. Wala sa pito ka gi-monitor nga over-diagnosis flags—diabetes, anemia, hypothyroidism, dyslipidaemia, hepatitis, sakit sa kidney, kakulangan—ang mitungha isip aktibong diagnosis.

Sa duha ka traps, napulo’g tulo ka gi-monitor nga hyperdiagnosis flags ang gisusi. Wala’y usa ang na-trigger. Kini ang resulta nga labing importante para sa bisan unsang clinician nga naghunahuna sa paggamit sa usa ka AI engine isip triage o pre-consultation nga himan: wala gyud kini mag-imbento og sakit kung walay bisan unsa nga naa.

Mentzer index: pagbulag sa kakulangan sa iron gikan sa thalassaemia trait

Ang ikaduhang taas nga bili nga nakit-an may kalabotan sa pagpares sa case BT-001 (iron deficiency anaemia) ug case BT-007 (beta-thalassaemia minor). Pareho silang nagpakita og microcytosis ug usa kini ka nailhan nga babag alang sa mga walay kasinatian nga classifier. Ang Mentzer index, nga gikalkula isip MCV gibahin sa RBC count, molapas sa 13 sa iron deficiency ug mubos sa 13 sa thalassaemia trait.

Sa BT-001, ang pasyente usa ka 34-anyos nga babaye nga adunay hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, ug taas nga TIBC. Ang Mentzer index nga mga 17.7 nagsuporta sa absolute iron deficiency. Sa BT-007, ang pasyente usa ka 28-anyos nga lalaki nga adunay microcytosis (MCV 65.8 fL) apan taas nga RBC count nga 6.2, normal RDW, normal ferritin, ug HbA2 nga 5.6 percent. Ang Mentzer index nga mga 10.6 nagpunting sa thalassaemia trait, ug ang taas nga HbA2 nagpamatuod sa beta-thalassaemia minor.

Iron deficiency anaemia Mentzer > 13 Ubos nga ferritin, ubos nga TSAT, taas nga TIBC, taas nga RDW

Beta-thalassaemia trait Mentzer < 13 Normal nga ferritin, normal nga RDW, taas nga HbA2 (>3.5%), taas nga RBC count

Ang duha ka kaso nakakuha og 1.000. Gi-invoke sa engine ang Mentzer index dayon sa duha ka interpretasyon ug mihatag ang husto nga diagnosis sa matag higayon. Kini ang usa ka pinakaluwas nga resulta sa klinika sa tibuok benchmark, kay ang sayop nga pagklasipikar sa thalassaemia trait isip iron deficiency mosangpot sa dili angay nga paghatag og iron supplementation ug napalangan nga mga oportunidad sa pag-screen sa pamilya, ug ang sayop nga pagklasipikar sa iron deficiency isip thalassaemia naglangan sa dayon nga replacement therapy. Ang among giya sa range sa ferritin nagpatin-aw sa mas lapad nga differential nga konteksto.

Mga per-case nga resulta gikan sa V11 initial reference run (Abril 23, 2026)

Ang orihinal nga V11 reference run sa 15-case proof-of-concept cohort nagsilbi nga metodolohikal nga pundasyon sa Second Update: ang matag detalye sa matag kaso sa ubos nagpakita kung giunsa sa rubric pagdumala sa usa ka tinuod nga response sa makina. Napulo’g duha sa napulo’g lima ka mga kaso nakab-ot ang ceiling composite score nga 1.000 sa primary path; tulo ka mga kaso ang giservihan pinaagi sa Phase 2 fallback, nawad-an sa 0.05 latency bonus samtang gipreserbar ang tanan nga klinikal ug structural nga sulod. Usa ka kaso ang kulang sa usa ka mandatory nga subsection; ang usa nagbalik og marginally reduced probability distribution sum.

Case ID Specialty Composite Latency Path

BT-001-IDAHematology1.00017.8 sprimary

BT-006-B12Hematology1.00018.4 sprimary

BT-007-THALHematology1.00017.0 sprimary

BT-002-HASHEndocrinology0.95037.0 sfallback

BT-008-PCOSEndocrinology0.98718.6 sprimary

BT-003-T2DMMetaboliko1.00019.1 sprimary

BT-013-GOUTMetaboliko1.00019.4 sprimary

BT-004-NAFLDHepatology1.00019.6 sprimary

BT-009-VIRHEPHepatology0.95023.4 sfallback

BT-014-GILBERTTrap1.00018.9 sprimary

BT-005-CKDNefrolohiya1.00017.4 sprimary

BT-010-ASCVDCardiology1.00019.7 sprimary

BT-011-SLERheumatology0.98118.2 sprimary

BT-012-VITDEndocrinology1.00019.3 sprimary

BT-015-HEALTHYTrap1.00018.7 sfallback

Ang kaso sa PCOS (BT-008) nawala ug usa ka mandatory nga subseksyon sa istruktura sa tubag—napulo’ ug lima sa napulo’ ug unom imbis nga napulo’ ug unom sa napulo’ ug unom—nga nagputol sa structural score gikan sa 1.000 ngadto sa 0.963. Ang kaso sa SLE (BT-011) mibalik ug gamay’ng pagkunhod sa kabuuan sa probability-distribution nga nagpaubos sa clinical score ngadto sa 0.965 samtang gihuptan ang matag diagnostic keyword ug scoring system. Wala’y bisan usa sa duha ka sub-perfect nga kaso nga nakalimot sa husto nga diagnosis.

V11 Second Update aggregate — 100,000 ka kaso

Sa sukod sa populasyon, ang tagsa-tagsa nga mga row sa kaso dili mabasa sa tawo, mao nga ang Ikaduhang Update nagreport og aggregated metrics imbis nga usa ka 100,000-row nga lamesa. Ang headline aggregate gipakita sa ubos; ang per-specialty ug per-country-label breakdowns gipatik sa teknikal nga report ug sa Figshare deposit. Usa ka stratified random sample sa n = 201 raw engine responses (deterministic seed 20260426) gipatik sa GitHub results/ directory alang sa pag-inspeksyon.

Composite score V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 sa tibuok 100,000-case cohort

Structural score (mean) V11 initial: 0.998 → Second Update: 1.000 Hingpit nga pagsunod sa structural sa sukod sa populasyon

Clinical score (mean) V11 initial: 0.998 → Second Update: 0.996 −0.002; walay usa ka kaso nga na-miss ang mismong diagnosis

Latency — mean (range) V11 initial: 20.17 s (17.0–37.0 s) → Ikaduhang Update: 13.26 s (9.0–16.94 s) Mga optimisations sa production engine tali sa mga run

Engine path = primary V11 initial: 12 / 15 → Ikaduhang Update: 100,000 / 100,000 Wala kinahanglan ang Phase 2 fallback bisan unsang punto sa panahon sa run

Mga flag sa trap-subset hyperdiagnosis V11 initial: 0 / 13 → Ikaduhang Update: 0 / 87,412 Walay false-positives sa population scale (8,723 ka trap cases nga gi-monitor)

Unsa ang dili isulti sa headline nga score kanato

Usa ka komposit nga marka nga 99.80 porsyento sa ilalum niini nga partikular nga pre-registered rubric, sa usa ka 100,000-case nga sintetikong cohort nga naglangkob sa 127 nga mga label sa bansa, nagpasabot og hapit-ceiling nga performance — apan kinahanglan kini nga ma-frame pag-ayo. Ang resulta naghulagway sa pamatasan sa engine batok sa rubric nga among gisaad sa source code sa V11; dili kini usa ka universal nga pag-angkon mahitungod sa katukma sa engine sa matag blood test panel nga anaa sa tinuod nga kalibutan.

Ang score nag-ingon nga husto nga giatubang sa engine ang mga diagnostic pattern nga gipili alang niining pag-evaluate sa tibuok population-scale nga cohort, sa usa ka methodology nga gi-publish ug ma-reproduce. Dili kini nag-ingon nga husto ang engine sa matag blood test panel nga anaa sa tinuod nga kalibutan. Dili usab kini nag-ingon nga kinahanglan ilisan sa engine ang paghukom sa clinician. Ug dili usab kini nag-ingon nga mas maayo pa ang engine kaysa sa alternative nga AI systems — ang comparative analyses batok sa ubang engines gi-sadya nga wala sakop sa niini nga report.

Ang klaro nga gitukod sa score mao ang baseline. Kung ang rubric ug harness public na, ang mga sunod nga bersyon sa engine mahimong i-evaluate batok sa parehas nga rubric — nga i-apply sa V11 initial 15 ka kaso, sa Ikaduhang Update 100,000-case nga cohort, o bisan unsang sunod nga pagpalapad — ug ang kal-ang tali sa gi-publish nga score ug bisan unsang sunod nga run kay masusukod mismo. Mao kini ang bili sa pre-registration: kini nag-ilis sa mga pag-angkon sa performance ngadto sa mga pag-angkon nga masusi.

Unsaon pag-usab pagpadagan niini nga benchmark sulod sa 10 minutos

Ang reproduction nanginahanglan ra ug usa ka Kantesti API credential pair ug usa ka Python 3.10 o mas bag-ong environment nga adunay ang requests ug reportlab nga mga library nga na-install. Ang tibuok harness usa ra ka single nga self-contained Python module nga gipagawas ilalom sa MIT licence.

💻 GitHub MIT-licensed harness · raw responses · reference run 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · canonical academic record 🎓 ResearchGate Publication 404175463 · V11 Second Update · academic discovery layer 📄 Academia.edu Paper 165956808 · V11 Second Update · academic discovery layer

Upat ka lakang alang sa bag-ong run

Usa. I-clone ang repository: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Ikaduha. I-install ang mga dependency gamit ang pip install -r requirements.txt (Ang Ikaduhang Update nagdugang ug mysql-connector-python ≥ 8.0 para sa SQL case loader). Tulo. I-set KANTESTI_USERNAME ug KANTESTI_PASSWORD isip mga environment variables alang sa engine API. Para sa Ikaduhang Update SQL case loader, i-set usab ang KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ug KANTESTI_DB_PASSWORD — ang loader nagkonektar pinaagi sa usa ka read-only nga role (bench_reader) nga walay mga pribilehiyo sa pag-ila sa mga lamesa. Apat. Patakboka python benchmark_bloodtest.py --limit 100000 alang sa bug-os nga Second-Update run, o python benchmark_bloodtest.py --limit 1000 para sa paspas nga pag-iterate. Ang mga output moadto sa ./benchmark_results/: usa ka CSV scorecard nga adunay per-country-label ug per-specialty nga mga column, usa ka JSON aggregate, usa ka stratified-random raw-response sample, ug usa ka Markdown report.

Ang mga reference run gikan sa 23 Abril 2026 (V11 initial, 15 ka kaso) ug 26 Abril 2026 (V11 Second Update, 100,000 ka kaso) gitipigan sa results/ direktoryo sa repository. Ang bag-ong run mohatag ug bag-ong timestamped scorecard samtang biyaan ang mga reference run nga dili mausab. Kung ang imong run makahatag ug klarong lahi nga resulta, palihog ablihi ang usa ka GitHub issue uban sa run timestamp ug ang engine version nga gibalik sa response metadata.

Mga limitasyon ug umaabot nga trabaho

Bisan pa sa 100,000 ka kaso sa 127 country labels, upat ka limitasyon ang angay ipahayag nga klaro: long-tail label undersampling, single-shot evaluation, single-engine scope, ug single-source data origin. Ang matag usa niini giatubang sa aktibong follow-up nga trabaho.

Long-tail label coverage. Ang Second Update naglangkob sa 127 country labels, apan ang distribusyon dili balanse — ang top 10 nga mga label naglangkob ug ≈66.4% sa mga kaso, ug ang long tail sa 97 dugang nga mga label naghatag ug ≈7.3% (mga ~7,300 ka kaso sa kinatibuk-an, ~75 ka kaso kada label sa aberids). Busa, ang per-label composites sa niini nga long tail mas maingay kaysa sa gisugyot sa headline figures. Ang sunod nga mga run mag-rebalance sa label assignment aron mapalig-on ang per-label nga mga estimasyon.

Single-shot evaluation. Ang matag kaso sa cohort gi-evaluate kausa ra. Ang mga large language model nagpakita ug dili-trivial nga output variance bisan sa ubos nga sampling temperature, mao nga ang multi-run nga protocol nga adunay lima ka evaluations kada kaso ug gireport nga variance usa ka natural nga sunod nga lakang — ilabina sa trap-case subset, diin ang consistency sa sampling jitter bahin sa safety claim.

Single-engine scope. Kini nga report naglarawan sa usa ka engine. Ang comparative analyses batok sa ubang AI systems wala sa sakup dinhi; mahimo namo kini i-pursue isip usa ka bulag nga independent study nga adunay angay nga methodology, batok sa parehas nga MIT-licensed harness.

Synthetic data. Ang 100,000 ka kaso gi-synthetically generated, dili synthetic cases, ug ang mga resulta dili mo-transfer sa tinuod nga clinical performance. Ang evaluation sa tinuod, adunay consent, externally-sourced nga data manginahanglan ug angay nga ethical oversight ug wala sa sakop sa niini nga synthetic benchmark.

Labaw pa niining upat, ang labing makapabug-at nga giplano nga extension mao ang multi-language parity per jurisdiction. Ang Kantesti AI Engine nagserbisyo sa mga user sa 75+ nga mga pinulongan, ug ang pagpatuman sa language-stratified Second-Update sub-cohorts (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) mag-quantify sa output quality sa tibuok nga suportado nga mga pinulongan sa engine. Ang matag language-stratified nga analysis ipatik sa kaugalingon nitong DOI ug harness branch.

Sulayi ang Samang Engine nga Nakab-ot ang 99.80% Composite Score sa 100,000 ka Kaso

I-upload ang imong kaugalingong blood test panel sa parehas nga production endpoint nga gi-evaluate sa niini nga benchmark. Kapin sa 2 million nga mga user sa tibuok kalibotan ang naggamit sa Kantesti AI Engine aron mosabot ug mag-interpret sa kapin sa 15,000 nga biomarkers sa 75+ nga mga pinulongan.

🔬 Sulayi ang Libre nga Demo

Ekstensyon sa Chrome Tindahan sa App Google Play

📚 Unsaon Pag-sit sa Kini nga Benchmark

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Technical Report V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Mga external nga methodological references

Mentzer, W. C. (1973). Differentiation of Iron Deficiency from Thalassaemia Trait. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 European League Against Rheumatism / American College of Rheumatology Classification Criteria for Systemic Lupus Erythematosus. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medical Domain Hallucination Test for Large Language Models. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Composite Score

100,000Cases Scored

127Country Labels Covered

0 / 87,412Trap False-Positives

Kanunay nga Gipangutana nga mga Pangutana

Unsa ka tukma ang Kantesti AI Engine sa mga synthetic test case?

Sa usa ka pre-registered nga rubric, nga gi-run sa 100,000 ka synthetically generated nga test cases sa walo ka content areas ug 127 country labels (V11 Second Update), ang engine nakaabot ug composite score nga 99.80 percent, nga walay bisan usa ka hyperdiagnosis flags sa 87,412 nga monitored trap-case opportunities ug mean response latency nga 13.26 segundos. Kini nga composite nagasukod sa output conformance sa synthetic inputs, dili sa diagnostic accuracy. Ang orihinal nga V11 release naggamit sa parehas nga rubric sa 15 ka hand-constructed nga mga kaso (composite 99.12%); ang Second Update nagpadayon sa rubric nga byte-identical ug gipalapdan kini ngadto sa mas dako nga synthetic cohort. Ang kompleto nga scorecard gipatik sa Figshare ubos sa DOI 10.6084/m9.figshare.32095435 ug sa GitHub ubos sa MIT licence.

Na-clinically validated ba ang Kantesti AI Engine?

Dili. Ang engine gi-evaluate gamit ang automated technical benchmark (dili clinical validation), batok sa usa ka rubric nga gi-freeze sa source code sa wala pa ang V11 initial run ug giingon nga byte-identical alang sa V11 Second Update, gi-evaluate sa 100,000 ka synthetic blood-test cases sa hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology, ug internal medicine, nga gikuha gikan sa 127 country labels. Ang clinical oversight gihatag ni Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321), board-certified clinical hematologist ug Chief Medical Officer sa Kantesti AI.

Unsa man ang usa ka hyperdiagnosis trap case?

Ang hyperdiagnosis trap case kay usa ka klinikal nga sitwasyon nga espesipikong gidisenyo aron mahibaw-an ang pamatasan sa over-diagnosis sa mga AI engine. Ang V11 initial benchmark gigamit ug duha ka ingon nga mga kaso isip methodological proof-of-concept: usa ka isolated nga indirect hyperbilirubinaemia nga nahiuyon sa Gilbert's syndrome ( diin ang husto nga pagsabot kay ang mapahitas-on nga UGT1A1 polymorphism imbis nga hepatitis o haemolysis ) ug usa ka hingpit nga normal nga adult screening panel ( diin ang husto nga output kay pagpasalig imbis nga usa ka gihimo nga borderline nga pathology ). Ang V11 Second Update gi-scale kini nga trap-case methodology ngadto sa usa ka dedicated nga subset nga 8,723 ka mga kaso nga naghatag ug 87,412 nga monitored hyperdiagnosis flag opportunities — ug ang false-positive rate sa makina nagpabilin nga zero.

Mahimo ba nga maulit ug makab-ot ang parehas nga resulta sa pag-evaluate sa Kantesti AI Engine?

Ang kompleto nga evaluation harness gi-release ubos sa MIT licence isip usa ka single nga self-contained Python module. Ang V11 initial run nanginahanglan ra ug usa ka Kantesti API credential pair ug Python 3.10 o mas bag-o. Ang V11 Second Update nagdugang ug parameterised, read-only nga SQL case loader nga nanginahanglan ug Kantesti clinical-repository credentials (a bench_reader role nga walay pribilehiyo sa pag-ila sa mga table). Ang code, ang SQL sa case loader, ang rubric (byte-identical tali sa mga release), ug usa ka stratified random sample sa raw nga engine responses gikan sa parehong V11 initial ug Second Update reference runs anaa sa github.com/emirhanai/kantesti-blood-test-benchmark ug gi-mirror sa Figshare, ResearchGate, ug Academia.edu.

Giunsa sa Kantesti AI Engine pagbulag ang kakulangan sa puthaw gikan sa beta-thalassemia trait?

Gigamit sa makina ang Mentzer index, nga gikalkula isip mean corpuscular volume nga gibahin sa ihap sa red blood cell. Ang Mentzer index nga labaw sa 13 nagsuporta sa iron deficiency anaemia, samtang ang kantidad nga ubos sa 13 nagsuporta sa beta-thalassaemia trait. Sa V11 initial benchmark, ang duha ka presentasyon gi-classify nga husto pinaagi sa klaro nga Mentzer index calculation, nga gisuportahan sa ferritin, RDW, ug HbA2 nga konteksto. Sa tibuok V11 Second Update 100,000-case cohort, ang parehas nga differential nga pamatasan napanalipdan sa lebel sa populasyon.

Asa nako makit-an ang hilaw nga benchmark data ug source code?

Ang technical report gi-deposit sa Figshare ubos sa DOI 10.6084/m9.figshare.32095435 (naglangkob sa parehong V11 initial release ug V11 Second Update), gi-mirror sa ResearchGate publication 404175463 ug Academia.edu paper 165956808 — pareho nga gi-update sa titulo sa V11 Second Update ug 100,000-case results — ug ang MIT-licensed Python harness uban sa tanan nga reference run results anaa sa github.com/emirhanai/kantesti-blood-test-benchmark. Ang upat-ka-platform nga mirror network nagsiguro sa long-term nga availability ug flexibility sa citation.

Ngano nga importante ang pre-registration para sa AI medical benchmarks?

Gipugngan sa pre-registration ang post-hoc rubric tuning, nga mao ang pinakakasagaran nga paagi nga gipadako sa mga company-run benchmarks ang ilang kaugalingong mga numero. Pinaagi sa pag-commit sa rubric sa source code sa wala pa ang bisan unsang engine call ug pag-publish sa harness sa publiko, ang petsa sa rubric author mahimong ma-inspect sa version control, ug ang mga resulta sa engine dili makaimpluwensya sa mga pamantayan sa pag-score.

Naa ba ani nga benchmark ang mga comparison sa ubang AI engines?

Dili. Ang V11 report — parehong initial release ug Second Update — sadyang naglarawan sa usa ka single nga engine batok sa usa ka fixed rubric imbis nga iposisyon kini batok sa mga alternatibong commercial system. Ang harness open source ubos sa MIT licence (karon naglakip sa SQL case loader), mao nga ang independent nga mga researcher makaevaluate sa bisan unsang engine nga ilang pilion batok sa parehas nga rubric ug case loader ug mapublish ang ilang mga resulta.

Tinuod ba o synthetic ang mga patient cases?

Ang tanan nga mga kaso synthetically generated — 15 ka hand-constructed nga mga kaso sa V11 initial release ug 100,000 sa Second Update. Dili kini synthetic cases: walay synthetic data, walay consent process, ug walay de-identification nga nalambigit, kay walay personal data nga anaa sa cohort. Walay personal data nga makita sa published harness, technical report, o sa released datasets.

⚕️ Medical Disclaimer & Conflict of Interest

Kini nga report sa benchmark para sa panukiduki ug metodolohikal nga transparency. Dili kini nagpasabot ug medikal nga tambag, dili usa ka diagnosis, ug dili kapuli sa propesyonal nga pag-atiman sa panglawas; walay bisan unsang resulta dinhi nga dapat gamiton aron mapalangan o malikayan ang pagpakonsulta sa doktor. Kanunay mokonsulta sa usa ka kwalipikado nga healthcare provider alang sa mga desisyon sa diagnosis ug pagtambal. Kini usa ka self-run internal benchmark sa kaugalingong engine sa kompanya ug wala pa kini maindependeng mapamatud-an o ma-peer-review. Ang composite score nag sukod sa pagsunod sa usa ka fixed rubric (report structure, keyword ug scoring-system recall, ug latency); dili kini usa ka sukatan sa tinuod nga diagnostic accuracy sa tinuod nga kalibutan o klinikal nga kaluwasan. Ang duha ka tagsulat empleyado sa ug adunay equity sa Kantesti Ltd, ug ang engine nga gi-evaluate usa ka komersyal nga produkto sa mao ra nga organisasyon. Kini nga conflict of interest gipamenosan pinaagi sa pag-pre-register sa rubric sa source code, pagpagawas sa harness ilalom sa MIT licence, ug pagmantala sa usa ka stratified random sample sa hilaw nga mga tubag sa engine.

Mga E-E-A-T Trust Signals

⭐

Kasinatian

15+ tuig nga klinikal nga hematology ug laboratory medicine practice nga nagdumala sa pagpili sa case panel.

📋

Kahanas

Pre-registered rubric design nga adunay klaro nga hyperdiagnosis penalties ug nailhan nga clinical scoring systems (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Pagka-awtorisado

Lead author nga si Dr. Thomas Klein, MD (ORCID 0009-0009-1490-1321). Implementasyon ni Julian Emirhan Bulut, CEO sa Kantesti Ltd.

🛡️

Kasaligan

MIT-licensed nga reproducible harness, gi-publish ang raw engine responses, open nga conflict-of-interest disclosure, upat-ka-platform nga research mirror network.

🏢 Kantesti LTD Rehistrado sa England & Wales · Company No. 17090423 London, United Kingdom · kantesti.net