Ngano nga naa kini nga benchmark ug unsa ang gisulayan niini
Ang AI-assisted nga pagsabot sa resulta sa blood test kay nagagamit na sa mas daghang consumer ug clinical workflows, apan ang mga framework nga ma-reproduce ug gipahiangay sa laboratory medicine dili pa kasagaran. Ang mga pangutana nga labing importante sa maong kahimtang dili mao kadtong gitabonan sa general nga medical question-answering benchmarks: makabahin ba ang usa ka engine sa iron deficiency gikan sa thalassaemia trait kung parehas ang mean corpuscular volume, nag-over-diagnose ba kini og Gilbert's syndrome isip hepatitis, ug naghimo ba kini og pathology sa usa ka hingpit nga normal nga screening panel?
Ang usa ka single nga blood test panel kasagaran adunay igo nga signal aron masuportahan ang daghang nagkompetensyang interpretasyon, ug ang buluhaton sa nag-interpretar nga clinician mao ang pagtimbang niadtong mga interpretasyon batok sa usag usa imbis nga mangita ug tubag nga sama sa textbook. Ang usa ka engine nga maayo sa mga textbook case mahimo gihapon mapakyas sa mga kaso nga labing importante: ang mga sayop sa differential-diagnosis, ang mga benign variants nga tan-awon nga makalilisang kung mag-inusara, ug ang hingpit nga normal nga mga panel nga makalimbong sa mga confident nga assistant ngadto sa paghimo ug pathology.
Kini nga benchmark gitukod eksakto alang niining mga matang sa kapakyasan. Ang napulog ug lima ka mga kaso gipili alang sa usa ka espesipikong diagnostic nga kabtangan: usa ka iron-deficient microcytosis nga kinahanglan nga lahion gikan sa beta-thalassaemia trait nga adunay parehas nga mean corpuscular volume, usa ka presentation sa Gilbert's syndrome diin ang bugtong abnormalidad mao ang isolated indirect hyperbilirubinaemia, ug usa ka fifteen-parameter screening panel diin ang matag analyte naa sulod sa iyang reference range. Ang rubric nagantus sa mga engine nga nagbasa sa matag kaso base sa kaugalingong kahimtang niini ug nagpanot sa mga engine nga moabot sa usa ka confident nga diagnosis diin walay angay nga ingon niana nga diagnosis.
Ingon ni Thomas Klein, MD, gipili nako ang case panel kay mao kini ang mga pattern nga akong makita nga labing kasagaran masayop sa laboratory-medicine assistants. Ang mahal nga matang sa kapakyasan dili "pagpalya sa usa ka talagsaon nga sakit"—kundi ang paghimo ug routine nga pathology sa mga pasyente nga wala niini. Atong Medical Validation gihulagway sa hub ang mas lapad nga framework; kining panid naghulagway sa V11 initial proof-of-concept ug sa V11 Ikaduhang Update nga nagpalapad niini ngadto sa 100,000 sintetikong mga kaso nga gikuha gikan sa usa ka sintetikong set sa kaso nga naglangkob sa 127 mga label sa bansa — gamit ang parehas nga scoring rubric, byte-identical, ug walay gitugotan nga post-hoc tuning.
Pinakabag-o nga reference run—V11 Second Update (Abril 26, 2026)
Ang reference run sa V11 Second Update niadtong 26 Abril 2026 naghimo og composite score nga 99.80% sa parehas nga pre-registered rubric nga gigamit sa V11 initial release, gi-evaluate sa 100,000 sintetikong mga kaso gikan sa Kantesti sintetikong set sa kaso ug naglangkob sa 127 mga label sa bansa ug mga lengguwahe sa 75+. Ang matag kaso nahuman sa primary path sa engine; ang trap-case hyperdiagnosis flag activations nagpabilin sa 0 / 87,412. Ang orihinal nga V11 run niadtong 23 Abril 2026 naglangkob sa 15 ka hand-curated cases (composite 99.12%) ug nagpamatuod sa rubric; ang Second Update nagpadayon niana nga byte-identical nga rubric ug gipalapdan ang evaluation ngadto sa population-scale cohort.
Ang composite formula naghiusa sa tulo ka components: structural conformance sa pito ka mandatory report sections ug napulog ug unom ka mandatory subsections, katukma sa sulod gisukod isip keyword recall plus scoring-system recall plus usa ka probability-distribution validity check, ug response latency batok sa primary-path service-level target. Ang eksaktong pagbahin gipakita sa rubric formula sa ubos—walay bisan kinsa sa mga timbang o sub-rubrics nga giusab alang sa Second Update.
Ang nahabilin nga 0.20 percentage points sa headroom halos hingpit nga nagbahin ngadto sa clinical sub-score—gamay nga bahin sa mga kaso (panguna sa Hepatology ug Rheumatology) adunay usa ka expected scoring-system keyword nga wala makita sa interpretation sa engine bisan pa husto ang diagnostic content. Wala’y bisan usa ka kaso sa 100,000-case Second-Update cohort nga nakalimot sa mismong diagnosis. Ang latency miayo gikan sa mean nga 20.17 s sa V11 initial release ngadto sa 13.26 s sa Second Update, nagpakita sa mga optimisations sa production engine taliwala sa duha ka run; ang rubric, ang scoring code, ug ang API endpoint wala mausab.
Ang per-label nga komposit nga mga marka nagkalahi gikan sa 0.9971 ngadto sa 0.9985 sa 30 ka labing daghang-representa nga mga label sa bansa. Ang long tail sa 97 pa nga mga label (≈7,300 ka kaso nga hiniusa) wala magpakita og sistematikong pagkunhod. Ang labing kasagaran nga mga label base sa gidaghanon sa kaso mao ang United States (10,500), Brazil (9,500), Spain (9,000), Italy (8,000), Germany (7,800), France (7,400), Portugal (5,800), Türkiye (3,400), United Kingdom (2,900), ug Mexico (2,500).
Gikan sa 15 ka kaso ngadto sa 100,000: ebolusyon sa cohort sa 127 mga label sa bansa
Ang orihinal nga V11 case panel nagtabon sa pito ka espesyalidad — hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology — ug usab duha ka dedicated hyperdiagnosis trap cases, nga ang matag kaso usa ka synthetically generated nga blood-test panel. Ang V11 Ikaduhang Update nagpalapad sa evaluation ngadto sa 100,000 sintetikong mga kaso sa 127 mga label sa bansa, nga gibahin sa walo ka specialty (ang orihinal nga pito plus usa ka dedicated internal-medicine bucket nga mosuhop sa trap subset). Ang parehas nga scoring rubric gigamit nga byte-identical sa duha ka run.
Tungod kay ang tanan nga mga kaso sintetikong ginmugna, walay tinuod nga identifiers nga tangtangon ug walay personal data nga nalambigit. Ang matag sintetikong kaso adunay benchmark-internal nga case code (BT-NNN-LABEL sa V11 initial set, usa ka stable case_uid sa Ikaduhang Update). Walay personal data nga makita bisan asa sa gipatik nga harness, teknikal nga report, o sa mga released dataset.
V11 initial release—15 ka hand-curated cases
Ang orihinal nga V11 case panel gi-hand-curate ni Dr. Thomas Klein aron ma-ehersisyo ang mga diagnostic pattern nga kasagaran mapakyas sa mga assistant sa laboratory-medicine. Ang matag usa sa napulog ug lima ka mga kaso gipili alang sa usa ka espesipikong diagnostic nga kabtangan, nga gilista sa ubos.
Ngano nga kining partikular nga pagbahin-bahin
Ang Hematology nakakuha og tulo ka kaso kay ang microcytic differentials ug macrocytic differentials mao ang pinakadaghan nga “traps” sa tinuod nga praktis sa laboratoryo. Ang Endocrinology nakakuha og tulo kay ang mga presentasyon sa Hashimoto's, PCOS, ug kakulangan sa vitamin D nag-ehersisyo og lain-laing porma sa pagdayagnos (ginadumala sa autoantibody, ginadumala sa ratio sa hormone, ginadumala sa usa ka marker). Ang mga specialty nga usa ra ka kaso gihapon makabuluhan kay ang matag usa sa CKD, ASCVD risk, ug SLE adunay kaugalingong scoring system nga kinahanglan tawgon sa engine (KDIGO staging, ASCVD 10-year risk, ug 2019 EULAR/ACR SLE criteria matag-usa).
V11 Ikaduhang Update — 100,000 sintetikong mga kaso sa 127 mga label sa bansa
Ilisan sa Ikaduhang Update ang orihinal nga V11 hard-coded 15-case nga Python literal gamit ang mas dako, programmatically generated nga sintetikong set sa kaso. Ang case set gi-load sa sinugdanan sa matag run ug ang configuration gi-log alang sa transparency. Ang distribusyon sa cohort pinaagi sa content area gipakita sa ubos.
Sintetikong distribusyon sa label sa bansa — top 10 nga mga label
Ang 100,000 sintetikong mga kaso nagdala og 127 nga mga label sa bansa (ISO 3166-1 alpha-2) aron ma-exercise ang locale handling. Pagtalaga sa label: Europe 57.7%, ang Americas 25.4%, Asia-Pacific 6.2%, mga ngalan nga Middle-East/Africa labels 3.4%, ug usa ka long tail sa 97 pa nga mga label nga halos 7.3% nga hiniusa. Ang napulo ka labing kasagaran nga mga label base sa gidaghanon sa kaso mao ang United States (10,500), Brazil (9,500), Spain (9,000), Italy (8,000), Germany (7,800), France (7,400), Portugal (5,800), Türkiye (3,400), United Kingdom (2,900), ug Mexico (2,500). Ang per-label nga komposit nga mga marka nagkalahi gikan sa 0.9971 ngadto sa 0.9985. Kining mga gidaghanon sa label mga kabtangan sa mga ginmugna nga kaso nga gigamit aron ma-exercise ang locale handling — dili kini tinuod nga mga user ug dili usab tinuod nga geographic coverage.
Ang pre-registered rubric, gipasabot
Ang pre-registration mao ang labing importante nga pagpili sa metodolohiya sa maong benchmark. Ang matag gipaabot nga diagnosis, ang matag clinical scoring system, ug ang matag seksyon sa report gi-commit sa source code sa wala pa tawgon ang engine. Busa, ang post-hoc tuning sa rubric aron paboran ang engine dili mahimo.
Tulo ka komponent ang naglangkob sa composite score. Ang structural component nag-amot og 35 porsyento ug nagtan-aw kon ang engine ba mibalik sa pito ka mandatory nga report sections (header, summary, key findings, differential, scoring systems, recommendations, follow-up) ug ang labing-16 ka mandatory nga subsections sulod niini. Ang presensya sa seksyon nagkantidad og 40 porsyento ug ang presensya sa subsection nagkantidad og 60 porsyento sulod sa structural calculation.
Ang clinical component nag-amot og 55 porsyento ug naghiusa og tulo ka butang: diagnosis-keyword recall (70 porsyento sa clinical sub-score), scoring-system recall (20 porsyento — kon ang engine ba nagkalkula sa Mentzer, FIB-4, HOMA-IR, ASCVD risk, KDIGO staging, EULAR/ACR criteria kung may kalabutan), ug usa ka probability-sum validity check (10 porsyento — ang differential probabilities kinahanglan mo-sum sulod sa interval nga [90, 110]). Alang sa trap cases, usa ka klaro nga hyperdiagnosis penalty hangtod sa 0.30 ang ibawas, gikalkula nga 0.10 kada fabricated pathology flag, ug gi-cap sa tulo ka flags.
Ang latency component nag-amot og 10 porsyento. Ang response nga ubos sa 20 segundos makakuha og bug-os nga 0.10, ang ubos sa 40 segundos makakuha og 0.05, ug ang bisan unsa nga mas hinay makakuha og zero. Ang target nga 20 segundos nagpakita sa production primary-path service-level objective; ang 40-seconds nga kisame nagpakita sa Phase 2 nga fallback budget alang sa mabug-at nga engine invocations.
Unsa ang gipugngan sa pre-registration
Ang first-party benchmarks nailhan nga makapadako sa ilang kaugalingong mga numero pinaagi sa post-hoc rubric tuning. Ang pattern halos kanunay pareho: ang team magpadagan sa engine, makita kung asa sila kulang, dayon hilom nga i-adjust ang rubric aron ang mga lugar nga nag-underperform maihap nga gamay ra. Pinaagi sa pag-commit sa rubric sa source code sa wala pa ang unang engine call ug pag-publish sa harness ilalom sa MIT licence, ang maong adjustment makita na sa version control. Bisan kinsa makakopya sa repository, makatan-aw sa mga petsa sa pag-author sa rubric, ug makabaton og pag-verify nga ang mga resulta sa engine wala gigamit aron hubaron ang scoring.
Mga kaso sa hyperdiagnosis trap — ngano nga ang sobra nga pagtag-an mao ang tinuod nga failure mode
Ang agresibong pag-over-calling sa pathology sa normal nga screens usa ka dokumentadong failure mode sa consumer-facing medical assistants. Ang downstream nga gasto naglakip og dili kinahanglan nga imbestigasyon, kabalaka sa pasyente, ug iatrogenic workup. Ang duha ka trap cases sa maong benchmark gidisenyo aron makita ug ma-scoreable ang maong failure mode.
🟡 Trap 1 — BT-014-GILBERT
Presentasyon. Usa ka 24-anyos nga lalaki nga adunay total bilirubin nga 2.4 mg/dL. Ang direct fraction normal, ang transaminases ug alkaline phosphatase naa sulod sa ilang reference ranges, ang reticulocytes dili makapahibalo, ug ang haptoglobin ug LDH nagwagtang sa haemolysis.
Sakto nga pagsabot sa resulta. Gilbert's syndrome — usa ka benign UGT1A1 polymorphism. Ang interpretasyon dili kinahanglan mag-invoke og hepatitis, cirrhosis, haemolytic anaemia, o biliary obstruction.
Resulta sa V11. Composite 1.000. Wala sa unom ka monitored over-diagnosis flags ang mitungha isip active diagnoses.
🟡 Trap 2 — BT-015-HEALTHY
Presentasyon. Usa ka 35-anyos nga babaye nga adunay 15-parameter nga routine screening panel. Ang matag analyte komportable nga naa sulod sa iyang reference range.
Sakto nga pagsabot sa resulta. Paghatag og kahupayan ug pagpadayon sa estilo sa kinabuhi. Ang pagsabot kinahanglan dili maghimo og borderline nga patolohiya aron lang mahimong makalingaw sa klinikal nga gamit.
Resulta sa V11. Komposit 1.000. Wala sa pito ka gi-monitor nga over-diagnosis flags—diabetes, anemia, hypothyroidism, dyslipidaemia, hepatitis, sakit sa kidney, kakulangan—ang mitungha isip aktibong diagnosis.
Sa duha ka traps, napulo’g tulo ka gi-monitor nga hyperdiagnosis flags ang gisusi. Wala’y usa ang na-trigger. Kini ang resulta nga labing importante para sa bisan unsang clinician nga naghunahuna sa paggamit sa usa ka AI engine isip triage o pre-consultation nga himan: wala gyud kini mag-imbento og sakit kung walay bisan unsa nga naa.
Mentzer index: pagbulag sa kakulangan sa iron gikan sa thalassaemia trait
Ang ikaduhang taas nga bili nga nakit-an may kalabotan sa pagpares sa case BT-001 (iron deficiency anaemia) ug case BT-007 (beta-thalassaemia minor). Pareho silang nagpakita og microcytosis ug usa kini ka nailhan nga babag alang sa mga walay kasinatian nga classifier. Ang Mentzer index, nga gikalkula isip MCV gibahin sa RBC count, molapas sa 13 sa iron deficiency ug mubos sa 13 sa thalassaemia trait.
Sa BT-001, ang pasyente usa ka 34-anyos nga babaye nga adunay hemoglobin 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ferritin 6 ng/mL, ug taas nga TIBC. Ang Mentzer index nga mga 17.7 nagsuporta sa absolute iron deficiency. Sa BT-007, ang pasyente usa ka 28-anyos nga lalaki nga adunay microcytosis (MCV 65.8 fL) apan taas nga RBC count nga 6.2, normal RDW, normal ferritin, ug HbA2 nga 5.6 percent. Ang Mentzer index nga mga 10.6 nagpunting sa thalassaemia trait, ug ang taas nga HbA2 nagpamatuod sa beta-thalassaemia minor.
Ang duha ka kaso nakakuha og 1.000. Gi-invoke sa engine ang Mentzer index dayon sa duha ka interpretasyon ug mihatag ang husto nga diagnosis sa matag higayon. Kini ang usa ka pinakaluwas nga resulta sa klinika sa tibuok benchmark, kay ang sayop nga pagklasipikar sa thalassaemia trait isip iron deficiency mosangpot sa dili angay nga paghatag og iron supplementation ug napalangan nga mga oportunidad sa pag-screen sa pamilya, ug ang sayop nga pagklasipikar sa iron deficiency isip thalassaemia naglangan sa dayon nga replacement therapy. Ang among giya sa range sa ferritin nagpatin-aw sa mas lapad nga differential nga konteksto.
Mga per-case nga resulta gikan sa V11 initial reference run (Abril 23, 2026)
Ang orihinal nga V11 reference run sa 15-case proof-of-concept cohort nagsilbi nga metodolohikal nga pundasyon sa Second Update: ang matag detalye sa matag kaso sa ubos nagpakita kung giunsa sa rubric pagdumala sa usa ka tinuod nga response sa makina. Napulo’g duha sa napulo’g lima ka mga kaso nakab-ot ang ceiling composite score nga 1.000 sa primary path; tulo ka mga kaso ang giservihan pinaagi sa Phase 2 fallback, nawad-an sa 0.05 latency bonus samtang gipreserbar ang tanan nga klinikal ug structural nga sulod. Usa ka kaso ang kulang sa usa ka mandatory nga subsection; ang usa nagbalik og marginally reduced probability distribution sum.
Ang kaso sa PCOS (BT-008) nawala ug usa ka mandatory nga subseksyon sa istruktura sa tubag—napulo’ ug lima sa napulo’ ug unom imbis nga napulo’ ug unom sa napulo’ ug unom—nga nagputol sa structural score gikan sa 1.000 ngadto sa 0.963. Ang kaso sa SLE (BT-011) mibalik ug gamay’ng pagkunhod sa kabuuan sa probability-distribution nga nagpaubos sa clinical score ngadto sa 0.965 samtang gihuptan ang matag diagnostic keyword ug scoring system. Wala’y bisan usa sa duha ka sub-perfect nga kaso nga nakalimot sa husto nga diagnosis.
V11 Second Update aggregate — 100,000 ka kaso
Sa sukod sa populasyon, ang tagsa-tagsa nga mga row sa kaso dili mabasa sa tawo, mao nga ang Ikaduhang Update nagreport og aggregated metrics imbis nga usa ka 100,000-row nga lamesa. Ang headline aggregate gipakita sa ubos; ang per-specialty ug per-country-label breakdowns gipatik sa teknikal nga report ug sa Figshare deposit. Usa ka stratified random sample sa n = 201 raw engine responses (deterministic seed 20260426) gipatik sa GitHub results/ directory alang sa pag-inspeksyon.
Unsa ang dili isulti sa headline nga score kanato
Usa ka komposit nga marka nga 99.80 porsyento sa ilalum niini nga partikular nga pre-registered rubric, sa usa ka 100,000-case nga sintetikong cohort nga naglangkob sa 127 nga mga label sa bansa, nagpasabot og hapit-ceiling nga performance — apan kinahanglan kini nga ma-frame pag-ayo. Ang resulta naghulagway sa pamatasan sa engine batok sa rubric nga among gisaad sa source code sa V11; dili kini usa ka universal nga pag-angkon mahitungod sa katukma sa engine sa matag blood test panel nga anaa sa tinuod nga kalibutan.
Ang score nag-ingon nga husto nga giatubang sa engine ang mga diagnostic pattern nga gipili alang niining pag-evaluate sa tibuok population-scale nga cohort, sa usa ka methodology nga gi-publish ug ma-reproduce. Dili kini nag-ingon nga husto ang engine sa matag blood test panel nga anaa sa tinuod nga kalibutan. Dili usab kini nag-ingon nga kinahanglan ilisan sa engine ang paghukom sa clinician. Ug dili usab kini nag-ingon nga mas maayo pa ang engine kaysa sa alternative nga AI systems — ang comparative analyses batok sa ubang engines gi-sadya nga wala sakop sa niini nga report.
Ang klaro nga gitukod sa score mao ang baseline. Kung ang rubric ug harness public na, ang mga sunod nga bersyon sa engine mahimong i-evaluate batok sa parehas nga rubric — nga i-apply sa V11 initial 15 ka kaso, sa Ikaduhang Update 100,000-case nga cohort, o bisan unsang sunod nga pagpalapad — ug ang kal-ang tali sa gi-publish nga score ug bisan unsang sunod nga run kay masusukod mismo. Mao kini ang bili sa pre-registration: kini nag-ilis sa mga pag-angkon sa performance ngadto sa mga pag-angkon nga masusi.
Unsaon pag-usab pagpadagan niini nga benchmark sulod sa 10 minutos
Ang reproduction nanginahanglan ra ug usa ka Kantesti API credential pair ug usa ka Python 3.10 o mas bag-ong environment nga adunay ang requests ug reportlab nga mga library nga na-install. Ang tibuok harness usa ra ka single nga self-contained Python module nga gipagawas ilalom sa MIT licence.
Upat ka lakang alang sa bag-ong run
Usa. I-clone ang repository: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Ikaduha. I-install ang mga dependency gamit ang pip install -r requirements.txt (Ang Ikaduhang Update nagdugang ug mysql-connector-python ≥ 8.0 para sa SQL case loader). Tulo. I-set KANTESTI_USERNAME ug KANTESTI_PASSWORD isip mga environment variables alang sa engine API. Para sa Ikaduhang Update SQL case loader, i-set usab ang KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ug KANTESTI_DB_PASSWORD — ang loader nagkonektar pinaagi sa usa ka read-only nga role (bench_reader) nga walay mga pribilehiyo sa pag-ila sa mga lamesa. Apat. Patakboka python benchmark_bloodtest.py --limit 100000 alang sa bug-os nga Second-Update run, o python benchmark_bloodtest.py --limit 1000 para sa paspas nga pag-iterate. Ang mga output moadto sa ./benchmark_results/: usa ka CSV scorecard nga adunay per-country-label ug per-specialty nga mga column, usa ka JSON aggregate, usa ka stratified-random raw-response sample, ug usa ka Markdown report.
Ang mga reference run gikan sa 23 Abril 2026 (V11 initial, 15 ka kaso) ug 26 Abril 2026 (V11 Second Update, 100,000 ka kaso) gitipigan sa results/ direktoryo sa repository. Ang bag-ong run mohatag ug bag-ong timestamped scorecard samtang biyaan ang mga reference run nga dili mausab. Kung ang imong run makahatag ug klarong lahi nga resulta, palihog ablihi ang usa ka GitHub issue uban sa run timestamp ug ang engine version nga gibalik sa response metadata.
Mga limitasyon ug umaabot nga trabaho
Bisan pa sa 100,000 ka kaso sa 127 country labels, upat ka limitasyon ang angay ipahayag nga klaro: long-tail label undersampling, single-shot evaluation, single-engine scope, ug single-source data origin. Ang matag usa niini giatubang sa aktibong follow-up nga trabaho.
Long-tail label coverage. Ang Second Update naglangkob sa 127 country labels, apan ang distribusyon dili balanse — ang top 10 nga mga label naglangkob ug ≈66.4% sa mga kaso, ug ang long tail sa 97 dugang nga mga label naghatag ug ≈7.3% (mga ~7,300 ka kaso sa kinatibuk-an, ~75 ka kaso kada label sa aberids). Busa, ang per-label composites sa niini nga long tail mas maingay kaysa sa gisugyot sa headline figures. Ang sunod nga mga run mag-rebalance sa label assignment aron mapalig-on ang per-label nga mga estimasyon.
Single-shot evaluation. Ang matag kaso sa cohort gi-evaluate kausa ra. Ang mga large language model nagpakita ug dili-trivial nga output variance bisan sa ubos nga sampling temperature, mao nga ang multi-run nga protocol nga adunay lima ka evaluations kada kaso ug gireport nga variance usa ka natural nga sunod nga lakang — ilabina sa trap-case subset, diin ang consistency sa sampling jitter bahin sa safety claim.
Single-engine scope. Kini nga report naglarawan sa usa ka engine. Ang comparative analyses batok sa ubang AI systems wala sa sakup dinhi; mahimo namo kini i-pursue isip usa ka bulag nga independent study nga adunay angay nga methodology, batok sa parehas nga MIT-licensed harness.
Synthetic data. Ang 100,000 ka kaso gi-synthetically generated, dili synthetic cases, ug ang mga resulta dili mo-transfer sa tinuod nga clinical performance. Ang evaluation sa tinuod, adunay consent, externally-sourced nga data manginahanglan ug angay nga ethical oversight ug wala sa sakop sa niini nga synthetic benchmark.
Labaw pa niining upat, ang labing makapabug-at nga giplano nga extension mao ang multi-language parity per jurisdiction. Ang Kantesti AI Engine nagserbisyo sa mga user sa 75+ nga mga pinulongan, ug ang pagpatuman sa language-stratified Second-Update sub-cohorts (Turkish, German, Spanish, French, Italian, Portuguese, Arabic, Mandarin) mag-quantify sa output quality sa tibuok nga suportado nga mga pinulongan sa engine. Ang matag language-stratified nga analysis ipatik sa kaugalingon nitong DOI ug harness branch.