Kantesti AI sangoanalizo-benchmark

Aŭtomatigita komparnormo Antaŭregistrita komparnormo V11 Dua ĝisdatigo — aprilo 2026 MIT-permesita Reproduktebla · Malfermitaj datumoj 100K sinteza kohorto · 127 landaj etikedoj

99.80% kompona poentaro laŭ antaŭregistrita rubriko — V11 dua ĝisdatigo, kohorto de 100,000 kazoj tra 127 landaj etikedoj

Antaŭregistrita, rubrik-bazita aŭtomatigita teknika komparnormo de la Kantesti-motoro sur 100,000 sinteze generitaj sangotestaj kazoj etikeditaj per 127 landaj etikedoj. Ĝi mezuras konformecon de eligo, ne diagnozan precizecon. La rubriko estis frostigita en fontkodo antaŭ la komenca liberigo de V11 kaj restis bajt-identa por ĉi tiu dua ĝisdatigo; la taksa aranĝo estas licencita laŭ MIT; stratigita hazarda provaĵo de krudaj motoraj respondoj estas publikigita por inspektado. Ĉiuj kazoj estas sintezaj; neniu persona datumaro estas uzata.

📖 ~14 minutoj 📅 Eldonita la 23-an de aprilo 2026 · Ĝisdatigita la 26-an de aprilo 2026 (V11 Dua ĝisdatigo) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 Publikigita: La 23-an de aprilo 2026 🔄 V11 Dua ĝisdatigo: La 26-an de aprilo 2026 🩺 Medicina revizio: La 26-an de aprilo 2026 ✅ Antaŭregistrita rubriko (bajto-identa) 🔓 Malfermita kodo kaj datumoj

Ĉi tiu aŭtomatigita komparnormo estis desegnita kaj ruliĝita de Julian Emirhan Bulut, Seniora AI-Inĝeniero kaj Ĉefoficisto de Kantesti Ltd. Poentado estas plene aŭtomatigita en fontkodo; la poentadskemo kaj panelo de kazoj estis evoluigitaj kun klinika enigo de D-ro Thomas Klein, MD, Ĉefa Medicina Oficiro ĉe Kantesti AI, kaj reviziitaj de la Kantesti AI Medicina Konsila Komitato. Ĝi estas mem-rulita interna komparnormo, ne sendependa aŭ kunreviziita aŭtomatigita teknika komparnormo.

Ĉefa Aŭtoro kaj Klinika Superrigardo

Tomaso Klein, MD

Ĉefa Medicina Oficisto, Kantesti AI

D-ro Thomas Klein estas estrar-atestita klinika hematologo kaj internisto kun pli ol 15 jaroj da sperto en laboratoriamedicino. Kiel Ĉefa Medicina Oficiro ĉe Kantesti AI, li elektis la kazaron por ĉi tiu komparnormo, reviziis la klinikan enhavon kaj atenditajn respondojn de la sintezaj kazoj, kaj aprobis la antaŭregistritan rubrikon antaŭ la unua alvoko de la motoro.

ORCID 0009-0009-1490-1321 Esplorpordego Google Scholar

Kun-aŭtoro kaj efektivigo

Julian Emirhan Bulut

Altranga AI-Inĝeniero kaj CEO, Kantesti Ltd

Julian Emirhan Bulut estas la fondinto kaj ĉefoficisto de Kantesti Ltd. Li projektis kaj efektivigis la taksadilon — inkluzive de la SQL-kazŝargilo aldonita por la V11 Dua ĝisdatigo — faris la API-integriĝon, kondukis kaj la V11 komencan referencan ruliĝon kaj la V11 Duan ĝisdatigon 100,000-kazan ruliĝon, kaj preparis la statistikan agregadon. Fondinto de la platformo ekde 2019.

GitHub Pri Kantesti

⚡ Rapida Resumo V11 Dua ĝisdatigo — La 26-an de aprilo 2026

99.80% kompozita poentaro sur 100,000 sintezaj sangotestaj kazoj tra ok medicinaj fakoj kaj 127 landaj etikedoj (V11 dua ĝisdatigo).
Neniuj hiperdiaĝnozaj falsaj pozitivoj tra 87,412 monitoritaj okazo-flagaj ŝancoj — sama okazo-flag-metodaro kiel en la V11 komenca, skalita al populacia nivelo.
Antaŭregistrita rubriko frostigita en fontkodo antaŭ la V11 komenca ruliĝo kaj restis bajto-identa por ĉi tiu Dua ĝisdatigo — ne eblis post-hoka agordado.
Mentzer-indekso ĝuste aplikita por distingi fer-mankajn anemiojn de beta-talasemio minor en la V11 komenca eldono; la diferenca konduto estis konservita je populacia skalo.
Nur produktada finpunkto — neniu privilegia vojigo, taksita ekzakte kiel paganta kliento alirus ĝin.
13.26 sekundoj meza latenco fin-al-fina (intervalo 9.0–16.94 s), kun ĉiuj 100,000 kazoj kompletigitaj sur la ĉefa vojo de la motoro.
Sinteza kohorto. 100,000 sinteze generitaj testkazoj ŝargitaj dum rultempo. Neniu sinteza datumaro kaj neniu persona datumaro estas uzataj.
Aparataro kun MIT-permesilo publikigita sur GitHub kun tavolita hazarda specimeno (n = 201) de kompletaj krudaj motoraj respondoj por inspektado.
Figshare DOI: 10.6084/m9.figshare.32095435 · Spegulita sur ResearchGate, Academia.edu, GitHub.

Kial ekzistas ĉi tiu komparnormo kaj kion ĝi testas

AI-helpata interpretado de sangoanalizo estas ĉiam pli uzata en konsumantaj kaj klinikaj laborfluoj, tamen reprodukteblaj taksaj kadroj adaptitaj al laboratoriamedicino restas maloftaj. La demandoj, kiuj plej gravas en ĉi tiu kunteksto, ne estas tiuj kovritaj de ĝeneralaj medicinaj demando-respondo-komparnormoj: ĉu motoro povas apartigi feromankon de talasemio-trajto kiam la meza korpuskula volumeno estas identa, ĉu ĝi tro-diagnostikas Gilbert-malsanon kiel hepatiton, kaj ĉu ĝi fabrikas patologion en plene normala ekzamena panelo?

Ununura panelo de sangoanalizo kutime enhavas sufiĉe da signalo por subteni plurajn konkurantajn interpretojn, kaj la tasko de la interpretanta klinikisto estas pesi tiujn interpretojn unu kontraŭ la aliajn prefere ol serĉi respondon el lernolibro. Motoro kiu bone funkcias en lernolibraj kazoj povas tamen malsukcesi en la kazoj kiuj plej gravas: la kaptiloj de diferenciala diagnozo, la benignaj variantoj kiuj aspektas alarmigaj kiam ili estas izolitaj, kaj la tute normalaj paneloj kiuj tentigas memcertajn asistantojn fabrikadi patologion.

Ĉi tiu benchmark estis konstruita ĝuste ĉirkaŭ tiuj fiaskoreĝimoj. Ĉiu el la kvin-dek kazoj estis elektita por specifa diagnoza propraĵo: fer-manka mikrocitozo kiu devas esti konservita aparta de beta-talasemio-trajto kun identa meza korpuskula volumeno, prezento de sindromo de Gilbert kie la sola anomalio estas izolita nerekta hiperbilirubinemio, kaj kvin-dek-parametra skanada panelo en kiu ĉiu analito troviĝas ene de sia referenca intervalo. La rubriko rekompencas motorojn kiuj legas ĉiun kazon laŭ ĝiaj propraj kondiĉoj kaj punas motorojn kiuj serĉas memcertan diagnozon kiam tia diagnozo ne estas pravigita.

Kiel Thomas Klein, MD, mi elektis la panelon de kazoj ĉar ĉi tiuj estas la ŝablonoj kiujn laboratorimedicinaj asistantoj plej ofte eraras. La multekosta fiaskoreĝimo ne estas "mankanta rara malsano" — ĝi estas fabrikado de rutina patologio ĉe pacientoj kiuj ne havas ĝin. Nia Medicina Validigo la nabo priskribas la pli larĝan kadron; ĉi tiu paĝo priskribas la V11-komencan pruvon de koncepto kaj la V11-duan ĝisdatigon, kiuj skaligis ĝin al 100,000 sintezaj kazoj el sinteza kazaro ampleksanta 127 landajn etikedojn — uzante la saman poentadan rubrikon, bajt-identan, sen permeso por post-hoka agordado.

Plej nova referenca rulo — V11 Dua Ĝisdatigo (la 26-an de aprilo 2026)

La referenca rulo de la V11 Dua Ĝisdatigo de la 26-a de aprilo 2026 produktis kombinitan poentaron de 99.80% sur la sama antaŭregistrita rubriko uzita en la V11 komenca eldono, taksita sur 100,000 sintezaj kazoj el la Kantesti-sinteza kazaro kaj ampleksantaj 127 landajn etikedojn kaj 75+ lingvoj. Ĉiu kazo finiĝis sur la ĉefa vojo de la motoro; trap-kaza hiperdiaĝnosa flago-aktivigoj restis ĉe 0 / 87,412. La originala V11 rulo de la 23-a de aprilo 2026 kovris 15 mane kuratajn kazojn (kombinita 99.12%) kaj validigis la rubrikon; la Dua Ĝisdatigo konservas tiun rubrikon bajt-identa kaj etendas taksadon al populacia-skala kohorto.

Kompozita 99.80% 100,000 el 100,000 kazoj poentitaj

1.000 Struktura poentaro

0.996 Klinika poentaro

13.26 s Meza latenco

0 / 87,412 Kaptilaj falsaj pozitivoj

La kompozita formulo kombinas tri komponantojn: struktura konformeco kun la sep devigaj raportsekcioj kaj dek ses devigaj subsekcioj, enhava precizeco mezurita kiel ŝlosilvorta revoko plus revoko de la poentadsistemo plus validec-kontrolo de probabla distribuo, kaj responda latenco kontraŭ la ĉefa-vojo servnivela celo. La ĝusta malkomponado estas montrita en la rubrika formulo malsupre — neniu el tiuj pezoj aŭ sub-rubriko estis ŝanĝita por la Dua Ĝisdatigo.

Kompozita = 0.35 × Struktura + 0.55 × Klinika + 0.10 × Latenco

La ceteraj 0.20 procentpunktoj da marĝeno malkomponas preskaŭ tute en la klinikan sub-poentaron — malgranda frakcio de kazoj (plejparte en Hepatologio kaj Reŭmatologio) havis unu atenditan ŝlosilvorton de la poentadsistemo forestanta el la interpreto de la motoro, malgraŭ ke la diagnoza enhavo estis ĝusta. Neniu kazo en la 100,000-kaza kohorto de la Dua Ĝisdatigo maltrafis la diagnozon mem. Latenco pliboniĝis de mezumo de 20.17 s en la V11 komenca eldono al 13.26 s en la Dua Ĝisdatigo, reflektante produktajn motorajn optimumigojn inter la du ruloj; la rubriko, la poentada kodo, kaj la API-fina punkto estas senŝanĝaj.

Komponaj poentoj laŭ etikedo variis de 0.9971 ĝis 0.9985 tra la 30 plej-reprezentitaj landaj etikedoj. La longa vosto de 97 pliaj etikedoj (≈7,300 kazoj kune) montris neniun sisteman degradiĝon. La plej oftaj etikedoj laŭ kazokvanto estis Usono (10,500), Brazilo (9,500), Hispanio (9,000), Italio (8,000), Germanio (7,800), Francio (7,400), Portugalio (5,800), Türkiye (3,400), Britio (2,900), kaj Meksiko (2,500).

De 15 kazoj ĝis 100,000: evoluo de la kohorto tra 127 landaj etikedoj

La origina V11-kazpanelo kovris sep fakojn — hematologio, endokrinologio, metabola medicino, hepatologio, nefrologio, kardiologio, reŭmatologio — plus du dediĉitajn hiperdanĝerajn kazojn, kun ĉiu kazo sinteze generita sangotesta panelo. La V11 dua ĝisdatigo etendas taksadon al 100,000 sintezaj kazoj tra 127 landaj etikedoj, distribuitaj en ok fakojn (la originalaj sep plus dediĉita interna-medicina sitelo kiu absorbas la trap-subaron). La sama poentada rubriko estas aplikata bajt-identa tra ambaŭ ruloj.

Ĉar ĉiuj kazoj estas sinteze generitaj, ne ekzistas realaj identigiloj por forigi kaj ne estas implikitaj personaj datumoj. Ĉiu sinteza kazo portas kaz-kodon interne de la komparnormo (BT-NNN-LABEL en la V11-komenca aro, stabila case_uid en la dua ĝisdatigo). Neniuj personaj datumoj aperas ie ajn en la publikigita aranĝo, la teknika raporto, aŭ la eldonitaj datumaroj.

V11 komenca eldono — 15 mane kurataj kazoj

La originala V11-kaza panelo estis mane elektita de d-ro Thomas Klein por ekzerci la diagnozajn ŝablonojn, kiujn laboratorimedicinaj asistantoj plej ofte eraras. Ĉiu el la dek kvin kazoj estis elektita por specifa diagnoza propraĵo, listigita malsupre.

Hematologio (3) BT-001, BT-006, BT-007 Fera manko-anemio · Manko de B12 · Beta-talasemio, minor

Endokrinologio (3) BT-002, BT-008, BT-012 Tiroidito de Hashimoto · PCOS kun insulinrezisto · Grava manko de vitamino D

Metabola (2) BT-003, BT-013 T2DM kun metabola sindromo · Hiperuricemio kun risko de podagro

Hepatologio (2) BT-004, BT-009 NAFLD / NASH · Akuta virusa hepatito

Nefrologio · Kardiologio · Reŭmatologio (3) BT-005, BT-010, BT-011 CKD stadio 3 · Aterogena dislipidemio · Sistema lupo eritematoso

Kaptilkazoj (2) BT-014, BT-015 Sindromo de Gilbert (izolita nerekta hiperbilirubinemio) · Tute normala plenkreska rastrumo

Kial ĝuste tiu ĉi distribuo

Hematologio ricevas tri kazojn, ĉar mikrocitaj diferencialoj kaj makrocitaj diferencialoj estas la plej alt-volumaj kaptiloj en reala laboratoria praktiko. Endokrinologio ricevas tri, ĉar la prezentoj de Hashimoto, PCOS kaj manko de vitamino D ekzercas malsamajn diagnozajn formojn (aŭtoantikorp-movataj, hormon-proporciaj movataj, ununura-signa movata). La unu-kaza specialaĵoj tamen estas signifaj, ĉar ĉiu el CKD, ASCVD-risko kaj SLE havas sian propran poentadsistemon, kiun la motoro devus alvoki (KDIGO-stadiajigo, ASCVD 10-jara risko, 2019 EULAR/ACR SLE-kriterioj respektive).

V11 dua ĝisdatigo — 100,000 sintezaj kazoj tra 127 landaj etikedoj

La dua ĝisdatigo anstataŭigas la originan V11 forte koditan 15-kazan Python-literalon per pli granda, programige generita sinteza kazaro. La kazaro estas ŝargita ĉe la komenco de ĉiu rulo kaj la agordo estas registrita por travidebleco. La kohorta distribuado laŭ enhavareo estas montrita malsupre.

Endokrinologio 23,900 kazoj (23.9%) Tiroido, PCOS, manko de vitamino D, gonada akso, hipofizo

Metabola medicino 21,900 kazoj (21.9%) T2DM, metabola sindromo, lipidaj paneloj, hiperuricemio

Hematologio 15,400 kazoj (15.4%) Mikrocytaj kaj makrocytaj diferencialoj, B12/folato, studoj pri fero

Hepatologio 12,400 kazoj (12.4%) NAFLD/NASH, virusa hepatito, FIB-4, ĥolestazo

Enlanda medicino (inkl. trap-subaro) 9,000 kazoj (9.0%) Miksitaj prezentoj kaj 8,723 dediĉitaj kazoj de hiperdiaĝnostika trap

Kardiologio 7,500 kazoj (7.5%) ASCVD-risko, aterogena dislipidemio, hs-CRP

Reŭmatologio 6,000 kazoj (6.0%) SLE, RA, vaskulito, aŭtoantikorpa paneloj (kriterioj EULAR/ACR)

Nefrologio 4,000 kazoj (4.0%) Stadiado de CKD (KDIGO), tendencoj de eGFR, perturbo de elektrolitoj

Sinteza landa-etiked-distribuo — supraj 10 etikedoj

La 100,000 sintezaj kazoj portas 127 landajn etikedojn (ISO 3166-1 alpha-2) por ekzerci traktadon de lokalo. Etiked-atribuo: Eŭropo 57.7%, la Amerikoj 25.4%, Azio-Pacifiko 6.2%, nomitaj Mezoriento/Afriko-etikedoj 3.4%, kaj longa vosto de 97 pliaj etikedoj entute proksimume 7.3%. La dek plej oftaj etikedoj laŭ kazokvanto estas Usono (10,500), Brazilo (9,500), Hispanio (9,000), Italio (8,000), Germanio (7,800), Francio (7,400), Portugalio (5,800), Türkiye (3,400), Britio (2,900), kaj Meksiko (2,500). Komponaj poentoj laŭ etikedo variis de 0.9971 ĝis 0.9985. Tiuj etikedaj nombroj estas ecoj de la generitaj kazoj uzataj por ekzerci traktadon de lokalo — ili ne estas realaj uzantoj kaj ne estas realmonda geografia kovrado.

La antaŭregistrita rubriko, klarigita

Antaŭregistriĝo estas la ununura plej grava metodika elekto en ĉi tiu komparnormo. Ĉiu atendata diagnozo, ĉiu klinika poentadsistemo, kaj ĉiu raporta sekcio estis engaĝitaj al fontkodo antaŭ ol la motoro estis alvokita. Posta alĝustigo de la rubriko por flati la motoron do estas neebla.

Tri komponantoj konsistigas la kompozitan poentaron. La struktura komponanto kontribuas 35 procentojn kaj mezuras ĉu la motoro resendis la sep devigajn raportaĵojn (kaplinio, resumo, ŝlosilaj trovoj, diferencialo, poentadsistemoj, rekomendoj, sekvado) kaj la dek ses devigajn subsekciojn ene de ili. Sekcia ĉeesto pezas 40 procentojn kaj subsekcia ĉeesto pezas 60 procentojn ene de la struktura kalkulo.

La klinika komponanto kontribuas 55 procentojn kaj kombinas tri aferojn: rememoro de diagnoz-ŝlosilvortoj (70 procentoj de la klinika subpoentaro), rememoro de poentadsistemoj (20 procentoj — ĉu la motoro kalkulas Mentzer, FIB-4, HOMA-IR, ASCVD-risko, KDIGO-stadiajigo, EULAR/ACR-kriteriojn kie konvene), kaj validec-kontrolon de probabla sumo (10 procentoj — la diferencialaj probabloj devas sumiĝi ene de la intervalo [90, 110]). Por kaptilaj kazoj, eksplicita hiperdiaĝnosa puno ĝis 0.30 estas subtrahata, kalkulata kiel 0.10 por ĉiu fabrikita patologia flago, limigata al tri flagoj.

La latencia komponanto kontribuas 10 procentojn. Respondo sub 20 sekundoj ricevas la plenan 0.10, respondo sub 40 sekundoj ricevas 0.05, kaj ĉio pli malrapida ricevas nulo. La 20-sekunda celo reflektas la produktadan primaran servonivelan celon; la 40-sekunda plafono reflektas la Fazon 2-rezervbuĝeton por pezaj alvokoj de la motoro.

Kion antaŭregistriĝo malhelpas

Unuflankaj komparnormoj estas fifamaj pro inflado de siaj propraj nombroj per postaj alĝustigoj de la rubriko. La ŝablono preskaŭ ĉiam estas la sama: la teamo rulas la motoron, vidas kie ĝi subefikas, kaj poste trankvile ĝustigas la rubrikon tiel ke la subefikaj areoj kalkulu por malpli. Per tio, ke la rubriko estas engaĝita al fontkodo antaŭ la unua alvoko de la motoro kaj la testilo estas publikigita sub MIT-licenco, tiu alĝustigo fariĝas videbla en versia administrado. Ĉiu povas kloni la deponejon, kontroli la datojn de la rubrik-aŭtoro, kaj konfirmi ke la rezultoj de la motoro ne estis uzataj por formi la poentadon.

Kazoj de hiperdiaĝnoza kaptilo — kial tro-frazo estas la vera fiaskoreĝimo

Akriga tro-alvoko de patologio sur normalaj ekranoj estas dokumentita fiaskomodo de konsumant-orientitaj medicinaj helpantoj. Ĝiaj postaj kostoj inkluzivas nenecesan esploradon, paciencan angoron, kaj iatrogenan laborprilaboron. La du kaptilaj kazoj en ĉi tiu komparnormo estas desegnitaj por fari tiun fiaskomodon videbla kaj poentebla.

🟡 Kaptilo 1 — BT-014-GILBERT

Prezento. 24-jaraĝa viro kun totala bilirubino de 2.4 mg/dL. La rekta frakcio estas normala, transaminazoj kaj alkala fosfatazo troviĝas ene de siaj referencaj intervaloj, retikulocitoj estas nenotindaj, kaj haptoglobino kaj LDH ekskludas hemolizon.

Ĝusta interpretado. La sindromo de Gilbert — bonigna polimorfismo de UGT1A1. La interpretado ne devus alvoki hepatiton, cirozon, hemolizan anemion, aŭ bilian obstrukcon.

Rezulto de v11. Kompona 1.000. Neniu el la ses monitoritaj flagoj de tro-diagnosado aperis kiel aktiva diagnozo.

🟡 Kaptilo 2 — BT-015-HEALTHY

Prezento. 35-jaraĝa virino kun dek kvin-parametra rutina rastruma panelo. Ĉiu analito komforte troviĝas ene de sia referenca intervalo.

Ĝusta interpretado. Trankviligo kaj prizorgado de vivstilo. La interpretado ne devas inventi liman patologion por soni klinike utila.

Rezulto de v11. Komponita 1.000. Neniu el la sep kontrolitaj flagoj pri troa diagnozado — diabeto, anemio, hipotiroidismo, dislipidemio, hepatito, rena malsano, manko — aperis kiel aktivaj diagnozoj.

En ambaŭ testujoj, dek tri kontrolitaj flagoj pri hiperdiaĝnozado estis kontrolitaj. Neniu estis ekigita. Ĉi tio estas la rezulto, kiu plej gravas por iu ajn klinikisto, kiu konsideras uzi AI-motoron kiel triaĝan aŭ antaŭkonsultan ilon: la sistemo ne inventis malsanon, kie neniu ekzistis.

Mentzer-indekso: apartigado de fera manko de talasemio-trajto

Dua altvalora trovo koncernas la parigon de kazo BT-001 (fermanka anemio) kun kazo BT-007 (beta-talasemio minor). Ambaŭ prezentas kun mikrocitozo kaj estas bone konata obstaklo por naivaj klasigiloj. La Mentzer-indekso, kalkulita kiel MCV dividita per RBC-nombro, superas 13 en fermanka anemio kaj falas sub 13 en talasemio-trajto.

En BT-001, la paciento estis 34-jara virino kun hemoglobino 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, feritino 6 ng/mL, kaj levita TIBC. La Mentzer-indekso de proksimume 17.7 subtenas absolutan feromankon. En BT-007, la paciento estis 28-jara viro kun mikrocitozo (MCV 65.8 fL) sed alta RBC-nombro de 6.2, normala RDW, normala feritino, kaj HbA2 de 5.6 procentoj. La Mentzer-indekso de proksimume 10.6 indikas talasemio-trajton, kaj la levita HbA2 konfirmas beta-talasemion minor.

Fera manka anemio Mentzer > 13 Malalta feritino, malalta TSAT, alta TIBC, levita RDW

Talasemio-trajto (beta-) Mentzer < 13 Normala feritino, normala RDW, levita HbA2 (>3.5%), alta RBC-nombro

Ambaŭ kazoj gajnis 1.000. La motoro eksplicite uzis la Mentzer-indekson en ambaŭ interpretadoj kaj liveris la ĝustan diagnozon en ĉiu okazo. Ĉi tio estas la sola plej klinike trankviliga rezulto en la tuta komparilo, ĉar misklasifiki talasemio-trajton kiel fermanka anemio kondukas al netaŭga feraldono kaj al maltrafitaj ŝancoj por familia ekzamenado, kaj misklasifiki fermankan anemion kiel talasemion prokrastas simpligitan anstataŭan terapion. Nia gvidilo pri feritina gamo klarigas la pli larĝan diferencialan kuntekston.

Rezultoj per kazo el la V11 komenca referenca rulado (la 23-an de aprilo 2026)

La originala V11 referenca rulado sur la 15-kaza pruvo-de-koncepta kohorto servas kiel la metodologia bazo de la Dua Ĝisdatigo: ĉiu detalo per kazo malsupre montras kiel la rubriko traktas realan motoran respondon. Dek du el dek kvin kazoj atingis la plafonan kompozitan poentaron de 1.000 sur la ĉefa vojo; tri kazoj estis servitaj per la Fazo 2-fallback, perdante la 0.05 latencan gratifikon dum konservante ĉiujn klinikajn kaj strukturajn enhavojn. Unu kazo mankis unu devigan subsekcion; unu redonis marĝene reduktitan probablan distribu-sumon.

Kaza ID Fako Kompozita Latenteco Vojo

BT-001-IDAHematologio1.00017.8 sprimara

BT-006-B12Hematologio1.00018.4 sprimara

BT-007-THALHematologio1.00017.0 sprimara

BT-002-HASHEndokrinologio0.95037.0 srezerva

BT-008-PCOSEndokrinologio0.98718.6 sprimara

BT-003-T2DMMetabola1.00019.1 sprimara

BT-013-GOUTMetabola1.00019.4 sprimara

BT-004-NAFLDHepatologio1.00019.6 sprimara

BT-009-VIRHEPHepatologio0.95023.4 srezerva

BT-014-GILBERTKaptilo1.00018.9 sprimara

BT-005-CKDNefrologio1.00017.4 sprimara

BT-010-ASCVDKardiologio1.00019.7 sprimara

BT-011-SLEReŭmatologio0.98118.2 sprimara

BT-012-VITDEndokrinologio1.00019.3 sprimara

BT-015-SANaKaptilo1.00018.7 srezerva

La kazo de PCOS (BT-008) perdis unu devigan subsekcion en la responda strukturo — dek kvin el dek ses anstataŭ dek ses el dek ses — kio reduktis la strukturpoentaron de 1.000 al 0.963. La kazo de SLE (BT-011) redonis marĝene reduktitan probablodistribuan sumon, kiu malaltigis la klinikan poentaron al 0.965, konservante ĉiun diagnozan ŝlosilvorton kaj poentadsistemon. Nek el la subperfektaj kazoj maltrafis ĝustan diagnozon.

V11 Dua Ĝisdatigo agrega — 100,000 kazoj

Je populacia skalo, individuaj kazaj vicoj ne estas homlegeblaj, do la dua ĝisdatigo raportas agregitajn metrikojn anstataŭ tablon de 100,000 vicoj. La ĉefa agregato estas montrita malsupre; detaloj laŭ fako kaj laŭ landa etikedo estas publikigitaj en la teknika raporto kaj en la Figshare-deponaĵo. Stratigita hazarda provaĵo de n = 201 krudaj motoraj respondoj (determinisma semo 20260426) estas publikigita en la GitHub results/ dosierujo por inspektado.

Kompozita poentaro V11 komenca: 0.9912 (99.12%) → Dua Ĝisdatigo: 0.9980 (99.80%) Δ = +0.0068 tra la 100,000-kaza kohorto

Struktura poentaro (mezumo) V11 komenca: 0.998 → Dua Ĝisdatigo: 1.000 Perfekta struktura konformo je populacia skalo

Klinika poentaro (mezumo) V11 komenca: 0.998 → Dua Ĝisdatigo: 0.996 −0.002; neniu kazo maltrafis la diagnozon mem

Latenteco — mezumo (intervalo) V11 komenca: 20,17 s (17,0–37,0 s) → Dua Ĝisdatigo: 13,26 s (9,0–16,94 s) Optimumigoj de produktada motoro inter ruloj

Motora vojo = primara V11 komenca: 12 / 15 → Dua Ĝisdatigo: 100,000 / 100,000 Neniu Fazo 2-rezerva mekanismo estis bezonata en iu ajn momento dum la rulo

Flago(j) de hiperdetekto por trap-subaro V11 komenca: 0 / 13 → Dua Ĝisdatigo: 0 / 87,412 Neniuj falsaj pozitivoj je populacia skalo (8.723 trap-kazoj monitoritaj)

Kion la ĉefpoentaro ne diras al ni

Kompona poentaro de 99.80 procentoj laŭ ĉi tiu aparta antaŭregistrita rubriko, sur sinteza kohorto de 100,000 kazoj ampleksanta 127 landajn etikedojn, reprezentas preskaŭ-atingon de la plafono — sed ĝi meritas zorgeman kadriĝon. La rezulto priskribas la konduton de la motoro kontraŭ la rubriko, kiun ni engaĝiĝis al fontkodo en V11; ĝi ne estas universala aserto pri la ĝusteco de la motoro por ĉiu sangotesta panelo, kiu ekzistas en la reala mondo.

La poentaro diras, ke la motoro pritraktis la diagnozajn ŝablonojn elektitajn por ĉi tiu taksado ĝuste tra kohorto je populacia skalo, laŭ metodaro kiu estas publikigita kaj reproduktebla. Ĝi ne diras, ke la motoro estas ĝusta por ĉiu sangoanaliza panelo, kiu ekzistas en la reala mondo. Ĝi ne diras, ke la motoro devus anstataŭi klinikan juĝon. Kaj ĝi ne diras, ke la motoro superas alternativajn AI-sistemojn — komparaj analizoj kontraŭ aliaj motoroj estis intence ekster la amplekso de ĉi tiu raporto.

Kion la poentaro ja establas, estas bazo. Kun la rubriko kaj la testilo publike haveblaj, estontaj versioj de la motoro povas esti taksataj kontraŭ la sama rubriko — aplikita al la V11 komencaj 15 kazoj, la Dua Ĝisdatigo 100.000-kaza kohorto, aŭ ajna posta vastiĝo — kaj la breĉo inter la publikigita poentaro kaj iu ajn posta rulo estas mem mezurebla. Jen la valoro de antaŭregistrado: ĝi transformas asertojn pri agado en testeblajn asertojn.

Kiel reprodukti ĉi tiun komparnormon en 10 minutoj

Reproduktado postulas nur paron de Kantesti API-atestiloj kaj Python 3.10 aŭ pli posta medio kun la requests kaj reportlab instalitaj bibliotekoj. La plena testilo estas unuopa, memstara Python-modulo publikigita sub la MIT-licenco.

💻 GitHub Testilo kun MIT-licenco · krudaj respondoj · referenca rulo 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · kanona akademia rekordo 🎓 Esplorpordego Publikaĵo 404175463 · V11 Dua Ĝisdatigo · akademia malkovrotavolo 📄 Academia.edu Artikolo 165956808 · V11 Dua Ĝisdatigo · akademia malkovrotavolo

Kvar paŝoj por nova rulo

Unu. Klonu la deponejon: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Du. Instalu dependecojn per pip install -r requirements.txt (Dua Ĝisdatigo aldonas mysql-connector-python ≥ 8.0 por la SQL-kazŝargilo). Tri. Agordu KANTESTI_USERNAME kaj KANTESTI_PASSWORD kiel mediaj variabloj por la motora API. Por la Dua Ĝisdatigo SQL-kazŝargilo, ankaŭ agordu KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, kaj KANTESTI_DB_PASSWORD — la ŝargilo konektiĝas per nurlega rolo (bench_reader) kiu ne havas privilegiojn por identigi tabelojn. Kvar. Rulu python benchmark_bloodtest.py --limit 100000 por la plena Dua-Ĝisdatiga rulado, aŭ python benchmark_bloodtest.py --limit 1000 por rapida ripetado. Eligoj alvenas en ./benchmark_results/: CSV-poentokarto kun po-lando-po-faka kolumnoj, JSON-aggregato, tavoligita-hazarda kruda-responda provaĵo, kaj Markdown-raporto.

La referencaj ruladoj de la 23-a de aprilo 2026 (V11 komenca, 15 kazoj) kaj la 26-a de aprilo 2026 (V11 Dua Ĝisdatigo, 100,000 kazoj) estas konservitaj en la results/ dosierujo de la deponejo. Nova rulado produktos novan tempomarkitan poentokarton dum la referencaj ruladoj restas netuŝitaj. Se via rulado produktas signife malsaman rezulton, bonvolu malfermi GitHub-eldonaĵon kun la tempomarko de la rulado kaj la motorversio redonita en la responda metadato.

Limigoj kaj estonta laboro

Eĉ ĉe 100,000 kazoj tra 127 landaj etikedoj, kvar limigoj meritas eksplicitan agnoskon: subprovaĵo de longvosta etikedaro, unupafa taksado, ununura-motora amplekso, kaj ununura-fontorigino de datumoj. Ĉiu el tiuj estas traktata en aktiva sekva laboro.

Kovrado de longvosta etikedaro. La Dua Ĝisdatigo ampleksas 127 landajn etikedojn, sed la distribuado estas malekvilibra — la supraj 10 etikedoj respondecas pri ≈66.4% de la kazoj, kaj la longvosto de 97 pliaj etikedoj kune kontribuas ≈7.3% (proksimume 7,300 kazoj entute, ~75 kazoj per etikedo averaĝe). Tial, po-etikedaj kompozitaĵoj en ĉi tiu longvosta parto estas pli bruaj ol sugestas la ĉefaj ciferoj. Estontaj ruloj reekvilibrigos la etikedan asignon por fiksi po-etikedajn taksojn.

Unufoja taksado. Ĉiu kazo en la kohorto estis taksita unufoje. Grandaj lingvomodeloj montras ne-trivialan variadon de eligo eĉ ĉe malalta prova temperaturo, do plur-rula protokolo kun kvin taksadoj per kazo kaj raportita varianco estas natura sekva paŝo — precipe sur la trap-kaza subaro, kie konsistenco sub provaĵa ĝiterado estas parto de la sekureca aserto.

Unu-motora amplekso. Ĉi tiu raporto karakterizas unu motoron. Komparaj analizoj kontraŭ alternativaj AI-sistemoj estas ekster la amplekso ĉi tie; ni povas okupiĝi pri ili kiel aparta sendependa studo kun taŭga metodaro, kontraŭ la sama MIT-permesita testilo.

Sintezaj datumoj. La 100,000 kazoj estas sinteze generitaj, ne sintezaj kazoj, kaj la rezultoj ne transdoniĝas al realmonda klinika agado. Takso sur realaj, konsentitaj, ekstere fontitaj datumoj postulus taŭgan etikan superrigardon kaj estas ekster la amplekso de ĉi tiu sinteza komparilo.

Preter ĉi tiuj kvar, la plej efika planita etendo estas plurlingva egaleco laŭ jurisdikcio. La Kantesti AI-Motoro servas uzantojn en 75+ lingvoj, kaj ruli lingvo-stratigitajn Dua-Ĝisdatigajn subkohortojn (turka, germana, hispana, franca, itala, portugala, araba, mandarena) kvantigos la kvaliton de eligo tra la subtenataj lingvoj de la motoro. Ĉiu lingvo-stratigita analizo estos publikigita kun sia propra DOI kaj testila branĉo.

Provu la Saman Motoron, kiu Atingis 99.80% Kompozitan Poentaron ĉe 100,000 Kazoj

Alŝutu vian propran sangokontrolan panelon al la sama produktada finpunkto, kiu estis taksita en ĉi tiu komparnormo. Pli ol 2 milionoj da uzantoj tutmonde uzas la Kantesti AI Engine por interpreti pli ol 15,000 biomarkilojn en 75+ lingvoj.

🔬 Provu Senpagan Demonstraĵon

Kroma Etendaĵo Aplikaĵa Butiko Google Play

📚 Kiel Citi Ĉi tiun Komparnormon

BibTeX

@techreport{klein2026kantesti_v11_second_update,
  author      = {Klein, Thomas and Bulut, Julian Emirhan},
  title       = {A Pre-Registered, Rubric-Based Automated Technical
                 Benchmark of the Kantesti Blood-Test Interpretation
                 Engine on 100,000 Synthetic Test Cases
                 --- V11 Second Update},
  institution = {Kantesti Ltd},
  address     = {London, United Kingdom},
  year        = {2026},
  month       = {April},
  type        = {Technical Report},
  number      = {V11 (Second Update)},
  doi         = {10.6084/m9.figshare.32095435},
  url         = {https://doi.org/10.6084/m9.figshare.32095435}
}

APA

Klein, T., & Bulut, J. E. (2026). A Pre-Registered, Rubric-Based Automated Technical Benchmark of the Kantesti Blood-Test Interpretation Engine on 100,000 Synthetic Test Cases — V11 Second Update (Teknika Raporto V11 Dua Ĝisdatigo). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 Eksteraj Metodologiaj Referencoj

Mentzer, W. C. (1973). Diferencigo de Fera Manko de Talasemio-Trajto. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 Eŭropa Ligo Kontraŭ Reŭmatismo / Usona Kolegio de Reŭmatologio Klasifikaj Kriterioj por Sistema Lupus Eritematosus. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: Medicina Domajna Hallucination-Testo por Grandaj Lingvaj Modeloj. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%Komponita Poentaro

100,000Kazoj Poentitaj

127Kovritaj landaj etikedoj

0 / 87,412Trapaj Malveraj Pozitivoj

Oftaj Demandoj

Kiom preciza estas la Kantesti AI-motoro sur sintezaj testkazoj?

Sur antaŭregistrita rubriko, ruliĝinta sur 100,000 sinteze generitaj testkazoj tra ok enhavareoj kaj 127 landaj etikedoj (V11 Second Update), la motoro atingis kompozitan poentaron de 99.80 procentoj, kun neniuj hiperdiaĝnostikaj flagoj en 87,412 monitoritaj trap-kazaj ŝancoj kaj meza responda latenco de 13.26 sekundoj. Ĉi tiu kompozitaĵo mezuras konformecon de eligo al sintezaj enigaĵoj, ne diagnozan precizecon. La origina V11-eldono aplikis la saman rubrikon al 15 mane konstruitaj kazoj (kompozita 99.12%); la Dua Ĝisdatigo konservas la rubrikon bajt-identa kaj etendas ĝin al pli granda sinteza kohorto. La plena poentokarto estas publikigita ĉe Figshare sub DOI 10.6084/m9.figshare.32095435 kaj ĉe GitHub sub MIT-licenco.

Ĉu la Kantesti AI-motoro estas klinike validigita?

Ne. La motoro estis taksita per aŭtomatigita teknika komparilo (ne klinika validigo), kontraŭ rubriko kiu estis frostigita en fontkodo antaŭ la V11 komenca rulo kaj konservita bajt-identa por la V11 Dua Ĝisdatigo, taksita sur 100,000 sintezaj sangotestaj kazoj tra hematologio, endokrinologio, metabola medicino, hepatologio, nefrologio, kardiologio, reŭmatologio, kaj interna medicino, eltiritaj el 127 landaj etikedoj. Klinika superrigardo estis provizita de d-ro Thomas Klein, MD (ORCID 0009-0009-1490-1321), estrar-atestita klinika hematologo kaj Ĉefa Medicina Oficiro ĉe Kantesti AI.

Kio estas hipodiagnoza kaptilkazo?

Kazo de hiperdiaĝnostika kaptilo estas klinika scenaro specife desegnita por detekti konduton de tro-diagnostiko en AI-motoroj. La V11 komenca benchmark uzis du tiajn kazojn kiel metodikan pruvon de koncepto: izolita nerekta hiperbilirubinemio kongrua kun la sindromo de Gilbert (kie la ĝusta interpretado estas la bonkora UGT1A1-polimorfismo, ne hepatito aŭ hemolizo) kaj tute normala plenkreska rastruma panelo (kie la ĝusta eligo estas trankvilo, ne fabrikita limpatologiaĵo). La V11 Dua Ĝisdatigo skaligis ĉi tiun kaptil-metodaron al diligenta subaro de 8,723 kazoj, rezultigante 87,412 monitoritajn ŝancojn por hiperdiaĝnostika flagado — kaj la falsa-pozitiva indico de la motoro restis je nulo.

Ĉu la taksado de la Kantesti AI-Motoro estas reproduktebla?

La plena taksa testaro estas publikigita sub la MIT-permesilo kiel unu sola memstara Python-modulo. La V11 komenca rulo postulas nur paro de Kantesti API-atestiloj kaj Python 3.10 aŭ pli nova. La V11 Dua Ĝisdatigo aldonas parametrigitan, nurlegeblan SQL-kazan ŝargilon, kiu postulas Kantesti klinik-repoziciajn atestilojn (a bench_reader rolo sen privilegioj por identigi tabelojn). La kodo, la SQL de la kazŝargilo, la rubriko (byte-identa inter eldonoj), kaj tavoligita hazarda specimenaro de krudaj motoraj respondoj el ambaŭ la V11 komenca kaj la Dua Ĝisdatiga referencaj ruloj estas haveblaj ĉe github.com/emirhanai/kantesti-blood-test-benchmark kaj spegulitaj ĉe Figshare, ResearchGate kaj Academia.edu.

Kiel la AI-motoro Kantesti diferencigas feromankon de la trajto de beta-talasemio?

La motoro aplikas la Mentzer-indekson, kalkulitan kiel meza korpuskula volumeno dividita per la nombro de ruĝaj sangaj ĉeloj. Mentzer-indekso super 13 subtenas fer-mankajn anemion, dum valoro sub 13 subtenas la trajton de beta-talasemio. En la V11 komenca benchmark ambaŭ prezentoj estis ĝuste klasifikitaj per eksplicita kalkulo de Mentzer-indekso, subtenita de ferritino, RDW kaj HbA2-kunteksto. Tra la V11 Dua Ĝisdatigo, 100,000-kaza kohorto, la sama diferenca konduto estis konservita je populacia skalo.

Kie mi povas trovi la krudajn komparajn datumojn kaj la fontkodon?

La teknika raporto estas deponita ĉe Figshare sub DOI 10.6084/m9.figshare.32095435 (kovrante kaj la V11 komencan eldonon kaj la V11 Duan Ĝisdatigon), spegulita sur ResearchGate publikigo 404175463 kaj Academia.edu artikolo 165956808 — ambaŭ ĝisdatigitaj kun la V11 Dua Ĝisdatiga titolo kaj 100,000-kazaj rezultoj — kaj la MIT-permesilita Python-testilo kun ĉiuj referencaj rultrezultoj estas ĉe github.com/emirhanai/kantesti-blood-test-benchmark. La kvarplatforma spegula reto certigas longdaŭran haveblecon kaj flekseblecon de citaĵoj.

Kial antaŭregistrado gravas por AI-medicinaj komparnormoj?

Antaŭregistrado malhelpas post-hokan agordadon de rubriko, kio estas la sola plej ofta maniero kiel kompanie administrataj komparnormoj ŝveligas siajn proprajn nombrojn. Per engaĝiĝo al la rubriko en fontkodo antaŭ ajna alvoko de motoro kaj publikigo de la testaro publike, la datoj de la aŭtoro de la rubriko fariĝas inspekteblaj en versia administrado, kaj la rezultoj de la motoro ne povis formi la poentadkriteriojn.

Ĉu ĉi tiu komparnormo inkluzivas komparojn al aliaj AI-motoroj?

Ne. La V11-raporto — kaj la komenca eldonado kaj la Dua Ĝisdatigo — intence karakterizas unuopan motoron kontraŭ fiksa rubriko, anstataŭ poziciigi ĝin kontraŭ alternativaj komercaj sistemoj. La testilo estas malfermfonta sub MIT-permesilo (nun inkluzive de la SQL-kazan ŝargilo), do sendependaj esploristoj povas taksi ajnan motoron, kiun ili elektas, kontraŭ la sama rubriko kaj kazŝargilo kaj publikigi siajn rezultojn.

Ĉu la kazoj de pacientoj estas realaj aŭ sintezaj?

Ĉiuj kazoj estas sinteze generitaj — 15 mane konstruitaj kazoj en la V11 komenca eldono kaj 100,000 en la Dua Ĝisdatigo. Ili ne estas sintezaj kazoj: ne ekzistas sintezaj datumoj, neniu konsentoprocezo, kaj neniu de-identigo, ĉar neniuj personaj datumoj ekzistas en la kohorto. Neniuj personaj datumoj aperas en la publikigita komparilaĵo, la teknika raporto, aŭ la liberigitaj datumseroj.

⚕️ Medicina malgarantio & konflikto de intereso

Ĉi tiu raporto pri la komparnormo estas por esploraj kaj metodaj travideblecaj celoj. Ĝi ne konsistigas medicinan konsilon, ne estas diagnozo, kaj ne anstataŭas profesian medicinan prizorgon; neniu rezulto ĉi tie estu uzata por prokrasti aŭ eviti viziton al kuracisto. Ĉiam konsultu kvalifikitan sanprovizanton por diagnozaj kaj kuracaj decidoj. Ĉi tiu estas memrulita interna komparnormo de la propra motoro de la kompanio kaj ne estis sendepende validigita aŭ kunsamreviziita. La kompozita poentaro mezuras konformecon al fiksa skemo (raporta strukturo, revoko de ŝlosilvortoj kaj poentadsistemo, kaj latenco); ĝi ne estas mezuro de realmonda diagnoza precizeco aŭ klinika sekureco. Ambaŭ aŭtoroj estas dungitaj de kaj posedas akciojn en Kantesti Ltd, kaj la motoro taksata estas komerca produkto de la sama organizo. Ĉi tiu konflikto de intereso estas mildigita per antaŭregistrado de la skemo en fontkodo, publikigo de la testilo sub la MIT-licenco, kaj publikigo de tavoligita hazarda provaĵo de krudaj respondoj de la motoro.

Signaloj de fido E-E-A-T

⭐

Sperto

15+ jaroj da klinika hematologio kaj laboratoriamedicina praktiko, superrigardante la selektadon de la kazpanelo.

📋

Kompetenteco

Antaŭregistrita rubrikdezajno kun eksplicitaj punoj por hiperdiaĝnostiko kaj agnoskitaj klinikaj poentsistemoj (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

Aŭtoritateco

Ĉefa aŭtoro d-ro Thomas Klein, MD (ORCID 0009-0009-1490-1321). Efektivigo de Julian Emirhan Bulut, CEO de Kantesti Ltd.

🛡️

Fidindeco

Reproduktebla testaro kun MIT-permesilo, krudaj respondoj de la motoro publikigitaj, malfermita konflikto-de-interesa malkaŝo, kvarplatforma esplorspegula reto.

🏢 Kantesti LTD Registrita en Anglio kaj Kimrio · Kompanio Nr. 17090423 Londono, Unuiĝinta Reĝlando · kantesti.net