Miksi tämä vertailuarvo on olemassa ja mitä se testaa

Tekoälyavusteista verikoetulosten tulkintaa käytetään yhä enemmän kuluttaja- ja kliinisissä työnkuluissa, mutta toistettavat arviointikehykset, jotka on räätälöity laboratoriolääketieteeseen, ovat edelleen harvinaisia. Tämän asetelman tärkeimmät kysymykset eivät ole niitä, joita yleiset lääketieteelliset kysymys–vastausvertailut kattavat: pystyykö moottori erottamaan raudanpuutteen talassemiaominaisuudesta, kun punasolujen keskitilavuus on identtinen, diagnosoiko se liikaa Gilbertin oireyhtymää hepatiittina ja tuottaako se patologiaa täysin normaalissa seulontapaneelissa?

Etukäteen rekisteröity rubriikin vuokaavio, joka näyttää, miten Kantesti AI Engine — V11:n toinen päivitys, 99.80% -koostepistemäärä 100 000 tapauksessa — arvioidaan jäädytettyjä pisteytyskriteerejä vasten
Kuva 1: Vertailuarkkitehtuuri, joka on taustalla 99,80% yhdistelmäpistemäärä V11 Second Update -päivityksessä 100 000 tapauksen kohortille — jokainen tapaus, jokainen avainsana, jokainen pisteytysjärjestelmä on lukittu lähdekoodiin ennen kuin moottori näkee ensimmäisenkään PDF:n, ja arviointikriteeristö (rubric) on bittitarkasti identtinen V11:n alkuperäisen julkaisun kanssa. Jälkikäteen tehtävä arviointikriteeristön hienosäätö ei ole suunnittelun mukaan mahdollista.

Yksittäinen verikoeanalyysipaneeli sisältää tyypillisesti riittävästi signaalia tukemaan useita kilpailevia tulkintoja, ja tulkitsevan lääkärin tehtävä on punnita näitä tulkintoja toisiaan vastaan sen sijaan, että haettaisiin oppikirjavastausta. Moottori, joka suoriutuu hyvin oppikirjatapauksista, voi silti epäonnistua niissä tapauksissa, jotka ovat kaikkein tärkeimpiä: erotusdiagnostiikan sudenkuopissa, hyvänlaatuisissa muunnoksissa, jotka näyttävät yksinään hälyttäviltä, sekä täysin normaalissa paneelissa, joka houkuttelee varmoja avustajia valmistamaan patologian.

Tämä vertailu rakennettiin juuri näiden epäonnistumistilojen ympärille. Kaikki viisitoista tapausta valittiin tietyn diagnostisen ominaisuuden perusteella: raudanpuutteeseen liittyvä mikrosytoosi, joka on pidettävä erillään beeta-talassemian piirteestä, jolla on identtinen keskimääräinen punasolutilavuus; Gilbertin oireyhtymän ilmentymä, jossa ainoa poikkeavuus on eristetty epäsuoran bilirubiinin lisääntyminen; sekä viisitoista analyytin seulontapaneeli, jossa jokainen analyytin arvo on viitealueellaan. Arviointikriteeri palkitsee moottorit, jotka lukevat jokaisen tapauksen omilla ehdoillaan, ja rankaisee moottoreita, jotka päätyvät varmaan diagnoosiin, vaikka sellaista diagnoosia ei ole perusteltua tehdä.

Tohtori Thomas Kleininä valitsin tapaajoukon, koska nämä ovat ne mallit, joita laboratoriolääketieteen avustajat tekevät useimmin väärin. Kallis epäonnistumistapa ei ole "harvinaisen sairauden huomaamatta jättäminen" — vaan rutiininomaisen patologian keksiminen potilaille, joilla sitä ei ole. Meidän Lääketieteellinen validointi hub kuvaa laajempaa viitekehystä; tämä sivu kuvaa V11:n alkuperäisen proof-of-conceptin ja V11:n toisen päivityksen, joka skaalasi sen 100 000 synteettiseen tapaukseen, jotka on poimittu synteettisestä tapausjoukosta, joka kattaa 127 maamerkintää — käyttäen samaa pisteytysarviointikriteeristöä, byte-identtisenä, ilman jälkikäteistä viritystä.

Uusin vertailuajon tulos — V11 Second Update (26. huhtikuuta 2026)

V11 Second Updaten vertailuajon (26. huhtikuuta 2026) tuloksena saatiin yhdistetty pistemäärä 99.80% samassa etukäteen rekisteröidyssä arviointikriteeristössä kuin V11:n alkuperäisessä julkaisussa, arvioituna 100 000 synteettistä tapausta poimittuna Kantesti:n synteettisestä tapausjoukosta ja kattaa 127 maamerkintää ja 75+-kielet. Jokainen tapaus valmistui moottorin ensisijaisella polulla; trap-tapausten hyperdiagnostiikan lippuaktivoinnit pysyivät 0 / 87,412. Alkuperäinen V11-ajo 23. huhtikuuta 2026 kattoi 15 käsin kuratoitua tapausta (yhdistetty 99.12%) ja varmisti arviointikriteeristön; Second Update säilyttää tämän arviointikriteeristön bittitarkasti identtisenä ja laajentaa arvioinnin väestötason kohorttiin.

Yhdistetty 99.80% 100 000/100 000 tapauksesta sai pisteet
1.000 Rakenteellinen pistemäärä
0.996 Kliininen pistemäärä
13,26 s Keskimääräinen viive
0 / 87,412 Ansaan johtavat virheelliset positiiviset

Yhdistetty kaava yhdistää kolme osatekijää: rakenteellinen vaatimustenmukaisuus seitsemän pakollisen raportointiosion ja kuudentoista pakollisen alaluvun kanssa, sisällön tarkkuus mitattuna avainsanojen palautuksena (keyword recall) sekä pisteytysjärjestelmän palautuksena (scoring-system recall) ja todennäköisyysjakauman validointitarkistuksena, ja vasteviive ensisijaisen polun palvelutason tavoitetta vasten. Tarkka erittely on esitetty alla olevassa arviointikriteeristön kaavassa — mitään näistä painoista tai alikriteereistä ei muutettu Second Updatessa.

Yhdistetty = 0.35 × Rakenteellinen + 0.55 × Kliininen + 0.10 × Viive

Jäljellä olevat 0,20 prosenttiyksikköä liikkumavaraa jakautuvat lähes kokonaan kliiniseen osapistemäärään — pienellä osalla tapauksia (pääasiassa hepatologiassa ja reumatologiassa) yksi odotettu pisteytysjärjestelmän avainsana puuttui moottorin tulkinnasta, vaikka diagnostinen sisältö oli oikein. Yksikään tapaus 100 000 tapauksen Second-Update-kohortissa ei missannut itse diagnoosia. Viive parani V11:n alkuperäisen julkaisun 20,17 s:n keskiarvosta Second Updaten 13,26 s:iin, mikä heijastaa tuotantomoottorin optimointeja kahden ajon välillä; arviointikriteeristö, pisteytyskoodi ja API-endpoint ovat muuttumattomat.

Maakohtaiset yhdistetyt pistemäärät vaihtelivat 0,9971:stä 0,9985:een 30 eniten edustetun maamerkinnän osalta. Pitkä häntä 97 lisämerkinnästä (yhteensä ≈7 300 tapausta) ei osoittanut systemaattista heikkenemistä. Tapauksien määrän perusteella yleisimmät maamerkinnät olivat Yhdysvallat (10 500), Brasilia (9 500), Espanja (9 000), Italia (8 000), Saksa (7 800), Ranska (7 400), Portugali (5 800), Türkiye (3 400), Yhdistynyt kuningaskunta (2 900) ja Meksiko (2 500).

15 tapauksesta 100 000: kohortin kehittyminen 127 maamerkinnällä

Alkuperäinen V11:n tapauspaneeli kattoi seitsemän erikoisalaa — hematologia, endokrinologia, metabolinen lääketiede, hepatologia, nefrologia, kardiologia, reumatologia — sekä kaksi erillistä hyperdiagnostiikan ansatapausta, ja jokainen tapaus oli synteettisesti tuotettu verikoe-paneeli. V11:n toinen päivitys laajentaa arvioinnin 100 000 synteettiseen tapaukseen 127 maamerkinnällä, jaettuna kahdeksaan erikoisalaan (alkuperäiset seitsemän plus erillinen sisätautien “bucket”, joka kattaa trap-alajoukon). Sama pisteytyksen arviointikriteeristöä sovelletaan bittitarkasti identtisenä molemmissa ajoissa.

V11:n alkuperäisen tapauspaneelin suunnittelu — viisitoista synteettistä verikoe-tapausta seitsemältä lääketieteen erikoisalalta sekä kaksi hyperdiagnostiikan ansatapausta; sama arviointirunko saavutti 99.80%-yhdistelmäpistemäärän 100 000 tapauksessa V11 Second Updatessa
Kuva 2: V11:n alkuperäinen tapauspaneelin suunnittelu hematologian, endokrinologian, metabolisen lääketieteen, hepatologian, nefrologian, kardiologian, reumatologian osalta sekä kahdella trap-tapauksella — Gilbertin oireyhtymä ja täysin normaali seulontapaneeli. Second Update säilyttää tämän arviointikriteeristön bittitarkasti identtisenä ja laajentaa kohortin 100 000 tapaukseen, jotka on poimittu Kantesti SQL -tietovarannosta.

Koska kaikki tapaukset on tuotettu synteettisesti, poistettavia todellisia tunnisteita ei ole eikä mukana ole henkilötietoja. Jokaisella synteettisellä tapauksella on vertailun sisäinen tapauskoodi (BT-NNN-LABEL V11:n alkuperäisessä joukossa, vakaa case_uid toisessa päivityksessä). Julkaistussa arviointikehyksessä, teknisessä raportissa tai julkaistuissa aineistoissa ei esiinny henkilötietoja missään.

V11:n alkuperäisen julkaisun mukaisesti — 15 käsin kuratoitua tapausta

Alkuperäisen V11-tapauspaneelin valitsi käsin tohtori Thomas Klein, jotta se harjoittaisi diagnostisia malleja, joita laboratoriolääketieteen avustajat tulkitsevat useimmin väärin. Jokainen viidestätoista tapauksesta valittiin tietyn diagnostisen ominaisuuden perusteella, ja ne on lueteltu alla.

Hematologia (3) BT-001, BT-006, BT-007 Raudanpuuteanemia · B12-vitamiinin puute · Pieni beeta-talassemia
Endokrinologia (3) BT-002, BT-008, BT-012 Hashimoton kilpirauhastulehdus · PCOS ja insuliiniresistenssi · Vaikea D-vitamiinin puute
Metabolinen (2) BT-003, BT-013 T2DM ja metabolinen oireyhtymä · Hyperurikemia ja kihtiriski
Hepatologia (2) BT-004, BT-009 NAFLD / NASH · Akuutti virushepatiitti
Nefrologia · Kardiologia · Reumatologia (3) BT-005, BT-010, BT-011 CKD-vaihe 3 · Aterogeeninen dyslipidemia · Systeeminen lupus erythematosus
Ansatapaukset (2) BT-014, BT-015 Gilbertin oireyhtymä (eristetty epäsuoran bilirubiinin suureneminen) · Täysin normaali aikuisten seulonta

Miksi juuri tämä jakauma

Hematologia saa kolme tapausta, koska mikrosyyttiset erotusdiagnoosit ja makrosyyttiset erotusdiagnoosit ovat suurimman volyymin “ansakuoppia” käytännön laboratoriotyössä. Endokrinologia saa kolme, koska Hashimoton, PCOS:n ja D-vitamiinin puutteen esitystavat harjoittavat erilaisia diagnostisia muotoja (vasta-ainevälitteinen, hormonisuhdevälitteinen, yksittäisen merkkiaineen välitteinen). Yksittäistapaus-erikoisalat ovat silti merkityksellisiä, koska jokaisella CKD:llä, ASCVD-riskillä ja SLE:llä on oma pisteytysjärjestelmänsä, jonka moottorin tulee kutsua (KDIGO-luokittelu, ASCVD 10 vuoden riski, 2019 EULAR/ACR SLE-kriteerit vastaavasti).

V11 toinen päivitys — 100 000 synteettistä tapausta 127 maamerkinnällä

Toinen päivitys korvaa alkuperäisen V11:n kovakoodatun 15 tapauksen Python-literaalin suuremmalla, ohjelmallisesti tuotetulla synteettisellä tapausjoukolla. Tapausjoukko ladataan jokaisen ajon alussa, ja konfiguraatio kirjataan läpinäkyvyyden vuoksi. Kohortin jakauma sisältöalueittain on esitetty alla.

Endokrinologia 23 900 tapausta (23,9%) Kilpirauhanen, PCOS, D-vitamiini, sukurauhasten akseli, aivolisäke
Aineenvaihduntalääketiede 21 900 tapausta (21,9%) T2DM, metabolinen oireyhtymä, lipidipaneelit, hyperurikemia
Hematologia 15 400 tapausta (15,4%) Mikrosyyttiset ja makrosyyttiset erotusdiagnoosit, B12/folaatit, rautatutkimukset
Hepatologia 12 400 tapausta (12,4%) NAFLD/NASH, virushepatiitti, FIB-4, kolestaasi
Sisätaudit (sis. trap-alajoukon) 9 000 tapausta (9,0%) Sekamuotoiset esitykset ja 8 723 omistettua hyperdiagnostiikan trap-tapausta
Kardiologia 7 500 tapausta (7,5%) ASCVD-riski, aterogeeninen dyslipidemia, hs-CRP
Reumatologia 6 000 tapausta (6,0%) SLE, RA, vaskuliitti, autoantivasta-ainepaneelit (EULAR/ACR-kriteerit)
Nefrologia 4 000 tapausta (4,0%) CKD-vaiheistus (KDIGO), eGFR-trendit, elektrolyyttihäiriö

Synteettinen maamerkintäjakauma — 10 eniten käytettyä merkintää

100 000 synteettisellä tapauksella on 127 maamerkintää (ISO 3166-1 alpha-2), jotta paikallisasetusten käsittelyä voidaan testata. Merkintöjen määritys: Eurooppa 57,7%, Amerikat 25,4%, Aasia–Tyynimeri 6,2%, nimetyt Lähi-itä/Afrikka-merkinnät 3,4% ja pitkä häntä 97 lisämerkinnästä yhteensä noin 7,3%. Kymmenen yleisintä maamerkintää tapausmäärän perusteella ovat Yhdysvallat (10 500), Brasilia (9 500), Espanja (9 000), Italia (8 000), Saksa (7 800), Ranska (7 400), Portugali (5 800), Türkiye (3 400), Yhdistynyt kuningaskunta (2 900) ja Meksiko (2 500). Maakohtaiset yhdistetyt pistemäärät vaihtelivat 0,9971:stä 0,9985:een. Nämä maamerkintä-määrät ovat tuotettujen tapausten ominaisuuksia, joita käytetään paikallisasetusten käsittelyn testaamiseen — ne eivät ole todellisia käyttäjiä eivätkä todellista maantieteellistä kattavuutta.

Ennakkoon rekisteröidyn arviointikriteeristön selitys

Rekisteröinti etukäteen on tämän vertailun tärkein metodologinen valinta. Jokainen odotettu diagnoosi, jokainen kliininen pisteytysjärjestelmä ja jokainen raporttiosio sitoutettiin lähdekoodiin ennen kuin moottoria kutsuttiin. Rubriikin jälkikäteinen hienosäätö moottorin miellyttämiseksi ei siis ole mahdollista.

Koostepisteet muodostuvat kolmesta osasta. Rakenteellinen osa muodostaa 35 prosenttia ja mittaa, palauttiko moottori seitsemän pakollista raporttiosiota (otsikko, yhteenveto, keskeiset löydökset, erotusdiagnoosi, pisteytysjärjestelmät, suositukset, jatkoseuranta) sekä niiden sisällä olevat kuusitoista pakollista alalukua. Osioiden olemassaolo painottaa 40 prosenttia ja alalukujen olemassaolo 60 prosenttia rakenteellisessa laskennassa. Kliininen osa.

The muodostaa 55 prosenttia ja yhdistää kolme asiaa: diagnoosiavaintunnisteiden muistaminen (70 prosenttia kliinisen osapistemäärän osuudesta), pisteytysjärjestelmän muistaminen (20 prosenttia — laskeeko moottori Mentzerin, FIB-4:n, HOMA-IR:n, ASCVD-riskin, KDIGO-luokituksen, EULAR/ACR-kriteerit tarvittaessa) sekä todennäköisyyksien summan validointitarkistus (10 prosenttia — erotusdiagnoosien todennäköisyyksien summan tulee osua välille [90, 110]). Ansakuopatapauksissa vähennetään lisäksi eksplisiittinen hyperdiagnosointirangaistus enintään 0.30, laskettuna 0.10 per keksitty patologialippu, enintään kolme lippua. Viiveosa.

The muodostaa 10 prosenttia. Vastaus alle 20 sekunnissa saa täyden 0.10:n, alle 40 sekunnissa 0.05:n ja kaikki sitä hitaammat saavat nollan. 20 sekunnin tavoite heijastaa tuotannon primary-path-palvelutason tavoitetta; 40 sekunnin yläraja heijastaa Vaiheen 2 varabudjettia raskaammille moottorin kutsuille. Testauskehikko ajossa. Jokainen tapaus renderöidään A4-PDF:ksi, lähetetään tuotannon v11-päätepisteeseen ja pisteytetään jäädytettyä rubriikkia vasten. Jokainen raakavastaus tallennetaan yhdessä yhteenvedon pistetaulukon kanssa.

MIT-lisensoidun Kantesti-vertailukehiä ajon ja tapauskohtaisia pisteitä tuottavan päätelaiteruudunkaappauksen — sama kehikko, joka nyt on SQL-ohjattu, tuotti 99.80% -koostepistemäärän V11:n toisen päivityksen 100 000 tapauksen ajossa
Kuva 3: Suorituskykyyn rakennettu testikehys — sama moottori, joka tuotti 99.80%-yhdistelmäpistemäärän V11 Second Update -päivityksen 100,000-tapauksen kohortissa. Jokainen tapaus renderöidään A4 PDF -muotoon, lähetetään tuotannon v11-päätepisteeseen ja pisteytetään jäädytettyä arviointikriteeristöä vasten. Second Update lisäsi parametrisoidun SQL-tapauksen lataajan; kerrostettu satunnaisotos raakoja moottorivastauksia (n = 201) tallennetaan yhdessä aggregoidun tuloskortin kanssa.

Ensimmäisen osapuolen vertailut ovat tunnettuja omien lukujensa puhaltamisesta puhtaasti jälkikäteisellä rubriikin hienosäädöllä. Kaava on lähes aina sama: tiimi ajaa moottorin, näkee missä se alisuoriutuu, ja säätää sitten hiljaa rubriikkia niin, että alisuoriutuvat alueet painavat vähemmän. Kun rubriikki sitoutetaan lähdekoodiin ennen ensimmäistä moottorin kutsua ja testauskehikko julkaistaan MIT-lisenssillä, tämä säätö tulee näkyväksi versionhallinnassa. Kuka tahansa voi kloonata repositorion, tarkistaa rubriikin tekijöiden päivämäärät ja varmistaa, ettei moottorin tuloksia käytetty pisteytyksen muotoiluun.

Patologian aggressiivinen ylikutsuminen normaalin näytön perusteella on dokumentoitu virhemuoto kuluttajille suunnatuissa lääketieteellisissä avustajissa. Sen jatkovaikutusten kustannuksia ovat tarpeeton tutkiminen, potilaan ahdistus ja iatrogeeninen jatkoselvittely. Tämän vertailun kaksi ansakuopatapausta on suunniteltu tekemään tämä virhemuoto näkyväksi ja pisteytettäväksi.

Hyperdiagnostiikan ansat — miksi ylikutsuminen on todellinen epäonnistumismoodi

Ansakuopatapausten suunnittelu. Moottori, joka nimeää luottavaisesti Gilbertin oireyhtymän hepatiitiksi tai joka valmistaa rajatapauksen patologian täysin normaalille näytölle, saa rangaistuksen — ei palkintoa siitä, että se kuulostaa kliiniseltä.

Rinnakkainen vertailu siitä, miten naiivi tekoäly valmistaa hepatiitin Gilbertin oireyhtymän paneelissa verrattuna Kantesti-moottoriin, joka tunnistaa oikein hyvänlaatuisen UGT1A1-polymorfismin — menetelmä, joka skaalautui nollaan väärien positiivisten osuudessa 87 412 loukkulipun mahdollisuudessa V11:n toisen päivityksen 99.80% -vertailussa
Kuva 4: V11:n alkuperäisen julkaisun ansa-tapauksen suunnittelu — moottori, joka luokittelee Gilbertin oireyhtymän luotettavasti hepatiitiksi, tai joka tuottaa rajatapauksen patologian täysin normaalille näytölle, saa rangaistuksen eikä palkkiota siitä, että se kuulostaa kliiniseltä. Tämä metodologia skaalattiin 0 / 87,412 vääriksi positiivisiksi V11 Second Update -ajon 100,000-tapauksen aikana, joka tuotti 99.80%-yhdistelmäpistemäärän.

Esitystapa.

24-vuotias mies, jonka kokonaisbilirubiini on 2.4 mg/dL. Suora fraktio on normaali, transaminaasit ja alkalinen fosfataasi ovat viitearvojensa sisällä, retikulosyytit ovat tavanomaisia, ja haptoglobiini sekä LDH sulkevat pois hemolyysin. Oikea tulkinta.

Gilbertin oireyhtymä — hyvänlaatuinen UGT1A1-polymorfismi. Tulkinta ei saa kutsua hepatiittia, kirroosia, hemolyyttistä anemiaa tai sappitiehyen ahtaumaa. V11-tulos.

Kooste 1.000. Yksikään kuudesta seurannassa olleesta ylikäytön (over-diagnosis) lipusta ei ilmestynyt aktiivisiksi diagnooseiksi. 🟡 Ansakuoppa 2 — BT-015-HEALTHY.

35-vuotias nainen, jossa on viisitoista parametria sisältävä rutiininomainen seulontapaneeli. Jokainen analyytti on mukavasti viitearvojensa sisällä.

24-vuotias mies, jonka kokonaisbilirubiini on 2.4 mg/dL. Suora fraktio on normaali, transaminaasit ja alkalinen fosfataasi ovat viitearvojensa sisällä, retikulosyytit ovat tavanomaisia, ja haptoglobiini sekä LDH sulkevat pois hemolyysin. A 35-year-old female with a fifteen-parameter routine screening panel. Every analyte sits comfortably inside its reference range.

Gilbertin oireyhtymä — hyvänlaatuinen UGT1A1-polymorfismi. Tulkinta ei saa kutsua hepatiittia, kirroosia, hemolyyttistä anemiaa tai sappitiehyen ahtaumaa. Vakuuttelua ja elämäntapojen ylläpitoa. Tulkinnoissa ei pidä keksiä rajatapauksia, jotta ne kuulostaisivat kliinisesti hyödyllisiltä.

Kooste 1.000. Yksikään kuudesta seurannassa olleesta ylikäytön (over-diagnosis) lipusta ei ilmestynyt aktiivisiksi diagnooseiksi. Koostepistemäärä 1.000. Yksikään seitsemästä seurannassa olleesta yliarvioinnin hälytyslipusta — diabetes, anemia, hypotyreoosi, dyslipidemia, hepatiitti, munuaissairaus, puutostila — ei ilmennyt aktiivisina diagnooseina.

Molemmissa testeissä tarkistettiin kolmetoista seurattua hyperdiagnostiikan hälytyslippua. Yhtään ei laukaistu. Tämä on tulos, joka merkitsee eniten jokaiselle kliinikolle, joka harkitsee tekoälymoottorin käyttöä triage- tai esitietotyökaluna: järjestelmä ei keksinyt sairautta, jos sellaista ei ollut.

Mentzer-indeksi: raudanpuutteen erottaminen talassemian kantajuudesta

Toinen korkean arvon havainto koskee tapausten paritusta: tapaus BT-001 (raudanpuuteanemia) yhdessä tapauksen BT-007 (beeta-talassemia minor). Molemmissa esiintyy mikrosytoosi, ja se on hyvin tunnettu kompastuskivi naiiveille luokittelijoille. Mentzer-indeksi, joka lasketaan jakamalla MCV punasolujen (RBC) määrällä, on yli 13 raudanpuutteessa ja alle 13 talassemian piirteessä.

BT-001:ssä potilas oli 34-vuotias nainen, jonka hemoglobiini oli 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritiini 6 ng/mL ja TIBC koholla. Mentzer-indeksi noin 17,7 tukee absoluuttista raudanpuutetta. BT-007:ssä potilas oli 28-vuotias mies, jolla oli mikrosytoosi (MCV 65,8 fL), mutta korkea RBC-määrä 6,2, normaali RDW, normaali ferritiini ja HbA2 5,6 prosenttia. Mentzer-indeksi noin 10,6 viittaa talassemian piirteeseen, ja kohonnut HbA2 vahvistaa beeta-talassemia minorin.

Raudanpuuteanemia Mentzer > 13 Matala ferritiini, matala TSAT, korkea TIBC, kohonnut RDW
Talassemian piirre Mentzer < 13 Normaali ferritiini, normaali RDW, kohonnut HbA2 (>3.5%), korkea RBC-määrä

Molemmat tapaukset saivat 1.000 pistettä. Moottori käytti Mentzer-indeksiä nimenomaisesti molemmissa tulkinnoissa ja palautti oikean diagnoosin jokaisessa tapauksessa. Tämä on koko vertailuaineiston kliinisesti kaikkein vakuuttavin yksittäinen tulos, koska talassemian piirteen virheluokittelu raudanpuutteeksi johtaa sopimattomaan rautalisään ja perheen seulontamahdollisuuksien väliin jäämiseen, ja raudanpuutteen virheluokittelu talassemian piirteeksi viivästyttää yksinkertaista korvaushoitoa. Meidän ferritiinialueen ohjeistus selittää laajemman erotusdiagnostiikan kontekstin.

Tapauskohtaiset tulokset V11:n alkuperäisestä vertailuajosta (23. huhtikuuta 2026)

Alkuperäinen V11-vertailuajo 15-tapauksen proof-of-concept -kohortissa toimii metodologisena perustana Second Update -päivitykselle: jokainen alla oleva tapauskohtainen yksityiskohta havainnollistaa, miten arviointikriteeristö käsittelee todellisen moottorin vastauksen. Kaksitoista viidestätoista tapauksesta saavutti ensisijaisella polulla enimmäisyhdistelmäpistemäärän 1.000; kolme tapausta käsiteltiin Phase 2 -varamenettelyllä, jolloin menetettiin 0.05 latenssibonus mutta säilytettiin kaikki kliiniset ja rakenteelliset sisällöt. Yhdestä tapauksesta puuttui yksi yksittäinen pakollinen alaluku; yksi palautti vain hieman pienemmän todennäköisyysjakauman summan.

Tapaus-ID Erikoisala Yhdistetty Viive Polku
BT-001-IDAHematologia1.00017.8 sensisijainen
BT-006-B12Hematologia1.00018,4 sensisijainen
BT-007-THALHematologia1.00017,0 sensisijainen
BT-002-HASHEndokrinologia0.95037,0 svaravaihtoehto
BT-008-PCOSEndokrinologia0.98718,6 sensisijainen
BT-003-T2DMAineenvaihdunta1.00019,1 sensisijainen
BT-013-GOUTAineenvaihdunta1.00019,4 sensisijainen
BT-004-NAFLDHepatologia1.00019,6 sensisijainen
BT-009-VIRHEPHepatologia0.95023,4 svaravaihtoehto
BT-014-GILBERTAnsarauta1.00018,9 sensisijainen
BT-005-CKDNefrologia1.00017,4 sensisijainen
BT-010-ASCVDKardiologia1.00019,7 sensisijainen
BT-011-SLEReumatologia0.98118,2 sensisijainen
BT-012-VITDEndokrinologia1.00019,3 sensisijainen
BT-015-HEALTHYAnsarauta1.00018,7 svaravaihtoehto

PCOS-tapaus (BT-008) menetti yhden pakollisen alaluvun vastausrakenteesta — viisitoista kuudestatoista eikä kuusitoista kuudestatoista — mikä leikkasi rakenteellisen pistemäärän arvosta 1,000 arvoon 0,963. SLE-tapaus (BT-011) palautti marginaalisesti pienentyneen todennäköisyysjakauman summan, joka laski kliinisen pistemäärän arvoon 0,965 säilyttäen samalla kaikki diagnostiset avainsanat ja pisteytysjärjestelmän. Kumpikaan alle täydellinen tapaus ei missannut oikeaa diagnoosia.

V11 Second Update -yhteenveto — 100,000 tapausta

Väestötasolla yksittäiset tapausrivit eivät ole ihmisen luettavissa, joten toinen päivitys raportoi yhteenlaskettuja tunnuslukuja eikä 100 000 rivin taulukkoa. Pääasiallinen yhteenveto on esitetty alla; erikoisaloittaiset ja maakohtaiset erittelyt julkaistaan teknisessä raportissa ja Figshare-tallenteessa. Kerrostettu satunnaisotos n = 201 raakoja moottorivastauksia (deterministinen siemen 20260426) julkaistaan GitHubissa results/ tarkastelua varten.

Yhdistelmäpistemäärä V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 100,000-tapauksen kohortin yli
Rakenteellinen pistemäärä (keskiarvo) V11 initial: 0.998 → Second Update: 1.000 Täydellinen rakenteellinen vaatimustenmukaisuus väestötasolla
Kliininen pistemäärä (keskiarvo) V11 initial: 0.998 → Second Update: 0.996 −0.002; mikään tapaus ei missannut itse diagnoosia
Viive — keskiarvo (vaihteluväli) V11 aloitus: 20,17 s (17,0–37,0 s) → Toinen päivitys: 13,26 s (9,0–16,94 s) Tuotantomoottorin optimoinnit ajokertojen välillä
Moottoripolku = ensisijainen V11 aloitus: 12 / 15 → Toinen päivitys: 100,000 / 100,000 Vaihe 2 -varasuunnitelmaa ei tarvittu missään vaiheessa ajon aikana
Loukku-alijoukon hyperdiagnostiikan liput V11 aloitus: 0 / 13 → Toinen päivitys: 0 / 87,412 Ei yhtään vääriä positiivisia väestötasolla (8 723 loukkutapausta seurannassa)

Mitä otsikkopisteet eivät kerro meille

Yhdistetty pistemäärä 99,80 prosenttia tässä tietyssä ennalta rekisteröidyssä arviointikriteeristössä, 100 000 tapauksen synteettisessä kohortissa, joka kattaa 127 maamerkintää, vastaa lähes katon suorituskykyä — mutta se ansaitsee huolellisen kehystämisen. Tuloksessa kuvataan moottorin käyttäytymistä arviointikriteeristön suhteen, johon sitouduimme V11:n lähdekoodissa; se ei ole yleismaailmallinen väite moottorin oikeellisuudesta jokaisessa olemassa olevassa verikoe-paneelissa luonnossa.

Pistemäärä kertoo, että moottori käsitteli tämän arvioinnin valitut diagnostiset mallit oikein väestötason kohortissa menetelmällä, joka on julkaistu ja toistettavissa. Se ei sano, että moottori on oikein jokaisessa olemassa olevassa verikoepaneelissa luonnossa. Se ei sano, että moottorin pitäisi korvata kliinikon harkinta. Eikä se sano, että moottori on parempi kuin vaihtoehtoiset tekoälyjärjestelmät — vertailuanalyysit muihin moottoreihin rajattiin tarkoituksella tämän raportin ulkopuolelle.

Se, mitä pistemäärä kuitenkin osoittaa, on lähtötaso. Kun arviointikehys ja testausympäristö ovat julkisia, moottorin tulevia versioita voidaan arvioida samaa arviointikehystä vasten — sovellettuna V11 aloituksen 15 tapaukseen, Toisen päivityksen 100 000 tapauksen kohorttiin tai mihin tahansa myöhempään laajennukseen — ja ero julkaistun pistemäärän ja minkä tahansa myöhemmän ajon välillä on itsessään mitattavissa. Tämä on etukäteisrekisteröinnin arvo: se muuttaa suoritusväitteet testattaviksi väitteiksi.

Näin toistat tämän vertailun 10 minuutissa

Toistettavuus edellyttää vain Kantesti API-tunnisteparia ja Python 3.10 tai uudemman ympäristön, jossa on requests ja reportlab kirjastot asennettuna. Koko testialusta on yksi itsenäinen Python-moduuli, joka julkaistaan MIT-lisenssillä.

Reprodusoitavuusverkoston kaavio, joka näyttää V11 Second Update -vertailuarvion (99.80% yhdistelmä, 100 000 tapausta, 127 maakohtaista tunnistetta) peilattuna Figsharen, ResearchGaten, Academia.edun ja GitHubin yli siten, että Figsharen DOI toimii kanonisena ankkurina
Kuva 5: V11 Toisen päivityksen vertailuarvo — 99,80% yhdistetty pistemäärä 100 000 tapauksessa 127 maamerkinnällä — on peilattu neljän tutkimusalustan yli. Figsharen DOI on kanoninen tieteellinen tunniste; ResearchGate (julkaisu 404175463), Academia.edu (paperi 165956808) ja GitHub isännöivät rinnakkaiskopioita vertailuympäristön kanssa, stratifioidun satunnaisotoksen raaoista vastauksista sekä maakohtaisia/erikoisalakohtaisia tuloskortteja.

Neljä vaihetta uuteen ajoon

Yksi. Kloonaa repositorio: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Kaksi. Asenna riippuvuudet komennolla pip install -r requirements.txt (Second Update lisää mysql-connector-python ≥ 8.0 SQL-tapauslataajaa varten). Kolme. Aseta KANTESTI_USERNAME ja KANTESTI_PASSWORD moottorin API:n ympäristömuuttujina. Toisen päivityksen SQL-tapauslataajaa varten aseta lisäksi KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USERja KANTESTI_DB_PASSWORD — lataaja muodostaa yhteyden vain luku -roolin kautta (bench_reader) jolla ei ole käyttöoikeuksia tunnistustaulujen tunnistamiseen. Neljä. Suorita python benchmark_bloodtest.py --limit 100000 koko Second-Update-ajon ajaksi, tai python benchmark_bloodtest.py --limit 1000 nopeaa iterointia varten. Tulokset tallentuvat osoitteeseen ./benchmark_results/: CSV-tuloskortti, jossa on maakohtaiset ja erikoisalakohtaiset sarakkeet, JSON-kooste, stratifioidun satunnaisotoksen raaka-vastausotos ja Markdown-raportti.

Viiteajot 23. huhtikuuta 2026 (V11 alkuperäinen, 15 tapausta) ja 26. huhtikuuta 2026 (V11 Second Update, 100,000 tapausta) on säilytetty results/ arkistossa. Uusi ajo tuottaa uuden aikaleimalla varustetun pistekortin muuttamatta viiteajoja. Jos ajosi tuottaa merkittävästi erilaisen tuloksen, avaa GitHub-issue ajon aikaleimalla ja moottorin versiolla, joka palautuu vastauksen metatiedoissa.

Rajoitukset ja jatkotyö

Vaikka tapauksia on 100 000 ja maakohtaisia tunnisteita 127, neljä rajoitusta ansaitsee nimenomaisen tunnustuksen: pitkän hännän tunnisteiden alinäytteistys, kertaluonteinen arviointi, yhden moottorin laajuus ja yhden lähdeaineiston alkuperä. Näitä käsitellään parhaillaan jatkuvissa jatkotöissä.

Pitkän hännän tunnisteiden kattavuus. Toinen päivitys kattaa 127 maakohtaista tunnistetta, mutta jakauma on epätasapainoinen — 10 eniten esiintyvää tunnistetta muodostavat ≈66.4% tapauksista, ja pitkän hännän 97 muun tunnisteen osuus on yhdessä ≈7.3% (noin 7 300 tapausta yhteensä, ~75 tapausta tunnistetta kohti keskimäärin). Siksi tämän pitkän hännän tunnistekohtaiset yhdistelmät ovat kohinaisempia kuin otsikkoluvut antavat ymmärtää. Tulevat ajot tasapainottavat tunnisteiden kohdistusta, jotta tunnistekohtaiset arviot tarkentuvat.

Kertaluonteinen arviointi. Jokainen kohortin tapaus arvioitiin kerran. Suuret kielimallit osoittavat ei-triviaalia tuotoksen vaihtelua jo pienellä otantatempolla, joten moniajo-protokolla, jossa on viisi arviointia per tapaus ja raportoitu vaihtelu, on luonnollinen seuraava askel — erityisesti trap-case-alijoukossa, jossa johdonmukaisuus otantajitterin suhteen on osa turvallisuusväitettä.

Yhden moottorin laajuus. Tämä raportti kuvaa yhden moottorin. Vertailuanalyysit vaihtoehtoisia tekoälyjärjestelmiä vastaan eivät kuulu tämän raportin piiriin; voimme toteuttaa ne erillisenä itsenäisenä tutkimuksena asianmukaisella menetelmällä samaa MIT-lisensoitua testikehystä vasten.

Synteettinen data. 100 000 tapausta on synteettisesti generoituja, ei synteettisiä tapauksia, ja tulokset eivät siirry todellisen maailman kliiniseen suorituskykyyn. Arviointi todellisella, suostumukseen perustuvalla, ulkopuolisesti hankitulla aineistolla edellyttäisi asianmukaista eettistä valvontaa, eikä se kuulu tämän synteettisen vertailuarvion piiriin.

Näiden neljän lisäksi merkittävin suunniteltu laajennus on monikielinen yhdenmukaisuus per lainkäyttöalue. Kantesti AI Engine palvelee käyttäjiä 75+ kielellä, ja ajamalla kielikohtaisia Second-Update-alikohortteja (turkki, saksa, espanja, ranska, italia, portugali, arabia, mandariinikiina) mitataan tuotoksen laatua moottorin tukemissa kielissä. Jokainen kielikohtainen analyysi julkaistaan omalla DOI:lla ja testikehyshaaralla.