Miksi tämä vertailuarvo on olemassa ja mitä se testaa

Tekoälyavusteista verikoetulosten tulkintaa käytetään yhä enemmän kuluttaja- ja kliinisissä työnkuluissa, mutta toistettavat arviointikehykset, jotka on räätälöity laboratoriolääketieteeseen, ovat edelleen harvinaisia. Tämän asetelman tärkeimmät kysymykset eivät ole niitä, joita yleiset lääketieteelliset kysymys–vastausvertailut kattavat: pystyykö moottori erottamaan raudanpuutteen talassemiaominaisuudesta, kun punasolujen keskitilavuus on identtinen, diagnosoiko se liikaa Gilbertin oireyhtymää hepatiittina ja tuottaako se patologiaa täysin normaalissa seulontapaneelissa?

Esirekisteröity arviointikriteerien kulkukaavio, joka näyttää, miten Kantesti AI Engine arvioidaan jäädytettyjä pisteytyskriteerejä vasten
Kuva 1: Vertailun arkkitehtuuri — jokainen tapaus, jokainen avainsana ja jokainen pisteytysjärjestelmä on lukittu lähdekoodiin ennen kuin moottori näkee yhtään PDF:ää. Jälkikäteinen arviointikriteerien hienosäätö ei ole mahdollista suunnittelun puolesta.

Yksittäinen verikoeanalyysipaneeli sisältää tyypillisesti riittävästi signaalia tukemaan useita kilpailevia tulkintoja, ja tulkitsevan lääkärin tehtävä on punnita näitä tulkintoja toisiaan vastaan sen sijaan, että haettaisiin oppikirjavastausta. Moottori, joka suoriutuu hyvin oppikirjatapauksista, voi silti epäonnistua niissä tapauksissa, jotka ovat kaikkein tärkeimpiä: erotusdiagnostiikan sudenkuopissa, hyvänlaatuisissa muunnoksissa, jotka näyttävät yksinään hälyttäviltä, sekä täysin normaalissa paneelissa, joka houkuttelee varmoja avustajia valmistamaan patologian.

Tämä vertailu rakennettiin juuri näiden epäonnistumistilojen ympärille. Kaikki viisitoista tapausta valittiin tietyn diagnostisen ominaisuuden perusteella: raudanpuutteeseen liittyvä mikrosytoosi, joka on pidettävä erillään beeta-talassemian piirteestä, jolla on identtinen keskimääräinen punasolutilavuus; Gilbertin oireyhtymän ilmentymä, jossa ainoa poikkeavuus on eristetty epäsuoran bilirubiinin lisääntyminen; sekä viisitoista analyytin seulontapaneeli, jossa jokainen analyytin arvo on viitealueellaan. Arviointikriteeri palkitsee moottorit, jotka lukevat jokaisen tapauksen omilla ehdoillaan, ja rankaisee moottoreita, jotka päätyvät varmaan diagnoosiin, vaikka sellaista diagnoosia ei ole perusteltua tehdä.

Tohtori Thomas Kleininä valitsin tapaajoukon, koska nämä ovat ne mallit, joita laboratoriolääketieteen avustajat tekevät useimmin väärin. Kallis epäonnistumistapa ei ole "harvinaisen sairauden huomaamatta jättäminen" — vaan rutiininomaisen patologian keksiminen potilaille, joilla sitä ei ole. Meidän Lääketieteellinen validointi hub kuvaa laajemman viitekehyksen; tämä sivu kuvaa sen sovelletun tuloksen V11-moottorissa.

Uusin vertailuajon viite — V11 (huhtikuu 2026)

Huhtikuun 2026 vertailuajon Kantesti AI Engine V11 tuottama yhdistetty pistemäärä oli 99.12% ennalta rekisteröidyn viisitoista tapausta kattavan arviointikriteerin perusteella. Molemmat hyperdiagnostiikan ansatapaukset saivat katon. Mentzer-indeksiä sovellettiin oikein raudanpuutteen ja talassemian välisen erotusdiagnostiikan yhteydessä.

Yhdistetty 99.12% 15/15 tapausta sai
0.998 Rakenteellinen pistemäärä
0.998 Kliininen pistemäärä
20.17 s Keskimääräinen viive
0 / 13 Ansaan johtavat virheelliset positiiviset

Yhdistetty kaava yhdistää kolme osatekijää: rakenteellinen vaatimustenmukaisuus seitsemän pakollisen raportointiosion ja kuudentoista pakollisen alaluvun kanssa, kliininen tarkkuus mitattuna avainsanojen palautuksena (keyword recall) sekä pisteytysjärjestelmän palautuksena (scoring-system recall) ja todennäköisyysjakauman validointitarkistuksena, ja vasteviive 20 sekunnin ensisijaisen palvelutason tavoitetta vastaan. Tarkka erittely on esitetty alla olevassa arviointikriteerikaavassa.

Yhdistetty = 0.35 × Rakenteellinen + 0.55 × Kliininen + 0.10 × Viive

Jäljellä olevat 0,88 prosenttiyksikköä liikkumavaraa purkautuvat lähes kokonaan viivehäviöksi — kolme Phase 2 -varainvokaatiota, joiden kukin komposiitti on -0,05, tuotti noin 0,60 0,88 pisteen vajeesta — eikä kliiniseen sisältöön. Moottori ei missannut oikeaa diagnoosia missään viidestätoista tapauksesta; missä se jäi vajaaksi, se teki sen ottamalla hieman pidemmän ajan kuin 20 sekunnin ensisijainen polkutavoite pienessä vähemmistössä invokaatioita.

Viisitoista tapausta seitsemältä lääketieteen erikoisalalta

Tapauspaneeli kattaa seitsemän erikoisalaa — hematologia, endokrinologia, metabolinen lääketiede, hepatologia, nefrologia, kardiologia, reumatologia — sekä kaksi omistettua hyperdiagnostiikan ansatapausta. Jokainen tapaus on anonymisoitu todellinen potilastietue, joka on poimittu Kantesti-kliinisten tietojen tietovarannosta kirjallisen tietoon perustuvan suostumuksen perusteella.

Kattavuuskartta viidestätoista anonymisoidusta verikoe-tapauksesta, jotka on jaettu seitsemälle lääketieteen erikoisalalle, sekä hyperdiagnostiikan ansatapausten lisäksi
Kuva 2: Tapausten jakautuminen hematologian, endokrinologian, metabolisen lääketieteen, hepatologian, nefrologian, kardiologian, reumatologian sekä kahden ansatapauksen — Gilbertin oireyhtymän ja täysin normaalin seulontapaneelin — kesken.

Tunnisteiden poistaminen tehtiin Safe Harbor -lähestymistavan mukaisesti: kaikki suorat tunnisteet poistettiin tai korvattiin, ja jokaiselle tietueelle annettiin vertailun sisäinen tapauskoodi muodossa BT-NNN-LABEL. Käsittely suoritettiin GDPR:n artiklan 9(2)(j) mukaisesti tieteellistä tutkimusta varten asianmukaisilla suojatoimilla sekä vastaavien UK GDPR -säännösten mukaisesti. Henkilökohtaisia tunnistetietoja ei esiinny missään julkaistussa testialustassa, teknisessä raportissa tai julkaistuissa tietoaineistoissa.

Hematologia (3) BT-001, BT-006, BT-007 Raudanpuuteanemia · B12-vitamiinin puute · Pieni beeta-talassemia
Endokrinologia (3) BT-002, BT-008, BT-012 Hashimoton kilpirauhastulehdus · PCOS ja insuliiniresistenssi · Vaikea D-vitamiinin puute
Metabolinen (2) BT-003, BT-013 T2DM ja metabolinen oireyhtymä · Hyperurikemia ja kihtiriski
Hepatologia (2) BT-004, BT-009 NAFLD / NASH · Akuutti virushepatiitti
Nefrologia · Kardiologia · Reumatologia (3) BT-005, BT-010, BT-011 CKD-vaihe 3 · Aterogeeninen dyslipidemia · Systeeminen lupus erythematosus
Ansatapaukset (2) BT-014, BT-015 Gilbertin oireyhtymä (eristetty epäsuoran bilirubiinin suureneminen) · Täysin normaali aikuisten seulonta

Miksi juuri tämä jakauma

Hematologia saa kolme tapausta, koska mikrosyyttiset erotusdiagnoosit ja makrosyyttiset erotusdiagnoosit ovat suurimman volyymin “ansakuoppia” käytännön laboratoriotyössä. Endokrinologia saa kolme, koska Hashimoton, PCOS:n ja D-vitamiinin puutteen esitystavat harjoittavat erilaisia diagnostisia muotoja (vasta-ainevälitteinen, hormonisuhdevälitteinen, yksittäisen merkkiaineen välitteinen). Yksittäistapaus-erikoisalat ovat silti merkityksellisiä, koska jokaisella CKD:llä, ASCVD-riskillä ja SLE:llä on oma pisteytysjärjestelmänsä, jonka moottorin tulee kutsua (KDIGO-luokittelu, ASCVD 10 vuoden riski, 2019 EULAR/ACR SLE-kriteerit vastaavasti).

Ennakkoon rekisteröidyn arviointikriteeristön selitys

Rekisteröinti etukäteen on tämän vertailun tärkein metodologinen valinta. Jokainen odotettu diagnoosi, jokainen kliininen pisteytysjärjestelmä ja jokainen raporttiosio sitoutettiin lähdekoodiin ennen kuin moottoria kutsuttiin. Rubriikin jälkikäteinen hienosäätö moottorin miellyttämiseksi ei siis ole mahdollista.

Koostepisteet muodostuvat kolmesta osasta. Rakenteellinen osa muodostaa 35 prosenttia ja mittaa, palauttiko moottori seitsemän pakollista raporttiosiota (otsikko, yhteenveto, keskeiset löydökset, erotusdiagnoosi, pisteytysjärjestelmät, suositukset, jatkoseuranta) sekä niiden sisällä olevat kuusitoista pakollista alalukua. Osioiden olemassaolo painottaa 40 prosenttia ja alalukujen olemassaolo 60 prosenttia rakenteellisessa laskennassa. Kliininen osa.

The muodostaa 55 prosenttia ja yhdistää kolme asiaa: diagnoosiavaintunnisteiden muistaminen (70 prosenttia kliinisen osapistemäärän osuudesta), pisteytysjärjestelmän muistaminen (20 prosenttia — laskeeko moottori Mentzerin, FIB-4:n, HOMA-IR:n, ASCVD-riskin, KDIGO-luokituksen, EULAR/ACR-kriteerit tarvittaessa) sekä todennäköisyyksien summan validointitarkistus (10 prosenttia — erotusdiagnoosien todennäköisyyksien summan tulee osua välille [90, 110]). Ansakuopatapauksissa vähennetään lisäksi eksplisiittinen hyperdiagnosointirangaistus enintään 0.30, laskettuna 0.10 per keksitty patologialippu, enintään kolme lippua. Viiveosa.

The muodostaa 10 prosenttia. Vastaus alle 20 sekunnissa saa täyden 0.10:n, alle 40 sekunnissa 0.05:n ja kaikki sitä hitaammat saavat nollan. 20 sekunnin tavoite heijastaa tuotannon primary-path-palvelutason tavoitetta; 40 sekunnin yläraja heijastaa Vaiheen 2 varabudjettia raskaammille moottorin kutsuille. Testauskehikko ajossa. Jokainen tapaus renderöidään A4-PDF:ksi, lähetetään tuotannon v11-päätepisteeseen ja pisteytetään jäädytettyä rubriikkia vasten. Jokainen raakavastaus tallennetaan yhdessä yhteenvedon pistetaulukon kanssa.

Päätteen kuvakaappaus MIT-lisensoidusta Kantesti-vertailukäyttöliittymästä (benchmark harness), joka käynnistyy ja tuottaa tapauskohtaiset pisteet
Kuva 3: Mitä etukäteisrekisteröinti estää.

Ensimmäisen osapuolen vertailut ovat tunnettuja omien lukujensa puhaltamisesta puhtaasti jälkikäteisellä rubriikin hienosäädöllä. Kaava on lähes aina sama: tiimi ajaa moottorin, näkee missä se alisuoriutuu, ja säätää sitten hiljaa rubriikkia niin, että alisuoriutuvat alueet painavat vähemmän. Kun rubriikki sitoutetaan lähdekoodiin ennen ensimmäistä moottorin kutsua ja testauskehikko julkaistaan MIT-lisenssillä, tämä säätö tulee näkyväksi versionhallinnassa. Kuka tahansa voi kloonata repositorion, tarkistaa rubriikin tekijöiden päivämäärät ja varmistaa, ettei moottorin tuloksia käytetty pisteytyksen muotoiluun.

Patologian aggressiivinen ylikutsuminen normaalin näytön perusteella on dokumentoitu virhemuoto kuluttajille suunnatuissa lääketieteellisissä avustajissa. Sen jatkovaikutusten kustannuksia ovat tarpeeton tutkiminen, potilaan ahdistus ja iatrogeeninen jatkoselvittely. Tämän vertailun kaksi ansakuopatapausta on suunniteltu tekemään tämä virhemuoto näkyväksi ja pisteytettäväksi.

Hyperdiagnostiikan ansat — miksi ylikutsuminen on todellinen epäonnistumismoodi

Ansakuopatapausten suunnittelu. Moottori, joka nimeää luottavaisesti Gilbertin oireyhtymän hepatiitiksi tai joka valmistaa rajatapauksen patologian täysin normaalille näytölle, saa rangaistuksen — ei palkintoa siitä, että se kuulostaa kliiniseltä.

Rinnakkainen vertailu siitä, miten naiivi tekoäly sepittää hepatiitin Gilbertin oireyhtymän paneelissa, verrattuna siihen, että Kantesti-moottori tunnistaa oikein hyvänlaatuisen UGT1A1-polymorfismin
Kuva 4: 🟡 Ansakuoppa 1 — BT-014-GILBERT.

Esitystapa.

24-vuotias mies, jonka kokonaisbilirubiini on 2.4 mg/dL. Suora fraktio on normaali, transaminaasit ja alkalinen fosfataasi ovat viitearvojensa sisällä, retikulosyytit ovat tavanomaisia, ja haptoglobiini sekä LDH sulkevat pois hemolyysin. Oikea tulkinta.

Gilbertin oireyhtymä — hyvänlaatuinen UGT1A1-polymorfismi. Tulkinta ei saa kutsua hepatiittia, kirroosia, hemolyyttistä anemiaa tai sappitiehyen ahtaumaa. V11-tulos.

Kooste 1.000. Yksikään kuudesta seurannassa olleesta ylikäytön (over-diagnosis) lipusta ei ilmestynyt aktiivisiksi diagnooseiksi. 🟡 Ansakuoppa 2 — BT-015-HEALTHY.

35-vuotias nainen, jossa on viisitoista parametria sisältävä rutiininomainen seulontapaneeli. Jokainen analyytti on mukavasti viitearvojensa sisällä.

24-vuotias mies, jonka kokonaisbilirubiini on 2.4 mg/dL. Suora fraktio on normaali, transaminaasit ja alkalinen fosfataasi ovat viitearvojensa sisällä, retikulosyytit ovat tavanomaisia, ja haptoglobiini sekä LDH sulkevat pois hemolyysin. A 35-year-old female with a fifteen-parameter routine screening panel. Every analyte sits comfortably inside its reference range.

Gilbertin oireyhtymä — hyvänlaatuinen UGT1A1-polymorfismi. Tulkinta ei saa kutsua hepatiittia, kirroosia, hemolyyttistä anemiaa tai sappitiehyen ahtaumaa. Vakuuttelua ja elämäntapojen ylläpitoa. Tulkinnoissa ei pidä keksiä rajatapauksia, jotta ne kuulostaisivat kliinisesti hyödyllisiltä.

Kooste 1.000. Yksikään kuudesta seurannassa olleesta ylikäytön (over-diagnosis) lipusta ei ilmestynyt aktiivisiksi diagnooseiksi. Koostepistemäärä 1.000. Yksikään seitsemästä seurannassa olleesta yliarvioinnin hälytyslipusta — diabetes, anemia, hypotyreoosi, dyslipidemia, hepatiitti, munuaissairaus, puutostila — ei ilmennyt aktiivisina diagnooseina.

Molemmissa testeissä tarkistettiin kolmetoista seurattua hyperdiagnostiikan hälytyslippua. Yhtään ei laukaistu. Tämä on tulos, joka merkitsee eniten jokaiselle kliinikolle, joka harkitsee tekoälymoottorin käyttöä triage- tai esitietotyökaluna: järjestelmä ei keksinyt sairautta, jos sellaista ei ollut.

Mentzer-indeksi: raudanpuutteen erottaminen talassemian kantajuudesta

Toinen korkean arvon havainto koskee tapausten paritusta: tapaus BT-001 (raudanpuuteanemia) yhdessä tapauksen BT-007 (beeta-talassemia minor). Molemmissa esiintyy mikrosytoosi, ja se on hyvin tunnettu kompastuskivi naiiveille luokittelijoille. Mentzer-indeksi, joka lasketaan jakamalla MCV punasolujen (RBC) määrällä, on yli 13 raudanpuutteessa ja alle 13 talassemian piirteessä.

BT-001:ssä potilas oli 34-vuotias nainen, jonka hemoglobiini oli 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, ferritiini 6 ng/mL ja TIBC koholla. Mentzer-indeksi noin 17,7 tukee absoluuttista raudanpuutetta. BT-007:ssä potilas oli 28-vuotias mies, jolla oli mikrosytoosi (MCV 65,8 fL), mutta korkea RBC-määrä 6,2, normaali RDW, normaali ferritiini ja HbA2 5,6 prosenttia. Mentzer-indeksi noin 10,6 viittaa talassemian piirteeseen, ja kohonnut HbA2 vahvistaa beeta-talassemia minorin.

Raudanpuuteanemia Mentzer > 13 Matala ferritiini, matala TSAT, korkea TIBC, kohonnut RDW
Talassemian piirre Mentzer < 13 Normaali ferritiini, normaali RDW, kohonnut HbA2 (>3.5%), korkea RBC-määrä

Molemmat tapaukset saivat 1.000 pistettä. Moottori käytti Mentzer-indeksiä nimenomaisesti molemmissa tulkinnoissa ja palautti oikean diagnoosin jokaisessa tapauksessa. Tämä on koko vertailuaineiston kliinisesti kaikkein vakuuttavin yksittäinen tulos, koska talassemian piirteen virheluokittelu raudanpuutteeksi johtaa sopimattomaan rautalisään ja perheen seulontamahdollisuuksien väliin jäämiseen, ja raudanpuutteen virheluokittelu talassemian piirteeksi viivästyttää yksinkertaista korvaushoitoa. Meidän ferritiinialueen ohjeistus selittää laajemman erotusdiagnostiikan kontekstin.

Tapauskohtaiset tulokset huhtikuun 2026 ajosta

Viidestätoista tapauksesta kaksitoista saavutti ensisijaisen polun enimmäiskoostepistemäärän 1.000. Kolme tapausta käsiteltiin Vaihe 2 -varamenettelyllä, jolloin menetettiin 0,05 viivebonusta mutta säilytettiin kaikki kliiniset ja rakenteelliset sisällöt. Yhdeltä tapaukselta puuttui yksi pakollinen alaluku; yhdessä tapauksessa palautettiin hieman pienennetty todennäköisyysjakauman summa.

Tapaus-ID Erikoisala Yhdistetty Viive Polku
BT-001-IDAHematologia1.00017.8 sensisijainen
BT-006-B12Hematologia1.00018,4 sensisijainen
BT-007-THALHematologia1.00017,0 sensisijainen
BT-002-HASHEndokrinologia0.95037,0 svaravaihtoehto
BT-008-PCOSEndokrinologia0.98718,6 sensisijainen
BT-003-T2DMAineenvaihdunta1.00019,1 sensisijainen
BT-013-GOUTAineenvaihdunta1.00019,4 sensisijainen
BT-004-NAFLDHepatologia1.00019,6 sensisijainen
BT-009-VIRHEPHepatologia0.95023,4 svaravaihtoehto
BT-014-GILBERTAnsarauta1.00018,9 sensisijainen
BT-005-CKDNefrologia1.00017,4 sensisijainen
BT-010-ASCVDKardiologia1.00019,7 sensisijainen
BT-011-SLEReumatologia0.98118,2 sensisijainen
BT-012-VITDEndokrinologia1.00019,3 sensisijainen
BT-015-HEALTHYAnsarauta1.00018,7 svaravaihtoehto

PCOS-tapaus (BT-008) menetti yhden pakollisen alaluvun vastausrakenteesta — viisitoista kuudestatoista eikä kuusitoista kuudestatoista — mikä leikkasi rakenteellisen pistemäärän arvosta 1,000 arvoon 0,963. SLE-tapaus (BT-011) palautti marginaalisesti pienentyneen todennäköisyysjakauman summan, joka laski kliinisen pistemäärän arvoon 0,965 säilyttäen samalla kaikki diagnostiset avainsanat ja pisteytysjärjestelmän. Kumpikaan alle täydellinen tapaus ei missannut oikeaa diagnoosia.

Mitä otsikkopisteet eivät kerro meille

Koostepistemäärä 99,12 prosenttia tässä nimenomaisessa etukäteen rekisteröidyssä arviointikehyksessä tarkoittaa lähes katon tasoista suoriutumista, mutta se ansaitsee huolellisen kehystämisen. Tulos kuvaa moottorin käyttäytymistä suhteessa viiteentoista huolellisesti valittuun anonymisoituun tapaukseen, jotka arvioitiin kukin kerran, yhden arviointikehyksen puitteissa. Olemme täsmällisiä siitä, mitä luku tekee ja mitä se ei osoita.

Pistemäärä kertoo, että V11-moottori käsitteli tämän arvioinnin valitut diagnostiset mallit oikein julkaistavalla ja toistettavalla menetelmällä. Se ei sano, että moottori on oikein jokaisessa olemassa olevassa verikoepaneelissa. Se ei myöskään sano, että moottorin pitäisi korvata kliinikon harkinta. Eikä se sano, että moottori on parempi kuin vaihtoehtoiset tekoälyjärjestelmät — vertailuanalyysit muihin moottoreihin rajattiin tarkoituksella tämän raportin ulkopuolelle.

Se, mitä pistemäärä osoittaa, on lähtötaso. Kun arviointikehys ja testialusta ovat julkisia, moottorin tulevia versioita voidaan arvioida samoilla viidellätoista tapauksella, ja ero julkaistun pistemäärän ja minkä tahansa myöhemmän ajon välillä on itsessään mitattavissa. Tämä on etukäteisrekisteröinnin arvo: se muuttaa suoritusväitteet testattaviksi väitteiksi.

Näin toistat tämän vertailun 10 minuutissa

Toistettavuus edellyttää vain Kantesti API-tunnisteparia ja Python 3.10 tai uudemman ympäristön, jossa on requests ja reportlab kirjastot asennettuna. Koko testialusta on yksi itsenäinen Python-moduuli, joka julkaistaan MIT-lisenssillä.

Toistettavuusverkoston kaavio, joka näyttää vertailun peilattuna Figshareen, ResearchGateen, Academia.edu:hun ja GitHubiin, ja Figsharen DOI:n kanonisena ankkurina
Kuva 5: Vertailu on peilattu neljään tutkimusalustaan. Figshare DOI on kanoninen tieteellinen tunniste; ResearchGate, Academia.edu ja GitHub isännöivät rinnakkaisia kopioita sekä koodilla että raakadatalla.

Neljä vaihetta uuteen ajoon

Yksi. Kloonaa repositorio: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Kaksi. Asenna riippuvuudet komennolla pip install -r requirements.txt. Kolme. Aseta KANTESTI_USERNAME ja KANTESTI_PASSWORD ympäristömuuttujiksi — tunnistetiedot luetaan ajon aikana, eikä mitään ole kovakoodattu skriptiin. Neljä. Suorita python benchmark_bloodtest.py ja tarkastele neljää työskentelyhakemistoon luotua artefaktia: CSV-pistemittaristo, JSON-pistemittaristo, täydellinen JSON-tuloste mukaan lukien raakojen moottorivastausten vasteet sekä ihmisen luettava Markdown-raportti.

Vertailuajon 23. huhtikuuta 2026 tulos säilytetään results/ -hakemistossa. Uusi ajo tuottaa uuden aikaleimalla varustetun pistemittariston muuttamatta vertailua. Jos ajosi tuottaa merkittävästi erilaisen tuloksen, avaa GitHub-issue ajon aikaleimalla ja vastauksen metatiedoissa palautetulla moottorin versiolla.

Rajoitukset ja jatkotyö

Neljä rajoitusta ansaitsee nimenomaisen tunnustuksen: otoskoko, kertaluonteinen arviointi, yhden moottorin laajuus ja yhden tietolähteen alkuperä. Näitä käsitellään parhaillaan jatkuvissa jatkotöissä.

Otoskoko. Viisitoista tapausta kahdeksassa erikoisalakohtaisessa ryhmässä riittää proof of concept -tarkoitukseen, mutta ei alaryhmäanalyysiin erikoisalojen sisällä. Laajennus viiteenkymmeneen tapaukseen on suunnitteilla, ja siihen sisällytetään hyytymispaneelit, hematologisten maligniteettien seulonta, raskauspaneelit sekä pediatriset esitykset.

Kertaluonteinen arviointi. Jokainen tapaus arvioitiin kerran. Suuret kielimallit osoittavat ei-triviaalia tuotoksen vaihtelua jo pienellä näytteenottolämpötilalla, joten moniajo-protokolla, jossa on viisi arviointia tapausta kohden ja raportoitu vaihtelu, on luonnollinen seuraava askel.

Yhden moottorin laajuus. Tämä raportti kuvaa yhden moottorin. Vertailuanalyysit vaihtoehtoisia tekoälyjärjestelmiä vastaan eivät kuulu tämän raportin piiriin; voimme toteuttaa ne erillisenä itsenäisenä tutkimuksena asianmukaisella menetelmällä.

Yhden tietolähteen alkuperä. Viisitoista tapausta ovat anonymisoituja todellisia potilastietueita yhdestä kliinisestä tietovarannosta. Ne edustavat kuratoitua otosta eivätkä väestöä vastaavaa satunnaisotantaa. Arvioinnin laajentaminen monikeskusaineistoon on tiekartalla.

Vaikuttavin suunniteltu laajennus on monikielinen yhdenmukaisuus. Kantesti AI Engine palvelee käyttäjiä 75+ kielellä, ja ajamalla samaa viisitoista tapausta sisältävää testipakettia turkiksi, saksaksi, espanjaksi, ranskaksi ja arabiaksi mitataan tuotoksen laatu moottorin tukemissa kielissä. Julkaisemme jokaisesta kielikohtaisesta ajosta oman DOI:n ja testipaketin haaran.