Kodėl egzistuoja šis etalonas ir ką jis tikrina
AI pagalba aiškinant kraujo tyrimus vis dažniau naudojama vartotojų ir klinikiniuose procesuose, tačiau atkuriamos vertinimo sistemos, pritaikytos laboratorinei medicinai, išlieka retos. Šiame kontekste svarbiausi klausimai nėra tie, kuriuos apima bendrieji medicininių klausimų ir atsakymų etalonai: ar variklis gali atskirti geležies stoką nuo talasemijos požymio, kai vidutinis eritrocitų tūris yra identiškas, ar jis perdiagnozuoja Gilberto sindromą kaip hepatitą, ir ar jis sukuria patologiją visiškai normaliame patikros skydelyje?
Vienas kraujo tyrimo tyrimų rinkinys paprastai turi pakankamai informacijos, kad būtų galima pateikti kelias konkuruojančias interpretacijas, o interpretuojančio gydytojo užduotis – pasverti šias interpretacijas tarpusavyje, o ne ieškoti vadovėlinio atsakymo. Gerai vadovėliniais atvejais veikiantis „variklis“ vis tiek gali žlugti svarbiausiuose atvejuose: diagnostikos diferencijavimo spąstuose, gerybinėse variacijose, kurios vienos atrodo nerimą keliančios, ir visiškai normaliuose tyrimų rinkiniuose, kurie įvilioja užtikrintus asistentus į patologijos „gamybą“.
Šis vertinimo kriterijus buvo sukurtas būtent toms nesėkmės formoms. Kiekvienas iš penkiolikos atvejų buvo parinktas pagal konkrečią diagnostinę savybę: geležies stokos sukelta mikrocitozė, kuri turi būti atskirta nuo beta talasemijos požymio, kai identiškas vidutinis eritrocitų tūris; Gilbert’o sindromo vaizdas, kai vienintelė anomalija yra izoliuota netiesioginė hiperbilirubinemija; ir penkiolikos parametrų atrankos tyrimų rinkinys, kuriame kiekvienas analitas yra savo pamatiniame (referenciniame) intervale. Vertinimo rubrika skatina variklius, kurie kiekvieną atvejį skaito pagal jo paties kontekstą, ir baudžia variklius, kurie bando pateikti užtikrintą diagnozę, kai tokia diagnozė nėra pagrįsta.
Kaip Thomas Klein, MD, aš pasirinkau atvejų rinkinį, nes tai yra tie modeliai, kuriuos laboratorinės medicinos asistentai dažniausiai interpretuoja neteisingai. Brangiausia nesėkmės forma nėra "praleisti retą ligą" – tai sukurti įprastą patologiją pacientams, kuriems jos nėra. Mūsų Medicininis patvirtinimas „hub“ aprašo platesnę sistemą; šiame puslapyje aprašomas V11 pradinis proof-of-concept ir V11 antrasis atnaujinimas, kuris jį išplėtė iki 100 000 sintetinių atvejų, paimtų iš sintetinio atvejų rinkinio, apimančio 127 šalies etiketes — naudojant tą pačią vertinimo rubriką, identišką pagal baitus, be leidžiamo post-hoc derinimo.
Naujausias etaloninis paleidimas — V11 antrasis atnaujinimas (2026 m. balandžio 26 d.)
V11 antrojo atnaujinimo etaloninis paleidimas, atliktas 2026 m. balandžio 26 d., sugeneravo sudėtinį balą 99.80% pagal tą pačią iš anksto užregistruotą rubriką, naudotą V11 pradiniame leidime, įvertintą 100 000 sintetinių atvejų paimtų iš Kantesti sintetinės atvejų aibės ir apimančių 127 šalies etiketes ir 75+ kalbas. Kiekvienas atvejis buvo užbaigtas variklio pagrindiniu keliu; gaudymo-atvejo hiperdiagnostikos vėliavėlės aktyvavimai liko ties 0 / 87,412. Originalus V11 paleidimas, atliktas 2026 m. balandžio 23 d., apėmė 15 rankiniu būdu atrinktų atvejų (sudėtinis 99.12%) ir patvirtino rubriką; antrasis atnaujinimas išlaiko tą pačią rubriką identišką pagal baitus ir išplečia vertinimą iki populiacijos masto kohortos.
Sudėtinė formulė sujungia tris komponentus: struktūrinis atitikimas su septyniais privalomais ataskaitos skyriais ir šešiolika privalomų poskyrių, turinio tikslumas matuojamas kaip raktinių žodžių atpažinimas (recall) + balų sistemos atpažinimas (recall) + tikrinimas, ar tikimybių skirstinys yra validus, ir atsako vėlavimas pagal pagrindinio kelio paslaugos lygio tikslą. Tiksli skaidymo schema pateikta žemiau esančioje rubrikos formulėje — nė vienas iš šių svorių ar sub-rubrikų nebuvo pakeistas antrajame atnaujinime.
Likę 0.20 procentinio punkto „rezervo“ beveik visiškai išskaidomi į klinikinį subbalą — nedidelė dalis atvejų (daugiausia Hepatologijoje ir Reumatologijoje) turėjo vieną tikėtą vertinimo sistemos raktinį žodį, kurio nebuvo variklio interpretacijoje, nepaisant to, kad diagnostinis turinys buvo teisingas. Nė vienas atvejis 100 000 atvejų antrojo atnaujinimo kohortoje nepraleido pačios diagnozės. Latencija pagerėjo nuo vidurkio 20.17 s V11 pradiniame leidime iki 13.26 s antrajame atnaujinime, atspindint gamybinio variklio optimizacijas tarp dviejų paleidimų; rubrika, vertinimo kodas ir API galinis taškas nepakito.
Pagal etiketę sudėtiniai balai svyravo nuo 0,9971 iki 0,9985 per 30 dažniausiai atstovaujamų šalies etikečių. Ilga uodega iš 97 papildomų etikečių (kartu ≈7 300 atvejų) nerodė jokio sistemingo blogėjimo. Dažniausios pagal atvejų skaičių etiketės buvo Jungtinės Valstijos (10 500), Brazilija (9 500), Ispanija (9 000), Italija (8 000), Vokietija (7 800), Prancūzija (7 400), Portugalija (5 800), Türkiye (3 400), Jungtinė Karalystė (2 900) ir Meksika (2 500).
Nuo 15 atvejų iki 100 000: kohortos raida per 127 šalies etiketes
Pradinis V11 atvejų rinkinys apėmė septynias specializacijas — hematologiją, endokrinologiją, metabolinę mediciną, hepatologiją, nefrologiją, kardiologiją, reumatologiją — taip pat du specialiai skirti hipodiagnozės spąstų atvejus, o kiekvienas atvejis buvo sintetiškai sugeneruotas kraujo tyrimų skydelis. V11 antrasis atnaujinimas išplečia vertinimą iki 100 000 sintetinių atvejų per 127 šalies etiketes, paskirstytų per aštuonias specializacijas (originalios septynios plius atskiras vidaus medicinos „krepšys“, kuris sugeria gaudymo-atvejų pogrupį). Ta pati vertinimo rubrika taikoma identiškai pagal baitus abiejuose paleidimuose.
Kadangi visi atvejai yra sintetiškai sugeneruoti, nėra realių identifikatorių, kuriuos reikėtų pašalinti, ir nėra įtraukiami jokie asmens duomenys. Kiekvienas sintetinės bylos atvejis turi etalonui vidinį atvejo kodą (BT-NNN-LABEL pradiniame V11 rinkinyje, stabilų case_uid antrajame atnaujinime). Jokie asmens duomenys niekur nepasirodo publikuotoje aplinkoje, techninėje ataskaitoje ar išleistuose duomenų rinkiniuose.
V11 pradinį leidimą — 15 rankiniu būdu atrinktų atvejų
Originalus V11 atvejų skydelis buvo rankiniu būdu atrinktas daktaro Thomaso Kleino, kad būtų išnaudoti diagnostiniai modeliai, kuriuos laboratorinės medicinos asistentai dažniausiai interpretuoja neteisingai. Kiekvienas iš penkiolikos atvejų buvo parinktas pagal konkrečią diagnostinę savybę, išvardytą toliau.
Kodėl būtent toks pasiskirstymas
Hematologija gauna tris atvejus, nes mikrocitinės diferencinės diagnostikos ir makrocitinės diferencinės diagnostikos yra didžiausios apimties „spąstai“ realios laboratorinės praktikos sąlygomis. Endokrinologija gauna tris, nes Hashimoto, PCOS ir vitamino D trūkumo pasireiškimai išbando skirtingas diagnostikos formas (autoantikūnais pagrįstą, hormonų santykiais pagrįstą, vieno žymens pagrįstą). Vieno atvejo specializacijos vis tiek yra prasmingos, nes kiekviena iš CKD, ASCVD rizikos ir SLE turi savo vertinimo sistemą, kurią variklis turėtų iškviesti (atitinkamai KDIGO stadijavimas, ASCVD 10 metų rizika, 2019 m. EULAR/ACR SLE kriterijai).
V11 antrasis atnaujinimas — 100 000 sintetinių atvejų per 127 šalies etiketes
Antrasis atnaujinimas pakeičia originalų V11 įkietą 15 atvejų Python literalą didesniu, programiškai sugeneruotu sintetinių atvejų rinkiniu. Atvejų rinkinys įkeliamas kiekvieno paleidimo pradžioje, o konfigūracija užregistruojama skaidrumui. Kohortos pasiskirstymas pagal turinio sritį pateiktas žemiau.
Sintetinė šalies etikečių skirstinio struktūra — 10 geriausių etikečių
100 000 sintetinių atvejų turi 127 šalies etiketes (ISO 3166-1 alpha-2), kad būtų išbandytas lokalės tvarkymas. Etikečių priskyrimas: Europa 57,7%, Amerikos 25,4%, Azijos ir Ramiojo vandenyno regionas 6,2%, pavadintos Vidurio Rytų / Afrikos etiketės 3,4% ir ilga uodega iš 97 papildomų etikečių, kurios kartu sudaro maždaug 7,3%. Dešimt dažniausių etikečių pagal atvejų skaičių yra Jungtinės Valstijos (10 500), Brazilija (9 500), Ispanija (9 000), Italija (8 000), Vokietija (7 800), Prancūzija (7 400), Portugalija (5 800), Türkiye (3 400), Jungtinė Karalystė (2 900) ir Meksika (2 500). Pagal etiketę sudėtiniai balai svyravo nuo 0,9971 iki 0,9985. Šie etikečių skaičiai yra sugeneruotų atvejų savybės, naudojamos lokalės tvarkymui išbandyti — tai nėra realūs naudotojai ir tai nėra realaus pasaulio geografinės aprėpties atspindys.
Iš anksto registruotas vertinimo planas, paaiškintas
Registracija iš anksto yra svarbiausias metodinis pasirinkimas šiame etalone. Kiekviena numatoma diagnozė, kiekviena klinikinio vertinimo sistema ir kiekviena ataskaitos skiltis buvo įsipareigota į šaltinio kodą prieš iškviečiant variklį. Todėl rubrikos koregavimas post-hoc, siekiant „glostyti“ variklį, yra neįmanomas.
Sudėtinį balą sudaro trys komponentai. struktūrinis komponentas sudaro 35 procentus ir matuoja, ar variklis grąžino septynias privalomas ataskaitos skiltis (antraštę, santrauką, pagrindinius radinius, diferencinę diagnostiką, vertinimo sistemas, rekomendacijas, tolesnį stebėjimą) ir šešiolika privalomų poskirsnių jose. Skilties buvimas sveria 40 procentų, o poskirsnio buvimas sveria 60 procentų struktūriniame skaičiavime.
The klinikinis komponentas sudaro 55 procentus ir sujungia tris dalykus: diagnozės-raktinio žodžio atpažinimą (70 procentų klinikinio poskyrio), vertinimo sistemos atpažinimą (20 procentų — ar variklis apskaičiuoja Mentzer, FIB-4, HOMA-IR, ASCVD riziką, KDIGO stadijavimą, EULAR/ACR kriterijus, kai tai aktualu) ir tikimybės sumos validacijos patikrą (10 procentų — diferencinės tikimybės turi sumuotis intervale [90, 110]). Spąstų atvejams taikoma aiški hiperdianozės bauda iki 0.30, atimama, skaičiuojama kaip 0.10 už kiekvieną suklastotą patologijos vėliavėlę, su riba iki trijų vėliavėlių.
The delsos komponentas sudaro 10 procentų. Atsakymas iki 20 sekundžių gauna visą 0.10, atsakymas iki 40 sekundžių gauna 0.05, o bet kas lėčiau — nulį. 20 sekundžių tikslas atspindi gamybos pirminės „primary-path“ paslaugos lygio tikslą; 40 sekundžių riba atspindi 2 fazės atsarginį biudžetą sunkiems variklio iškvietimams.
Ko iš anksto registracija neleidžia
Pirmo asmens etalonai garsėja tuo, kad po-hoc koreguoja rubriką ir taip išpūčia savo pačių skaičius. Šablonas beveik visada tas pats: komanda paleidžia variklį, pamato, kur jis atsilieka, tada tyliai pakoreguoja rubriką taip, kad prasčiau pasirodžiusios sritys būtų vertinamos mažiau. Įsipareigojus rubriką į šaltinio kodą prieš pirmą variklio iškvietimą ir paskelbus testavimo įrangą pagal MIT licenciją, šis koregavimas tampa matomas versijų kontrolėje. Bet kas gali klonuoti saugyklą, patikrinti rubrikos autorių datas ir patvirtinti, kad variklio rezultatai nebuvo naudojami vertinimui formuoti.
Hiperdiagnostikos spąstų atvejai — kodėl per didelis iškvietimas yra tikrasis nesėkmės režimas
Agresyvus patologijos pervertinimas normaliuose ekranuose yra dokumentuotas gedimo režimas vartotojams skirtais medicinos asistentais. Jo pasekmės apima nereikalingus tyrimus, paciento nerimą ir iatrogeninį ištyrimą. Du šio etalono spąstų atvejai sukurti tam, kad šis gedimo režimas būtų matomas ir įvertinamas.
🟡 Spąstas 1 — BT-014-GILBERT
Pasireiškimas. 24 metų vyras, kurio bendras bilirubinas yra 2.4 mg/dL. Tiesioginė frakcija normali, transaminazės ir šarminė fosfatazė yra savo pamatinėse ribose, retikulocitai nepasižymi niekuo išskirtiniu, o haptoglobinas ir LDH atmeta hemolizę.
Teisingas interpretavimas. Gilbert'o sindromas — gerybinis UGT1A1 polimorfizmas. Interpretacijoje neturėtų būti įtraukiamas hepatitas, cirozė, hemolizinė anemija ar tulžies latakų obstrukcija.
V11 rezultatas. Sudėtinis 1.000. Nė viena iš šešių stebėtų perdiagnozės vėliavėlių nepasireiškė kaip aktyvi diagnozė.
🟡 Spąstas 2 — BT-015-HEALTHY
Pasireiškimas. 35 metų moteris, turinti penkiolikos parametrų įprastą atrankos (screening) panelę. Kiekvienas analitas patogiai telpa savo pamatiniame intervale.
Teisingas interpretavimas. Patikinimas ir gyvenimo būdo palaikymas. Interpretacija neturėtų išgalvoti ribinės patologijos, kad skambėtų kliniškai naudingai.
V11 rezultatas. Sudėtinis 1.000. Nė viena iš septynių stebėtų perdiagnozės vėliavėlių — diabetas, anemija, hipotirozė, dislipidemija, hepatitas, inkstų liga, trūkumas — nepasireiškė kaip aktyvios diagnozės.
Abiejuose „spąstuose“ buvo patikrintos trylika stebėtų hiperdagnozės vėliavėlių. Nė viena nebuvo suaktyvinta. Tai yra rezultatas, kuris svarbiausias bet kuriam gydytojui, svarstančiam naudoti AI variklį kaip triiažo arba prieš konsultaciją priemonę: sistema nesukūrė ligos ten, kur jos nebuvo.
Mentzerio indeksas: geležies stoką atskiriant nuo talasemijos požymio
Antras didelės vertės radinys susijęs su atvejo BT-001 (geležies stokos anemija) ir atvejo BT-007 (beta-talasemija minor) sujungimu. Abu atvejai pasireiškia mikrocitoze ir yra gerai žinomas sunkumas naiviems klasifikatoriams. Mentzerio indeksas, apskaičiuojamas kaip MCV padalytas iš RBC skaičiaus, geležies stokos atveju viršija 13, o talasemijos požymio atveju nukrenta žemiau 13.
BT-001 atveju pacientė buvo 34 metų moteris, kurios hemoglobinas 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritinas 6 ng/mL ir padidėjęs TIBC. Apie 17,7 Mentzerio indeksas palaiko absoliutų geležies trūkumą. BT-007 atveju pacientas buvo 28 metų vyras, turintis mikrocitozę (MCV 65,8 fL), tačiau didelį RBC skaičių 6,2, normalų RDW, normalų feritiną ir HbA2 5,6 procento. Apie 10,6 Mentzerio indeksas rodo talasemijos požymį, o padidėjęs HbA2 patvirtina beta-talasemiją minor.
Abu atvejai surinko 1.000. Variklis Mentzerio indeksą aiškiai panaudojo abiejose interpretacijose ir kiekvienu atveju pateikė teisingą diagnozę. Tai vienas labiausiai kliniškai raminančių rezultatų visame etalone, nes talasemijos požymį supainiojus su geležies stoka, skiriamas netinkamas geležies papildymas ir praleidžiamos galimybės atlikti šeimos patikrą, o geležies stoką supainiojus su talasemija, atidedamas paprastas pakaitinis gydymas. Mūsų feritino intervalo gairės paaiškina platesnį diferencinės diagnostikos kontekstą.
Atvejų rezultatai iš V11 pradinio etaloninio vykdymo (2026 m. balandžio 23 d.)
Originalus V11 etaloninis vykdymas 15 atvejų įrodymo-koncepto kohortoje yra metodologinis pagrindas antrajam atnaujinimui: kiekviena žemiau pateikta atskiro atvejo detalė parodo, kaip rubrika apdoroja realų variklio atsakymą. Dvylika iš penkiolikos atvejų pasiekė maksimalų sudėtinį balą 1.000 pagrindiniame kelyje; trys atvejai buvo pateikti per 2 fazės atsarginį variantą, prarandant 0.05 delsos premiją, tačiau išsaugant visą klinikinį ir struktūrinį turinį. Vienam atvejui trūko vieno privalomo poskyrio; vienas grąžino šiek tiek sumažintą tikimybių skirstinio sumą.
PCOS atvejis (BT-008) atsakymo struktūroje prarado vieną privalomą poskyrį — penkiolika iš šešiolikos, o ne šešiolika iš šešiolikos — todėl struktūrinis balas sumažėjo nuo 1,000 iki 0,963. SLE atvejis (BT-011) grąžino tik nežymiai sumažintą tikimybių skirstinio sumą, kuri sumažino klinikinį balą iki 0,965, išlaikant kiekvieną diagnostinį raktinį žodį ir vertinimo sistemą. Nė vienas iš neidealių atvejų nepraleido teisingos diagnozės.
V11 antrojo atnaujinimo apibendrintas rezultatas — 100,000 atvejų
Populiacijos mastu atskirų atvejų eilučių neįmanoma perskaityti žmogui, todėl antrasis atnaujinimas pateikia apibendrintus rodiklius, o ne 100 000 eilučių lentelę. Pagrindinė suvestinė pateikta žemiau; pagal specialybę ir pagal šalies etiketę detalizacijos publikuojamos techninėje ataskaitoje ir Figshare įraše. Stratifikuotas atsitiktinis n = 201 žalių variklio atsakymų (deterministinis seed 20260426) skelbiama GitHub results/ kataloge peržiūrai.
Ką mums nepasako antraštinis balas
Sudėtinis balas 99,80 procento pagal šią konkrečią iš anksto registruotą rubriką, 100 000 atvejų sintetinėje kohortoje, apimančioje 127 šalies etiketes, reiškia beveik lubų lygio našumą — tačiau tai reikalauja kruopštaus kontekstualizavimo. Rezultatas aprašo variklio elgseną pagal rubriką, kurią įsipareigojome įtraukti į V11 šaltinio kodą; tai nėra universalus teiginys apie variklio teisingumą kiekviename realiame pasaulyje egzistuojančiame kraujo tyrimų skydelyje.
Balas rodo, kad variklis teisingai tvarkė diagnostikos modelius, parinktus šiam vertinimui, visoje populiacijos masto kohortoje, taikant metodiką, kuri yra paskelbta ir atkuriama. Tai nereiškia, kad variklis yra teisingas kiekvienoje kraujo tyrimo rezultatų plokštelėje, kuri egzistuoja „laukinėje“ aplinkoje. Tai nereiškia, kad variklis turėtų pakeisti gydytojo klinikinį sprendimą. Ir tai nereiškia, kad variklis lenkia alternatyvias AI sistemas — lyginamosios analizės su kitais varikliais sąmoningai nebuvo įtrauktos į šios ataskaitos apimtį.
Tai, ką balas iš tiesų nustato, yra bazinis lygis. Kai vertinimo kriterijus ir testavimo aplinka yra vieši, būsimas variklio versijas galima vertinti pagal tą patį vertinimo kriterijų — taikant V11 pradines 15 atvejų, Antrą atnaujinimą 100 000 atvejų kohortai arba bet kokiam vėlesniam išplėtimui — o skirtumas tarp paskelbto balo ir bet kurio vėlesnio paleidimo yra pats savaime pamatuojamas. Štai vertės iš anksto užregistravimas: ji paverčia veiklos teiginius patikrinamais teiginiais.
Kaip atkurti šį etaloną per 10 minučių
Atkūrimui reikia tik Kantesti API kredencialų poros ir Python 3.10 ar naujesnės aplinkos su requests ir reportlab įdiegtomis bibliotekomis. Pilnas „harness“ yra vienas savarankiškas Python modulis, išleistas pagal MIT licenciją.
Keturi žingsniai naujam paleidimui
Vienas. Klonuokite saugyklą: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Du. Įdiekite priklausomybes naudodami pip install -r requirements.txt (Antras atnaujinimas prideda mysql-connector-python ≥ 8.0 SQL atvejų įkėlėjui). Trys. Nustatykite KANTESTI_USERNAME ir KANTESTI_PASSWORD kaip aplinkos kintamuosius variklio API. Antram atnaujinimui SQL atvejų įkėlėjui taip pat nustatykite KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ir KANTESTI_DB_PASSWORD — įkėlėjas prisijungia per tik skaitymo rolę (bench_reader) neturinčią privilegijų identifikuoti lenteles. Keturi. Paleiskite python benchmark_bloodtest.py --limit 100000 visam „Second-Update“ paleidimui arba python benchmark_bloodtest.py --limit 1000 greitam iteravimui. Rezultatai patenka į ./benchmark_results/: CSV balų suvestinė su stulpeliais pagal šalį ir etiketę bei pagal specialybę, JSON agregatas, stratifikuotos-atsitiktinės žalių atsakymų imtis ir Markdown ataskaita.
Etaloniniai paleidimai nuo 2026 m. balandžio 23 d. (V11 pradinis, 15 atvejų) ir nuo 2026 m. balandžio 26 d. (V11 „Second Update“, 100 000 atvejų) išsaugomi results/ saugyklos (repozitorijaus) kataloge. Naujas paleidimas sugeneruos naują laiko žymos balų suvestinę, nekeičiant etaloninių paleidimų. Jei jūsų paleidimo rezultatas reikšmingai skiriasi, atidarykite GitHub issue su paleidimo laiko žyma ir variklio versija, grąžinta atsakymo metaduomenyse.
Apribojimai ir tolesni darbai
Net esant 100 000 atvejų per 127 šalies etiketes, keturi apribojimai nusipelno aiškaus įvardijimo: ilgauodegės etiketės nepakankamas atrinkimas, vienkartinis vertinimas, vieno variklio apimtis ir vieno šaltinio duomenų kilmė. Visi šie klausimai sprendžiami aktyviuose tolesniuose darbuose.
Ilgauodegės etikečių aprėptis. Antroji atnaujinimo versija apima 127 šalies etiketes, tačiau pasiskirstymas yra netolygus — 10 populiariausių etikečių sudaro ≈66.4% atvejų, o ilgauodegė 97 papildomų etikečių kartu sudaro ≈7.3% (apie 7 300 atvejų iš viso, vidutiniškai ~75 atvejai vienai etiketei). Todėl šioje ilgauodegėje pagal-etiketę sudarytos sudėtinės suvestinės yra triukšmingesnės, nei rodo antraštiniai skaičiai. Būsimi vykdymai perskirstys etikečių priskyrimą, kad būtų patikslintos pagal-etiketę gautos įverčių reikšmės.
Vienkartinis įvertinimas. Kiekvienas šios kohortos atvejis buvo įvertintas vieną kartą. Dideli kalbos modeliai pasižymi ne nereikšmingu išvesties kintamumu net ir esant mažai atrankos temperatūrai, todėl natūralus kitas žingsnis — daugkartinis protokolas su penkiais įvertinimais kiekvienam atvejui ir pateikta variacija, ypač „trap-case“ (spąstų atvejų) pogrupyje, kur nuoseklumas esant atrankos „jitter“ yra dalis saugos teiginio.
Vieno variklio apimtis. Ši ataskaita apibūdina vieną variklį. Lyginamosios analizės su alternatyviais AI sistemomis čia neįtrauktos; galime jas vykdyti kaip atskirą nepriklausomą tyrimą su tinkama metodika, naudojant tą patį MIT licencijuotą „harness“.
Sintetiniai duomenys. 100 000 atvejų yra sintetiškai sugeneruoti, o ne „sintetiniai atvejai“ — rezultatai neperduodami į realaus pasaulio klinikinį veiksmingumą. Vertinimas realiais, sutikimą turinčiais, iš išorės gautais duomenimis reikalautų tinkamos etinės priežiūros ir nepatenka į šio sintetinio etalono taikymo sritį.
Be šių keturių, labiausiai reikšmingas planuojamas išplėtimas — daugiakalbiškumo lygiavertiškumas pagal jurisdikciją. Kantesti AI variklis aptarnauja naudotojus 75+ kalbomis, o paleidus kalbomis stratifikuotus „Second-Update“ subkohortus (turkų, vokiečių, ispanų, prancūzų, italų, portugalų, arabų, mandarinų) bus kiekybiškai įvertinta išvesties kokybė visose variklio palaikomose kalbose. Kiekviena kalbomis stratifikuota analizė bus publikuota su savo DOI ir „harness“ šaka.