Kodėl egzistuoja šis etalonas ir ką jis tikrina

AI pagalba aiškinant kraujo tyrimus vis dažniau naudojama vartotojų ir klinikiniuose procesuose, tačiau atkuriamos vertinimo sistemos, pritaikytos laboratorinei medicinai, išlieka retos. Šiame kontekste svarbiausi klausimai nėra tie, kuriuos apima bendrieji medicininių klausimų ir atsakymų etalonai: ar variklis gali atskirti geležies stoką nuo talasemijos požymio, kai vidutinis eritrocitų tūris yra identiškas, ar jis perdiagnozuoja Gilberto sindromą kaip hepatitą, ir ar jis sukuria patologiją visiškai normaliame patikros skydelyje?

Iš anksto užregistruota vertinimo schemos (rubrikos) srauto diagrama, rodanti, kaip Kantesti AI variklis vertinamas pagal užšaldytus vertinimo kriterijus
1 pav.: Etalono architektūra — kiekvienas atvejis, kiekvienas raktinis žodis, kiekviena vertinimo sistema yra fiksuota šaltinio kode dar prieš varikliui pamatant bet kurį PDF. „Post-hoc“ rubrikos derinimas neįmanomas pagal dizainą.

Vienas kraujo tyrimo tyrimų rinkinys paprastai turi pakankamai informacijos, kad būtų galima pateikti kelias konkuruojančias interpretacijas, o interpretuojančio gydytojo užduotis – pasverti šias interpretacijas tarpusavyje, o ne ieškoti vadovėlinio atsakymo. Gerai vadovėliniais atvejais veikiantis „variklis“ vis tiek gali žlugti svarbiausiuose atvejuose: diagnostikos diferencijavimo spąstuose, gerybinėse variacijose, kurios vienos atrodo nerimą keliančios, ir visiškai normaliuose tyrimų rinkiniuose, kurie įvilioja užtikrintus asistentus į patologijos „gamybą“.

Šis vertinimo kriterijus buvo sukurtas būtent toms nesėkmės formoms. Kiekvienas iš penkiolikos atvejų buvo parinktas pagal konkrečią diagnostinę savybę: geležies stokos sukelta mikrocitozė, kuri turi būti atskirta nuo beta talasemijos požymio, kai identiškas vidutinis eritrocitų tūris; Gilbert’o sindromo vaizdas, kai vienintelė anomalija yra izoliuota netiesioginė hiperbilirubinemija; ir penkiolikos parametrų atrankos tyrimų rinkinys, kuriame kiekvienas analitas yra savo pamatiniame (referenciniame) intervale. Vertinimo rubrika skatina variklius, kurie kiekvieną atvejį skaito pagal jo paties kontekstą, ir baudžia variklius, kurie bando pateikti užtikrintą diagnozę, kai tokia diagnozė nėra pagrįsta.

Kaip Thomas Klein, MD, aš pasirinkau atvejų rinkinį, nes tai yra tie modeliai, kuriuos laboratorinės medicinos asistentai dažniausiai interpretuoja neteisingai. Brangiausia nesėkmės forma nėra "praleisti retą ligą" – tai sukurti įprastą patologiją pacientams, kuriems jos nėra. Mūsų Medicininis patvirtinimas „hub“ aprašo platesnę sistemą; šiame puslapyje aprašomas jos pritaikytas rezultatas V11 varikliui.

Naujausias pamatinis paleidimas — V11 (2026 m. balandis)

2026 m. balandžio mėn. Kantesti AI Engine V11 etaloninis paleidimas sugeneravo sudėtinį balą 99.12% pagal iš anksto užregistruotą penkiolikos atvejų rubriką. Abu hiperdijagnozės spąstų atvejai surinko maksimalų balą. Mentzerio indeksas buvo pritaikytas teisingai geležies stokos ir talasemijos diferencijavimo atveju.

Sudėtinis 99.12% 15 iš 15 atvejų surinko
0.998 Struktūrinis balas
0.998 Klinikinis balas
20.17 s Vidutinis vėlavimas
0 / 13 Spąstų klaidingi teigiami rezultatai

Sudėtinė formulė sujungia tris komponentus: struktūrinis atitikimas su septyniais privalomais ataskaitos skyriais ir šešiolika privalomų poskyrių, klinikinis tikslumas matuojamas kaip raktinių žodžių atpažinimas (recall) + balų sistemos atpažinimas (recall) + tikrinimas, ar tikimybių skirstinys yra validus, ir atsako vėlavimas palyginti su 20 sekundžių pagrindinės „paslaugos lygio“ (SLA) tiksline riba. Tikslus skaidymas pateiktas rubrikos formulėje žemiau.

Sudėtinis = 0.35 × Struktūrinis + 0.55 × Klinikinis + 0.10 × Vėlavimas

Likę 0,88 procentinio punkto „laisvumo“ likutį beveik visiškai sudaro delsos praradimas — trys 2 fazės atsarginio veikimo (fallback) iškvietimai, kurių kiekvienas sudarė po -0,05 kompozicinio dydžio, prisidėjo maždaug 0,60 iš 0,88 punkto trūkumo — o ne klinikinio turinio praradimas. Variklis nepraleido teisingos diagnozės nė viename iš penkiolikos atvejų; ten, kur nepavyko, tai buvo dėl to, kad dalyje iškvietimų jis užtruko šiek tiek ilgiau nei 20 sekundžių pagrindinis (primary-path) tikslas.

Penkiolika atvejų iš septynių medicinos specialybių

Atvejų skydelis apima septynias specializacijas — hematologiją, endokrinologiją, metabolinę mediciną, hepatologiją, nefrologiją, kardiologiją, reumatologiją — taip pat du atskirus hiperdianostikos spąstų (hyperdiagnosis trap) atvejus. Kiekvienas atvejis yra anonimizuotas tikro paciento įrašas, paimtas iš Kantesti klinikinių duomenų saugyklos, gavus raštišką informuotą sutikimą.

Aprėpties žemėlapis su penkiolika anonimizuotų kraujo tyrimų atvejų, paskirstytų septynioms medicinos specialybėms, taip pat su hiperdianostikos spąstų atvejais
2 pav.: Atvejų pasiskirstymas hematologijoje, endokrinologijoje, metabolinėje medicinoje, hepatologijoje, nefrologijoje, kardiologijoje, reumatologijoje, taip pat du spąstų atvejai — Gilberto sindromas ir visiškai normalus atrankos skydelis.

Deidentifikavimas buvo atliktas taikant „Safe Harbor“ metodą: visi tiesioginiai identifikatoriai buvo pašalinti arba pakeisti, o kiekvienam įrašui priskirtas etaloninis vidinis atvejo kodas BT-NNN-LABEL formatu. Apdorojimas buvo atliktas laikantis BDAR 9 straipsnio 2 dalies j punkto moksliniams tyrimams su atitinkamomis apsaugos priemonėmis ir atitinkamų JK BDAR nuostatų. Jokios asmens tapatybę identifikuojančios informacijos nėra nei publikuojamame bandymo (harness) apraše, nei techninėje ataskaitoje, nei išleistuose duomenų rinkiniuose.

Hematologija (3) BT-001, BT-006, BT-007 Geležies stokos anemija · B12 trūkumas · Nepilnametė beta-talasemija
Endokrinologija (3) BT-002, BT-008, BT-012 Hašimoto tiroiditas · PCOS su insulino rezistencija · Sunkus vitamino D trūkumas
Metabolinė (2) BT-003, BT-013 T2DM su metaboliniu sindromu · Hiperurikemija su podagros rizika
Hepatologija (2) BT-004, BT-009 NAFLD / NASH · Ūminis virusinis hepatitas
Nefrologija · Kardiologija · Reumatologija (3) BT-005, BT-010, BT-011 LŠL 3 stadija · Aterogeninė dislipidemija · Sisteminė raudonoji vilkligė
Spąstų atvejai (2) BT-014, BT-015 Gilberto sindromas (izoliuota netiesioginės hiperbilirubinemijos forma) · Visiškai normalus suaugusiųjų atrankos skydelis

Kodėl būtent toks pasiskirstymas

Hematologija gauna tris atvejus, nes mikrocitinės diferencinės diagnostikos ir makrocitinės diferencinės diagnostikos yra didžiausios apimties „spąstai“ realios laboratorinės praktikos sąlygomis. Endokrinologija gauna tris, nes Hashimoto, PCOS ir vitamino D trūkumo pasireiškimai išbando skirtingas diagnostikos formas (autoantikūnais pagrįstą, hormonų santykiais pagrįstą, vieno žymens pagrįstą). Vieno atvejo specializacijos vis tiek yra prasmingos, nes kiekviena iš CKD, ASCVD rizikos ir SLE turi savo vertinimo sistemą, kurią variklis turėtų iškviesti (atitinkamai KDIGO stadijavimas, ASCVD 10 metų rizika, 2019 m. EULAR/ACR SLE kriterijai).

Iš anksto registruotas vertinimo planas, paaiškintas

Registracija iš anksto yra svarbiausias metodinis pasirinkimas šiame etalone. Kiekviena numatoma diagnozė, kiekviena klinikinio vertinimo sistema ir kiekviena ataskaitos skiltis buvo įsipareigota į šaltinio kodą prieš iškviečiant variklį. Todėl rubrikos koregavimas post-hoc, siekiant „glostyti“ variklį, yra neįmanomas.

Sudėtinį balą sudaro trys komponentai. struktūrinis komponentas sudaro 35 procentus ir matuoja, ar variklis grąžino septynias privalomas ataskaitos skiltis (antraštę, santrauką, pagrindinius radinius, diferencinę diagnostiką, vertinimo sistemas, rekomendacijas, tolesnį stebėjimą) ir šešiolika privalomų poskirsnių jose. Skilties buvimas sveria 40 procentų, o poskirsnio buvimas sveria 60 procentų struktūriniame skaičiavime.

The klinikinis komponentas sudaro 55 procentus ir sujungia tris dalykus: diagnozės-raktinio žodžio atpažinimą (70 procentų klinikinio poskyrio), vertinimo sistemos atpažinimą (20 procentų — ar variklis apskaičiuoja Mentzer, FIB-4, HOMA-IR, ASCVD riziką, KDIGO stadijavimą, EULAR/ACR kriterijus, kai tai aktualu) ir tikimybės sumos validacijos patikrą (10 procentų — diferencinės tikimybės turi sumuotis intervale [90, 110]). Spąstų atvejams taikoma aiški hiperdianozės bauda iki 0.30, atimama, skaičiuojama kaip 0.10 už kiekvieną suklastotą patologijos vėliavėlę, su riba iki trijų vėliavėlių.

The delsos komponentas sudaro 10 procentų. Atsakymas iki 20 sekundžių gauna visą 0.10, atsakymas iki 40 sekundžių gauna 0.05, o bet kas lėčiau — nulį. 20 sekundžių tikslas atspindi gamybos pirminės „primary-path“ paslaugos lygio tikslą; 40 sekundžių riba atspindi 2 fazės atsarginį biudžetą sunkiems variklio iškvietimams.

Galinis (terminal) ekrano vaizdas iš MIT licencijuoto Kantesti etaloninio (benchmark) testavimo įrankio, kuris paleidžiamas ir išveda balus pagal atvejį
3 pav.: Testavimo įranga vykdymo metu. Kiekvienas atvejis pateikiamas kaip A4 PDF, įkeltas į gamybos v11 endpointą ir įvertinamas pagal užšaldytą rubriką. Kiekvienas pradinis atsakymas išsaugomas kartu su apibendrintu vertinimo suvestinės įrašu.

Ko iš anksto registracija neleidžia

Pirmo asmens etalonai garsėja tuo, kad po-hoc koreguoja rubriką ir taip išpūčia savo pačių skaičius. Šablonas beveik visada tas pats: komanda paleidžia variklį, pamato, kur jis atsilieka, tada tyliai pakoreguoja rubriką taip, kad prasčiau pasirodžiusios sritys būtų vertinamos mažiau. Įsipareigojus rubriką į šaltinio kodą prieš pirmą variklio iškvietimą ir paskelbus testavimo įrangą pagal MIT licenciją, šis koregavimas tampa matomas versijų kontrolėje. Bet kas gali klonuoti saugyklą, patikrinti rubrikos autorių datas ir patvirtinti, kad variklio rezultatai nebuvo naudojami vertinimui formuoti.

Hiperdiagnostikos spąstų atvejai — kodėl per didelis iškvietimas yra tikrasis nesėkmės režimas

Agresyvus patologijos pervertinimas normaliuose ekranuose yra dokumentuotas gedimo režimas vartotojams skirtais medicinos asistentais. Jo pasekmės apima nereikalingus tyrimus, paciento nerimą ir iatrogeninį ištyrimą. Du šio etalono spąstų atvejai sukurti tam, kad šis gedimo režimas būtų matomas ir įvertinamas.

Palyginimas greta: naivus AI išgalvoja hepatitą Gilbert'o sindromo skydelyje, palyginti su Kantesti varikliu, kuris teisingai identifikuoja gerybinį UGT1A1 polimorfizmą
4 pav.: Spąstų atvejų dizainas. Variklis, kuris užtikrintai priskiria Gilbert'o sindromą hepatitui, arba kuris sukuria ribinę patologiją visiškai normaliame ekrane, yra baudžiamas — ne apdovanojamas už „klinikinį“ skambesį.

🟡 Spąstas 1 — BT-014-GILBERT

Pasireiškimas. 24 metų vyras, kurio bendras bilirubinas yra 2.4 mg/dL. Tiesioginė frakcija normali, transaminazės ir šarminė fosfatazė yra savo pamatinėse ribose, retikulocitai nepasižymi niekuo išskirtiniu, o haptoglobinas ir LDH atmeta hemolizę.

Teisingas interpretavimas. Gilbert'o sindromas — gerybinis UGT1A1 polimorfizmas. Interpretacijoje neturėtų būti įtraukiamas hepatitas, cirozė, hemolizinė anemija ar tulžies latakų obstrukcija.

V11 rezultatas. Sudėtinis 1.000. Nė viena iš šešių stebėtų perdiagnozės vėliavėlių nepasireiškė kaip aktyvi diagnozė.

🟡 Spąstas 2 — BT-015-HEALTHY

Pasireiškimas. 35 metų moteris, turinti penkiolikos parametrų įprastą atrankos (screening) panelę. Kiekvienas analitas patogiai telpa savo pamatiniame intervale.

Teisingas interpretavimas. Patikinimas ir gyvenimo būdo palaikymas. Interpretacija neturėtų išgalvoti ribinės patologijos, kad skambėtų kliniškai naudingai.

V11 rezultatas. Sudėtinis 1.000. Nė viena iš septynių stebėtų perdiagnozės vėliavėlių — diabetas, anemija, hipotirozė, dislipidemija, hepatitas, inkstų liga, trūkumas — nepasireiškė kaip aktyvios diagnozės.

Abiejuose „spąstuose“ buvo patikrintos trylika stebėtų hiperdagnozės vėliavėlių. Nė viena nebuvo suaktyvinta. Tai yra rezultatas, kuris svarbiausias bet kuriam gydytojui, svarstančiam naudoti AI variklį kaip triiažo arba prieš konsultaciją priemonę: sistema nesukūrė ligos ten, kur jos nebuvo.

Mentzerio indeksas: geležies stoką atskiriant nuo talasemijos požymio

Antras didelės vertės radinys susijęs su atvejo BT-001 (geležies stokos anemija) ir atvejo BT-007 (beta-talasemija minor) sujungimu. Abu atvejai pasireiškia mikrocitoze ir yra gerai žinomas sunkumas naiviems klasifikatoriams. Mentzerio indeksas, apskaičiuojamas kaip MCV padalytas iš RBC skaičiaus, geležies stokos atveju viršija 13, o talasemijos požymio atveju nukrenta žemiau 13.

BT-001 atveju pacientė buvo 34 metų moteris, kurios hemoglobinas 10,4 g/dL, MCV 72,4 fL, RBC 4,1 × 10¹²/L, feritinas 6 ng/mL ir padidėjęs TIBC. Apie 17,7 Mentzerio indeksas palaiko absoliutų geležies trūkumą. BT-007 atveju pacientas buvo 28 metų vyras, turintis mikrocitozę (MCV 65,8 fL), tačiau didelį RBC skaičių 6,2, normalų RDW, normalų feritiną ir HbA2 5,6 procento. Apie 10,6 Mentzerio indeksas rodo talasemijos požymį, o padidėjęs HbA2 patvirtina beta-talasemiją minor.

Geležies stokos anemija Mentzer > 13 Žemas feritinas, žemas TSAT, aukštas TIBC, padidėjęs RDW
Beta-talasemijos požymis Mentzer < 13 Normalus feritinas, normalus RDW, padidėjęs HbA2 (>3.5%), didelis RBC skaičius

Abu atvejai surinko 1.000. Variklis Mentzerio indeksą aiškiai panaudojo abiejose interpretacijose ir kiekvienu atveju pateikė teisingą diagnozę. Tai vienas labiausiai kliniškai raminančių rezultatų visame etalone, nes talasemijos požymį supainiojus su geležies stoka, skiriamas netinkamas geležies papildymas ir praleidžiamos galimybės atlikti šeimos patikrą, o geležies stoką supainiojus su talasemija, atidedamas paprastas pakaitinis gydymas. Mūsų feritino intervalo gairės paaiškina platesnį diferencinės diagnostikos kontekstą.

Kiekvieno atvejo rezultatai iš 2026 m. balandžio paleidimo

Dvylika iš penkiolikos atvejų pasiekė pirminio kelio sudėtinio balo lubas — 1.000. Trys atvejai buvo pateikti per 2 fazės atsarginį variantą, prarandant 0,05 latencijos premiją, tačiau išsaugant visą klinikinį ir struktūrinį turinį. Vienu atveju trūko vieno privalomo poskyrio; vienu atveju grąžinta tik šiek tiek sumažinta tikimybių pasiskirstymo suma.

Atvejo ID Specializacija Sudėtinis Latencija Kelias
BT-001-IDAHematologija1.00017,8 spirminis
BT-006-B12Hematologija1.00018,4 spirminis
BT-007-THALHematologija1.00017,0 spirminis
BT-002-HASHEndokrinologija0.95037,0 satsarginis variantas
BT-008-PCOSEndokrinologija0.98718,6 spirminis
BT-003-T2DMMetabolizmas1.00019,1 spirminis
BT-013-GOUTMetabolizmas1.00019,4 spirminis
BT-004-NAFLDHepatologija1.00019,6 spirminis
BT-009-VIRHEPHepatologija0.95023,4 satsarginis variantas
BT-014-GILBERTSpąstai1.00018,9 spirminis
BT-005-CKDNefrologija1.00017,4 spirminis
BT-010-ASCVDKardiologija1.00019,7 spirminis
BT-011-SLEReumatologija0.98118,2 spirminis
BT-012-VITDEndokrinologija1.00019,3 spirminis
BT-015-SVEIKASSpąstai1.00018,7 satsarginis variantas

PCOS atvejis (BT-008) atsakymo struktūroje prarado vieną privalomą poskyrį — penkiolika iš šešiolikos, o ne šešiolika iš šešiolikos — todėl struktūrinis balas sumažėjo nuo 1,000 iki 0,963. SLE atvejis (BT-011) grąžino tik nežymiai sumažintą tikimybių skirstinio sumą, kuri sumažino klinikinį balą iki 0,965, išlaikant kiekvieną diagnostinį raktinį žodį ir vertinimo sistemą. Nė vienas iš neidealių atvejų nepraleido teisingos diagnozės.

Ką mums nepasako antraštinis balas

Sudėtinis balas 99,12 procento pagal šį konkretų iš anksto registruotą vertinimo kriterijų rinkinį reiškia beveik lubų lygio rezultatus, tačiau jį verta kruopščiai įrėminti. Rezultatas aprašo, kaip variklis elgėsi prieš penkiolika kruopščiai atrinktų anonimizuotų atvejų, įvertintų po vieną kartą, pagal vieną vertinimo kriterijų rinkinį. Aiškiai nurodome, ką tas skaičius nustato ir ko nenustato.

Balas rodo, kad V11 variklis teisingai tvarkė diagnostinius šablonus, atrinktus šiam vertinimui, taikant metodiką, kuri yra paskelbta ir atkuriama. Tai nereiškia, kad variklis yra teisingas kiekvienoje egzistuojančioje kraujo tyrimų plokštelėje. Tai nereiškia, kad variklis turėtų pakeisti gydytojo sprendimą. Ir tai nereiškia, kad variklis lenkia alternatyvias AI sistemas — lyginamosios analizės su kitais varikliais sąmoningai nebuvo įtrauktos į šios ataskaitos apimtį.

Tai, ką balas iš tiesų nustato, yra bazinis lygis. Kadangi vertinimo kriterijus ir „harness“ vieši, būsimas variklio versijas galima vertinti pagal tuos pačius penkiolika atvejų, o skirtumas tarp paskelbto balo ir bet kurio vėlesnio paleidimo yra pats savaime pamatuojamas. Štai vertės prasmė išankstinei registracijai: ji paverčia veiklos teiginius patikrinamais teiginiais.

Kaip atkurti šį etaloną per 10 minučių

Atkūrimui reikia tik Kantesti API kredencialų poros ir Python 3.10 ar naujesnės aplinkos su requests ir reportlab įdiegtomis bibliotekomis. Pilnas „harness“ yra vienas savarankiškas Python modulis, išleistas pagal MIT licenciją.

Reprodukuojamumo tinklo diagrama, rodanti, kad etalonas (benchmark) atspindėtas per Figshare, ResearchGate, Academia.edu ir GitHub, o Figshare DOI pateikiamas kaip kanoninis inkaras
5 pav.: Etalonas atspindėtas keturiose tyrimų platformose. Figshare DOI yra kanoninis akademinis identifikatorius; ResearchGate, Academia.edu ir GitHub talpina lygiagrečias kopijas su kodu ir neapdorotais duomenimis.

Keturi žingsniai naujam paleidimui

Vienas. Klonuokite saugyklą: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. Du. Įdiekite priklausomybes naudodami pip install -r requirements.txt. Trys. Nustatykite KANTESTI_USERNAME ir KANTESTI_PASSWORD kaip aplinkos kintamuosius — prisijungimo duomenys skaitomi vykdymo metu ir niekas nėra įrašyta į skriptą. Keturi. Paleiskite python benchmark_bloodtest.py ir patikrinkite keturis artefaktus, sugeneruotus darbo kataloge: CSV balų suvestinę, JSON balų suvestinę, pilną JSON išklotinę, įskaitant neapdorotus variklio atsakymus, ir žmogui suprantamą Markdown ataskaitą.

2026 m. balandžio 23 d. atliktas pamatinis paleidimas išsaugomas results/ saugyklos (repository) kataloge. Naujas paleidimas sugeneruos naują laiko žymos (timestamp) balų suvestinę, nekeičiant pamatinio paleidimo. Jei jūsų paleidimo rezultatas reikšmingai skiriasi, atidarykite GitHub issue su paleidimo laiko žyma ir variklio versija, pateikta atsakymo metaduomenyse.

Apribojimai ir tolesni darbai

Keturi apribojimai nusipelno aiškaus pripažinimo: imties dydis, vienkartinis įvertinimas, vieno variklio apimtis ir vieno šaltinio duomenų kilmė. Kiekvienas iš jų šiuo metu sprendžiamas tęstiniuose tolesniuose darbuose.

Imties dydis. Penkiolika atvejų per aštuonias specializacijos (specialty) grupes tinka įrodymo-of-koncepto (proof of concept) tikslui, bet ne pogrupių analizei konkrečioje specializacijoje. Planuojama išplėsti iki penkiasdešimties atvejų ir įtraukti krešėjimo (koaguliacijos) paneles, hematologinių piktybinių navikų patikrą, nėštumo paneles ir pediatrinius atvejus.

Vienkartinis įvertinimas. Kiekvienas atvejis buvo įvertintas vieną kartą. Dideli kalbos modeliai pasižymi ne trivialia išvesties variacija net ir esant mažai atrankos temperatūrai, todėl natūralus kitas žingsnis — kelių paleidimų protokolas su penkiais įvertinimais kiekvienam atvejui ir pateikta variacija.

Vieno variklio apimtis. Ši ataskaita apibūdina vieną variklį. Lyginamosios analizės su alternatyviomis AI sistemomis čia neįtrauktos; galime jas vykdyti kaip atskirą nepriklausomą tyrimą su tinkama metodika.

Vieno šaltinio duomenų kilmė. Penkiolika atvejų yra anonimizuoti realių pacientų įrašai, paimti iš vieno klinikinio repozitoriumo. Tai yra atrinkta (curated) imtis, o ne populiacijai reprezentatyvus atsitiktinis atrinkimas. Planuojama išplėsti vertinimą iki kelių centrų duomenų.

Labiausiai reikšmingas planuojamas išplėtimas — daugiakalbis atitikimas (paritetas). Kantesti AI Engine aptarnauja naudotojus 75+ kalbomis, o paleidus tą patį penkiolikos atvejų testavimo rinkinį turkų, vokiečių, ispanų, prancūzų ir arabų kalbomis bus kiekybiškai įvertinta išvesties kokybė per variklio palaikomas kalbas. Kiekvieną kalbai skirtą paleidimą paskelbsime su savo DOI ir testavimo (harness) šaka.