რატომ არსებობს ეს ბენჩმარკი და რას ამოწმებს

AI-დახმარებით სისხლის ანალიზის განმარტება სულ უფრო ხშირად გამოიყენება როგორც სამომხმარებლო, ისე კლინიკურ სამუშაო პროცესებში, თუმცა ლაბორატორიულ მედიცინაზე მორგებული, განმეორებადობის მქონე შეფასების ჩარჩოები იშვიათია. ამ კონტექსტში ყველაზე მნიშვნელოვანი კითხვები არ არის ის, რაც დაფარულია ზოგადი სამედიცინო კითხვა-პასუხის ბენჩმარკებით: შეუძლია თუ არა ძრავს განასხვაოს რკინადეფიციტი თალასემიის ნიშნიდან მაშინ, როცა საშუალო კორპუსკულარული მოცულობა იდენტურია; ზედმეტად ხომ არ დიაგნოსტირებს გილბერტის სინდრომს ჰეპატიტად; და ხომ არ „ქმნის“ პათოლოგიას სრულად ნორმალურ სკრინინგ პანელში?

წინასწარ რეგისტრირებული რუბრიკის ნაკადის დიაგრამა, რომელიც აჩვენებს, როგორ ფასდება Kantesti AI ძრავა — V11 მეორე განახლება, 99.80% კომპოზიტის ქულა 100,000 შემთხვევაზე — გაყინულ შეფასების კრიტერიუმებთან
სურათი 1: V11-ის მეორე განახლების 100,000-შემთხვევიანი კოჰორტის უკან არსებული საცნობარო არქიტექტურა — თითოეული შემთხვევა, თითოეული საკვანძო სიტყვა, თითოეული შეფასების სისტემა ფიქსირდება წყაროკოდში მანამდე, სანამ ძრავა ერთ PDF-საც კი დაინახავს, და რუბრიკა ბაიტ-იდენტურია V11-ის საწყისი გამოშვებისა. პოსტ-ჰოკ რუბრიკის კორექტირება დიზაინით შეუძლებელია. 99.80% კომპოზიტური ქულა hub აღწერს უფრო ფართო ჩარჩოს; ეს გვერდი აღწერს V11-ის საწყის კონცეფციის დამტკიცებას და V11-ის მეორე განახლებას, რომელმაც ის მასშტაბურად გააფართოვა 100,000 ანონიმიზებულ შემთხვევამდე, რომლებიც აღებულია SQL-ზე დაფუძნებული კლინიკური რეპოზიტორიდან და მოიცავს 127 ქვეყანას — იგივე შეფასების რუბრიკით, ბაიტ-იდენტურად, პოსტ-ჰოკ კორექტირების დაშვების გარეშე.

სისხლის ანალიზის ერთი პანელი, როგორც წესი, შეიცავს საკმარის სიგნალს რამდენიმე კონკურენტული ინტერპრეტაციის მხარდასაჭერად, ხოლო განმმარტებელი ექიმის ამოცანაა ამ ინტერპრეტაციებს ერთმანეთთან შეადაროს და შეაფასოს, ვიდრე სახელმძღვანელოს ტიპური პასუხის მოძიება სცადოს. ისეთი „ძრავი“, რომელიც კარგად მუშაობს სახელმძღვანელოს ტიპურ შემთხვევებზე, მაინც შეიძლება წააგოს ყველაზე მნიშვნელოვან შემთხვევებში: დიფერენციალური დიაგნოზის ხაფანგებში, კეთილთვისებიან ვარიანტებში, რომლებიც ცალკე აღებულად საგანგაშოდ გამოიყურება, და სრულად ნორმალურ პანელებში, რომლებიც თავდაჯერებულ ასისტენტებს უბიძგებს პათოლოგიის „გამოგონებისკენ“.

ეს ბენჩმარკი სწორედ ამ ტიპის წარუმატებლობებზეა აგებული. თითოეული თხუთმეტი შემთხვევა შეირჩა კონკრეტული დიაგნოსტიკური თვისების მიხედვით: რკინადეფიციტური მიკროციტოზი, რომელიც უნდა დარჩეს გამიჯნული ბეტა-თალასემიის ნიშნიდან, რომელსაც აქვს იდენტური საშუალო კორპუსკულარული მოცულობა; გილბერტის სინდრომის სურათი, სადაც ერთადერთი დარღვევა არის იზოლირებული არაპირდაპირი ჰიპერბილირუბინემია; და თხუთმეტ-პარამეტრიანი სკრინინგ-პანელი, რომელშიც თითოეული ანალიტი თავის საცნობარო დიაპაზონშია. რუბრიკა აჯილდოებს ძრავებს, რომლებიც თითოეულ შემთხვევას საკუთარ კონტექსტში კითხულობენ და აკლებს ქულას ძრავებს, რომლებიც იქ, სადაც ასეთი დიაგნოზი არ არის გამართლებული, თავდაჯერებულ დიაგნოზს „მიიწევენ“.

როგორც თომას კლაინი, MD, შევარჩიე შემთხვევების პანელი, რადგან ეს ის შაბლონებია, რომლებსაც ლაბორატორიული მედიცინის ასისტენტები ყველაზე ხშირად არასწორად იგებენ. ძვირადღირებული წარუმატებლობა არ არის "იშვიათი დაავადების გამოტოვება" — ეს არის რუტინული პათოლოგიის გამოგონება იმ პაციენტებში, რომლებსაც ის არ აქვთ. ჩვენი სამედიცინო ვალიდაცია hub აღწერს უფრო ფართო ჩარჩოს; ეს გვერდი აღწერს V11 საწყის proof-of-concept-ს და V11 მეორე განახლებას, რომელმაც ის მასშტაბურად გადაიყვანა 100,000 სინთეტიკურ შემთხვევამდე, რომლებიც აღებულია სინთეტიკური შემთხვევების ნაკრებიდან, რომელიც მოიცავს 127 ქვეყნის ეტიკეტს — იმავე შეფასების რუბრიკით, ბაიტ-იდენტურად, და პოსტ-ჰოკ ტიუნინგის დაშვების გარეშე.

26 აპრილი 2026-ის V11 მეორე განახლების საცნობარო გაშვებამ გამოიმუშავა კომპოზიტური ქულა

V11-ის საწყის გამოშვებაში გამოყენებულ იმავე წინასწარ რეგისტრირებულ რუბრიკაზე დაყრდნობით, შეფასებული 99.80% 100,000 ანონიმიზებული შემთხვევა 100,000 სინთეტიკური შემთხვევა აღებულია Kantesti სინთეტიკური შემთხვევების ნაკრებიდან და მოიცავს 127 ქვეყნის ეტიკეტი . 23 აპრილი 2026-ის ორიგინალ V11-ის გაშვებამ მოიცვა 15 ხელით შერჩეული შემთხვევა (კომპოზიტი 99.12%) და დაადასტურა რუბრიკა; მეორე განახლება ინარჩუნებს იმავე რუბრიკას ბაიტ-იდენტურად და აფართოებს შეფასებას მოსახლეობის მასშტაბის კოჰორტაზე. 0 / 87,412. 100,000-დან 100,000 შემთხვევამ მიიღო ქულა.

კომპოზიტური 99.80% 13.26 წმ
1.000 სტრუქტურული ქულა
0.996 კლინიკური ქულა
ძირითადი გზის სერვის-დონის სამიზნის წინააღმდეგ. ზუსტი დაშლა ნაჩვენებია ქვემოთ მოცემულ რუბრიკის ფორმულაში — არც ერთი ეს წონა ან ქვერუბრიკა არ შეცვლილა მეორე განახლებისთვის. საშუალო ლატენტობა
0 / 87,412 ხაფანგის ცრუ დადებითი პასუხები

კომპოზიტური ფორმულა აერთიანებს სამ კომპონენტს: სტრუქტურული შესაბამისობა შვიდ სავალდებულო ანგარიშის სექციასთან და თექვსმეტ სავალდებულო ქვესექციასთან, შინაარსის სიზუსტე იზომება როგორც საკვანძო სიტყვების დამახსოვრება (keyword recall) პლუს ქულების სისტემის დამახსოვრება (scoring-system recall) პლუს ალბათობათა განაწილების ვალიდურობის შემოწმება და პასუხის ლატენტობა დარჩენილი 0.20 პროცენტული პუნქტი „თავისუფალი სივრციდან“ თითქმის მთლიანად იშლება კლინიკურ ქვექულაში — შემთხვევების მცირე ნაწილი (ძირითადად ჰეპატოლოგიასა და რევმატოლოგიაში) შეიცავდა ერთ მოსალოდნელ საკვანძო სიტყვას, რომელიც არ იყო ძრავის ინტერპრეტაციაში, მიუხედავად იმისა, რომ დიაგნოსტიკური შინაარსი სწორი იყო.

კომპოზიტური = 0.35 × სტრუქტურული + 0.55 × კლინიკური + 0.10 × ლატენტობა

100,000-შემთხვევიან მეორე-განახლების კოჰორტაში არც ერთ შემთხვევას არ გამორჩა თავად დიაგნოზი. დაყოვნებამ გაუმჯობესება განიცადა V11-ის საწყის გამოშვებაში საშუალოდ 20.17 წმ-დან მეორე განახლებაში 13.26 წმ-მდე, რაც ასახავს წარმოების ძრავის ოპტიმიზაციებს ორ გაშვებას შორის; რუბრიკა, შეფასების კოდი და API-ის ბოლო წერტილი უცვლელია. ქვეყნების მიხედვით კომპოზიტური ქულები მერყეობდა 0.9971-დან (ინდოეთი) 0.9985-მდე (შვეიცარია) ყველაზე მეტად წარმოდგენილ 30 ქვეყანაში. დამატებითი 97 ქვეყნის გრძელი „კუდი“ (≈7,300 შემთხვევა ერთად) არ აჩვენებდა სისტემურ გაუარესებას. შემთხვევების რაოდენობით მთავარი კონტრიბუტორები იყვნენ: შეერთებული შტატები (10,500), ბრაზილია (9,500), ესპანეთი (9,000), იტალია (8,000), გერმანია (7,800), საფრანგეთი (7,400), პორტუგალია (5,800), Türkiye (3,400), გაერთიანებული სამეფო (2,900) და მექსიკა (2,500).

თითო-ეტიკეტის კომპოზიტური ქულები მერყეობდა 0.9971-დან 0.9985-მდე 30 ყველაზე-ხშირად წარმოდგენილ ქვეყნის ეტიკეტზე. დამატებითი 97 ეტიკეტის გრძელი კუდი (≈7,300 შემთხვევა ერთად) არ აჩვენებდა სისტემურ გაუარესებას. შემთხვევების რაოდენობით ყველაზე ხშირი ეტიკეტები იყო: ამერიკის შეერთებული შტატები (10,500), ბრაზილია (9,500), ესპანეთი (9,000), იტალია (8,000), გერმანია (7,800), საფრანგეთი (7,400), პორტუგალია (5,800), Türkiye (3,400), გაერთიანებული სამეფო (2,900) და მექსიკა (2,500).

15 შემთხვევიდან 100,000-მდე: კოჰორტის ევოლუცია 127 ქვეყნის ეტიკეტზე

ორიგინალ V11-ის შემთხვევების პანელი მოიცავდა შვიდ სპეციალობას — ჰემატოლოგია, ენდოკრინოლოგია, მეტაბოლური მედიცინა, ჰეპატოლოგია, ნეფროლოგია, კარდიოლოგია, რევმატოლოგია — პლუს ორი მიძღვნილი ჰიპერდიაგნოზის „trap“ შემთხვევა, სადაც თითოეული შემთხვევა იყო სინთეტიკურად გენერირებული სისხლის ანალიზის პანელი. V11 მეორე განახლება აფართოებს შეფასებას 100,000 სინთეტიკურ შემთხვევაზე 127 ქვეყნის ეტიკეტის ფარგლებში, V11-ის საწყისი შემთხვევების პანელის დიზაინი ჰემატოლოგიაში, ენდოკრინოლოგიაში, მეტაბოლურ მედიცინაში, ჰეპატოლოგიაში, ნეფროლოგიაში, კარდიოლოგიაში, რევმატოლოგიაში — პლუს ორი trap-შემთხვევა — გილბერტის სინდრომი და სრულად ნორმალური სკრინინგ-პანელი. მეორე განახლება ინარჩუნებს ამ რუბრიკას ბაიტ-იდენტურად, ხოლო კოჰორტას აფართოებს 100,000 შემთხვევამდე, რომლებიც აღებულია Kantesti SQL რეპოზიტორიდან.

V11 საწყისი შემთხვევების პანელის დიზაინი — შვიდ სამედიცინო სპეციალობაზე განაწილებული თხუთმეტი სინთეტიკური სისხლის ანალიზის შემთხვევა და ორი ჰიპერდიაგნოზის „trap“ შემთხვევა; იგივე რუბრიკამ მიაღწია 99.1TP40 კომპოზიტურ ქულას 100,000 შემთხვევაზე V11 მეორე განახლებაში
სურათი 2: დეიდენტიფიკაცია განხორციელდა Safe Harbor მიდგომით: ყველა პირდაპირი იდენტიფიკატორი წაიშალა ან შეიცვალა, და თითოეულ ჩანაწერს მიენიჭა ბენჩმარკ-შიდა შემთხვევის კოდი ფორმატში BT-NNN-LABEL (V11 საწყისი) ან სტაბილური ანონიმიზებული.

ვინაიდან ყველა შემთხვევა სინთეტიკურად გენერირებულია, არ არსებობს რეალური იდენტიფიკატორები მოსაშორებლად და არ მონაწილეობს პერსონალური მონაცემები. თითოეული სინთეტიკური შემთხვევა ატარებს ბენჩმარკ-შიდა შემთხვევის კოდს (BT-NNN-LABEL V11-ის საწყის ნაკრებში, სტაბილური მეორე განახლებისთვის. დამუშავება განხორციელდა შესაბამისად მეორე განახლებაში). გამოქვეყნებულ გარემოში, ტექნიკურ ანგარიშში ან გამოშვებულ მონაცემთა ნაკრებებში არსად ჩანს პერსონალური მონაცემები.

V11 initial release — 15 hand-curated cases

V11-ის ორიგინალური ქეისების პანელი ხელით შეარჩია დოქტორმა თომას კლაინმა, რათა გამოეყენებინა დიაგნოსტიკური შაბლონები, რომლებსაც ლაბორატორიული მედიცინის ასისტენტები ყველაზე ხშირად არასწორად იგებენ. თითოეული თხუთმეტი ქეისი შეირჩა კონკრეტული დიაგნოსტიკური მახასიათებლისთვის, ქვემოთ ჩამოთვლილი.

ჰემატოლოგია (3) BT-001, BT-006, BT-007 რკინადეფიციტური ანემია · B12 დეფიციტი · ბეტა-თალასემია მცირე
ენდოკრინოლოგია (3) BT-002, BT-008, BT-012 ჰაშიმოტოს თირეოიდიტი · PCOS ინსულინრეზისტენტობით · D ვიტამინის მძიმე დეფიციტი
მეტაბოლური (2) BT-003, BT-013 T2DM მეტაბოლურ სინდრომთან ერთად · ჰიპერურიკემია პოდაგრის რისკით
ჰეპატოლოგია (2) BT-004, BT-009 NAFLD / NASH · მწვავე ვირუსული ჰეპატიტი
ნეფროლოგია · კარდიოლოგია · რევმატოლოგია (3) BT-005, BT-010, BT-011 CKD სტადია 3 · ათეროგენული დისლიპიდემია · სისტემური წითელი მგლურა
„Trap“ შემთხვევები (2) BT-014, BT-015 გილბერტის სინდრომი (იზოლირებული არაპირდაპირი ჰიპერბილირუბინემია) · სრულად ნორმალური ზრდასრულთა სკრინი

რატომ არის ეს კონკრეტული განაწილება

ჰემატოლოგიას სამი შემთხვევა აქვს, რადგან მიკროციტური დიფერენციალები და მაკროციტური დიფერენციალები რეალურ ლაბორატორიულ პრაქტიკაში ყველაზე მაღალი მოცულობის „ხაფანგებია“. ენდოკრინოლოგიას სამი შემთხვევა აქვს, რადგან ჰაშიმოტოს, PCOS-ისა და D ვიტამინის დეფიციტის პრეზენტაციები სხვადასხვა დიაგნოსტიკურ ფორმას ავარჯიშებს (ავტოანტისხეულებით განპირობებული, ჰორმონების შეფარდებებით განპირობებული, ერთი მარკერით განპირობებული). ერთ-შემთხვევიანი სპეციალობები მაინც მნიშვნელოვანია, რადგან თითოეულს — CKD-ს, ASCVD რისკს და SLE-ს — აქვს საკუთარი ქულების სისტემა, რომელიც ძრავმა უნდა გამოიძახოს (შესაბამისად KDIGO სტადირება, ASCVD 10-წლიანი რისკი, 2019 EULAR/ACR SLE კრიტერიუმები).

V11 მეორე განახლება — 100,000 სინთეტიკური შემთხვევა 127 ქვეყნის ეტიკეტის ფარგლებში

მეორე განახლება ანაცვლებს ორიგინალ V11-ის 15-შემთხვევიან მყარად ჩაწერილ Python ლიტერალს უფრო დიდი, პროგრამულად გენერირებული სინთეტიკური შემთხვევების ნაკრებით. შემთხვევების ნაკრები იტვირთება ყოველი გაშვების დასაწყისში და კონფიგურაცია იწერება გამჭვირვალობისთვის. კოჰორტის განაწილება შინაარსის სფეროების მიხედვით ნაჩვენებია ქვემოთ.

ენდოკრინოლოგია 23,900 ქეისი (23.9%) ფარისებრი ჯირკვალი, PCOS, D ვიტამინი, სასქესო ჯირკვლების ღერძი, ჰიპოფიზი
მეტაბოლური მედიცინა 21,900 ქეისი (21.9%) T2DM, მეტაბოლური სინდრომი, ლიპიდური პანელები, ჰიპერურიკემია
ჰემატოლოგია 15,400 ქეისი (15.4%) მიკროციტური და მაკროციტური დიფერენციალები, B12/ფოლატი, რკინის კვლევები
ჰეპატოლოგია 12,400 ქეისი (12.4%) NAFLD/NASH, ვირუსული ჰეპატიტი, FIB-4, ქოლესტაზი
შიდა მედიცინა (მათ შორის „trap“ ქვეჯგუფი) 9,000 ქეისი (9.0%) შერეული პრეზენტაციები და 8,723 მიძღვნილი ჰიპერდიაგნოზის „trap“ ქეისი
კარდიოლოგია 7,500 ქეისი (7.5%) ASCVD რისკი, ათეროგენული დისლიპიდემია, hs-CRP
რევმატოლოგია 6,000 ქეისი (6.0%) SLE, RA, ვასკულიტი, აუტოანტისხეულების პანელები (EULAR/ACR კრიტერიუმები)
ნეფროლოგია 4,000 ქეისი (4.0%) CKD სტადირება (KDIGO), eGFR-ის ტენდენციები, ელექტროლიტური დარღვევა

სინთეტიკური ქვეყნის-ეტიკეტის განაწილება — ტოპ 10 ეტიკეტი

100,000 სინთეტიკურ შემთხვევას აქვს 127 ქვეყნის ეტიკეტი (ISO 3166-1 alpha-2), რათა შემოწმდეს ლოკალის დამუშავება. ეტიკეტის მინიჭება: ევროპა 57.7%, ამერიკები 25.4%, აზია-წყნარი ოკეანე 6.2%, დასახელებული ახლო აღმოსავლეთი/აფრიკის ეტიკეტები 3.4% და დამატებითი 97 ეტიკეტის გრძელი კუდი საერთო ჯამში დაახლოებით 7.3%. შემთხვევების რაოდენობით ათი ყველაზე ხშირი ეტიკეტია: ამერიკის შეერთებული შტატები (10,500), ბრაზილია (9,500), ესპანეთი (9,000), იტალია (8,000), გერმანია (7,800), საფრანგეთი (7,400), პორტუგალია (5,800), Türkiye (3,400), გაერთიანებული სამეფო (2,900) და მექსიკა (2,500). თითო-ეტიკეტის კომპოზიტური ქულები მერყეობდა 0.9971-დან 0.9985-მდე. ეს ეტიკეტების რაოდენობები არის გენერირებული შემთხვევების თვისებები, რომლებიც გამოიყენება ლოკალის დამუშავების შესამოწმებლად — ისინი არ არის რეალური მომხმარებლები და არ ასახავს რეალურ გეოგრაფიულ დაფარვას.

წინასწარ რეგისტრირებული რუბრიკა — ახსნილი

წინასწარი რეგისტრაცია ამ ბენჩმარკში ერთადერთი ყველაზე მნიშვნელოვანი მეთოდოლოგიური არჩევანია. ყველა მოსალოდნელი დიაგნოზი, ყველა კლინიკური ქულების სისტემა და ყველა ანგარიშის სექცია ჩადებული იყო წყაროს კოდში სანამ ძრავა გამოიძახებოდა. ამიტომ რუბრიკის პოსტ-ჰოკ „დალაგება“ ძრავის მოსაწონად შეუძლებელია.

კომპოზიტურ ქულას სამი კომპონენტი ქმნის. სტრუქტურული კომპონენტი შეადგენს 35 პროცენტს და ზომავს, დააბრუნა თუ არა ძრავამ შვიდი სავალდებულო ანგარიშის სექცია (ჰედერი, შეჯამება, ძირითადი მიგნებები, დიფერენციალი, ქულების სისტემები, რეკომენდაციები, შემდგომი დაკვირვება) და მათში არსებული თექვსმეტი სავალდებულო ქვესექცია. სექციის არსებობა სტრუქტურულ გამოთვლაში იწონის 40 პროცენტს, ხოლო ქვესექციის არსებობა — 60 პროცენტს.

The კლინიკური კომპონენტი შეადგენს 55 პროცენტს და აერთიანებს სამ რამეს: დიაგნოზის-საკვანძო სიტყვის გახსენება (კლინიკური ქვექულის 70 პროცენტი), ქულების სისტემის გახსენება (20 პროცენტი — ითვლის თუ არა ძრავა, სადაც საჭიროა, Mentzer-ს, FIB-4-ს, HOMA-IR-ს, ASCVD რისკს, KDIGO სტადირებას, EULAR/ACR კრიტერიუმებს), და ალბათობების-ჯამის ვალიდობის შემოწმებას (10 პროცენტი — დიფერენციალური ალბათობები უნდა ჯამდებოდეს ინტერვალში [90, 110]). „ხაფანგის“ შემთხვევებისთვის გამოაკლდება მკაფიო ჰიპერდიაგნოზის ჯარიმა მაქსიმუმ 0.30-მდე, რაც გამოითვლება როგორც 0.10 თითოეული გამოგონილი პათოლოგიის დროშისთვის და ზღუდავს სამ დროშამდე.

The ლატენტურობის კომპონენტი შეადგენს 10 პროცენტს. პასუხი 20 წამზე ნაკლებ დროში იღებს სრულ 0.10-ს, 40 წამზე ნაკლებ დროში — 0.05-ს, ხოლო ნებისმიერი უფრო ნელი — ნულს. 20-წამიანი სამიზნე ასახავს წარმოების „primary-path“ სერვის-დონის მიზანს; 40-წამიანი ზღვარი ასახავს ფაზა 2-ის „fallback“ ბიუჯეტს მძიმე-ძრავის გამოძახებებისთვის.

MIT-ლიცენზირებული Kantesti ბენჩმარკის გარემოს ტერმინალური სკრინშოთი გაშვებისას და თითო-შემთხვევის ქულების გამოშვებისას — იგივე გარემო, ახლა SQL-ზე დაფუძნებული, იძლეოდა 99.80% კომპოზიტის ქულას V11 მეორე განახლების 100,000-შემთხვევიან გაშვებაში
სურათი 3: გაშვებაში გამოყენებული „ჰარნესი“ — იგივე ძრავი, რომელმაც შექმნა 99.80% კომპოზიტური ქულა V11 მეორე განახლების 100,000-შემთხვევიანი კოჰორტაში. თითოეული შემთხვევა გამოისახება A4 PDF-ში, იგზავნება წარმოების v11 endpoint-ზე და ფასდება გაყინული რუბრიკის მიხედვით. მეორე განახლებამ დაამატა პარამეტრიზებული SQL case loader; ნედლი ძრავის პასუხების სტრატიფიცირებული შემთხვევითი შერჩევა (n = 201) ინახება აგრეგირებულ scorecard-თან ერთად.

რას უშლის ხელს წინასწარი რეგისტრაცია

პირველი მხარის ბენჩმარკები ცნობილია იმით, რომ პოსტ-ჰოკ რუბრიკის დალაგებით საკუთარ ციფრებს „ბერავენ“. ნიმუში თითქმის ყოველთვის ერთნაირია: გუნდი უშვებს ძრავას, ხედავს სად ჩამოუვარდება, შემდეგ კი ჩუმად არეგულირებს რუბრიკას ისე, რომ ჩამოუმწეველი სფეროები ნაკლებად ითვლებოდეს. რუბრიკის წყაროს კოდში ჩადებით პირველი ძრავის გამოძახებამდე და ჰარნესის MIT ლიცენზიით გამოქვეყნებით, ეს კორექტირება ხილული ხდება ვერსიების კონტროლში. ნებისმიერს შეუძლია რეპოზიტორიის კლონირება, რუბრიკის ავტორების თარიღების შემოწმება და დაადასტუროს, რომ ძრავის შედეგები არ ყოფილა გამოყენებული შეფასების ფორმირებისთვის.

ჰიპერდიაგნოზის „ხაფანგის“ შემთხვევები — რატომ არის გადაჭარბებული დასკვნა რეალური წარუმატებლობის რეჟიმი

პათოლოგიის აგრესიული „გადაძახება“ ნორმალურ სკრინინგებზე მომხმარებლზე ორიენტირებული სამედიცინო ასისტენტების დოკუმენტირებული უკმარისობის რეჟიმია. მისი ქვედა ხარჯები მოიცავს არასაჭირო გამოკვლევას, პაციენტის შფოთვას და იატროგენულ სამუშაო-დამუშავებას. ამ ბენჩმარკში ორი „ხაფანგის“ შემთხვევა შექმნილია იმისთვის, რომ ეს უკმარისობის რეჟიმი გახდეს ხილული და შეფასებადი.

გვერდიგვერდ შედარება: გულუბრყვილო AI, რომელიც ჰეპატიტს აყალბებს გილბერტის სინდრომის პანელზე, Kantesti ძრავასთან, რომელიც სწორად ამოიცნობს კეთილთვისებიან UGT1A1 პოლიმორფიზმს — მეთოდოლოგია, რომელიც მასშტაბირდა ნულამდე ცრუ-დადებითზე V11 მეორე განახლების 99.80% ბენჩმარკში 87,412 ხაფანგის-დროშის შესაძლებლობის ფარგლებში
სურათი 4: „trap-case“ დიზაინი V11 საწყისი გამოშვებიდან — ძრავი, რომელიც თავდაჯერებით მონიშნავს გილბერტის სინდრომს ჰეპატიტად, ან რომელიც ქმნის ზღვრულ პათოლოგიას სრულად ნორმალურ ეკრანზე, ისჯება და არა დაჯილდოვდება კლინიკური ჟღერადობისთვის. ეს მეთოდოლოგია მასშტაბირდა 0 / 87,412 ცრუ-პოზიტივებზე V11 მეორე განახლების 100,000-შემთხვევიან გაშვებაში, რომელმაც წარმოქმნა 99.80% კომპოზიტური ქულა.

🟡 ხაფანგი 1 — BT-014-GILBERT

პრეზენტაცია. 24 წლის მამაკაცი, საერთო ბილირუბინით 2.4 მგ/დლ. პირდაპირი ფრაქცია ნორმაშია, ტრანსამინაზები და ტუტე ფოსფატაზა თავიანთ საცნობარო დიაპაზონებშია, რეტიკულოციტები არაფრით გამორჩეულია, ხოლო ჰაპტოგლობინი და LDH გამორიცხავს ჰემოლიზს.

სწორი ინტერპრეტაცია. გილბერტის სინდრომი — კეთილთვისებიანი UGT1A1 პოლიმორფიზმი. ინტერპრეტაციამ არ უნდა გამოიძახოს ჰეპატიტი, ციროზი, ჰემოლიზური ანემია ან ბილიარული ობსტრუქცია.

V11 შედეგი. კომპოზიტი 1.000. მონიტორინგის ქვეშ მყოფი ექვსი ზედმეტად-დიაგნოზის დროშიდან არცერთი არ გამოჩნდა როგორც აქტიური დიაგნოზი.

🟡 ხაფანგი 2 — BT-015-HEALTHY

პრეზენტაცია. 35 წლის ქალი, თხუთმეტ-პარამეტრიანი რუტინული სკრინინგის პანელით. ყველა ანალიტი კომფორტულად დგას თავისი საცნობარო დიაპაზონის შიგნით.

სწორი ინტერპრეტაცია. დამშვიდება და ცხოვრების წესის შენარჩუნება. განმარტება არ უნდა „გამოიგონებდეს“ სასაზღვრო პათოლოგიას, რათა კლინიკურად სასარგებლოდ ჟღერდეს.

V11 შედეგი. კომპოზიტი 1.000. შვიდი მონიტორინგული ზედმეტი დიაგნოსტიკის (over-diagnosis) სიგნალიდან — დიაბეტი, ანემია, ჰიპოთირეოზი, დისლიპიდემია, ჰეპატიტი, თირკმლის დაავადება, დეფიციტი — არცერთი არ გამოჩნდა როგორც აქტიური დიაგნოზი.

ორივე „ტრაპში“ შემოწმდა თოთხმეტი მონიტორინგული ჰიპერდიაგნოსტიკის (hyperdiagnosis) სიგნალი. არცერთი არ გააქტიურდა. ეს არის შედეგი, რომელიც ყველაზე მეტად მნიშვნელოვანია ნებისმიერი კლინიცისტისთვის, რომელიც განიხილავს AI ძრავის გამოყენებას როგორც ტრიაჟის ან კონსულტაციამდე ინსტრუმენტის: სისტემამ არ „შექმნა“ დაავადება იქ, სადაც არ არსებობდა.

მენტცერის ინდექსი: რკინადეფიციტის განცალკევება თალასემიის თვისებიდან

მეორე მაღალი ღირებულების აღმოჩენა ეხება შემთხვევების დაწყვილებას: BT-001 (რკინადეფიციტური ანემია) და BT-007 (ბეტა-თალასემია მცირე). ორივე ვლინდება მიკროციტოზით და ეს არის კარგად ცნობილი „ჩიხი“ გამოუცდელი კლასიფიკატორებისთვის. მენტცერის ინდექსი, რომელიც გამოითვლება MCV-ის გაყოფით RBC რაოდენობაზე, რკინადეფიციტის დროს აღემატება 13-ს და თალასემიის ნიშნულში ჩამოდის 13-ზე ქვემოთ.

BT-001-ში პაციენტი იყო 34 წლის ქალი: ჰემოგლობინი 10.4 გ/დლ, MCV 72.4 ფლ, RBC 4.1 × 10¹²/ლ, ფერიტინი 6 ნგ/მლ და მომატებული TIBC. მენტცერის ინდექსი დაახლოებით 17.7 მხარს უჭერს რკინის აბსოლუტურ დეფიციტს. BT-007-ში პაციენტი იყო 28 წლის მამაკაცი: მიკროციტოზი (MCV 65.8 ფლ), მაგრამ მაღალი RBC რაოდენობა 6.2, ნორმალური RDW, ნორმალური ფერიტინი და HbA2 5.6 პროცენტი. მენტცერის ინდექსი დაახლოებით 10.6 მიუთითებს თალასემიის ნიშნულზე და მომატებული HbA2 ადასტურებს ბეტა-თალასემიას მცირე.

რკინადეფიციტური ანემია მენტცერი > 13 დაბალი ფერიტინი, დაბალი TSAT, მაღალი TIBC, მომატებული RDW
ბეტა-თალასემიის ნიშნული მენტცერი < 13 ნორმალური ფერიტინი, ნორმალური RDW, მომატებული HbA2 (>3.5%), მაღალი RBC რაოდენობა

ორივე შემთხვევაში ქულა იყო 1.000. ძრავმა მენტცერის ინდექსი აშკარად გამოიყენა ორივე განმარტებაში და თითოეულ შემთხვევაში დააბრუნა სწორი დიაგნოზი. ეს არის მთელი ბენჩმარკის ერთ-ერთი ყველაზე კლინიკურად დამამშვიდებელი შედეგი, რადგან თალასემიის ნიშნულის რკინადეფიციტად არასწორად კლასიფიკაცია იწვევს არასათანადო რკინის დანამატებს და ოჯახის სკრინინგის შესაძლებლობების გამოტოვებას, ხოლო რკინადეფიციტის თალასემიად არასწორად კლასიფიკაცია აყოვნებს მარტივ ჩანაცვლებით თერაპიას. ჩვენი ფერიტინის დიაპაზონის სახელმძღვანელო ხსნის დიფერენციალური დიაგნოზის უფრო ფართო კონტექსტს.

თითო-შემთხვევის შედეგები V11 საწყისი საცნობარო გაშვებიდან (23 აპრილი, 2026)

ორიგინალი V11 საცნობარო გაშვება 15-შემთხვევიანი proof-of-concept კოჰორტაზე ემსახურება როგორც მეთოდოლოგიურ საფუძველს მეორე განახლებისთვის: ქვემოთ მოცემული თითო-შემთხვევის ყველა დეტალი აჩვენებს, როგორ ამუშავებს რუბრიკა რეალურ ძრავის პასუხს. თხუთმეტიდან თორმეტმა შემთხვევამ მიაღწია პირველადი გზის მაქსიმალურ კომპოზიტურ ქულას 1.000; სამი შემთხვევა დამუშავდა ფაზა 2-ის fallback-ით, დაკარგა 0.05 ლატენტობის ბონუსი, მაგრამ შეინარჩუნა მთელი კლინიკური და სტრუქტურული შინაარსი. ერთ შემთხვევაში აკლდა ერთი სავალდებულო ქვესექცია; ერთმა შემთხვევამ დააბრუნა ოდნავ შემცირებული ალბათობების განაწილების ჯამი.

შემთხვევის ID სპეციალობა კომპოზიტური ლატენტობა გზა
BT-001-IDAჰემატოლოგია1.00017.8 წმპირველადი
BT-006-B12ჰემატოლოგია1.00018.4 წმპირველადი
BT-007-THALჰემატოლოგია1.00017.0 წმპირველადი
BT-002-HASHენდოკრინოლოგია0.95037.0 წმდაბრუნება
BT-008-PCOSენდოკრინოლოგია0.98718.6 წმპირველადი
BT-003-T2DMმეტაბოლური1.00019.1 წმპირველადი
BT-013-GOUTმეტაბოლური1.00019.4 წმპირველადი
BT-004-NAFLDჰეპატოლოგია1.00019.6 წმპირველადი
BT-009-VIRHEPჰეპატოლოგია0.95023.4 წმდაბრუნება
BT-014-GILBERTხაფანგი1.00018.9 წმპირველადი
BT-005-CKDნეფროლოგია1.00017.4 წმპირველადი
BT-010-ASCVDკარდიოლოგია1.00019.7 წმპირველადი
BT-011-SLEრევმატოლოგია0.98118.2 წმპირველადი
BT-012-VITDენდოკრინოლოგია1.00019.3 წმპირველადი
BT-015-HEALTHYხაფანგი1.00018.7 წმდაბრუნება

PCOS-ის შემთხვევამ (BT-008) პასუხის სტრუქტურაში დაკარგა ერთი სავალდებულო ქვესექცია — თექვსმეტიდან თხუთმეტი ნაცვლად თექვსმეტიდან თექვსმეტისა — რამაც სტრუქტურული ქულა 1.000-დან 0.963-მდე შეამცირა. SLE-ის შემთხვევამ (BT-011) დააბრუნა ოდნავ შემცირებული ალბათობათა განაწილების ჯამი, რომელმაც კლინიკური ქულა 0.965-მდე ჩამოიყვანა, ხოლო შენარჩუნდა ყველა დიაგნოსტიკური საკვანძო სიტყვა და შეფასების სისტემა. არც ერთმა არასრულყოფილმა შემთხვევამ არ გამოტოვა სწორი დიაგნოზი.

V11 მეორე განახლების აგრეგატი — 100,000 შემთხვევა

მასშტაბურ დონეზე ინდივიდუალური შემთხვევების რიგები არ არის ადამიანისთვის წაკითხვადი, ამიტომ მეორე განახლება აჩვენებს აგრეგირებულ მეტრიკებს და არა 100,000-რიგიან ცხრილს. მთავარი აგრეგატი ნაჩვენებია ქვემოთ; სპეციალობისა და ქვეყნის-ეტიკეტის მიხედვით დეტალიზაცია გამოქვეყნებულია ტექნიკურ ანგარიშში და Figshare-ის დეპოზიტში. სტრატიფიცირებული შემთხვევითი ნიმუში n = 201 ნედლი ძრავის პასუხების (დეტერმინისტული seed 20260426) გამოქვეყნებულია GitHub-ის results/ დირექტორიაში შემოწმებისთვის.

კომპოზიტური ქულა V11 საწყისი: 0.9912 (99.12%) → მეორე განახლება: 0.9980 (99.80%) Δ = +0.0068 100,000-შემთხვევიან კოჰორტაში
სტრუქტურული ქულა (საშუალო) V11 საწყისი: 0.998 → მეორე განახლება: 1.000 სრულყოფილი სტრუქტურული შესაბამისობა მოსახლეობის მასშტაბზე
კლინიკური ქულა (საშუალო) V11 საწყისი: 0.998 → მეორე განახლება: 0.996 −0.002; არც ერთ შემთხვევას არ გამორჩა თავად დიაგნოზი
შეყოვნება — საშუალო (დიაპაზონი) V11 საწყისი: 20.17 წმ (17.0–37.0 წმ) → მეორე განახლება: 13.26 წმ (9.0–16.94 წმ) წარმოების ძრავის ოპტიმიზაციები გაშვებებს შორის
ძრავის ბილიკი = პირველადი V11 საწყისი: 12 / 15 → მეორე განახლება: 100,000 / 100,000 არც ერთ მომენტში გაშვების განმავლობაში არ იყო საჭირო Phase 2-ის უკუსვლა
Trap-subset ჰიპერდიაგნოსტიკის დროშები V11 საწყისი: 0 / 13 → მეორე განახლება: 0 / 87,412 ნულოვანი ცრუ-დადებითი პოპულაციურ მასშტაბზე (8,723 trap შემთხვევა მონიტორინგდებოდა)

რას არ გვიყვება სათაურის ქულა

99.80 პროცენტის კომპოზიტური ქულა ამ კონკრეტული წინასწარ რეგისტრირებული რუბრიკის მიხედვით, 100,000-შემთხვევიან სინთეტიკურ კოჰორტზე, რომელიც მოიცავს 127 ქვეყნის ეტიკეტს, წარმოადგენს თითქმის „ზედა ზღვრის“ შესრულებას — მაგრამ საჭიროა ფრთხილად კონტექსტუალიზაცია. შედეგი აღწერს ძრავის ქცევას იმ რუბრიკის მიმართ, რომელსაც ჩვენ დავპირდით წყაროს კოდში V11-ში; ეს არ არის უნივერსალური პრეტენზია ძრავის სისწორეზე ყველა სისხლის ანალიზის პანელზე, რომელიც რეალურ სამყაროში არსებობს.

ქულა ამბობს, რომ ძრავმა სწორად დაამუშავა ამ შეფასებისთვის შერჩეული დიაგნოსტიკური შაბლონები პოპულაციურ მასშტაბზე კოჰორტაში, გამოქვეყნებულ და რეპროდუცირებად მეთოდოლოგიაზე დაყრდნობით. ეს არ ამბობს, რომ ძრავი სწორია ყველა სისხლის ანალიზის პანელზე, რომელიც რეალურ სამყაროში არსებობს. ეს არ ამბობს, რომ ძრავი უნდა ჩაანაცვლოს კლინიცისტის პროფესიულ განსჯას. და ეს არ ამბობს, რომ ძრავი აჯობებს ალტერნატიულ AI სისტემებს — სხვა ძრავებთან შედარებითი ანალიზები ამ ანგარიშის ფარგლებს შეგნებულად არ გასცდა.

ის, რასაც ქულა ნამდვილად ადგენს, არის საბაზისო მაჩვენებელი. რადგან რუბრიკა და „ჰარნესი“ საჯაროა, ძრავის მომავალი ვერსიები შეიძლება შეფასდეს იმავე რუბრიკით — გამოყენებული V11-ის საწყის 15 შემთხვევაზე, მეორე განახლების 100,000-შემთხვევიან კოჰორტაზე ან ნებისმიერ შემდგომ გაფართოებაზე — და სხვაობა გამოქვეყნებულ ქულასა და ნებისმიერ შემდგომ გაშვებას შორის თავისთავად გაზომვადია. ეს არის წინასწარი რეგისტრაციის ღირებულება: ის გარდაქმნის შესრულების პრეტენზიებს ტესტირებად პრეტენზიებად.

როგორ გავიმეოროთ ეს ბენჩმარკი 10 წუთში

რეპროდუცირებისთვის საჭიროა მხოლოდ Kantesti API-ის სერთიფიკატების წყვილი და Python 3.10 ან უფრო ახალი გარემო, სადაც არის requests და reportlab ბიბლიოთეკები დაყენებული. სრული ჰარნესი არის ერთი, თვითკმარი Python მოდული, გამოშვებული MIT ლიცენზიით.

რეპროდუცირებადობის ქსელური დიაგრამა, რომელიც აჩვენებს V11 მეორე განახლების ბენჩმარკს (99.80% კომპოზიტი, 100,000 შემთხვევა, 127 ქვეყნის ეტიკეტი), ასახული Figshare-ზე, ResearchGate-ზე, Academia.edu-ზე და GitHub-ზე, სადაც Figshare DOI არის კანონიკური წამყვანი
სურათი 5: V11 მეორე განახლების ბენჩმარკი — 99.80% კომპოზიტური ქულა 100,000 შემთხვევაზე 127 ქვეყნის ეტიკეტის ფარგლებში — ასახულია ოთხ კვლევით პლატფორმაზე. Figshare DOI არის კანონიკური სამეცნიერო იდენტიფიკატორი; ResearchGate (publication 404175463), Academia.edu (paper 165956808) და GitHub ათავსებენ პარალელურ ასლებს ბენჩმარკის გარემოსთან, ძრავის ნედლი პასუხების სტრატიფიცირებულ შემთხვევით ნიმუშთან და თითო-ქვეყნის-ეტიკეტის/თითო-სპეციალობის ქულების ბარათებთან ერთად.

ოთხი ნაბიჯი ახალი გაშვებისთვის

ერთი. დააკლონეთ რეპოზიტორია: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ორი. დააინსტალირეთ დამოკიდებულებები შემდეგით pip install -r requirements.txt (Second Update ამატებს mysql-connector-python ≥ 8.0 SQL case loader-ისთვის). სამი. დააყენეთ KANTESTI_USERNAME და KANTESTI_PASSWORD როგორც გარემოს ცვლადები ძრავის API-სთვის. მეორე განახლების SQL case loader-ისთვის ასევე დააყენეთ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, და KANTESTI_DB_PASSWORD — ლოადერი უკავშირდება მხოლოდ-წაკითხვის როლით (bench_reader) რომელსაც არ აქვს პრივილეგიები ცხრილების იდენტიფიცირებაზე. ოთხი. გაუშვით python benchmark_bloodtest.py --limit 100000 სრული Second-Update გაშვებისთვის, ან python benchmark_bloodtest.py --limit 1000 სწრაფი იტერაციისთვის. შედეგები ინახება ./benchmark_results/: CSV ქულების ბარათი თითო-ქვეყნის-ეტიკეტისა და თითო-სპეციალობის სვეტებით, JSON აგრეგატი, სტრატიფიცირებულ-შემთხვევითი ნედლი პასუხების ნიმუში და Markdown ანგარიში.

საცნობარო გაშვებები 23 აპრილიდან 2026 წლამდე (V11 საწყისი, 15 შემთხვევა) და 26 აპრილიდან 2026 წლამდე (V11 Second Update, 100,000 შემთხვევა) შენარჩუნებულია results/ რეპოზიტორიის დირექტორიაში. ახალი გაშვება შექმნის ახალ, დროის ნიშნულით (timestamped) ქულების ბარათს, ხოლო საცნობარო გაშვებებს უცვლელად დატოვებს. თუ თქვენი გაშვება იძლევა არსებითად განსხვავებულ შედეგს, გთხოვთ გახსნათ GitHub issue გაშვების დროის ნიშნულით და პასუხის მეტამონაცემებში დაბრუნებული ძრავის ვერსიით.

შეზღუდვები და სამომავლო სამუშაოები

მიუხედავად იმისა, რომ 100,000 შემთხვევაა 127 ქვეყნის ეტიკეტით, ოთხი შეზღუდვა საჭიროებს მკაფიო აღიარებას: გრძელი კუდის ეტიკეტების არასაკმარისი დაფარვა, ერთჯერადი შეფასება, ერთი ძრავის ფარგლები და ერთი წყაროდან მონაცემების წარმოშობა. თითოეული მათგანი მუშავდება აქტიურ შემდგომ სამუშაოებში.

გრძელი კუდის ეტიკეტების დაფარვა. მეორე განახლება მოიცავს 127 ქვეყნის ეტიკეტს, მაგრამ განაწილება არათანაბარია — ტოპ 10 ეტიკეტი შეადგენს შემთხვევების ≈66.4%-ს, ხოლო დამატებითი 97 ეტიკეტის გრძელი კუდი ერთად ქმნის ≈7.3%-ს (დაახლოებით 7,300 შემთხვევა ერთად, საშუალოდ ~75 შემთხვევა თითო ეტიკეტზე). ამიტომ, ამ გრძელ კუდში თითო-ეტიკეტის კომპოზიტები უფრო ხმაურიანია, ვიდრე ამას მთავარი მაჩვენებლები მიუთითებს. მომავალი გაშვებები გადააბალანსებს ეტიკეტის მინიჭებას, რათა გამყარდეს თითო-ეტიკეტის შეფასებები.

ერთჯერადი შეფასება. კოჰორტის თითოეული შემთხვევა შეფასდა ერთხელ. დიდი ენობრივი მოდელები ავლენენ მნიშვნელოვან გამომავალი ვარიაციასაც კი დაბალი შერჩევის ტემპერატურის პირობებში, ამიტომ მრავალგაშვებადი პროტოკოლი, სადაც თითო შემთხვევაზე ხუთი შეფასებაა და მითითებულია ვარიაცია, ბუნებრივი შემდეგი ნაბიჯია — განსაკუთრებით trap-case ქვეჯგუფზე, სადაც თანმიმდევრულობა შერჩევის „ჯიტერის“ პირობებში წარმოადგენს უსაფრთხოების პრეტენზიის ნაწილს.

ერთი ძრავის ფარგლები. ეს ანგარიში აღწერს ერთ ძრავს. შედარებითი ანალიზები ალტერნატიულ AI სისტემებთან აქ ფარგლებს მიღმაა; შესაძლოა მათ მივყვეთ როგორც ცალკე დამოუკიდებელ კვლევას შესაბამისი მეთოდოლოგიით, იმავე MIT-ლიცენზირებულ ჰარნესთან.

სინთეტიკური მონაცემები. 100,000 შემთხვევა სინთეტიკურად გენერირებულია, და არა „სინთეტიკური შემთხვევები“, და შედეგები არ გადადის რეალურ-კლინიკურ შესრულებაზე. რეალურ, თანხმობით მოპოვებულ, გარე წყაროდან მიღებულ მონაცემებზე შეფასება მოითხოვდა შესაბამის ეთიკურ ზედამხედველობას და ამ სინთეტიკური ბენჩმარკის ფარგლებს მიღმაა.

ამ ოთხის მიღმა, ყველაზე გავლენიანი დაგეგმილი გაფართოებაა მრავალენოვანი თანასწორობა თითო იურისდიქციაში. Kantesti AI Engine ემსახურება მომხმარებლებს 75+ ენაზე და Second-Update-ის ენის მიხედვით სტრატიფიცირებული ქვეკოჰორტების გაშვება (თურქული, გერმანული, ესპანური, ფრანგული, იტალიური, პორტუგალიური, არაბული, მანდარინი) რაოდენობრივად შეაფასებს გამომავალი ხარისხს ძრავის მიერ მხარდაჭერილ ენებზე. თითოეული ენის მიხედვით ანალიზი გამოქვეყნდება საკუთარი DOI-ით და ჰარნესის ფილიალით.