რატომ არსებობს ეს ბენჩმარკი და რას ამოწმებს

AI-დახმარებით სისხლის ანალიზის განმარტება სულ უფრო ხშირად გამოიყენება როგორც სამომხმარებლო, ისე კლინიკურ სამუშაო პროცესებში, თუმცა ლაბორატორიულ მედიცინაზე მორგებული, განმეორებადობის მქონე შეფასების ჩარჩოები იშვიათია. ამ კონტექსტში ყველაზე მნიშვნელოვანი კითხვები არ არის ის, რაც დაფარულია ზოგადი სამედიცინო კითხვა-პასუხის ბენჩმარკებით: შეუძლია თუ არა ძრავს განასხვაოს რკინადეფიციტი თალასემიის ნიშნიდან მაშინ, როცა საშუალო კორპუსკულარული მოცულობა იდენტურია; ზედმეტად ხომ არ დიაგნოსტირებს გილბერტის სინდრომს ჰეპატიტად; და ხომ არ „ქმნის“ პათოლოგიას სრულად ნორმალურ სკრინინგ პანელში?

წინასწარ რეგისტრირებული რუბრიკის ნაკადის დიაგრამა, რომელიც აჩვენებს, როგორ ფასდება Kantesti AI Engine გაყინულ საკრიტერიუმებთან შესაბამისობაში
სურათი 1: ბენჩმარკის არქიტექტურა — თითოეული შემთხვევა, თითოეული საკვანძო სიტყვა, თითოეული საკრეფო სისტემა ფიქსირებულია საწყის კოდში მანამდე, სანამ ძრავა ერთ PDF-საც კი ნახავს. პოსტ-ჰოკ რუბრიკის დაკალიბრება დიზაინით შეუძლებელია.

სისხლის ანალიზის ერთი პანელი, როგორც წესი, შეიცავს საკმარის სიგნალს რამდენიმე კონკურენტული ინტერპრეტაციის მხარდასაჭერად, ხოლო განმმარტებელი ექიმის ამოცანაა ამ ინტერპრეტაციებს ერთმანეთთან შეადაროს და შეაფასოს, ვიდრე სახელმძღვანელოს ტიპური პასუხის მოძიება სცადოს. ისეთი „ძრავი“, რომელიც კარგად მუშაობს სახელმძღვანელოს ტიპურ შემთხვევებზე, მაინც შეიძლება წააგოს ყველაზე მნიშვნელოვან შემთხვევებში: დიფერენციალური დიაგნოზის ხაფანგებში, კეთილთვისებიან ვარიანტებში, რომლებიც ცალკე აღებულად საგანგაშოდ გამოიყურება, და სრულად ნორმალურ პანელებში, რომლებიც თავდაჯერებულ ასისტენტებს უბიძგებს პათოლოგიის „გამოგონებისკენ“.

ეს ბენჩმარკი სწორედ ამ ტიპის წარუმატებლობებზეა აგებული. თითოეული თხუთმეტი შემთხვევა შეირჩა კონკრეტული დიაგნოსტიკური თვისების მიხედვით: რკინადეფიციტური მიკროციტოზი, რომელიც უნდა დარჩეს გამიჯნული ბეტა-თალასემიის ნიშნიდან, რომელსაც აქვს იდენტური საშუალო კორპუსკულარული მოცულობა; გილბერტის სინდრომის სურათი, სადაც ერთადერთი დარღვევა არის იზოლირებული არაპირდაპირი ჰიპერბილირუბინემია; და თხუთმეტ-პარამეტრიანი სკრინინგ-პანელი, რომელშიც თითოეული ანალიტი თავის საცნობარო დიაპაზონშია. რუბრიკა აჯილდოებს ძრავებს, რომლებიც თითოეულ შემთხვევას საკუთარ კონტექსტში კითხულობენ და აკლებს ქულას ძრავებს, რომლებიც იქ, სადაც ასეთი დიაგნოზი არ არის გამართლებული, თავდაჯერებულ დიაგნოზს „მიიწევენ“.

როგორც თომას კლაინი, MD, შევარჩიე შემთხვევების პანელი, რადგან ეს ის შაბლონებია, რომლებსაც ლაბორატორიული მედიცინის ასისტენტები ყველაზე ხშირად არასწორად იგებენ. ძვირადღირებული წარუმატებლობა არ არის "იშვიათი დაავადების გამოტოვება" — ეს არის რუტინული პათოლოგიის გამოგონება იმ პაციენტებში, რომლებსაც ის არ აქვთ. ჩვენი სამედიცინო ვალიდაცია hub აღწერს უფრო ფართო ჩარჩოს; ეს გვერდი აღწერს მის გამოყენებით შედეგს V11 ძრავზე.

უახლესი საცნობარო გაშვება — V11 (2026 წლის აპრილი)

Kantesti AI Engine V11-ის 2026 წლის აპრილის საცნობარო ტესტირებამ შექმნა კომპოზიტური ქულა 99.12% წინასწარ რეგისტრირებულ თხუთმეტ-შემთხვევიან რუბრიკაში. ორივე ჰიპერდიაგნოზის ხაფანგის შემთხვევამ მიიღო მაქსიმალური ქულა. მენტცერის ინდექსი სწორად იქნა გამოყენებული რკინადეფიციტის წინააღმდეგ თალასემიის დიფერენციალში.

კომპოზიტური 99.12% 15-დან 15 შემთხვევა შეფასდა
0.998 სტრუქტურული ქულა
0.998 კლინიკური ქულა
20.17 წმ საშუალო ლატენტობა
0 / 13 ხაფანგის ცრუ დადებითი პასუხები

კომპოზიტური ფორმულა აერთიანებს სამ კომპონენტს: სტრუქტურული შესაბამისობა შვიდ სავალდებულო ანგარიშის სექციასთან და თექვსმეტ სავალდებულო ქვესექციასთან, კლინიკური სიზუსტე იზომება როგორც საკვანძო სიტყვების დამახსოვრება (keyword recall) პლუს ქულების სისტემის დამახსოვრება (scoring-system recall) პლუს ალბათობათა განაწილების ვალიდურობის შემოწმება და პასუხის ლატენტობა 20-წამიანი პირველადი სერვის-დონის ძირითადი სამიზნის წინააღმდეგ. ზუსტი დაშლა ნაჩვენებია ქვემოთ მოცემულ რუბრიკის ფორმულაში.

კომპოზიტური = 0.35 × სტრუქტურული + 0.55 × კლინიკური + 0.10 × ლატენტობა

დარჩენილი 0.88 პროცენტული პუნქტი „headroom“-დან თითქმის მთლიანად დაიშალა ლატენტურობის დანაკარგად — სამი Phase 2-ის სარეზერვო გამოძახება თითოეულში მინუს 0.05 კომპოზიტით დაახლოებით 0.60 შეადგენდა 0.88-პუნქტიან დეფიციტს — და არა კლინიკურ შინაარსად. ძრავამ არც ერთიდან თხუთმეტ შემთხვევაზე არ გამოტოვა სწორი დიაგნოზი; სადაც ვერ გაართვა, ეს იყო იმით, რომ გამოძახებების მცირე ნაწილში ოდნავ უფრო დიდხანს დასჭირდა, ვიდრე 20-წამიანი პირველადი-ბილიკის (primary-path) სამიზნე.

თხუთმეტი შემთხვევა შვიდ სამედიცინო სპეციალობაში

შემთხვევების პანელი მოიცავს შვიდ სპეციალობას — ჰემატოლოგია, ენდოკრინოლოგია, მეტაბოლური მედიცინა, ჰეპატოლოგია, ნეფროლოგია, კარდიოლოგია, რევმატოლოგია — ასევე ორ სპეციალურად გამოყოფილ ჰიპერდიაგნოზის „trap“ შემთხვევას. თითოეული შემთხვევა არის ანონიმიზებული რეალური პაციენტის ჩანაწერი, რომელიც აღებულია Kantesti-ის კლინიკური მონაცემთა საცავიდან წერილობითი ინფორმირებული თანხმობის საფუძველზე.

დაფარვის რუკა თხუთმეტი ანონიმიზებული სისხლის ანალიზის შემთხვევისთვის, განაწილებული შვიდ სამედიცინო სპეციალობაში, პლუს ჰიპერდიაგნოზის ხაფანგის შემთხვევები
სურათი 2: შემთხვევების განაწილება ჰემატოლოგიაში, ენდოკრინოლოგიაში, მეტაბოლურ მედიცინაში, ჰეპატოლოგიაში, ნეფროლოგიაში, კარდიოლოგიაში, რევმატოლოგიაში, ასევე ორ „trap“ შემთხვევასთან — გილბერტის სინდრომი და სრულად ნორმალური სკრინინგ-პანელი.

დეიდენტიფიკაცია განხორციელდა Safe Harbor მიდგომით: ყველა პირდაპირი იდენტიფიკატორი ამოიღეს ან შეცვალეს, ხოლო თითოეულ ჩანაწერს მიენიჭა ბენჩმარკ-შიდა შემთხვევის კოდი ფორმატში BT-NNN-LABEL. დამუშავება განხორციელდა GDPR-ის მე-9 მუხლის (2)(j) შესაბამისად სამეცნიერო კვლევისთვის შესაბამისი დამცავი ზომებით და UK GDPR-ის შესაბამისი დებულებებით. გამოქვეყნებულ „harness“-ში, ტექნიკურ ანგარიშში ან გამოშვებულ მონაცემთა ნაკრებებში არსად ჩანს პერსონალურად იდენტიფიცირებადი ინფორმაცია.

ჰემატოლოგია (3) BT-001, BT-006, BT-007 რკინადეფიციტური ანემია · B12 დეფიციტი · ბეტა-თალასემია მცირე
ენდოკრინოლოგია (3) BT-002, BT-008, BT-012 ჰაშიმოტოს თირეოიდიტი · PCOS ინსულინრეზისტენტობით · D ვიტამინის მძიმე დეფიციტი
მეტაბოლური (2) BT-003, BT-013 T2DM მეტაბოლურ სინდრომთან ერთად · ჰიპერურიკემია პოდაგრის რისკით
ჰეპატოლოგია (2) BT-004, BT-009 NAFLD / NASH · მწვავე ვირუსული ჰეპატიტი
ნეფროლოგია · კარდიოლოგია · რევმატოლოგია (3) BT-005, BT-010, BT-011 CKD სტადია 3 · ათეროგენული დისლიპიდემია · სისტემური წითელი მგლურა
„Trap“ შემთხვევები (2) BT-014, BT-015 გილბერტის სინდრომი (იზოლირებული არაპირდაპირი ჰიპერბილირუბინემია) · სრულად ნორმალური ზრდასრულთა სკრინი

რატომ არის ეს კონკრეტული განაწილება

ჰემატოლოგიას სამი შემთხვევა აქვს, რადგან მიკროციტური დიფერენციალები და მაკროციტური დიფერენციალები რეალურ ლაბორატორიულ პრაქტიკაში ყველაზე მაღალი მოცულობის „ხაფანგებია“. ენდოკრინოლოგიას სამი შემთხვევა აქვს, რადგან ჰაშიმოტოს, PCOS-ისა და D ვიტამინის დეფიციტის პრეზენტაციები სხვადასხვა დიაგნოსტიკურ ფორმას ავარჯიშებს (ავტოანტისხეულებით განპირობებული, ჰორმონების შეფარდებებით განპირობებული, ერთი მარკერით განპირობებული). ერთ-შემთხვევიანი სპეციალობები მაინც მნიშვნელოვანია, რადგან თითოეულს — CKD-ს, ASCVD რისკს და SLE-ს — აქვს საკუთარი ქულების სისტემა, რომელიც ძრავმა უნდა გამოიძახოს (შესაბამისად KDIGO სტადირება, ASCVD 10-წლიანი რისკი, 2019 EULAR/ACR SLE კრიტერიუმები).

წინასწარ რეგისტრირებული რუბრიკა — ახსნილი

წინასწარი რეგისტრაცია ამ ბენჩმარკში ერთადერთი ყველაზე მნიშვნელოვანი მეთოდოლოგიური არჩევანია. ყველა მოსალოდნელი დიაგნოზი, ყველა კლინიკური ქულების სისტემა და ყველა ანგარიშის სექცია ჩადებული იყო წყაროს კოდში სანამ ძრავა გამოიძახებოდა. ამიტომ რუბრიკის პოსტ-ჰოკ „დალაგება“ ძრავის მოსაწონად შეუძლებელია.

კომპოზიტურ ქულას სამი კომპონენტი ქმნის. სტრუქტურული კომპონენტი შეადგენს 35 პროცენტს და ზომავს, დააბრუნა თუ არა ძრავამ შვიდი სავალდებულო ანგარიშის სექცია (ჰედერი, შეჯამება, ძირითადი მიგნებები, დიფერენციალი, ქულების სისტემები, რეკომენდაციები, შემდგომი დაკვირვება) და მათში არსებული თექვსმეტი სავალდებულო ქვესექცია. სექციის არსებობა სტრუქტურულ გამოთვლაში იწონის 40 პროცენტს, ხოლო ქვესექციის არსებობა — 60 პროცენტს.

The კლინიკური კომპონენტი შეადგენს 55 პროცენტს და აერთიანებს სამ რამეს: დიაგნოზის-საკვანძო სიტყვის გახსენება (კლინიკური ქვექულის 70 პროცენტი), ქულების სისტემის გახსენება (20 პროცენტი — ითვლის თუ არა ძრავა, სადაც საჭიროა, Mentzer-ს, FIB-4-ს, HOMA-IR-ს, ASCVD რისკს, KDIGO სტადირებას, EULAR/ACR კრიტერიუმებს), და ალბათობების-ჯამის ვალიდობის შემოწმებას (10 პროცენტი — დიფერენციალური ალბათობები უნდა ჯამდებოდეს ინტერვალში [90, 110]). „ხაფანგის“ შემთხვევებისთვის გამოაკლდება მკაფიო ჰიპერდიაგნოზის ჯარიმა მაქსიმუმ 0.30-მდე, რაც გამოითვლება როგორც 0.10 თითოეული გამოგონილი პათოლოგიის დროშისთვის და ზღუდავს სამ დროშამდე.

The ლატენტურობის კომპონენტი შეადგენს 10 პროცენტს. პასუხი 20 წამზე ნაკლებ დროში იღებს სრულ 0.10-ს, 40 წამზე ნაკლებ დროში — 0.05-ს, ხოლო ნებისმიერი უფრო ნელი — ნულს. 20-წამიანი სამიზნე ასახავს წარმოების „primary-path“ სერვის-დონის მიზანს; 40-წამიანი ზღვარი ასახავს ფაზა 2-ის „fallback“ ბიუჯეტს მძიმე-ძრავის გამოძახებებისთვის.

ტერმინალური სკრინშოტი MIT-ლიცენზირებული Kantesti ბენჩმარკის ჰარნესიდან, რომელიც მუშაობს და გამოაქვს თითო შემთხვევის ქულები
სურათი 3: ჰარნესი შესრულებაში. თითოეული შემთხვევა გამოისახება A4 PDF-ში, იგზავნება წარმოების v11 ენდპოინტზე და ფასდება გაყინული რუბრიკის მიხედვით. ყველა ნედლი პასუხი ინახება აგრეგირებულ „scorecard“-თან ერთად.

რას უშლის ხელს წინასწარი რეგისტრაცია

პირველი მხარის ბენჩმარკები ცნობილია იმით, რომ პოსტ-ჰოკ რუბრიკის დალაგებით საკუთარ ციფრებს „ბერავენ“. ნიმუში თითქმის ყოველთვის ერთნაირია: გუნდი უშვებს ძრავას, ხედავს სად ჩამოუვარდება, შემდეგ კი ჩუმად არეგულირებს რუბრიკას ისე, რომ ჩამოუმწეველი სფეროები ნაკლებად ითვლებოდეს. რუბრიკის წყაროს კოდში ჩადებით პირველი ძრავის გამოძახებამდე და ჰარნესის MIT ლიცენზიით გამოქვეყნებით, ეს კორექტირება ხილული ხდება ვერსიების კონტროლში. ნებისმიერს შეუძლია რეპოზიტორიის კლონირება, რუბრიკის ავტორების თარიღების შემოწმება და დაადასტუროს, რომ ძრავის შედეგები არ ყოფილა გამოყენებული შეფასების ფორმირებისთვის.

ჰიპერდიაგნოზის „ხაფანგის“ შემთხვევები — რატომ არის გადაჭარბებული დასკვნა რეალური წარუმატებლობის რეჟიმი

პათოლოგიის აგრესიული „გადაძახება“ ნორმალურ სკრინინგებზე მომხმარებლზე ორიენტირებული სამედიცინო ასისტენტების დოკუმენტირებული უკმარისობის რეჟიმია. მისი ქვედა ხარჯები მოიცავს არასაჭირო გამოკვლევას, პაციენტის შფოთვას და იატროგენულ სამუშაო-დამუშავებას. ამ ბენჩმარკში ორი „ხაფანგის“ შემთხვევა შექმნილია იმისთვის, რომ ეს უკმარისობის რეჟიმი გახდეს ხილული და შეფასებადი.

გვერდიგვერდ შედარება: გულბერტის სინდრომის პანელზე გულუბრყვილო AI-ის მიერ ჰეპატიტის გამოგონება Kantesti ძრავთან, რომელიც სწორად ამოიცნობს კეთილთვისებიან UGT1A1 პოლიმორფიზმს
სურათი 4: „ხაფანგის“ შემთხვევის დიზაინი. ძრავა, რომელიც დარწმუნებით მონიშნავს გილბერტის სინდრომს როგორც ჰეპატიტს, ან ქმნის ზღვრულ პათოლოგიას სრულად ნორმალურ სკრინინგზე, დაისჯება — და არა დაჯილდოვდება კლინიკურად ჟღერადობისთვის.

🟡 ხაფანგი 1 — BT-014-GILBERT

პრეზენტაცია. 24 წლის მამაკაცი, საერთო ბილირუბინით 2.4 მგ/დლ. პირდაპირი ფრაქცია ნორმაშია, ტრანსამინაზები და ტუტე ფოსფატაზა თავიანთ საცნობარო დიაპაზონებშია, რეტიკულოციტები არაფრით გამორჩეულია, ხოლო ჰაპტოგლობინი და LDH გამორიცხავს ჰემოლიზს.

სწორი ინტერპრეტაცია. გილბერტის სინდრომი — კეთილთვისებიანი UGT1A1 პოლიმორფიზმი. ინტერპრეტაციამ არ უნდა გამოიძახოს ჰეპატიტი, ციროზი, ჰემოლიზური ანემია ან ბილიარული ობსტრუქცია.

V11 შედეგი. კომპოზიტი 1.000. მონიტორინგის ქვეშ მყოფი ექვსი ზედმეტად-დიაგნოზის დროშიდან არცერთი არ გამოჩნდა როგორც აქტიური დიაგნოზი.

🟡 ხაფანგი 2 — BT-015-HEALTHY

პრეზენტაცია. 35 წლის ქალი, თხუთმეტ-პარამეტრიანი რუტინული სკრინინგის პანელით. ყველა ანალიტი კომფორტულად დგას თავისი საცნობარო დიაპაზონის შიგნით.

სწორი ინტერპრეტაცია. დამშვიდება და ცხოვრების წესის შენარჩუნება. განმარტება არ უნდა „გამოიგონებდეს“ სასაზღვრო პათოლოგიას, რათა კლინიკურად სასარგებლოდ ჟღერდეს.

V11 შედეგი. კომპოზიტი 1.000. შვიდი მონიტორინგული ზედმეტი დიაგნოსტიკის (over-diagnosis) სიგნალიდან — დიაბეტი, ანემია, ჰიპოთირეოზი, დისლიპიდემია, ჰეპატიტი, თირკმლის დაავადება, დეფიციტი — არცერთი არ გამოჩნდა როგორც აქტიური დიაგნოზი.

ორივე „ტრაპში“ შემოწმდა თოთხმეტი მონიტორინგული ჰიპერდიაგნოსტიკის (hyperdiagnosis) სიგნალი. არცერთი არ გააქტიურდა. ეს არის შედეგი, რომელიც ყველაზე მეტად მნიშვნელოვანია ნებისმიერი კლინიცისტისთვის, რომელიც განიხილავს AI ძრავის გამოყენებას როგორც ტრიაჟის ან კონსულტაციამდე ინსტრუმენტის: სისტემამ არ „შექმნა“ დაავადება იქ, სადაც არ არსებობდა.

მენტცერის ინდექსი: რკინადეფიციტის განცალკევება თალასემიის თვისებიდან

მეორე მაღალი ღირებულების აღმოჩენა ეხება შემთხვევების დაწყვილებას: BT-001 (რკინადეფიციტური ანემია) და BT-007 (ბეტა-თალასემია მცირე). ორივე ვლინდება მიკროციტოზით და ეს არის კარგად ცნობილი „ჩიხი“ გამოუცდელი კლასიფიკატორებისთვის. მენტცერის ინდექსი, რომელიც გამოითვლება MCV-ის გაყოფით RBC რაოდენობაზე, რკინადეფიციტის დროს აღემატება 13-ს და თალასემიის ნიშნულში ჩამოდის 13-ზე ქვემოთ.

BT-001-ში პაციენტი იყო 34 წლის ქალი: ჰემოგლობინი 10.4 გ/დლ, MCV 72.4 ფლ, RBC 4.1 × 10¹²/ლ, ფერიტინი 6 ნგ/მლ და მომატებული TIBC. მენტცერის ინდექსი დაახლოებით 17.7 მხარს უჭერს რკინის აბსოლუტურ დეფიციტს. BT-007-ში პაციენტი იყო 28 წლის მამაკაცი: მიკროციტოზი (MCV 65.8 ფლ), მაგრამ მაღალი RBC რაოდენობა 6.2, ნორმალური RDW, ნორმალური ფერიტინი და HbA2 5.6 პროცენტი. მენტცერის ინდექსი დაახლოებით 10.6 მიუთითებს თალასემიის ნიშნულზე და მომატებული HbA2 ადასტურებს ბეტა-თალასემიას მცირე.

რკინადეფიციტური ანემია მენტცერი > 13 დაბალი ფერიტინი, დაბალი TSAT, მაღალი TIBC, მომატებული RDW
ბეტა-თალასემიის ნიშნული მენტცერი < 13 ნორმალური ფერიტინი, ნორმალური RDW, მომატებული HbA2 (>3.5%), მაღალი RBC რაოდენობა

ორივე შემთხვევაში ქულა იყო 1.000. ძრავმა მენტცერის ინდექსი აშკარად გამოიყენა ორივე განმარტებაში და თითოეულ შემთხვევაში დააბრუნა სწორი დიაგნოზი. ეს არის მთელი ბენჩმარკის ერთ-ერთი ყველაზე კლინიკურად დამამშვიდებელი შედეგი, რადგან თალასემიის ნიშნულის რკინადეფიციტად არასწორად კლასიფიკაცია იწვევს არასათანადო რკინის დანამატებს და ოჯახის სკრინინგის შესაძლებლობების გამოტოვებას, ხოლო რკინადეფიციტის თალასემიად არასწორად კლასიფიკაცია აყოვნებს მარტივ ჩანაცვლებით თერაპიას. ჩვენი ფერიტინის დიაპაზონის სახელმძღვანელო ხსნის დიფერენციალური დიაგნოზის უფრო ფართო კონტექსტს.

2026 წლის აპრილის გაშვების თითოეული შემთხვევის შედეგები

თხუთმეტიდან თორმეტმა შემთხვევამ პირველადი გზაზე მიაღწია კომპოზიტის ჭერის ქულას 1.000. სამი შემთხვევა მომსახურდა ფაზა 2-ის „fallback“-ით, დაკარგა 0.05 ლატენტობის ბონუსი, მაგრამ შეინარჩუნა მთელი კლინიკური და სტრუქტურული შინაარსი. ერთ შემთხვევაში აკლდა ერთი სავალდებულო ქვესექცია; ერთმა შემთხვევამ დააბრუნა ალბათობების განაწილების ოდნავ შემცირებული ჯამი.

შემთხვევის ID სპეციალობა კომპოზიტური ლატენტობა გზა
BT-001-IDAჰემატოლოგია1.00017.8 წმპირველადი
BT-006-B12ჰემატოლოგია1.00018.4 წმპირველადი
BT-007-THALჰემატოლოგია1.00017.0 წმპირველადი
BT-002-HASHენდოკრინოლოგია0.95037.0 წმდაბრუნება
BT-008-PCOSენდოკრინოლოგია0.98718.6 წმპირველადი
BT-003-T2DMმეტაბოლური1.00019.1 წმპირველადი
BT-013-GOUTმეტაბოლური1.00019.4 წმპირველადი
BT-004-NAFLDჰეპატოლოგია1.00019.6 წმპირველადი
BT-009-VIRHEPჰეპატოლოგია0.95023.4 წმდაბრუნება
BT-014-GILBERTხაფანგი1.00018.9 წმპირველადი
BT-005-CKDნეფროლოგია1.00017.4 წმპირველადი
BT-010-ASCVDკარდიოლოგია1.00019.7 წმპირველადი
BT-011-SLEრევმატოლოგია0.98118.2 წმპირველადი
BT-012-VITDენდოკრინოლოგია1.00019.3 წმპირველადი
BT-015-HEALTHYხაფანგი1.00018.7 წმდაბრუნება

PCOS-ის შემთხვევამ (BT-008) პასუხის სტრუქტურაში დაკარგა ერთი სავალდებულო ქვესექცია — თექვსმეტიდან თხუთმეტი ნაცვლად თექვსმეტიდან თექვსმეტისა — რამაც სტრუქტურული ქულა 1.000-დან 0.963-მდე შეამცირა. SLE-ის შემთხვევამ (BT-011) დააბრუნა ოდნავ შემცირებული ალბათობათა განაწილების ჯამი, რომელმაც კლინიკური ქულა 0.965-მდე ჩამოიყვანა, ხოლო შენარჩუნდა ყველა დიაგნოსტიკური საკვანძო სიტყვა და შეფასების სისტემა. არც ერთმა არასრულყოფილმა შემთხვევამ არ გამოტოვა სწორი დიაგნოზი.

რას არ გვიყვება სათაურის ქულა

ამ კონკრეტული წინასწარ რეგისტრირებული რუბრიკის მიხედვით კომპოზიტური ქულა 99.12 პროცენტი თითქმის ზენიტურ მაჩვენებელს წარმოადგენს, მაგრამ საჭიროა ფრთხილი კონტექსტუალიზაცია. შედეგი აღწერს ძრავის ქცევას თხუთმეტ ყურადღებით შერჩეულ ანონიმიზებულ შემთხვევასთან მიმართებით — თითოეული ერთხელ შეფასდა — ერთიანი რუბრიკის ფარგლებში. ჩვენ მკაფიოდ ვამბობთ, რას ადასტურებს და რას არ ადასტურებს ეს რიცხვი.

ქულა ამბობს, რომ V11 ძრავმა სწორად დაამუშავა ამ შეფასებისთვის შერჩეული დიაგნოსტიკური შაბლონები, გამოქვეყნებული და რეპროდუცირებადი მეთოდოლოგიით. ეს არ ნიშნავს, რომ ძრავი სწორია ყველა სისხლის ანალიზის პანელზე, რომელიც რეალურ სამყაროში არსებობს. ეს არ ნიშნავს, რომ ძრავი უნდა ჩაანაცვლოს კლინიცისტის გადაწყვეტილებას. და ეს არ ნიშნავს, რომ ძრავი აჯობებს ალტერნატიულ AI სისტემებს — სხვა ძრავებთან შედარებითი ანალიზები ამ ანგარიშის ფარგლებს შეგნებულად არ გასცდა.

ის, რასაც ქულა ნამდვილად ადასტურებს, არის საბაზისო მაჩვენებელი. რადგან რუბრიკა და ჰარნესი საჯაროა, ძრავის მომავალ ვერსიებს შეეძლებათ შეფასება იმავე თხუთმეტ შემთხვევაზე, და სხვაობა გამოქვეყნებულ ქულასა და ნებისმიერ შემდგომ გაშვებას შორის თავადაც გაზომვადია. სწორედ ეს არის წინასწარი რეგისტრაციის ღირებულება: ის გარდაქმნის შესრულების პრეტენზიებს ტესტირებად პრეტენზიებად.

როგორ გავიმეოროთ ეს ბენჩმარკი 10 წუთში

რეპროდუცირებისთვის საჭიროა მხოლოდ Kantesti API-ის სერთიფიკატების წყვილი და Python 3.10 ან უფრო ახალი გარემო, სადაც არის requests და reportlab ბიბლიოთეკები დაყენებული. სრული ჰარნესი არის ერთი, თვითკმარი Python მოდული, გამოშვებული MIT ლიცენზიით.

რეპროდუცირებადობის ქსელის დიაგრამა, რომელიც აჩვენებს, რომ ბენჩმარკი ასახულია Figshare-ზე, ResearchGate-ზე, Academia.edu-სა და GitHub-ზე, ხოლო Figshare DOI წარმოადგენს კანონიკურ წამყვანს
სურათი 5: ბენჩმარკი ასახულია ოთხ კვლევით პლატფორმაზე. Figshare DOI არის კანონიკური აკადემიური იდენტიფიკატორი; ResearchGate, Academia.edu და GitHub მასპინძლობს პარალელურ ასლებს კოდთან და ნედლ მონაცემებთან ერთად.

ოთხი ნაბიჯი ახალი გაშვებისთვის

ერთი. დააკლონეთ რეპოზიტორია: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ორი. დააინსტალირეთ დამოკიდებულებები შემდეგით pip install -r requirements.txt. სამი. დააყენეთ KANTESTI_USERNAME და KANTESTI_PASSWORD როგორც გარემოს ცვლადები — სერთიფიკატები იკითხება გაშვების დროს და სკრიპტში არაფერია ჩაწერილი მყარად. ოთხი. გაუშვით python benchmark_bloodtest.py და შეამოწმეთ სამუშაო დირექტორიაში გამოშვებული ოთხი არტეფაქტი: CSV ქულების ბარათი, JSON ქულების ბარათი, სრული JSON ამონაწერი, მათ შორის ძრავის ნედლი პასუხები, და ადამიანისთვის წაკითხვადი Markdown ანგარიში.

2026 წლის 23 აპრილის საცნობარო გაშვება შენარჩუნებულია results/ რეპოზიტორიის დირექტორიაში. ახალი გაშვება შექმნის ახალ, დროის ნიშნულით (timestamped) ქულების ბარათს, ხოლო საცნობარო გაშვებას უცვლელად დატოვებს. თუ თქვენი გაშვება იძლევა არსებითად განსხვავებულ შედეგს, გთხოვთ გახსნათ GitHub-ის საკითხი (issue) გაშვების დროის ნიშნულით და პასუხის მეტამონაცემებში დაბრუნებული ძრავის ვერსიით.

შეზღუდვები და სამომავლო სამუშაოები

ოთხი შეზღუდვა საჭიროებს ცხად აღიარებას: ნიმუშის ზომა, ერთჯერადი შეფასება, ერთი ძრავის ფარგლები და ერთი წყაროდან მიღებული მონაცემების წარმოშობა. თითოეული მათგანი აქტიურად მუშავდება შემდგომი დაკვირვების ფარგლებში.

ნიმუშის ზომა. რვა სპეციალობის კატეგორიაში განაწილებული თხუთმეტი შემთხვევა საკმარისია კონცეფციის დასამტკიცებლად, მაგრამ არა სპეციალობის შიგნით ქვეჯგუფების ანალიზისთვის. დაგეგმილია გაფართოება ორმოცდაათ შემთხვევამდე და ის მოიცავს კოაგულაციის პანელებს, ჰემატოლოგიური ავთვისებიანობის სკრინინგს, ორსულობის პანელებს და პედიატრიულ შემთხვევებს.

ერთჯერადი შეფასება. თითოეული შემთხვევა შეფასდა ერთხელ. დიდი ენობრივი მოდელები ავლენენ გამომუშავების არატრივიალურ ცვალებადობასაც კი დაბალი შერჩევის ტემპერატურის პირობებში, ამიტომ ბუნებრივი შემდეგი ნაბიჯია მრავალგაშვებადი პროტოკოლი — ხუთი შეფასება თითო შემთხვევაზე და დაფიქსირებული ცვალებადობა.

ერთი ძრავის ფარგლები. ეს ანგარიში აღწერს ერთ ძრავს. შედარებითი ანალიზები ალტერნატიულ AI სისტემებთან აქ ფარგლებს მიღმაა; შესაძლოა მათ მივყვეთ როგორც ცალკე დამოუკიდებელ კვლევას შესაბამისი მეთოდოლოგიით.

ერთი წყაროდან მიღებული მონაცემების წარმოშობა. თხუთმეტი შემთხვევა არის ანონიმიზებული რეალური პაციენტების ჩანაწერები, რომლებიც აღებულია ერთი კლინიკური რეპოზიტორიდან. ისინი წარმოადგენს შერჩეულ (curated) ნიმუშს და არ არის მოსახლეობის წარმომადგენლობითი შემთხვევითი შერჩევა. მრავალცენტრულ მონაცემებზე შეფასების გაფართოება გზაზეა (roadmap-ში).

ყველაზე გავლენიანი დაგეგმილი გაფართოება არის მრავალენოვანი თანასწორობა (parity). Kantesti AI Engine ემსახურება მომხმარებლებს 75+ ენაზე და იგივე თხუთმეტი-შემთხვევიანი ჰარნესის გაშვება თურქულად, გერმანულად, ესპანურად, ფრანგულად და არაბულად რაოდენობრივად შეაფასებს გამომუშავების ხარისხს ძრავის მიერ მხარდაჭერილ ენებზე. ჩვენ გამოვაქვეყნებთ თითოეული ენისთვის ცალკე გაშვებას თავისი საკუთარი DOI-ით და ჰარნესის ფილიალით (branch).