Kantesti AI სისხლის ანალიზის ბენჩმარკი — კლინიკური ვალიდაცია

ავტომატიზებული ბენჩმარკი წინასწარ რეგისტრირებული ბენჩმარკი V11 მეორე განახლება — 2026 წლის აპრილი MIT ლიცენზიით რეპროდუცირებადი · ღია მონაცემები 100K სინთეტიკური კოჰორტი · 127 ქვეყნის ეტიკეტი

99.80% კომპოზიტური ქულა წინასწარ რეგისტრირებულ რუბრიკაში — V11 მეორე განახლება, 100,000-შემთხვევიანი კოჰორტი 127 ქვეყნის ეტიკეტით

წინასწარ რეგისტრირებული, რუბრიკაზე დაფუძნებული ავტომატიზებული ტექნიკური ბენჩმარკი Kantesti ძრავისთვის 100,000 სინთეტიკურად გენერირებულ სისხლის ანალიზის შემთხვევაზე, მონიშნული 127 ქვეყნის ეტიკეტით. ის ზომავს გამომუშავების შესაბამისობას და არა დიაგნოსტიკურ სიზუსტეს. რუბრიკა გაყინული იყო წყაროს კოდში V11 საწყისი გამოშვების წინ და ამ მეორე განახლებისთვის შენარჩუნებულია ბაიტ-იდენტურად; შეფასების გარემო ლიცენზირებულია MIT-ით; გამოქვეყნებულია ძრავის პასუხების სტრატიფიცირებული შემთხვევითი ნიმუში შემოწმებისთვის. ყველა შემთხვევა სინთეტიკურია; არ გამოიყენება პერსონალური მონაცემები.

📖 ~14 წუთი 📅 გამოქვეყნდა 2026 წლის 23 აპრილს · განახლდა 2026 წლის 26 აპრილს (V11 მეორე განახლება) 🔗 DOI: 10.6084/m9.figshare.32095435

📝 გამოქვეყნდა: 23 აპრილი, 2026 🔄 V11 მეორე განახლება: 26 აპრილი, 2026 🩺 სამედიცინო განხილვა: 26 აპრილი, 2026 ✅ წინასწარ რეგისტრირებული რუბრიკა (ბაიტ-იდენტური) 🔓 ღია კოდი და მონაცემები

ეს ავტომატიზებული ბენჩმარკი შექმნა და გაუშვა ჯულიან ემირჰან ბულუთი, უფროსმა AI ინჟინერმა და Kantesti Ltd-ის აღმასრულებელმა დირექტორმა. შეფასება სრულად ავტომატიზებულია წყაროს კოდში; შეფასების რუბრიკა და შემთხვევების პანელი შემუშავდა კლინიკური ჩართულობით დოქტორი თომას კლაინი, მედიცინის დოქტორი, Kantesti AI-ის სამედიცინო დირექტორმა, და გადამოწმდა კანტესტის ხელოვნური ინტელექტის სამედიცინო საკონსულტაციო საბჭო. ეს არის თვით-გაშვებული შიდა ბენჩმარკი და არა დამოუკიდებელი ან თანატოლების მიერ განხილული ავტომატიზებული ტექნიკური ბენჩმარკი.

მთავარი ავტორი და კლინიკური ზედამხედველობა

თომას კლაინი, მედიცინის დოქტორი

კანტესტი AI-ის მთავარი ექიმი

დოქტორი თომას კლაინი არის საბჭოს მიერ სერტიფიცირებული კლინიკური ჰემატოლოგი და ინტერნისტი, ლაბორატორიული მედიცინის სფეროში 15 წელზე მეტი გამოცდილებით. როგორც Kantesti AI-ის მთავარი სამედიცინო ოფიცერი, მან შეარჩია შემთხვევების პანელი ამ ბენჩმარკისთვის, გადახედა სინთეტიკური შემთხვევების კლინიკურ შინაარსს და მოსალოდნელ პასუხებს და დაამტკიცა წინასწარ რეგისტრირებული რუბრიკა პირველი ძრავის გამოძახებამდე.

ORCID 0009-0009-1490-1321 კვლევის კარიბჭე Google Scholar

თანაავტორი და დანერგვა

ჯულიან ემირჰან ბულუთი

უფროსი AI ინჟინერი და CEO, Kantesti Ltd

ჯულიან ემირჰან ბულუთი არის Kantesti Ltd-ის დამფუძნებელი და აღმასრულებელი დირექტორი. მან შეიმუშავა და დანერგა შეფასების გარემო — მათ შორის SQL-ის case loader, რომელიც დაემატა V11 მეორე განახლებას — განახორციელა API-ის ინტეგრაცია, ჩაატარა როგორც V11-ის საწყისი საცნობარო გაშვება, ისე V11-ის მეორე განახლების 100,000-შემთხვევიანი გაშვება და მოამზადა სტატისტიკური აგრეგაცია. პლატფორმის დამფუძნებელი 2019 წლიდან.

GitHub კანტესტის შესახებ

⚡ სწრაფი რეზიუმე V11 მეორე განახლება — 26 აპრილი, 2026

99.80% კომპოზიტური ქულა 100,000 სინთეტიკურ სისხლის ანალიზის შემთხვევაზე რვა სამედიცინო სპეციალობისა და 127 ქვეყნის ეტიკეტის ფარგლებში (V11 მეორე განახლება).
ჰიპერდიაგნოზის ნულოვანი ცრუ-პოზიტივები 87,412 მონიტორინგირებული trap-case flag შესაძლებლობის ფარგლებში — იგივე trap-case მეთოდოლოგია, რაც V11-ის საწყისში, მასშტაბირებული მოსახლეობის დონეზე.
წინასწარ რეგისტრირებული რუბრიკა გაყინული იყო წყაროს კოდში V11-ის საწყისი გაშვების წინ და შენარჩუნდა ბაიტ-იდენტურად ამ მეორე განახლებისთვის — პოსტ-ჰოკ კორექტირება შეუძლებელი იყო.
მენტცერის ინდექსი სწორად იქნა გამოყენებული V11-ის საწყის გამოშვებაში რკინადეფიციტური ანემიის დიფერენცირებისთვის ბეტა-თალასემიიდან (მცირე ფორმა); დიფერენციალური ქცევა შენარჩუნდა მოსახლეობის მასშტაბზე.
მხოლოდ წარმოების (production) საბოლოო წერტილი — არ იყო პრივილეგირებული მარშრუტირება; შეფასდა ზუსტად ისე, როგორც მას წვდომა ექნებოდა გადამხდელ მომხმარებელს.
13.26 წამის საშუალო ლატენტობა end-to-end (დიაპაზონი 9.0–16.94 წმ), სადაც ყველა 100,000 შემთხვევა დასრულდა ძრავის ძირითად გზაზე.
სინთეტიკური კოჰორტი. 100,000 სინთეტიკურად გენერირებული სატესტო შემთხვევა ჩატვირთულია გაშვების დროს. არ გამოიყენება სინთეტიკური მონაცემები და არც პერსონალური მონაცემები.
MIT ლიცენზიის მქონე ჰარნესი გამოქვეყნდა GitHub-ზე სტრატიფიცირებული შემთხვევითი ნიმუშით (n = 201) სრული ნედლი ძრავის პასუხებიდან შემოწმებისთვის.
Figshare DOI: 10.6084/m9.figshare.32095435 · ასახულია ResearchGate-ზე, Academia.edu-ზე, GitHub-ზე.

რატომ არსებობს ეს ბენჩმარკი და რას ამოწმებს

AI-დახმარებით სისხლის ანალიზის განმარტება სულ უფრო ხშირად გამოიყენება როგორც სამომხმარებლო, ისე კლინიკურ სამუშაო პროცესებში, თუმცა ლაბორატორიულ მედიცინაზე მორგებული, განმეორებადობის მქონე შეფასების ჩარჩოები იშვიათია. ამ კონტექსტში ყველაზე მნიშვნელოვანი კითხვები არ არის ის, რაც დაფარულია ზოგადი სამედიცინო კითხვა-პასუხის ბენჩმარკებით: შეუძლია თუ არა ძრავს განასხვაოს რკინადეფიციტი თალასემიის ნიშნიდან მაშინ, როცა საშუალო კორპუსკულარული მოცულობა იდენტურია; ზედმეტად ხომ არ დიაგნოსტირებს გილბერტის სინდრომს ჰეპატიტად; და ხომ არ „ქმნის“ პათოლოგიას სრულად ნორმალურ სკრინინგ პანელში?

სისხლის ანალიზის ერთი პანელი, როგორც წესი, შეიცავს საკმარის სიგნალს რამდენიმე კონკურენტული ინტერპრეტაციის მხარდასაჭერად, ხოლო განმმარტებელი ექიმის ამოცანაა ამ ინტერპრეტაციებს ერთმანეთთან შეადაროს და შეაფასოს, ვიდრე სახელმძღვანელოს ტიპური პასუხის მოძიება სცადოს. ისეთი „ძრავი“, რომელიც კარგად მუშაობს სახელმძღვანელოს ტიპურ შემთხვევებზე, მაინც შეიძლება წააგოს ყველაზე მნიშვნელოვან შემთხვევებში: დიფერენციალური დიაგნოზის ხაფანგებში, კეთილთვისებიან ვარიანტებში, რომლებიც ცალკე აღებულად საგანგაშოდ გამოიყურება, და სრულად ნორმალურ პანელებში, რომლებიც თავდაჯერებულ ასისტენტებს უბიძგებს პათოლოგიის „გამოგონებისკენ“.

ეს ბენჩმარკი სწორედ ამ ტიპის წარუმატებლობებზეა აგებული. თითოეული თხუთმეტი შემთხვევა შეირჩა კონკრეტული დიაგნოსტიკური თვისების მიხედვით: რკინადეფიციტური მიკროციტოზი, რომელიც უნდა დარჩეს გამიჯნული ბეტა-თალასემიის ნიშნიდან, რომელსაც აქვს იდენტური საშუალო კორპუსკულარული მოცულობა; გილბერტის სინდრომის სურათი, სადაც ერთადერთი დარღვევა არის იზოლირებული არაპირდაპირი ჰიპერბილირუბინემია; და თხუთმეტ-პარამეტრიანი სკრინინგ-პანელი, რომელშიც თითოეული ანალიტი თავის საცნობარო დიაპაზონშია. რუბრიკა აჯილდოებს ძრავებს, რომლებიც თითოეულ შემთხვევას საკუთარ კონტექსტში კითხულობენ და აკლებს ქულას ძრავებს, რომლებიც იქ, სადაც ასეთი დიაგნოზი არ არის გამართლებული, თავდაჯერებულ დიაგნოზს „მიიწევენ“.

როგორც თომას კლაინი, MD, შევარჩიე შემთხვევების პანელი, რადგან ეს ის შაბლონებია, რომლებსაც ლაბორატორიული მედიცინის ასისტენტები ყველაზე ხშირად არასწორად იგებენ. ძვირადღირებული წარუმატებლობა არ არის "იშვიათი დაავადების გამოტოვება" — ეს არის რუტინული პათოლოგიის გამოგონება იმ პაციენტებში, რომლებსაც ის არ აქვთ. ჩვენი სამედიცინო ვალიდაცია hub აღწერს უფრო ფართო ჩარჩოს; ეს გვერდი აღწერს V11 საწყის proof-of-concept-ს და V11 მეორე განახლებას, რომელმაც ის მასშტაბურად გადაიყვანა 100,000 სინთეტიკურ შემთხვევამდე, რომლებიც აღებულია სინთეტიკური შემთხვევების ნაკრებიდან, რომელიც მოიცავს 127 ქვეყნის ეტიკეტს — იმავე შეფასების რუბრიკით, ბაიტ-იდენტურად, და პოსტ-ჰოკ ტიუნინგის დაშვების გარეშე.

26 აპრილი 2026-ის V11 მეორე განახლების საცნობარო გაშვებამ გამოიმუშავა კომპოზიტური ქულა

V11-ის საწყის გამოშვებაში გამოყენებულ იმავე წინასწარ რეგისტრირებულ რუბრიკაზე დაყრდნობით, შეფასებული 99.80% 100,000 ანონიმიზებული შემთხვევა 100,000 სინთეტიკური შემთხვევა აღებულია Kantesti სინთეტიკური შემთხვევების ნაკრებიდან და მოიცავს 127 ქვეყნის ეტიკეტი . 23 აპრილი 2026-ის ორიგინალ V11-ის გაშვებამ მოიცვა 15 ხელით შერჩეული შემთხვევა (კომპოზიტი 99.12%) და დაადასტურა რუბრიკა; მეორე განახლება ინარჩუნებს იმავე რუბრიკას ბაიტ-იდენტურად და აფართოებს შეფასებას მოსახლეობის მასშტაბის კოჰორტაზე. 0 / 87,412. 100,000-დან 100,000 შემთხვევამ მიიღო ქულა.

კომპოზიტური 99.80% 13.26 წმ

1.000 სტრუქტურული ქულა

0.996 კლინიკური ქულა

ძირითადი გზის სერვის-დონის სამიზნის წინააღმდეგ. ზუსტი დაშლა ნაჩვენებია ქვემოთ მოცემულ რუბრიკის ფორმულაში — არც ერთი ეს წონა ან ქვერუბრიკა არ შეცვლილა მეორე განახლებისთვის. საშუალო ლატენტობა

0 / 87,412 ხაფანგის ცრუ დადებითი პასუხები

კომპოზიტური ფორმულა აერთიანებს სამ კომპონენტს: სტრუქტურული შესაბამისობა შვიდ სავალდებულო ანგარიშის სექციასთან და თექვსმეტ სავალდებულო ქვესექციასთან, შინაარსის სიზუსტე იზომება როგორც საკვანძო სიტყვების დამახსოვრება (keyword recall) პლუს ქულების სისტემის დამახსოვრება (scoring-system recall) პლუს ალბათობათა განაწილების ვალიდურობის შემოწმება და პასუხის ლატენტობა დარჩენილი 0.20 პროცენტული პუნქტი „თავისუფალი სივრციდან“ თითქმის მთლიანად იშლება კლინიკურ ქვექულაში — შემთხვევების მცირე ნაწილი (ძირითადად ჰეპატოლოგიასა და რევმატოლოგიაში) შეიცავდა ერთ მოსალოდნელ საკვანძო სიტყვას, რომელიც არ იყო ძრავის ინტერპრეტაციაში, მიუხედავად იმისა, რომ დიაგნოსტიკური შინაარსი სწორი იყო.

კომპოზიტური = 0.35 × სტრუქტურული + 0.55 × კლინიკური + 0.10 × ლატენტობა

100,000-შემთხვევიან მეორე-განახლების კოჰორტაში არც ერთ შემთხვევას არ გამორჩა თავად დიაგნოზი. დაყოვნებამ გაუმჯობესება განიცადა V11-ის საწყის გამოშვებაში საშუალოდ 20.17 წმ-დან მეორე განახლებაში 13.26 წმ-მდე, რაც ასახავს წარმოების ძრავის ოპტიმიზაციებს ორ გაშვებას შორის; რუბრიკა, შეფასების კოდი და API-ის ბოლო წერტილი უცვლელია. ქვეყნების მიხედვით კომპოზიტური ქულები მერყეობდა 0.9971-დან (ინდოეთი) 0.9985-მდე (შვეიცარია) ყველაზე მეტად წარმოდგენილ 30 ქვეყანაში. დამატებითი 97 ქვეყნის გრძელი „კუდი“ (≈7,300 შემთხვევა ერთად) არ აჩვენებდა სისტემურ გაუარესებას. შემთხვევების რაოდენობით მთავარი კონტრიბუტორები იყვნენ: შეერთებული შტატები (10,500), ბრაზილია (9,500), ესპანეთი (9,000), იტალია (8,000), გერმანია (7,800), საფრანგეთი (7,400), პორტუგალია (5,800), Türkiye (3,400), გაერთიანებული სამეფო (2,900) და მექსიკა (2,500).

თითო-ეტიკეტის კომპოზიტური ქულები მერყეობდა 0.9971-დან 0.9985-მდე 30 ყველაზე-ხშირად წარმოდგენილ ქვეყნის ეტიკეტზე. დამატებითი 97 ეტიკეტის გრძელი კუდი (≈7,300 შემთხვევა ერთად) არ აჩვენებდა სისტემურ გაუარესებას. შემთხვევების რაოდენობით ყველაზე ხშირი ეტიკეტები იყო: ამერიკის შეერთებული შტატები (10,500), ბრაზილია (9,500), ესპანეთი (9,000), იტალია (8,000), გერმანია (7,800), საფრანგეთი (7,400), პორტუგალია (5,800), Türkiye (3,400), გაერთიანებული სამეფო (2,900) და მექსიკა (2,500).

15 შემთხვევიდან 100,000-მდე: კოჰორტის ევოლუცია 127 ქვეყნის ეტიკეტზე

ორიგინალ V11-ის შემთხვევების პანელი მოიცავდა შვიდ სპეციალობას — ჰემატოლოგია, ენდოკრინოლოგია, მეტაბოლური მედიცინა, ჰეპატოლოგია, ნეფროლოგია, კარდიოლოგია, რევმატოლოგია — პლუს ორი მიძღვნილი ჰიპერდიაგნოზის „trap“ შემთხვევა, სადაც თითოეული შემთხვევა იყო სინთეტიკურად გენერირებული სისხლის ანალიზის პანელი. V11 მეორე განახლება აფართოებს შეფასებას 100,000 სინთეტიკურ შემთხვევაზე 127 ქვეყნის ეტიკეტის ფარგლებში, V11-ის საწყისი შემთხვევების პანელის დიზაინი ჰემატოლოგიაში, ენდოკრინოლოგიაში, მეტაბოლურ მედიცინაში, ჰეპატოლოგიაში, ნეფროლოგიაში, კარდიოლოგიაში, რევმატოლოგიაში — პლუს ორი trap-შემთხვევა — გილბერტის სინდრომი და სრულად ნორმალური სკრინინგ-პანელი. მეორე განახლება ინარჩუნებს ამ რუბრიკას ბაიტ-იდენტურად, ხოლო კოჰორტას აფართოებს 100,000 შემთხვევამდე, რომლებიც აღებულია Kantesti SQL რეპოზიტორიდან.

ვინაიდან ყველა შემთხვევა სინთეტიკურად გენერირებულია, არ არსებობს რეალური იდენტიფიკატორები მოსაშორებლად და არ მონაწილეობს პერსონალური მონაცემები. თითოეული სინთეტიკური შემთხვევა ატარებს ბენჩმარკ-შიდა შემთხვევის კოდს (BT-NNN-LABEL V11-ის საწყის ნაკრებში, სტაბილური მეორე განახლებისთვის. დამუშავება განხორციელდა შესაბამისად მეორე განახლებაში). გამოქვეყნებულ გარემოში, ტექნიკურ ანგარიშში ან გამოშვებულ მონაცემთა ნაკრებებში არსად ჩანს პერსონალური მონაცემები.

V11 initial release — 15 hand-curated cases

V11-ის ორიგინალური ქეისების პანელი ხელით შეარჩია დოქტორმა თომას კლაინმა, რათა გამოეყენებინა დიაგნოსტიკური შაბლონები, რომლებსაც ლაბორატორიული მედიცინის ასისტენტები ყველაზე ხშირად არასწორად იგებენ. თითოეული თხუთმეტი ქეისი შეირჩა კონკრეტული დიაგნოსტიკური მახასიათებლისთვის, ქვემოთ ჩამოთვლილი.

ჰემატოლოგია (3) BT-001, BT-006, BT-007 რკინადეფიციტური ანემია · B12 დეფიციტი · ბეტა-თალასემია მცირე

ენდოკრინოლოგია (3) BT-002, BT-008, BT-012 ჰაშიმოტოს თირეოიდიტი · PCOS ინსულინრეზისტენტობით · D ვიტამინის მძიმე დეფიციტი

მეტაბოლური (2) BT-003, BT-013 T2DM მეტაბოლურ სინდრომთან ერთად · ჰიპერურიკემია პოდაგრის რისკით

ჰეპატოლოგია (2) BT-004, BT-009 NAFLD / NASH · მწვავე ვირუსული ჰეპატიტი

ნეფროლოგია · კარდიოლოგია · რევმატოლოგია (3) BT-005, BT-010, BT-011 CKD სტადია 3 · ათეროგენული დისლიპიდემია · სისტემური წითელი მგლურა

„Trap“ შემთხვევები (2) BT-014, BT-015 გილბერტის სინდრომი (იზოლირებული არაპირდაპირი ჰიპერბილირუბინემია) · სრულად ნორმალური ზრდასრულთა სკრინი

რატომ არის ეს კონკრეტული განაწილება

ჰემატოლოგიას სამი შემთხვევა აქვს, რადგან მიკროციტური დიფერენციალები და მაკროციტური დიფერენციალები რეალურ ლაბორატორიულ პრაქტიკაში ყველაზე მაღალი მოცულობის „ხაფანგებია“. ენდოკრინოლოგიას სამი შემთხვევა აქვს, რადგან ჰაშიმოტოს, PCOS-ისა და D ვიტამინის დეფიციტის პრეზენტაციები სხვადასხვა დიაგნოსტიკურ ფორმას ავარჯიშებს (ავტოანტისხეულებით განპირობებული, ჰორმონების შეფარდებებით განპირობებული, ერთი მარკერით განპირობებული). ერთ-შემთხვევიანი სპეციალობები მაინც მნიშვნელოვანია, რადგან თითოეულს — CKD-ს, ASCVD რისკს და SLE-ს — აქვს საკუთარი ქულების სისტემა, რომელიც ძრავმა უნდა გამოიძახოს (შესაბამისად KDIGO სტადირება, ASCVD 10-წლიანი რისკი, 2019 EULAR/ACR SLE კრიტერიუმები).

V11 მეორე განახლება — 100,000 სინთეტიკური შემთხვევა 127 ქვეყნის ეტიკეტის ფარგლებში

მეორე განახლება ანაცვლებს ორიგინალ V11-ის 15-შემთხვევიან მყარად ჩაწერილ Python ლიტერალს უფრო დიდი, პროგრამულად გენერირებული სინთეტიკური შემთხვევების ნაკრებით. შემთხვევების ნაკრები იტვირთება ყოველი გაშვების დასაწყისში და კონფიგურაცია იწერება გამჭვირვალობისთვის. კოჰორტის განაწილება შინაარსის სფეროების მიხედვით ნაჩვენებია ქვემოთ.

ენდოკრინოლოგია 23,900 ქეისი (23.9%) ფარისებრი ჯირკვალი, PCOS, D ვიტამინი, სასქესო ჯირკვლების ღერძი, ჰიპოფიზი

მეტაბოლური მედიცინა 21,900 ქეისი (21.9%) T2DM, მეტაბოლური სინდრომი, ლიპიდური პანელები, ჰიპერურიკემია

ჰემატოლოგია 15,400 ქეისი (15.4%) მიკროციტური და მაკროციტური დიფერენციალები, B12/ფოლატი, რკინის კვლევები

ჰეპატოლოგია 12,400 ქეისი (12.4%) NAFLD/NASH, ვირუსული ჰეპატიტი, FIB-4, ქოლესტაზი

შიდა მედიცინა (მათ შორის „trap“ ქვეჯგუფი) 9,000 ქეისი (9.0%) შერეული პრეზენტაციები და 8,723 მიძღვნილი ჰიპერდიაგნოზის „trap“ ქეისი

კარდიოლოგია 7,500 ქეისი (7.5%) ASCVD რისკი, ათეროგენული დისლიპიდემია, hs-CRP

რევმატოლოგია 6,000 ქეისი (6.0%) SLE, RA, ვასკულიტი, აუტოანტისხეულების პანელები (EULAR/ACR კრიტერიუმები)

ნეფროლოგია 4,000 ქეისი (4.0%) CKD სტადირება (KDIGO), eGFR-ის ტენდენციები, ელექტროლიტური დარღვევა

სინთეტიკური ქვეყნის-ეტიკეტის განაწილება — ტოპ 10 ეტიკეტი

100,000 სინთეტიკურ შემთხვევას აქვს 127 ქვეყნის ეტიკეტი (ISO 3166-1 alpha-2), რათა შემოწმდეს ლოკალის დამუშავება. ეტიკეტის მინიჭება: ევროპა 57.7%, ამერიკები 25.4%, აზია-წყნარი ოკეანე 6.2%, დასახელებული ახლო აღმოსავლეთი/აფრიკის ეტიკეტები 3.4% და დამატებითი 97 ეტიკეტის გრძელი კუდი საერთო ჯამში დაახლოებით 7.3%. შემთხვევების რაოდენობით ათი ყველაზე ხშირი ეტიკეტია: ამერიკის შეერთებული შტატები (10,500), ბრაზილია (9,500), ესპანეთი (9,000), იტალია (8,000), გერმანია (7,800), საფრანგეთი (7,400), პორტუგალია (5,800), Türkiye (3,400), გაერთიანებული სამეფო (2,900) და მექსიკა (2,500). თითო-ეტიკეტის კომპოზიტური ქულები მერყეობდა 0.9971-დან 0.9985-მდე. ეს ეტიკეტების რაოდენობები არის გენერირებული შემთხვევების თვისებები, რომლებიც გამოიყენება ლოკალის დამუშავების შესამოწმებლად — ისინი არ არის რეალური მომხმარებლები და არ ასახავს რეალურ გეოგრაფიულ დაფარვას.

წინასწარ რეგისტრირებული რუბრიკა — ახსნილი

წინასწარი რეგისტრაცია ამ ბენჩმარკში ერთადერთი ყველაზე მნიშვნელოვანი მეთოდოლოგიური არჩევანია. ყველა მოსალოდნელი დიაგნოზი, ყველა კლინიკური ქულების სისტემა და ყველა ანგარიშის სექცია ჩადებული იყო წყაროს კოდში სანამ ძრავა გამოიძახებოდა. ამიტომ რუბრიკის პოსტ-ჰოკ „დალაგება“ ძრავის მოსაწონად შეუძლებელია.

კომპოზიტურ ქულას სამი კომპონენტი ქმნის. სტრუქტურული კომპონენტი შეადგენს 35 პროცენტს და ზომავს, დააბრუნა თუ არა ძრავამ შვიდი სავალდებულო ანგარიშის სექცია (ჰედერი, შეჯამება, ძირითადი მიგნებები, დიფერენციალი, ქულების სისტემები, რეკომენდაციები, შემდგომი დაკვირვება) და მათში არსებული თექვსმეტი სავალდებულო ქვესექცია. სექციის არსებობა სტრუქტურულ გამოთვლაში იწონის 40 პროცენტს, ხოლო ქვესექციის არსებობა — 60 პროცენტს.

The კლინიკური კომპონენტი შეადგენს 55 პროცენტს და აერთიანებს სამ რამეს: დიაგნოზის-საკვანძო სიტყვის გახსენება (კლინიკური ქვექულის 70 პროცენტი), ქულების სისტემის გახსენება (20 პროცენტი — ითვლის თუ არა ძრავა, სადაც საჭიროა, Mentzer-ს, FIB-4-ს, HOMA-IR-ს, ASCVD რისკს, KDIGO სტადირებას, EULAR/ACR კრიტერიუმებს), და ალბათობების-ჯამის ვალიდობის შემოწმებას (10 პროცენტი — დიფერენციალური ალბათობები უნდა ჯამდებოდეს ინტერვალში [90, 110]). „ხაფანგის“ შემთხვევებისთვის გამოაკლდება მკაფიო ჰიპერდიაგნოზის ჯარიმა მაქსიმუმ 0.30-მდე, რაც გამოითვლება როგორც 0.10 თითოეული გამოგონილი პათოლოგიის დროშისთვის და ზღუდავს სამ დროშამდე.

The ლატენტურობის კომპონენტი შეადგენს 10 პროცენტს. პასუხი 20 წამზე ნაკლებ დროში იღებს სრულ 0.10-ს, 40 წამზე ნაკლებ დროში — 0.05-ს, ხოლო ნებისმიერი უფრო ნელი — ნულს. 20-წამიანი სამიზნე ასახავს წარმოების „primary-path“ სერვის-დონის მიზანს; 40-წამიანი ზღვარი ასახავს ფაზა 2-ის „fallback“ ბიუჯეტს მძიმე-ძრავის გამოძახებებისთვის.

რას უშლის ხელს წინასწარი რეგისტრაცია

პირველი მხარის ბენჩმარკები ცნობილია იმით, რომ პოსტ-ჰოკ რუბრიკის დალაგებით საკუთარ ციფრებს „ბერავენ“. ნიმუში თითქმის ყოველთვის ერთნაირია: გუნდი უშვებს ძრავას, ხედავს სად ჩამოუვარდება, შემდეგ კი ჩუმად არეგულირებს რუბრიკას ისე, რომ ჩამოუმწეველი სფეროები ნაკლებად ითვლებოდეს. რუბრიკის წყაროს კოდში ჩადებით პირველი ძრავის გამოძახებამდე და ჰარნესის MIT ლიცენზიით გამოქვეყნებით, ეს კორექტირება ხილული ხდება ვერსიების კონტროლში. ნებისმიერს შეუძლია რეპოზიტორიის კლონირება, რუბრიკის ავტორების თარიღების შემოწმება და დაადასტუროს, რომ ძრავის შედეგები არ ყოფილა გამოყენებული შეფასების ფორმირებისთვის.

ჰიპერდიაგნოზის „ხაფანგის“ შემთხვევები — რატომ არის გადაჭარბებული დასკვნა რეალური წარუმატებლობის რეჟიმი

პათოლოგიის აგრესიული „გადაძახება“ ნორმალურ სკრინინგებზე მომხმარებლზე ორიენტირებული სამედიცინო ასისტენტების დოკუმენტირებული უკმარისობის რეჟიმია. მისი ქვედა ხარჯები მოიცავს არასაჭირო გამოკვლევას, პაციენტის შფოთვას და იატროგენულ სამუშაო-დამუშავებას. ამ ბენჩმარკში ორი „ხაფანგის“ შემთხვევა შექმნილია იმისთვის, რომ ეს უკმარისობის რეჟიმი გახდეს ხილული და შეფასებადი.

🟡 ხაფანგი 1 — BT-014-GILBERT

პრეზენტაცია. 24 წლის მამაკაცი, საერთო ბილირუბინით 2.4 მგ/დლ. პირდაპირი ფრაქცია ნორმაშია, ტრანსამინაზები და ტუტე ფოსფატაზა თავიანთ საცნობარო დიაპაზონებშია, რეტიკულოციტები არაფრით გამორჩეულია, ხოლო ჰაპტოგლობინი და LDH გამორიცხავს ჰემოლიზს.

სწორი ინტერპრეტაცია. გილბერტის სინდრომი — კეთილთვისებიანი UGT1A1 პოლიმორფიზმი. ინტერპრეტაციამ არ უნდა გამოიძახოს ჰეპატიტი, ციროზი, ჰემოლიზური ანემია ან ბილიარული ობსტრუქცია.

V11 შედეგი. კომპოზიტი 1.000. მონიტორინგის ქვეშ მყოფი ექვსი ზედმეტად-დიაგნოზის დროშიდან არცერთი არ გამოჩნდა როგორც აქტიური დიაგნოზი.

🟡 ხაფანგი 2 — BT-015-HEALTHY

პრეზენტაცია. 35 წლის ქალი, თხუთმეტ-პარამეტრიანი რუტინული სკრინინგის პანელით. ყველა ანალიტი კომფორტულად დგას თავისი საცნობარო დიაპაზონის შიგნით.

სწორი ინტერპრეტაცია. დამშვიდება და ცხოვრების წესის შენარჩუნება. განმარტება არ უნდა „გამოიგონებდეს“ სასაზღვრო პათოლოგიას, რათა კლინიკურად სასარგებლოდ ჟღერდეს.

V11 შედეგი. კომპოზიტი 1.000. შვიდი მონიტორინგული ზედმეტი დიაგნოსტიკის (over-diagnosis) სიგნალიდან — დიაბეტი, ანემია, ჰიპოთირეოზი, დისლიპიდემია, ჰეპატიტი, თირკმლის დაავადება, დეფიციტი — არცერთი არ გამოჩნდა როგორც აქტიური დიაგნოზი.

ორივე „ტრაპში“ შემოწმდა თოთხმეტი მონიტორინგული ჰიპერდიაგნოსტიკის (hyperdiagnosis) სიგნალი. არცერთი არ გააქტიურდა. ეს არის შედეგი, რომელიც ყველაზე მეტად მნიშვნელოვანია ნებისმიერი კლინიცისტისთვის, რომელიც განიხილავს AI ძრავის გამოყენებას როგორც ტრიაჟის ან კონსულტაციამდე ინსტრუმენტის: სისტემამ არ „შექმნა“ დაავადება იქ, სადაც არ არსებობდა.

მენტცერის ინდექსი: რკინადეფიციტის განცალკევება თალასემიის თვისებიდან

მეორე მაღალი ღირებულების აღმოჩენა ეხება შემთხვევების დაწყვილებას: BT-001 (რკინადეფიციტური ანემია) და BT-007 (ბეტა-თალასემია მცირე). ორივე ვლინდება მიკროციტოზით და ეს არის კარგად ცნობილი „ჩიხი“ გამოუცდელი კლასიფიკატორებისთვის. მენტცერის ინდექსი, რომელიც გამოითვლება MCV-ის გაყოფით RBC რაოდენობაზე, რკინადეფიციტის დროს აღემატება 13-ს და თალასემიის ნიშნულში ჩამოდის 13-ზე ქვემოთ.

BT-001-ში პაციენტი იყო 34 წლის ქალი: ჰემოგლობინი 10.4 გ/დლ, MCV 72.4 ფლ, RBC 4.1 × 10¹²/ლ, ფერიტინი 6 ნგ/მლ და მომატებული TIBC. მენტცერის ინდექსი დაახლოებით 17.7 მხარს უჭერს რკინის აბსოლუტურ დეფიციტს. BT-007-ში პაციენტი იყო 28 წლის მამაკაცი: მიკროციტოზი (MCV 65.8 ფლ), მაგრამ მაღალი RBC რაოდენობა 6.2, ნორმალური RDW, ნორმალური ფერიტინი და HbA2 5.6 პროცენტი. მენტცერის ინდექსი დაახლოებით 10.6 მიუთითებს თალასემიის ნიშნულზე და მომატებული HbA2 ადასტურებს ბეტა-თალასემიას მცირე.

რკინადეფიციტური ანემია მენტცერი > 13 დაბალი ფერიტინი, დაბალი TSAT, მაღალი TIBC, მომატებული RDW

ბეტა-თალასემიის ნიშნული მენტცერი < 13 ნორმალური ფერიტინი, ნორმალური RDW, მომატებული HbA2 (>3.5%), მაღალი RBC რაოდენობა

ორივე შემთხვევაში ქულა იყო 1.000. ძრავმა მენტცერის ინდექსი აშკარად გამოიყენა ორივე განმარტებაში და თითოეულ შემთხვევაში დააბრუნა სწორი დიაგნოზი. ეს არის მთელი ბენჩმარკის ერთ-ერთი ყველაზე კლინიკურად დამამშვიდებელი შედეგი, რადგან თალასემიის ნიშნულის რკინადეფიციტად არასწორად კლასიფიკაცია იწვევს არასათანადო რკინის დანამატებს და ოჯახის სკრინინგის შესაძლებლობების გამოტოვებას, ხოლო რკინადეფიციტის თალასემიად არასწორად კლასიფიკაცია აყოვნებს მარტივ ჩანაცვლებით თერაპიას. ჩვენი ფერიტინის დიაპაზონის სახელმძღვანელო ხსნის დიფერენციალური დიაგნოზის უფრო ფართო კონტექსტს.

თითო-შემთხვევის შედეგები V11 საწყისი საცნობარო გაშვებიდან (23 აპრილი, 2026)

ორიგინალი V11 საცნობარო გაშვება 15-შემთხვევიანი proof-of-concept კოჰორტაზე ემსახურება როგორც მეთოდოლოგიურ საფუძველს მეორე განახლებისთვის: ქვემოთ მოცემული თითო-შემთხვევის ყველა დეტალი აჩვენებს, როგორ ამუშავებს რუბრიკა რეალურ ძრავის პასუხს. თხუთმეტიდან თორმეტმა შემთხვევამ მიაღწია პირველადი გზის მაქსიმალურ კომპოზიტურ ქულას 1.000; სამი შემთხვევა დამუშავდა ფაზა 2-ის fallback-ით, დაკარგა 0.05 ლატენტობის ბონუსი, მაგრამ შეინარჩუნა მთელი კლინიკური და სტრუქტურული შინაარსი. ერთ შემთხვევაში აკლდა ერთი სავალდებულო ქვესექცია; ერთმა შემთხვევამ დააბრუნა ოდნავ შემცირებული ალბათობების განაწილების ჯამი.

შემთხვევის ID სპეციალობა კომპოზიტური ლატენტობა გზა

BT-001-IDAჰემატოლოგია1.00017.8 წმპირველადი

BT-006-B12ჰემატოლოგია1.00018.4 წმპირველადი

BT-007-THALჰემატოლოგია1.00017.0 წმპირველადი

BT-002-HASHენდოკრინოლოგია0.95037.0 წმდაბრუნება

BT-008-PCOSენდოკრინოლოგია0.98718.6 წმპირველადი

BT-003-T2DMმეტაბოლური1.00019.1 წმპირველადი

BT-013-GOUTმეტაბოლური1.00019.4 წმპირველადი

BT-004-NAFLDჰეპატოლოგია1.00019.6 წმპირველადი

BT-009-VIRHEPჰეპატოლოგია0.95023.4 წმდაბრუნება

BT-014-GILBERTხაფანგი1.00018.9 წმპირველადი

BT-005-CKDნეფროლოგია1.00017.4 წმპირველადი

BT-010-ASCVDკარდიოლოგია1.00019.7 წმპირველადი

BT-011-SLEრევმატოლოგია0.98118.2 წმპირველადი

BT-012-VITDენდოკრინოლოგია1.00019.3 წმპირველადი

BT-015-HEALTHYხაფანგი1.00018.7 წმდაბრუნება

PCOS-ის შემთხვევამ (BT-008) პასუხის სტრუქტურაში დაკარგა ერთი სავალდებულო ქვესექცია — თექვსმეტიდან თხუთმეტი ნაცვლად თექვსმეტიდან თექვსმეტისა — რამაც სტრუქტურული ქულა 1.000-დან 0.963-მდე შეამცირა. SLE-ის შემთხვევამ (BT-011) დააბრუნა ოდნავ შემცირებული ალბათობათა განაწილების ჯამი, რომელმაც კლინიკური ქულა 0.965-მდე ჩამოიყვანა, ხოლო შენარჩუნდა ყველა დიაგნოსტიკური საკვანძო სიტყვა და შეფასების სისტემა. არც ერთმა არასრულყოფილმა შემთხვევამ არ გამოტოვა სწორი დიაგნოზი.

V11 მეორე განახლების აგრეგატი — 100,000 შემთხვევა

მასშტაბურ დონეზე ინდივიდუალური შემთხვევების რიგები არ არის ადამიანისთვის წაკითხვადი, ამიტომ მეორე განახლება აჩვენებს აგრეგირებულ მეტრიკებს და არა 100,000-რიგიან ცხრილს. მთავარი აგრეგატი ნაჩვენებია ქვემოთ; სპეციალობისა და ქვეყნის-ეტიკეტის მიხედვით დეტალიზაცია გამოქვეყნებულია ტექნიკურ ანგარიშში და Figshare-ის დეპოზიტში. სტრატიფიცირებული შემთხვევითი ნიმუში n = 201 ნედლი ძრავის პასუხების (დეტერმინისტული seed 20260426) გამოქვეყნებულია GitHub-ის results/ დირექტორიაში შემოწმებისთვის.

კომპოზიტური ქულა V11 საწყისი: 0.9912 (99.12%) → მეორე განახლება: 0.9980 (99.80%) Δ = +0.0068 100,000-შემთხვევიან კოჰორტაში

სტრუქტურული ქულა (საშუალო) V11 საწყისი: 0.998 → მეორე განახლება: 1.000 სრულყოფილი სტრუქტურული შესაბამისობა მოსახლეობის მასშტაბზე

კლინიკური ქულა (საშუალო) V11 საწყისი: 0.998 → მეორე განახლება: 0.996 −0.002; არც ერთ შემთხვევას არ გამორჩა თავად დიაგნოზი

შეყოვნება — საშუალო (დიაპაზონი) V11 საწყისი: 20.17 წმ (17.0–37.0 წმ) → მეორე განახლება: 13.26 წმ (9.0–16.94 წმ) წარმოების ძრავის ოპტიმიზაციები გაშვებებს შორის

ძრავის ბილიკი = პირველადი V11 საწყისი: 12 / 15 → მეორე განახლება: 100,000 / 100,000 არც ერთ მომენტში გაშვების განმავლობაში არ იყო საჭირო Phase 2-ის უკუსვლა

Trap-subset ჰიპერდიაგნოსტიკის დროშები V11 საწყისი: 0 / 13 → მეორე განახლება: 0 / 87,412 ნულოვანი ცრუ-დადებითი პოპულაციურ მასშტაბზე (8,723 trap შემთხვევა მონიტორინგდებოდა)

რას არ გვიყვება სათაურის ქულა

99.80 პროცენტის კომპოზიტური ქულა ამ კონკრეტული წინასწარ რეგისტრირებული რუბრიკის მიხედვით, 100,000-შემთხვევიან სინთეტიკურ კოჰორტზე, რომელიც მოიცავს 127 ქვეყნის ეტიკეტს, წარმოადგენს თითქმის „ზედა ზღვრის“ შესრულებას — მაგრამ საჭიროა ფრთხილად კონტექსტუალიზაცია. შედეგი აღწერს ძრავის ქცევას იმ რუბრიკის მიმართ, რომელსაც ჩვენ დავპირდით წყაროს კოდში V11-ში; ეს არ არის უნივერსალური პრეტენზია ძრავის სისწორეზე ყველა სისხლის ანალიზის პანელზე, რომელიც რეალურ სამყაროში არსებობს.

ქულა ამბობს, რომ ძრავმა სწორად დაამუშავა ამ შეფასებისთვის შერჩეული დიაგნოსტიკური შაბლონები პოპულაციურ მასშტაბზე კოჰორტაში, გამოქვეყნებულ და რეპროდუცირებად მეთოდოლოგიაზე დაყრდნობით. ეს არ ამბობს, რომ ძრავი სწორია ყველა სისხლის ანალიზის პანელზე, რომელიც რეალურ სამყაროში არსებობს. ეს არ ამბობს, რომ ძრავი უნდა ჩაანაცვლოს კლინიცისტის პროფესიულ განსჯას. და ეს არ ამბობს, რომ ძრავი აჯობებს ალტერნატიულ AI სისტემებს — სხვა ძრავებთან შედარებითი ანალიზები ამ ანგარიშის ფარგლებს შეგნებულად არ გასცდა.

ის, რასაც ქულა ნამდვილად ადგენს, არის საბაზისო მაჩვენებელი. რადგან რუბრიკა და „ჰარნესი“ საჯაროა, ძრავის მომავალი ვერსიები შეიძლება შეფასდეს იმავე რუბრიკით — გამოყენებული V11-ის საწყის 15 შემთხვევაზე, მეორე განახლების 100,000-შემთხვევიან კოჰორტაზე ან ნებისმიერ შემდგომ გაფართოებაზე — და სხვაობა გამოქვეყნებულ ქულასა და ნებისმიერ შემდგომ გაშვებას შორის თავისთავად გაზომვადია. ეს არის წინასწარი რეგისტრაციის ღირებულება: ის გარდაქმნის შესრულების პრეტენზიებს ტესტირებად პრეტენზიებად.

როგორ გავიმეოროთ ეს ბენჩმარკი 10 წუთში

რეპროდუცირებისთვის საჭიროა მხოლოდ Kantesti API-ის სერთიფიკატების წყვილი და Python 3.10 ან უფრო ახალი გარემო, სადაც არის requests და reportlab ბიბლიოთეკები დაყენებული. სრული ჰარნესი არის ერთი, თვითკმარი Python მოდული, გამოშვებული MIT ლიცენზიით.

💻 GitHub MIT-ლიცენზირებული ჰარნესი · ნედლი პასუხები · საცნობარო გაშვება 🔗 Figshare DOI 10.6084/m9.figshare.32095435 · კანონიკური აკადემიური ჩანაწერი 🎓 კვლევის კარიბჭე Publication 404175463 · V11 Second Update · აკადემიური აღმოჩენის ფენა 📄 Academia.edu Paper 165956808 · V11 Second Update · აკადემიური აღმოჩენის ფენა

ოთხი ნაბიჯი ახალი გაშვებისთვის

ერთი. დააკლონეთ რეპოზიტორია: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ორი. დააინსტალირეთ დამოკიდებულებები შემდეგით pip install -r requirements.txt (Second Update ამატებს mysql-connector-python ≥ 8.0 SQL case loader-ისთვის). სამი. დააყენეთ KANTESTI_USERNAME და KANTESTI_PASSWORD როგორც გარემოს ცვლადები ძრავის API-სთვის. მეორე განახლების SQL case loader-ისთვის ასევე დააყენეთ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, და KANTESTI_DB_PASSWORD — ლოადერი უკავშირდება მხოლოდ-წაკითხვის როლით (bench_reader) რომელსაც არ აქვს პრივილეგიები ცხრილების იდენტიფიცირებაზე. ოთხი. გაუშვით python benchmark_bloodtest.py --limit 100000 სრული Second-Update გაშვებისთვის, ან python benchmark_bloodtest.py --limit 1000 სწრაფი იტერაციისთვის. შედეგები ინახება ./benchmark_results/: CSV ქულების ბარათი თითო-ქვეყნის-ეტიკეტისა და თითო-სპეციალობის სვეტებით, JSON აგრეგატი, სტრატიფიცირებულ-შემთხვევითი ნედლი პასუხების ნიმუში და Markdown ანგარიში.

საცნობარო გაშვებები 23 აპრილიდან 2026 წლამდე (V11 საწყისი, 15 შემთხვევა) და 26 აპრილიდან 2026 წლამდე (V11 Second Update, 100,000 შემთხვევა) შენარჩუნებულია results/ რეპოზიტორიის დირექტორიაში. ახალი გაშვება შექმნის ახალ, დროის ნიშნულით (timestamped) ქულების ბარათს, ხოლო საცნობარო გაშვებებს უცვლელად დატოვებს. თუ თქვენი გაშვება იძლევა არსებითად განსხვავებულ შედეგს, გთხოვთ გახსნათ GitHub issue გაშვების დროის ნიშნულით და პასუხის მეტამონაცემებში დაბრუნებული ძრავის ვერსიით.

შეზღუდვები და სამომავლო სამუშაოები

მიუხედავად იმისა, რომ 100,000 შემთხვევაა 127 ქვეყნის ეტიკეტით, ოთხი შეზღუდვა საჭიროებს მკაფიო აღიარებას: გრძელი კუდის ეტიკეტების არასაკმარისი დაფარვა, ერთჯერადი შეფასება, ერთი ძრავის ფარგლები და ერთი წყაროდან მონაცემების წარმოშობა. თითოეული მათგანი მუშავდება აქტიურ შემდგომ სამუშაოებში.

გრძელი კუდის ეტიკეტების დაფარვა. მეორე განახლება მოიცავს 127 ქვეყნის ეტიკეტს, მაგრამ განაწილება არათანაბარია — ტოპ 10 ეტიკეტი შეადგენს შემთხვევების ≈66.4%-ს, ხოლო დამატებითი 97 ეტიკეტის გრძელი კუდი ერთად ქმნის ≈7.3%-ს (დაახლოებით 7,300 შემთხვევა ერთად, საშუალოდ ~75 შემთხვევა თითო ეტიკეტზე). ამიტომ, ამ გრძელ კუდში თითო-ეტიკეტის კომპოზიტები უფრო ხმაურიანია, ვიდრე ამას მთავარი მაჩვენებლები მიუთითებს. მომავალი გაშვებები გადააბალანსებს ეტიკეტის მინიჭებას, რათა გამყარდეს თითო-ეტიკეტის შეფასებები.

ერთჯერადი შეფასება. კოჰორტის თითოეული შემთხვევა შეფასდა ერთხელ. დიდი ენობრივი მოდელები ავლენენ მნიშვნელოვან გამომავალი ვარიაციასაც კი დაბალი შერჩევის ტემპერატურის პირობებში, ამიტომ მრავალგაშვებადი პროტოკოლი, სადაც თითო შემთხვევაზე ხუთი შეფასებაა და მითითებულია ვარიაცია, ბუნებრივი შემდეგი ნაბიჯია — განსაკუთრებით trap-case ქვეჯგუფზე, სადაც თანმიმდევრულობა შერჩევის „ჯიტერის“ პირობებში წარმოადგენს უსაფრთხოების პრეტენზიის ნაწილს.

ერთი ძრავის ფარგლები. ეს ანგარიში აღწერს ერთ ძრავს. შედარებითი ანალიზები ალტერნატიულ AI სისტემებთან აქ ფარგლებს მიღმაა; შესაძლოა მათ მივყვეთ როგორც ცალკე დამოუკიდებელ კვლევას შესაბამისი მეთოდოლოგიით, იმავე MIT-ლიცენზირებულ ჰარნესთან.

სინთეტიკური მონაცემები. 100,000 შემთხვევა სინთეტიკურად გენერირებულია, და არა „სინთეტიკური შემთხვევები“, და შედეგები არ გადადის რეალურ-კლინიკურ შესრულებაზე. რეალურ, თანხმობით მოპოვებულ, გარე წყაროდან მიღებულ მონაცემებზე შეფასება მოითხოვდა შესაბამის ეთიკურ ზედამხედველობას და ამ სინთეტიკური ბენჩმარკის ფარგლებს მიღმაა.

ამ ოთხის მიღმა, ყველაზე გავლენიანი დაგეგმილი გაფართოებაა მრავალენოვანი თანასწორობა თითო იურისდიქციაში. Kantesti AI Engine ემსახურება მომხმარებლებს 75+ ენაზე და Second-Update-ის ენის მიხედვით სტრატიფიცირებული ქვეკოჰორტების გაშვება (თურქული, გერმანული, ესპანური, ფრანგული, იტალიური, პორტუგალიური, არაბული, მანდარინი) რაოდენობრივად შეაფასებს გამომავალი ხარისხს ძრავის მიერ მხარდაჭერილ ენებზე. თითოეული ენის მიხედვით ანალიზი გამოქვეყნდება საკუთარი DOI-ით და ჰარნესის ფილიალით.

სცადეთ იგივე ძრავი, რომელმაც მიაღწია 99.80% კომპოზიტურ ქულას 100,000 შემთხვევაზე

ატვირთეთ საკუთარი სისხლის ანალიზის პანელი იმავე წარმოების (production) საბოლოო წერტილზე (endpoint), რომელიც შეფასდა ამ ბენჩმარკში. 2 მილიონზე მეტი მომხმარებელი მთელ მსოფლიოში იყენებს Kantesti AI Engine-ს, რათა განმარტოს 15,000-ზე მეტი ბიომარკერი 75+ ენაზე.

🔬 სცადეთ უფასო დემო ვერსია

Chrome-ის გაფართოება აპლიკაციების მაღაზია Google Play

📚 როგორ მოვიყვანოთ ეს ბენჩმარკი

ბიბტექსი

@techreport{klein2026kantesti_v11_second_update,  
  author      = {Klein, Thomas and Bulut, Julian Emirhan},  
  title       = {A Pre-Registered, Rubric-Based Automated Technical  
                 Benchmark of the Kantesti Blood-Test Interpretation  
                 Engine on 100,000 Synthetic Test Cases  
                 --- V11 Second Update},  
  institution = {Kantesti Ltd},  
  address     = {London, United Kingdom},  
  year        = {2026},  
  month       = {April},  
  type        = {Technical Report},  
  number      = {V11 (Second Update)},  
  doi         = {10.6084/m9.figshare.32095435},  
  url         = {https://doi.org/10.6084/m9.figshare.32095435}  
}

APA

Klein, T., & Bulut, J. E. (2026). Kantesti სისხლის ანალიზის ინტერპრეტაციის ძრავის 100,000 სინთეტიკურ ტესტ-შემთხვევაზე — V11 მეორე განახლება — წინასწარ რეგისტრირებული, რუბრიკაზე დაფუძნებული ავტომატიზებული ტექნიკური ბენჩმარკი (ტექნიკური ანგარიში V11 Second Update). Kantesti Ltd. https://doi.org/10.6084/m9.figshare.32095435

📖 გარე მეთოდოლოგიური მითითებები

Mentzer, W. C. (1973). რკინადეფიციტის თალასემიიდან დიფერენცირება. The Lancet, 301(7808), 882.

🏥 PubMed

Aringer, M., Costenbader, K., Daikh, D., et al. (2019). 2019 წლის ევროპული ლიგა რევმატიზმის წინააღმდეგ / ამერიკული კოლეჯი რევმატოლოგიის კლასიფიკაციის კრიტერიუმები სისტემური ლუპუს ერითემატოზისთვის. Arthritis & Rheumatology, 71(9), 1400–1412.

🔗 DOI 🏥 PubMed

Umapathi, L. K., Pal, A., & Sankarasubbu, M. (2023). Med-HALT: სამედიცინო დომენის ჰალუცინაციის ტესტი დიდი ენობრივი მოდელებისთვის. Proceedings of CoNLL 2023.

🔗 ACL Anthology

99.80%კომპოზიტური ქულა

100,000შეფასებული შემთხვევები

127დაფარული ქვეყნის ეტიკეტები

0 / 87,412„ტრაპ“ ცრუ-დადებითი შედეგები

ხშირად დასმული კითხვები

რამდენად ზუსტია Kantesti AI ძრავა სინთეტიკურ ტესტ-შემთხვევებზე?

წინასწარ რეგისტრირებულ რუბრიკაზე დაყრდნობით, 100,000 სინთეტიკურად გენერირებულ ტესტ-შემთხვევაზე რვა შინაარსობრივ სფეროსა და 127 ქვეყნის ლეიბლზე (V11 მეორე განახლება) გაშვებისას, ძრავმა მიაღწია კომპოზიტურ ქულას 99.80 პროცენტს, ჰიპერდიაგნოზის ნულოვანი ფლაგით 87,412 მონიტორინგულ „trap-case“ შესაძლებლობაზე და საშუალო პასუხის ლატენტურობას — 13.26 წამს. ეს კომპოზიტი ზომავს გამომავალი შესაბამისობას სინთეტიკურ შეყვანებზე და არა დიაგნოსტიკურ სიზუსტეს. V11-ის თავდაპირველმა გამოშვებამ იგივე რუბრიკა გამოიყენა 15 ხელით შექმნილ შემთხვევაზე (კომპოზიტი 99.12%); მეორე განახლება ინარჩუნებს რუბრიკას ბაიტ-იდენტურად და აფართოებს მას უფრო დიდ სინთეტიკურ კოჰორტაზე. სრული ქულების ცხრილი გამოქვეყნებულია Figshare-ზე DOI 10.6084/m9.figshare.32095435-ით და GitHub-ზე MIT ლიცენზიით.

არის თუ არა Kantesti AI ძრავა კლინიკურად დადასტურებული?

არა. ძრავა შეფასდა ავტომატიზებული ტექნიკური ბენჩმარკით (არა კლინიკური ვალიდაციით), რუბრიკის საფუძველზე, რომელიც გაყინული იყო წყაროს კოდში V11 საწყისი გაშვების წინ და შენარჩუნებულია ბაიტ-იდენტურად V11 მეორე განახლებისთვის, შეფასდა 100,000 სინთეტიკურ სისხლის ანალიზის შემთხვევაზე ჰემატოლოგიის, ენდოკრინოლოგიის, მეტაბოლური მედიცინის, ჰეპატოლოგიის, ნეფროლოგიის, კარდიოლოგიის, რევმატოლოგიისა და შიდა მედიცინის ფარგლებში, რომლებიც აღებულია 127 ქვეყნის ეტიკეტიდან. კლინიკური ზედამხედველობა უზრუნველყო დოქტორმა თომას კლაინმა, MD-მ (ORCID 0009-0009-1490-1321), საბჭოს მიერ სერტიფიცირებულმა კლინიკურმა ჰემატოლოგმა და Kantesti AI-ის მთავარმა სამედიცინო ოფიცერმა.

რა არის ჰიპერდიაგნოზის ხაფანგის შემთხვევა?

ჰიპერდიაგნოზის ხაფანგის შემთხვევა არის კლინიკური სცენარი, რომელიც სპეციალურად არის შექმნილი AI ძრავებში გადადიაგნოზირების ქცევის გამოსავლენად. V11-ის საწყის ბენჩმარკში გამოყენებული იყო ორი ასეთი შემთხვევა, როგორც მეთოდოლოგიური მტკიცებულება: იზოლირებული არაპირდაპირი ჰიპერბილირუბინემია, რომელიც შეესაბამება გილბერტის სინდრომს (სწორი განმარტება არის კეთილთვისებიანი UGT1A1 პოლიმორფიზმი და არა ჰეპატიტი ან ჰემოლიზი) და სრულად ნორმალური ზრდასრულთა სკრინინგ-პანელი (სწორი შედეგი არის დამშვიდება და არა ხელოვნურად შექმნილი ზღვრული პათოლოგია). V11 მეორე განახლებამ ამ ხაფანგის მეთოდოლოგია გააფართოვა 8,723 შემთხვევის სპეციალურ ქვეჯგუფზე, რის შედეგადაც 87,412 მონიტორინგირებული ჰიპერდიაგნოზის დროშის შესაძლებლობა მიიღეს — და ძრავის ცრუ-დადებითის მაჩვენებელი დარჩა ნულზე.

არის თუ არა Kantesti AI ძრავის შეფასება განმეორებადი?

სრული შეფასების გარემო გამოქვეყნებულია MIT ლიცენზიით, როგორც ერთი თვითკმარი Python მოდული. V11-ის საწყისი გაშვებისთვის საჭიროა მხოლოდ Kantesti API-ის სერთიფიკატების წყვილი და Python 3.10 ან უფრო ახალი ვერსია. V11 მეორე განახლება ამატებს პარამეტრიზებულ, მხოლოდ-წასაკითხად SQL შემთხვევების ჩამტვირთველს, რომელიც მოითხოვს Kantesti კლინიკური-რეპოზიტორიის სერთიფიკატებს (როლი bench_reader იდენტიფიცირებად ცხრილებზე პრივილეგიების გარეშე). კოდი, შემთხვევების ჩამტვირთველის SQL, რუბრიკა (ბაიტ-იდენტური გამოშვებებს შორის) და V11-ის საწყისი და მეორე განახლების საცნობარო გაშვებებიდან მიღებული ძრავის პასუხების სტრატიფიცირებული შემთხვევითი ნიმუში ხელმისაწვდომია github.com/emirhanai/kantesti-blood-test-benchmark-ზე და ასახულია Figshare-ზე, ResearchGate-ზე და Academia.edu-ზე.

როგორ განასხვავებს Kantesti AI Engine რკინადეფიციტს ბეტა-თალასემიის მატარებლობისგან?

ძრავა იყენებს მენტცერის ინდექსს, რომელიც გამოითვლება საშუალო კორპუსკულარული მოცულობის (MCV) გაყოფით ერითროციტების რაოდენობაზე. მენტცერის ინდექსი 13-ზე მაღალი მხარს უჭერს რკინადეფიციტურ ანემიას, ხოლო 13-ზე დაბალი — ბეტა-თალასემიის თვისებას. V11-ის საწყის ბენჩმარკში ორივე პრეზენტაცია სწორად კლასიფიცირდა მენტცერის ინდექსის მკაფიო გამოთვლით, რაც მხარდაჭერილი იყო ფერიტინით, RDW-ით და HbA2 კონტექსტით. V11 მეორე განახლების 100,000-შემთხვევიანი კოჰორტის ფარგლებში იგივე დიფერენციალური ქცევა შენარჩუნდა პოპულაციურ მასშტაბშიც.

სად შეგიძლიათ იპოვოთ ნედლი საკონტროლო მონაცემები და წყაროს კოდი?

ტექნიკური ანგარიში განთავსებულია Figshare-ზე DOI 10.6084/m9.figshare.32095435-ის ქვეშ (მოიცავს როგორც V11-ის საწყის გამოშვებას, ისე V11 მეორე განახლებას), ასახულია ResearchGate-ის პუბლიკაციაზე 404175463 და Academia.edu-ის ნაშრომზე 165956808 — ორივე განახლებულია V11 მეორე განახლების სათაურით და 100,000-შემთხვევიანი შედეგებით — და MIT-ლიცენზირებული Python გარემო ყველა საცნობარო გაშვების შედეგით ხელმისაწვდომია github.com/emirhanai/kantesti-blood-test-benchmark-ზე. ოთხპლატფორმიანი ასახვის ქსელი უზრუნველყოფს გრძელვადიან ხელმისაწვდომობას და ციტირების მოქნილობას.

რატომ არის წინასწარი რეგისტრაცია მნიშვნელოვანი AI სამედიცინო ბენჩმარკებისთვის?

წინასწარი რეგისტრაცია ხელს უშლის პოსტ-ფაქტუმ რუბრიკის „დარეგულირებას“ (tuning), რაც არის კომპანიის მიერ მართული ბენჩმარკების საკუთარი მაჩვენებლების გაზრდის ყველაზე გავრცელებული გზა. რუბრიკის წყაროს კოდში ძრავის ნებისმიერ გამოძახებამდე დაფიქსირებით და გარემოს (harness) საჯაროდ გამოქვეყნებით, რუბრიკის ავტორის თარიღები ხდება შემოწმებადი ვერსიის კონტროლში და ძრავის შედეგებს არ შეეძლო შეეცვალა შეფასების კრიტერიუმები.

შეიცავს ეს ბენჩმარკი შედარებებს სხვა AI ძრავებთან?

არა. V11-ის ანგარიში — როგორც საწყისი გამოშვება, ისე მეორე განახლება — მიზანმიმართულად ახასიათებს ერთ კონკრეტულ ძრავას ფიქსირებულ რუბრიკასთან მიმართებით, ვიდრე მის ალტერნატიულ კომერციულ სისტემებთან დაპირისპირებას. გარემო ღია კოდია MIT ლიცენზიით (ახლა მოიცავს SQL შემთხვევების ჩამტვირთველსაც), ამიტომ დამოუკიდებელ მკვლევარებს შეუძლიათ შეაფასონ ნებისმიერი ძრავა, რომელსაც აირჩევენ, იმავე რუბრიკასა და შემთხვევების ჩამტვირთველთან მიმართებით და გამოაქვეყნონ თავიანთი შედეგები.

პაციენტების შემთხვევები რეალურია თუ სინთეტიკური?

ყველა შემთხვევა სინთეტიკურადაა გენერირებული — V11-ის საწყის გამოშვებაში 15 ხელით შექმნილი შემთხვევა და მეორე განახლებაში 100,000. ეს არ არის სინთეტიკური შემთხვევები: არ არსებობს სინთეტიკური მონაცემები, არ არსებობს თანხმობის პროცესი და არ ხდება დე-იდენტიფიკაცია, რადგან კოჰორტაში არ არსებობს პერსონალური მონაცემები. პერსონალური მონაცემები არ ჩანს გამოქვეყნებულ harness-ში, ტექნიკურ ანგარიშში ან გამოშვებულ მონაცემთა ნაკრებებში.

⚕️ სამედიცინო დისკლეიმერი და ინტერესთა კონფლიქტი

ეს ბენჩმარკის ანგარიში განკუთვნილია კვლევისა და მეთოდოლოგიური გამჭვირვალობისთვის. ის არ წარმოადგენს სამედიცინო რჩევას, არ არის დიაგნოზი და არ ცვლის პროფესიულ სამედიცინო დახმარებას; აქ მოყვანილი არცერთი შედეგი არ უნდა გამოიყენოთ ექიმთან ვიზიტის გადადების ან თავიდან აცილების მიზნით. დიაგნოზისა და მკურნალობის გადაწყვეტილებებისთვის ყოველთვის მიმართეთ კვალიფიციურ ჯანდაცვის პროვაიდერს. ეს არის კომპანიის საკუთარი ძრავის თვითგაშვებული შიდა ბენჩმარკი და ის დამოუკიდებლად არ არის ვალიდირებული ან თანატოლების მიერ განხილული. კომპოზიტური ქულა ზომავს შესაბამისობას ფიქსირებულ რუბრიკასთან (ანგარიშის სტრუქტურა, საკვანძო სიტყვებისა და შეფასების-სისტემის რექოლი, და ლატენტობა); ის არ ზომავს რეალურ სამყაროში დიაგნოსტიკური სიზუსტეს ან კლინიკურ უსაფრთხოებას. ორივე ავტორი დასაქმებულია და ფლობს წილებს Kantesti Ltd-ში, ხოლო შეფასების ქვეშ მყოფი ძრავა არის იმავე ორგანიზაციის კომერციული პროდუქტი. ინტერესთა კონფლიქტი შერბილებულია რუბრიკის წინასწარ რეგისტრაციით წყაროს კოდში, harness-ის MIT ლიცენზიით გამოქვეყნებით და ძრავის ნედლი პასუხების სტრატიფიცირებული შემთხვევითი ნიმუშის გამოქვეყნებით.

E-E-A-T სანდოობის სიგნალები

⭐

გამოცდილება

15+ წელი კლინიკური ჰემატოლოგიისა და ლაბორატორიული მედიცინის პრაქტიკაში, შემთხვევების პანელის შერჩევის ზედამხედველობით.

📋

ექსპერტიზა

წინასწარ რეგისტრირებული რუბრიკის დიზაინი მკაფიო ჰიპერდიაგნოზის ჯარიმებით და აღიარებული კლინიკური შეფასების სისტემებით (Mentzer, FIB-4, EULAR/ACR, KDIGO).

👤

ავტორიტეტულობა

მთავარი ავტორი დოქტორი თომას კლაინი, MD (ORCID 0009-0009-1490-1321). განხორციელება — ჯულიან ემირჰან ბულუტი, Kantesti Ltd-ის აღმასრულებელი დირექტორი (CEO).

🛡️

სანდოობა

MIT-ლიცენზირებული რეპროდუცირებადი გარემო (harness), გამოქვეყნებული ნედლი ძრავის პასუხები, ღია ინტერესთა კონფლიქტის გამჟღავნება, ოთხპლატფორმიანი კვლევითი ასახვის ქსელი.

🏢 შპს „კანტესტი“ რეგისტრირებულია ინგლისსა და უელსში · კომპანიის ნომერი. 17090423 ლონდონი, გაერთიანებული სამეფო · kantesti.net