რატომ არსებობს ეს ბენჩმარკი და რას ამოწმებს
AI-დახმარებით სისხლის ანალიზის განმარტება სულ უფრო ხშირად გამოიყენება როგორც სამომხმარებლო, ისე კლინიკურ სამუშაო პროცესებში, თუმცა ლაბორატორიულ მედიცინაზე მორგებული, განმეორებადობის მქონე შეფასების ჩარჩოები იშვიათია. ამ კონტექსტში ყველაზე მნიშვნელოვანი კითხვები არ არის ის, რაც დაფარულია ზოგადი სამედიცინო კითხვა-პასუხის ბენჩმარკებით: შეუძლია თუ არა ძრავს განასხვაოს რკინადეფიციტი თალასემიის ნიშნიდან მაშინ, როცა საშუალო კორპუსკულარული მოცულობა იდენტურია; ზედმეტად ხომ არ დიაგნოსტირებს გილბერტის სინდრომს ჰეპატიტად; და ხომ არ „ქმნის“ პათოლოგიას სრულად ნორმალურ სკრინინგ პანელში?
სისხლის ანალიზის ერთი პანელი, როგორც წესი, შეიცავს საკმარის სიგნალს რამდენიმე კონკურენტული ინტერპრეტაციის მხარდასაჭერად, ხოლო განმმარტებელი ექიმის ამოცანაა ამ ინტერპრეტაციებს ერთმანეთთან შეადაროს და შეაფასოს, ვიდრე სახელმძღვანელოს ტიპური პასუხის მოძიება სცადოს. ისეთი „ძრავი“, რომელიც კარგად მუშაობს სახელმძღვანელოს ტიპურ შემთხვევებზე, მაინც შეიძლება წააგოს ყველაზე მნიშვნელოვან შემთხვევებში: დიფერენციალური დიაგნოზის ხაფანგებში, კეთილთვისებიან ვარიანტებში, რომლებიც ცალკე აღებულად საგანგაშოდ გამოიყურება, და სრულად ნორმალურ პანელებში, რომლებიც თავდაჯერებულ ასისტენტებს უბიძგებს პათოლოგიის „გამოგონებისკენ“.
ეს ბენჩმარკი სწორედ ამ ტიპის წარუმატებლობებზეა აგებული. თითოეული თხუთმეტი შემთხვევა შეირჩა კონკრეტული დიაგნოსტიკური თვისების მიხედვით: რკინადეფიციტური მიკროციტოზი, რომელიც უნდა დარჩეს გამიჯნული ბეტა-თალასემიის ნიშნიდან, რომელსაც აქვს იდენტური საშუალო კორპუსკულარული მოცულობა; გილბერტის სინდრომის სურათი, სადაც ერთადერთი დარღვევა არის იზოლირებული არაპირდაპირი ჰიპერბილირუბინემია; და თხუთმეტ-პარამეტრიანი სკრინინგ-პანელი, რომელშიც თითოეული ანალიტი თავის საცნობარო დიაპაზონშია. რუბრიკა აჯილდოებს ძრავებს, რომლებიც თითოეულ შემთხვევას საკუთარ კონტექსტში კითხულობენ და აკლებს ქულას ძრავებს, რომლებიც იქ, სადაც ასეთი დიაგნოზი არ არის გამართლებული, თავდაჯერებულ დიაგნოზს „მიიწევენ“.
როგორც თომას კლაინი, MD, შევარჩიე შემთხვევების პანელი, რადგან ეს ის შაბლონებია, რომლებსაც ლაბორატორიული მედიცინის ასისტენტები ყველაზე ხშირად არასწორად იგებენ. ძვირადღირებული წარუმატებლობა არ არის "იშვიათი დაავადების გამოტოვება" — ეს არის რუტინული პათოლოგიის გამოგონება იმ პაციენტებში, რომლებსაც ის არ აქვთ. ჩვენი სამედიცინო ვალიდაცია hub აღწერს უფრო ფართო ჩარჩოს; ეს გვერდი აღწერს V11 საწყის proof-of-concept-ს და V11 მეორე განახლებას, რომელმაც ის მასშტაბურად გადაიყვანა 100,000 სინთეტიკურ შემთხვევამდე, რომლებიც აღებულია სინთეტიკური შემთხვევების ნაკრებიდან, რომელიც მოიცავს 127 ქვეყნის ეტიკეტს — იმავე შეფასების რუბრიკით, ბაიტ-იდენტურად, და პოსტ-ჰოკ ტიუნინგის დაშვების გარეშე.
26 აპრილი 2026-ის V11 მეორე განახლების საცნობარო გაშვებამ გამოიმუშავა კომპოზიტური ქულა
V11-ის საწყის გამოშვებაში გამოყენებულ იმავე წინასწარ რეგისტრირებულ რუბრიკაზე დაყრდნობით, შეფასებული 99.80% 100,000 ანონიმიზებული შემთხვევა 100,000 სინთეტიკური შემთხვევა აღებულია Kantesti სინთეტიკური შემთხვევების ნაკრებიდან და მოიცავს 127 ქვეყნის ეტიკეტი . 23 აპრილი 2026-ის ორიგინალ V11-ის გაშვებამ მოიცვა 15 ხელით შერჩეული შემთხვევა (კომპოზიტი 99.12%) და დაადასტურა რუბრიკა; მეორე განახლება ინარჩუნებს იმავე რუბრიკას ბაიტ-იდენტურად და აფართოებს შეფასებას მოსახლეობის მასშტაბის კოჰორტაზე. 0 / 87,412. 100,000-დან 100,000 შემთხვევამ მიიღო ქულა.
კომპოზიტური ფორმულა აერთიანებს სამ კომპონენტს: სტრუქტურული შესაბამისობა შვიდ სავალდებულო ანგარიშის სექციასთან და თექვსმეტ სავალდებულო ქვესექციასთან, შინაარსის სიზუსტე იზომება როგორც საკვანძო სიტყვების დამახსოვრება (keyword recall) პლუს ქულების სისტემის დამახსოვრება (scoring-system recall) პლუს ალბათობათა განაწილების ვალიდურობის შემოწმება და პასუხის ლატენტობა დარჩენილი 0.20 პროცენტული პუნქტი „თავისუფალი სივრციდან“ თითქმის მთლიანად იშლება კლინიკურ ქვექულაში — შემთხვევების მცირე ნაწილი (ძირითადად ჰეპატოლოგიასა და რევმატოლოგიაში) შეიცავდა ერთ მოსალოდნელ საკვანძო სიტყვას, რომელიც არ იყო ძრავის ინტერპრეტაციაში, მიუხედავად იმისა, რომ დიაგნოსტიკური შინაარსი სწორი იყო.
100,000-შემთხვევიან მეორე-განახლების კოჰორტაში არც ერთ შემთხვევას არ გამორჩა თავად დიაგნოზი. დაყოვნებამ გაუმჯობესება განიცადა V11-ის საწყის გამოშვებაში საშუალოდ 20.17 წმ-დან მეორე განახლებაში 13.26 წმ-მდე, რაც ასახავს წარმოების ძრავის ოპტიმიზაციებს ორ გაშვებას შორის; რუბრიკა, შეფასების კოდი და API-ის ბოლო წერტილი უცვლელია. ქვეყნების მიხედვით კომპოზიტური ქულები მერყეობდა 0.9971-დან (ინდოეთი) 0.9985-მდე (შვეიცარია) ყველაზე მეტად წარმოდგენილ 30 ქვეყანაში. დამატებითი 97 ქვეყნის გრძელი „კუდი“ (≈7,300 შემთხვევა ერთად) არ აჩვენებდა სისტემურ გაუარესებას. შემთხვევების რაოდენობით მთავარი კონტრიბუტორები იყვნენ: შეერთებული შტატები (10,500), ბრაზილია (9,500), ესპანეთი (9,000), იტალია (8,000), გერმანია (7,800), საფრანგეთი (7,400), პორტუგალია (5,800), Türkiye (3,400), გაერთიანებული სამეფო (2,900) და მექსიკა (2,500).
თითო-ეტიკეტის კომპოზიტური ქულები მერყეობდა 0.9971-დან 0.9985-მდე 30 ყველაზე-ხშირად წარმოდგენილ ქვეყნის ეტიკეტზე. დამატებითი 97 ეტიკეტის გრძელი კუდი (≈7,300 შემთხვევა ერთად) არ აჩვენებდა სისტემურ გაუარესებას. შემთხვევების რაოდენობით ყველაზე ხშირი ეტიკეტები იყო: ამერიკის შეერთებული შტატები (10,500), ბრაზილია (9,500), ესპანეთი (9,000), იტალია (8,000), გერმანია (7,800), საფრანგეთი (7,400), პორტუგალია (5,800), Türkiye (3,400), გაერთიანებული სამეფო (2,900) და მექსიკა (2,500).
15 შემთხვევიდან 100,000-მდე: კოჰორტის ევოლუცია 127 ქვეყნის ეტიკეტზე
ორიგინალ V11-ის შემთხვევების პანელი მოიცავდა შვიდ სპეციალობას — ჰემატოლოგია, ენდოკრინოლოგია, მეტაბოლური მედიცინა, ჰეპატოლოგია, ნეფროლოგია, კარდიოლოგია, რევმატოლოგია — პლუს ორი მიძღვნილი ჰიპერდიაგნოზის „trap“ შემთხვევა, სადაც თითოეული შემთხვევა იყო სინთეტიკურად გენერირებული სისხლის ანალიზის პანელი. V11 მეორე განახლება აფართოებს შეფასებას 100,000 სინთეტიკურ შემთხვევაზე 127 ქვეყნის ეტიკეტის ფარგლებში, V11-ის საწყისი შემთხვევების პანელის დიზაინი ჰემატოლოგიაში, ენდოკრინოლოგიაში, მეტაბოლურ მედიცინაში, ჰეპატოლოგიაში, ნეფროლოგიაში, კარდიოლოგიაში, რევმატოლოგიაში — პლუს ორი trap-შემთხვევა — გილბერტის სინდრომი და სრულად ნორმალური სკრინინგ-პანელი. მეორე განახლება ინარჩუნებს ამ რუბრიკას ბაიტ-იდენტურად, ხოლო კოჰორტას აფართოებს 100,000 შემთხვევამდე, რომლებიც აღებულია Kantesti SQL რეპოზიტორიდან.
ვინაიდან ყველა შემთხვევა სინთეტიკურად გენერირებულია, არ არსებობს რეალური იდენტიფიკატორები მოსაშორებლად და არ მონაწილეობს პერსონალური მონაცემები. თითოეული სინთეტიკური შემთხვევა ატარებს ბენჩმარკ-შიდა შემთხვევის კოდს (BT-NNN-LABEL V11-ის საწყის ნაკრებში, სტაბილური მეორე განახლებისთვის. დამუშავება განხორციელდა შესაბამისად მეორე განახლებაში). გამოქვეყნებულ გარემოში, ტექნიკურ ანგარიშში ან გამოშვებულ მონაცემთა ნაკრებებში არსად ჩანს პერსონალური მონაცემები.
V11 initial release — 15 hand-curated cases
V11-ის ორიგინალური ქეისების პანელი ხელით შეარჩია დოქტორმა თომას კლაინმა, რათა გამოეყენებინა დიაგნოსტიკური შაბლონები, რომლებსაც ლაბორატორიული მედიცინის ასისტენტები ყველაზე ხშირად არასწორად იგებენ. თითოეული თხუთმეტი ქეისი შეირჩა კონკრეტული დიაგნოსტიკური მახასიათებლისთვის, ქვემოთ ჩამოთვლილი.
რატომ არის ეს კონკრეტული განაწილება
ჰემატოლოგიას სამი შემთხვევა აქვს, რადგან მიკროციტური დიფერენციალები და მაკროციტური დიფერენციალები რეალურ ლაბორატორიულ პრაქტიკაში ყველაზე მაღალი მოცულობის „ხაფანგებია“. ენდოკრინოლოგიას სამი შემთხვევა აქვს, რადგან ჰაშიმოტოს, PCOS-ისა და D ვიტამინის დეფიციტის პრეზენტაციები სხვადასხვა დიაგნოსტიკურ ფორმას ავარჯიშებს (ავტოანტისხეულებით განპირობებული, ჰორმონების შეფარდებებით განპირობებული, ერთი მარკერით განპირობებული). ერთ-შემთხვევიანი სპეციალობები მაინც მნიშვნელოვანია, რადგან თითოეულს — CKD-ს, ASCVD რისკს და SLE-ს — აქვს საკუთარი ქულების სისტემა, რომელიც ძრავმა უნდა გამოიძახოს (შესაბამისად KDIGO სტადირება, ASCVD 10-წლიანი რისკი, 2019 EULAR/ACR SLE კრიტერიუმები).
V11 მეორე განახლება — 100,000 სინთეტიკური შემთხვევა 127 ქვეყნის ეტიკეტის ფარგლებში
მეორე განახლება ანაცვლებს ორიგინალ V11-ის 15-შემთხვევიან მყარად ჩაწერილ Python ლიტერალს უფრო დიდი, პროგრამულად გენერირებული სინთეტიკური შემთხვევების ნაკრებით. შემთხვევების ნაკრები იტვირთება ყოველი გაშვების დასაწყისში და კონფიგურაცია იწერება გამჭვირვალობისთვის. კოჰორტის განაწილება შინაარსის სფეროების მიხედვით ნაჩვენებია ქვემოთ.
სინთეტიკური ქვეყნის-ეტიკეტის განაწილება — ტოპ 10 ეტიკეტი
100,000 სინთეტიკურ შემთხვევას აქვს 127 ქვეყნის ეტიკეტი (ISO 3166-1 alpha-2), რათა შემოწმდეს ლოკალის დამუშავება. ეტიკეტის მინიჭება: ევროპა 57.7%, ამერიკები 25.4%, აზია-წყნარი ოკეანე 6.2%, დასახელებული ახლო აღმოსავლეთი/აფრიკის ეტიკეტები 3.4% და დამატებითი 97 ეტიკეტის გრძელი კუდი საერთო ჯამში დაახლოებით 7.3%. შემთხვევების რაოდენობით ათი ყველაზე ხშირი ეტიკეტია: ამერიკის შეერთებული შტატები (10,500), ბრაზილია (9,500), ესპანეთი (9,000), იტალია (8,000), გერმანია (7,800), საფრანგეთი (7,400), პორტუგალია (5,800), Türkiye (3,400), გაერთიანებული სამეფო (2,900) და მექსიკა (2,500). თითო-ეტიკეტის კომპოზიტური ქულები მერყეობდა 0.9971-დან 0.9985-მდე. ეს ეტიკეტების რაოდენობები არის გენერირებული შემთხვევების თვისებები, რომლებიც გამოიყენება ლოკალის დამუშავების შესამოწმებლად — ისინი არ არის რეალური მომხმარებლები და არ ასახავს რეალურ გეოგრაფიულ დაფარვას.
წინასწარ რეგისტრირებული რუბრიკა — ახსნილი
წინასწარი რეგისტრაცია ამ ბენჩმარკში ერთადერთი ყველაზე მნიშვნელოვანი მეთოდოლოგიური არჩევანია. ყველა მოსალოდნელი დიაგნოზი, ყველა კლინიკური ქულების სისტემა და ყველა ანგარიშის სექცია ჩადებული იყო წყაროს კოდში სანამ ძრავა გამოიძახებოდა. ამიტომ რუბრიკის პოსტ-ჰოკ „დალაგება“ ძრავის მოსაწონად შეუძლებელია.
კომპოზიტურ ქულას სამი კომპონენტი ქმნის. სტრუქტურული კომპონენტი შეადგენს 35 პროცენტს და ზომავს, დააბრუნა თუ არა ძრავამ შვიდი სავალდებულო ანგარიშის სექცია (ჰედერი, შეჯამება, ძირითადი მიგნებები, დიფერენციალი, ქულების სისტემები, რეკომენდაციები, შემდგომი დაკვირვება) და მათში არსებული თექვსმეტი სავალდებულო ქვესექცია. სექციის არსებობა სტრუქტურულ გამოთვლაში იწონის 40 პროცენტს, ხოლო ქვესექციის არსებობა — 60 პროცენტს.
The კლინიკური კომპონენტი შეადგენს 55 პროცენტს და აერთიანებს სამ რამეს: დიაგნოზის-საკვანძო სიტყვის გახსენება (კლინიკური ქვექულის 70 პროცენტი), ქულების სისტემის გახსენება (20 პროცენტი — ითვლის თუ არა ძრავა, სადაც საჭიროა, Mentzer-ს, FIB-4-ს, HOMA-IR-ს, ASCVD რისკს, KDIGO სტადირებას, EULAR/ACR კრიტერიუმებს), და ალბათობების-ჯამის ვალიდობის შემოწმებას (10 პროცენტი — დიფერენციალური ალბათობები უნდა ჯამდებოდეს ინტერვალში [90, 110]). „ხაფანგის“ შემთხვევებისთვის გამოაკლდება მკაფიო ჰიპერდიაგნოზის ჯარიმა მაქსიმუმ 0.30-მდე, რაც გამოითვლება როგორც 0.10 თითოეული გამოგონილი პათოლოგიის დროშისთვის და ზღუდავს სამ დროშამდე.
The ლატენტურობის კომპონენტი შეადგენს 10 პროცენტს. პასუხი 20 წამზე ნაკლებ დროში იღებს სრულ 0.10-ს, 40 წამზე ნაკლებ დროში — 0.05-ს, ხოლო ნებისმიერი უფრო ნელი — ნულს. 20-წამიანი სამიზნე ასახავს წარმოების „primary-path“ სერვის-დონის მიზანს; 40-წამიანი ზღვარი ასახავს ფაზა 2-ის „fallback“ ბიუჯეტს მძიმე-ძრავის გამოძახებებისთვის.
რას უშლის ხელს წინასწარი რეგისტრაცია
პირველი მხარის ბენჩმარკები ცნობილია იმით, რომ პოსტ-ჰოკ რუბრიკის დალაგებით საკუთარ ციფრებს „ბერავენ“. ნიმუში თითქმის ყოველთვის ერთნაირია: გუნდი უშვებს ძრავას, ხედავს სად ჩამოუვარდება, შემდეგ კი ჩუმად არეგულირებს რუბრიკას ისე, რომ ჩამოუმწეველი სფეროები ნაკლებად ითვლებოდეს. რუბრიკის წყაროს კოდში ჩადებით პირველი ძრავის გამოძახებამდე და ჰარნესის MIT ლიცენზიით გამოქვეყნებით, ეს კორექტირება ხილული ხდება ვერსიების კონტროლში. ნებისმიერს შეუძლია რეპოზიტორიის კლონირება, რუბრიკის ავტორების თარიღების შემოწმება და დაადასტუროს, რომ ძრავის შედეგები არ ყოფილა გამოყენებული შეფასების ფორმირებისთვის.
ჰიპერდიაგნოზის „ხაფანგის“ შემთხვევები — რატომ არის გადაჭარბებული დასკვნა რეალური წარუმატებლობის რეჟიმი
პათოლოგიის აგრესიული „გადაძახება“ ნორმალურ სკრინინგებზე მომხმარებლზე ორიენტირებული სამედიცინო ასისტენტების დოკუმენტირებული უკმარისობის რეჟიმია. მისი ქვედა ხარჯები მოიცავს არასაჭირო გამოკვლევას, პაციენტის შფოთვას და იატროგენულ სამუშაო-დამუშავებას. ამ ბენჩმარკში ორი „ხაფანგის“ შემთხვევა შექმნილია იმისთვის, რომ ეს უკმარისობის რეჟიმი გახდეს ხილული და შეფასებადი.
🟡 ხაფანგი 1 — BT-014-GILBERT
პრეზენტაცია. 24 წლის მამაკაცი, საერთო ბილირუბინით 2.4 მგ/დლ. პირდაპირი ფრაქცია ნორმაშია, ტრანსამინაზები და ტუტე ფოსფატაზა თავიანთ საცნობარო დიაპაზონებშია, რეტიკულოციტები არაფრით გამორჩეულია, ხოლო ჰაპტოგლობინი და LDH გამორიცხავს ჰემოლიზს.
სწორი ინტერპრეტაცია. გილბერტის სინდრომი — კეთილთვისებიანი UGT1A1 პოლიმორფიზმი. ინტერპრეტაციამ არ უნდა გამოიძახოს ჰეპატიტი, ციროზი, ჰემოლიზური ანემია ან ბილიარული ობსტრუქცია.
V11 შედეგი. კომპოზიტი 1.000. მონიტორინგის ქვეშ მყოფი ექვსი ზედმეტად-დიაგნოზის დროშიდან არცერთი არ გამოჩნდა როგორც აქტიური დიაგნოზი.
🟡 ხაფანგი 2 — BT-015-HEALTHY
პრეზენტაცია. 35 წლის ქალი, თხუთმეტ-პარამეტრიანი რუტინული სკრინინგის პანელით. ყველა ანალიტი კომფორტულად დგას თავისი საცნობარო დიაპაზონის შიგნით.
სწორი ინტერპრეტაცია. დამშვიდება და ცხოვრების წესის შენარჩუნება. განმარტება არ უნდა „გამოიგონებდეს“ სასაზღვრო პათოლოგიას, რათა კლინიკურად სასარგებლოდ ჟღერდეს.
V11 შედეგი. კომპოზიტი 1.000. შვიდი მონიტორინგული ზედმეტი დიაგნოსტიკის (over-diagnosis) სიგნალიდან — დიაბეტი, ანემია, ჰიპოთირეოზი, დისლიპიდემია, ჰეპატიტი, თირკმლის დაავადება, დეფიციტი — არცერთი არ გამოჩნდა როგორც აქტიური დიაგნოზი.
ორივე „ტრაპში“ შემოწმდა თოთხმეტი მონიტორინგული ჰიპერდიაგნოსტიკის (hyperdiagnosis) სიგნალი. არცერთი არ გააქტიურდა. ეს არის შედეგი, რომელიც ყველაზე მეტად მნიშვნელოვანია ნებისმიერი კლინიცისტისთვის, რომელიც განიხილავს AI ძრავის გამოყენებას როგორც ტრიაჟის ან კონსულტაციამდე ინსტრუმენტის: სისტემამ არ „შექმნა“ დაავადება იქ, სადაც არ არსებობდა.
მენტცერის ინდექსი: რკინადეფიციტის განცალკევება თალასემიის თვისებიდან
მეორე მაღალი ღირებულების აღმოჩენა ეხება შემთხვევების დაწყვილებას: BT-001 (რკინადეფიციტური ანემია) და BT-007 (ბეტა-თალასემია მცირე). ორივე ვლინდება მიკროციტოზით და ეს არის კარგად ცნობილი „ჩიხი“ გამოუცდელი კლასიფიკატორებისთვის. მენტცერის ინდექსი, რომელიც გამოითვლება MCV-ის გაყოფით RBC რაოდენობაზე, რკინადეფიციტის დროს აღემატება 13-ს და თალასემიის ნიშნულში ჩამოდის 13-ზე ქვემოთ.
BT-001-ში პაციენტი იყო 34 წლის ქალი: ჰემოგლობინი 10.4 გ/დლ, MCV 72.4 ფლ, RBC 4.1 × 10¹²/ლ, ფერიტინი 6 ნგ/მლ და მომატებული TIBC. მენტცერის ინდექსი დაახლოებით 17.7 მხარს უჭერს რკინის აბსოლუტურ დეფიციტს. BT-007-ში პაციენტი იყო 28 წლის მამაკაცი: მიკროციტოზი (MCV 65.8 ფლ), მაგრამ მაღალი RBC რაოდენობა 6.2, ნორმალური RDW, ნორმალური ფერიტინი და HbA2 5.6 პროცენტი. მენტცერის ინდექსი დაახლოებით 10.6 მიუთითებს თალასემიის ნიშნულზე და მომატებული HbA2 ადასტურებს ბეტა-თალასემიას მცირე.
ორივე შემთხვევაში ქულა იყო 1.000. ძრავმა მენტცერის ინდექსი აშკარად გამოიყენა ორივე განმარტებაში და თითოეულ შემთხვევაში დააბრუნა სწორი დიაგნოზი. ეს არის მთელი ბენჩმარკის ერთ-ერთი ყველაზე კლინიკურად დამამშვიდებელი შედეგი, რადგან თალასემიის ნიშნულის რკინადეფიციტად არასწორად კლასიფიკაცია იწვევს არასათანადო რკინის დანამატებს და ოჯახის სკრინინგის შესაძლებლობების გამოტოვებას, ხოლო რკინადეფიციტის თალასემიად არასწორად კლასიფიკაცია აყოვნებს მარტივ ჩანაცვლებით თერაპიას. ჩვენი ფერიტინის დიაპაზონის სახელმძღვანელო ხსნის დიფერენციალური დიაგნოზის უფრო ფართო კონტექსტს.
თითო-შემთხვევის შედეგები V11 საწყისი საცნობარო გაშვებიდან (23 აპრილი, 2026)
ორიგინალი V11 საცნობარო გაშვება 15-შემთხვევიანი proof-of-concept კოჰორტაზე ემსახურება როგორც მეთოდოლოგიურ საფუძველს მეორე განახლებისთვის: ქვემოთ მოცემული თითო-შემთხვევის ყველა დეტალი აჩვენებს, როგორ ამუშავებს რუბრიკა რეალურ ძრავის პასუხს. თხუთმეტიდან თორმეტმა შემთხვევამ მიაღწია პირველადი გზის მაქსიმალურ კომპოზიტურ ქულას 1.000; სამი შემთხვევა დამუშავდა ფაზა 2-ის fallback-ით, დაკარგა 0.05 ლატენტობის ბონუსი, მაგრამ შეინარჩუნა მთელი კლინიკური და სტრუქტურული შინაარსი. ერთ შემთხვევაში აკლდა ერთი სავალდებულო ქვესექცია; ერთმა შემთხვევამ დააბრუნა ოდნავ შემცირებული ალბათობების განაწილების ჯამი.
PCOS-ის შემთხვევამ (BT-008) პასუხის სტრუქტურაში დაკარგა ერთი სავალდებულო ქვესექცია — თექვსმეტიდან თხუთმეტი ნაცვლად თექვსმეტიდან თექვსმეტისა — რამაც სტრუქტურული ქულა 1.000-დან 0.963-მდე შეამცირა. SLE-ის შემთხვევამ (BT-011) დააბრუნა ოდნავ შემცირებული ალბათობათა განაწილების ჯამი, რომელმაც კლინიკური ქულა 0.965-მდე ჩამოიყვანა, ხოლო შენარჩუნდა ყველა დიაგნოსტიკური საკვანძო სიტყვა და შეფასების სისტემა. არც ერთმა არასრულყოფილმა შემთხვევამ არ გამოტოვა სწორი დიაგნოზი.
V11 მეორე განახლების აგრეგატი — 100,000 შემთხვევა
მასშტაბურ დონეზე ინდივიდუალური შემთხვევების რიგები არ არის ადამიანისთვის წაკითხვადი, ამიტომ მეორე განახლება აჩვენებს აგრეგირებულ მეტრიკებს და არა 100,000-რიგიან ცხრილს. მთავარი აგრეგატი ნაჩვენებია ქვემოთ; სპეციალობისა და ქვეყნის-ეტიკეტის მიხედვით დეტალიზაცია გამოქვეყნებულია ტექნიკურ ანგარიშში და Figshare-ის დეპოზიტში. სტრატიფიცირებული შემთხვევითი ნიმუში n = 201 ნედლი ძრავის პასუხების (დეტერმინისტული seed 20260426) გამოქვეყნებულია GitHub-ის results/ დირექტორიაში შემოწმებისთვის.
რას არ გვიყვება სათაურის ქულა
99.80 პროცენტის კომპოზიტური ქულა ამ კონკრეტული წინასწარ რეგისტრირებული რუბრიკის მიხედვით, 100,000-შემთხვევიან სინთეტიკურ კოჰორტზე, რომელიც მოიცავს 127 ქვეყნის ეტიკეტს, წარმოადგენს თითქმის „ზედა ზღვრის“ შესრულებას — მაგრამ საჭიროა ფრთხილად კონტექსტუალიზაცია. შედეგი აღწერს ძრავის ქცევას იმ რუბრიკის მიმართ, რომელსაც ჩვენ დავპირდით წყაროს კოდში V11-ში; ეს არ არის უნივერსალური პრეტენზია ძრავის სისწორეზე ყველა სისხლის ანალიზის პანელზე, რომელიც რეალურ სამყაროში არსებობს.
ქულა ამბობს, რომ ძრავმა სწორად დაამუშავა ამ შეფასებისთვის შერჩეული დიაგნოსტიკური შაბლონები პოპულაციურ მასშტაბზე კოჰორტაში, გამოქვეყნებულ და რეპროდუცირებად მეთოდოლოგიაზე დაყრდნობით. ეს არ ამბობს, რომ ძრავი სწორია ყველა სისხლის ანალიზის პანელზე, რომელიც რეალურ სამყაროში არსებობს. ეს არ ამბობს, რომ ძრავი უნდა ჩაანაცვლოს კლინიცისტის პროფესიულ განსჯას. და ეს არ ამბობს, რომ ძრავი აჯობებს ალტერნატიულ AI სისტემებს — სხვა ძრავებთან შედარებითი ანალიზები ამ ანგარიშის ფარგლებს შეგნებულად არ გასცდა.
ის, რასაც ქულა ნამდვილად ადგენს, არის საბაზისო მაჩვენებელი. რადგან რუბრიკა და „ჰარნესი“ საჯაროა, ძრავის მომავალი ვერსიები შეიძლება შეფასდეს იმავე რუბრიკით — გამოყენებული V11-ის საწყის 15 შემთხვევაზე, მეორე განახლების 100,000-შემთხვევიან კოჰორტაზე ან ნებისმიერ შემდგომ გაფართოებაზე — და სხვაობა გამოქვეყნებულ ქულასა და ნებისმიერ შემდგომ გაშვებას შორის თავისთავად გაზომვადია. ეს არის წინასწარი რეგისტრაციის ღირებულება: ის გარდაქმნის შესრულების პრეტენზიებს ტესტირებად პრეტენზიებად.
როგორ გავიმეოროთ ეს ბენჩმარკი 10 წუთში
რეპროდუცირებისთვის საჭიროა მხოლოდ Kantesti API-ის სერთიფიკატების წყვილი და Python 3.10 ან უფრო ახალი გარემო, სადაც არის requests და reportlab ბიბლიოთეკები დაყენებული. სრული ჰარნესი არის ერთი, თვითკმარი Python მოდული, გამოშვებული MIT ლიცენზიით.
ოთხი ნაბიჯი ახალი გაშვებისთვის
ერთი. დააკლონეთ რეპოზიტორია: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ორი. დააინსტალირეთ დამოკიდებულებები შემდეგით pip install -r requirements.txt (Second Update ამატებს mysql-connector-python ≥ 8.0 SQL case loader-ისთვის). სამი. დააყენეთ KANTESTI_USERNAME და KANTESTI_PASSWORD როგორც გარემოს ცვლადები ძრავის API-სთვის. მეორე განახლების SQL case loader-ისთვის ასევე დააყენეთ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, და KANTESTI_DB_PASSWORD — ლოადერი უკავშირდება მხოლოდ-წაკითხვის როლით (bench_reader) რომელსაც არ აქვს პრივილეგიები ცხრილების იდენტიფიცირებაზე. ოთხი. გაუშვით python benchmark_bloodtest.py --limit 100000 სრული Second-Update გაშვებისთვის, ან python benchmark_bloodtest.py --limit 1000 სწრაფი იტერაციისთვის. შედეგები ინახება ./benchmark_results/: CSV ქულების ბარათი თითო-ქვეყნის-ეტიკეტისა და თითო-სპეციალობის სვეტებით, JSON აგრეგატი, სტრატიფიცირებულ-შემთხვევითი ნედლი პასუხების ნიმუში და Markdown ანგარიში.
საცნობარო გაშვებები 23 აპრილიდან 2026 წლამდე (V11 საწყისი, 15 შემთხვევა) და 26 აპრილიდან 2026 წლამდე (V11 Second Update, 100,000 შემთხვევა) შენარჩუნებულია results/ რეპოზიტორიის დირექტორიაში. ახალი გაშვება შექმნის ახალ, დროის ნიშნულით (timestamped) ქულების ბარათს, ხოლო საცნობარო გაშვებებს უცვლელად დატოვებს. თუ თქვენი გაშვება იძლევა არსებითად განსხვავებულ შედეგს, გთხოვთ გახსნათ GitHub issue გაშვების დროის ნიშნულით და პასუხის მეტამონაცემებში დაბრუნებული ძრავის ვერსიით.
შეზღუდვები და სამომავლო სამუშაოები
მიუხედავად იმისა, რომ 100,000 შემთხვევაა 127 ქვეყნის ეტიკეტით, ოთხი შეზღუდვა საჭიროებს მკაფიო აღიარებას: გრძელი კუდის ეტიკეტების არასაკმარისი დაფარვა, ერთჯერადი შეფასება, ერთი ძრავის ფარგლები და ერთი წყაროდან მონაცემების წარმოშობა. თითოეული მათგანი მუშავდება აქტიურ შემდგომ სამუშაოებში.
გრძელი კუდის ეტიკეტების დაფარვა. მეორე განახლება მოიცავს 127 ქვეყნის ეტიკეტს, მაგრამ განაწილება არათანაბარია — ტოპ 10 ეტიკეტი შეადგენს შემთხვევების ≈66.4%-ს, ხოლო დამატებითი 97 ეტიკეტის გრძელი კუდი ერთად ქმნის ≈7.3%-ს (დაახლოებით 7,300 შემთხვევა ერთად, საშუალოდ ~75 შემთხვევა თითო ეტიკეტზე). ამიტომ, ამ გრძელ კუდში თითო-ეტიკეტის კომპოზიტები უფრო ხმაურიანია, ვიდრე ამას მთავარი მაჩვენებლები მიუთითებს. მომავალი გაშვებები გადააბალანსებს ეტიკეტის მინიჭებას, რათა გამყარდეს თითო-ეტიკეტის შეფასებები.
ერთჯერადი შეფასება. კოჰორტის თითოეული შემთხვევა შეფასდა ერთხელ. დიდი ენობრივი მოდელები ავლენენ მნიშვნელოვან გამომავალი ვარიაციასაც კი დაბალი შერჩევის ტემპერატურის პირობებში, ამიტომ მრავალგაშვებადი პროტოკოლი, სადაც თითო შემთხვევაზე ხუთი შეფასებაა და მითითებულია ვარიაცია, ბუნებრივი შემდეგი ნაბიჯია — განსაკუთრებით trap-case ქვეჯგუფზე, სადაც თანმიმდევრულობა შერჩევის „ჯიტერის“ პირობებში წარმოადგენს უსაფრთხოების პრეტენზიის ნაწილს.
ერთი ძრავის ფარგლები. ეს ანგარიში აღწერს ერთ ძრავს. შედარებითი ანალიზები ალტერნატიულ AI სისტემებთან აქ ფარგლებს მიღმაა; შესაძლოა მათ მივყვეთ როგორც ცალკე დამოუკიდებელ კვლევას შესაბამისი მეთოდოლოგიით, იმავე MIT-ლიცენზირებულ ჰარნესთან.
სინთეტიკური მონაცემები. 100,000 შემთხვევა სინთეტიკურად გენერირებულია, და არა „სინთეტიკური შემთხვევები“, და შედეგები არ გადადის რეალურ-კლინიკურ შესრულებაზე. რეალურ, თანხმობით მოპოვებულ, გარე წყაროდან მიღებულ მონაცემებზე შეფასება მოითხოვდა შესაბამის ეთიკურ ზედამხედველობას და ამ სინთეტიკური ბენჩმარკის ფარგლებს მიღმაა.
ამ ოთხის მიღმა, ყველაზე გავლენიანი დაგეგმილი გაფართოებაა მრავალენოვანი თანასწორობა თითო იურისდიქციაში. Kantesti AI Engine ემსახურება მომხმარებლებს 75+ ენაზე და Second-Update-ის ენის მიხედვით სტრატიფიცირებული ქვეკოჰორტების გაშვება (თურქული, გერმანული, ესპანური, ფრანგული, იტალიური, პორტუგალიური, არაბული, მანდარინი) რაოდენობრივად შეაფასებს გამომავალი ხარისხს ძრავის მიერ მხარდაჭერილ ენებზე. თითოეული ენის მიხედვით ანალიზი გამოქვეყნდება საკუთარი DOI-ით და ჰარნესის ფილიალით.