لماذا يوجد هذا المعيار وماذا يختبر

يتم بشكل متزايد استخدام تحليل الدم بالذكاء الاصطناعي في سير العمل الاستهلاكي والسريري، ومع ذلك تظل أطر التقييم القابلة لإعادة الإنتاج والمصممة لطب المختبرات غير شائعة. الأسئلة الأكثر أهمية في هذا السياق ليست تلك التي يغطيها معيار عام للإجابة عن الأسئلة الطبية: هل يمكن لمحرك أن يفصل نقص الحديد عن سِمة الثلاسيميا عندما تكون الحُجيمات الكروية المتوسطة متطابقة، وهل يفرط في تشخيص Gilbert's syndrome على أنه التهاب كبدي، وهل يُنشئ أمراضًا في لوحة فحص طبيعية بالكامل؟

مخطط تدفق rubric مُسجَّل مسبقًا يوضح كيف يتم تقييم محرك Kantesti للذكاء الاصطناعي — التحديث الثاني لـ V11، درجة مركّب 99.80% على 100,000 حالة — مقابل معايير تقييم مجمّدة
الشكل 1: البنية المرجعية للهندسة المعمارية الكامنة وراء درجة مركّبة 99.80% في التحديث الثاني V11 — ضمن مجموعة تضم 100,000 حالة: كل حالة، كل كلمة مفتاحية، كل نظام ترقيم ثابتان في الشيفرة المصدرية قبل أن ترى المحرّك أي ملف PDF، والروبرك مطابقٌ للنسخة الأولى من V11 حرفيًا على مستوى البايت. ضبط الروبرك لاحقًا بعد التنفيذ مستحيل بحكم التصميم.

لوحة تحليل دم واحدة عادةً تحتوي على إشارة كافية لدعم عدة تفسيرات متنافسة، ومهمة الطبيب/الطبيبة المفسِّر/ة هي موازنة تلك التفسيرات فيما بينها بدل البحث عن جواب من كتاب مدرسي. محرّك ينجح في الحالات المدرسية قد يفشل مع الحالات الأكثر أهمية: فخاخ التشخيص التفريقي، والاختلافات الحميدة التي تبدو مقلقة عند النظر إليها وحدها، واللوحات الطبيعية تمامًا التي تُغري المساعدين الواثقين بصناعة “مرض” غير موجود.

تم بناء هذا المعيار تحديدًا حول أنماط الفشل تلك. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية معيّنة: نقص الحديد مع صِغَر الكريات (microcytosis) يجب الحفاظ على تمييزه عن سِمة بيتا-ثالاسيميا (beta-thalassaemia) مع نفس متوسط حجم الكرية (MCV)، وعرض متلازمة جيلبرت حيث الشذوذ الوحيد هو ارتفاع غير مباشر معزول في البيليروبين، ولوحة فحص من 15 معلمة تكون فيها كل مادة محلَّلة ضمن مجالها المرجعي. يكافئ معيار التقييم المحرّكات التي تقرأ كل حالة وفق شروطها الخاصة ويعاقب المحرّكات التي تصل إلى تشخيص واثق عندما لا يكون هذا التشخيص مبرَّرًا.

بصفتي الدكتور Thomas Klein، اخترت مجموعة الحالات لأن هذه هي الأنماط التي ألاحظ أن مساعدين في طب المختبر يخطئون فيها أكثر ما يمكن. نمط الفشل المكلف ليس "تفويت مرض نادر" — بل اختلاق اعتلالات روتينية لدى مرضى لا يعانون منها. ملكنا التحقق الطبي hub كيوصف الإطار العام؛ هاد الصفحة كتشرح الإثبات الأولي ديال V11 وV11 التحديث الثاني اللي وسّعوه حتى 100,000 حالة اصطناعية جايين من مجموعة حالات اصطناعية ممتدة على 127 وسم ديال البلدان — باستعمال نفس Rubric ديال التقييم، مطابق حرفياً (byte-identical)، وما مسموحش أي ضبط لاحق (no post-hoc tuning).

أحدث تشغيل مرجعي — V11 Second Update (26 أبريل 2026)

أنتج تشغيل V11 Second Update المرجعي بتاريخ 26 أبريل 2026 درجة مركّبة قدرها 99.80% على نفس الروبرك المُسجَّل مسبقًا المستخدم في الإصدار الأولي لـ V11، وتم تقييمه على 100,000 حالة اصطناعية جايين من مجموعة الحالات الاصطناعية ديال Kantesti و ممتدة على 127 وسم ديال البلدان و75+ لغات. اكتملت كل حالة على المسار الأساسي الرئيسي للمحرّك؛ ظلت عمليات تفعيل أعلام فرط التشخيص في حالات الفخ عند 0 / 87,412. غطّى تشغيل V11 الأصلي بتاريخ 23 أبريل 2026 15 حالة تم اختيارها يدويًا (درجة مركّبة 99.12%) وجرى التحقق من الروبرك؛ يحافظ التحديث الثاني على هذا الروبرك مطابقًا حرفيًا على مستوى البايت ويُوسّع التقييم ليشمل مجموعة على مستوى السكان.

مركب 99.80% 100,000 من أصل 100,000 حالة حصلت على درجة
1.000 الدرجة البنيوية
0.996 الدرجة السريرية
13.26 s متوسط التأخر
0 / 87,412 فخاخ إيجابية كاذبة

تجمع معادلة المركب بين ثلاثة مكوّنات: المطابقة البنيوية مع أقسام التقرير الإلزامية السبعة و16 فرعًا إلزاميًا،, دقة المحتوى مُقاسة عبر استرجاع الكلمات المفتاحية (keyword recall) بالإضافة إلى استرجاع نظام التقييم (scoring-system recall) مع فحص صحة التوزيع الاحتمالي، و زمن الاستجابة مقابل هدف مستوى الخدمة للخدمة على المسار الأساسي. يُعرض التفكيك الدقيق في صيغة الروبرك أدناه — لم يتم تعديل أي من هذه الأوزان أو الروبركات الفرعية في التحديث الثاني.

المركب = 0.35 × البنيوي + 0.55 × السريري + 0.10 × التأخير (Latency)

يتفكك الجزء المتبقي البالغ 0.20 نقطة مئوية من هامش السعة تقريبًا بالكامل إلى الدرجة الفرعية السريرية — نسبة صغيرة من الحالات (بشكل أساسي في أمراض الكبد والروماتيزم) كان لديها أحد كلمات نظام التقييم المتوقعة غير موجود في تفسير المحرّك رغم أن المحتوى التشخيصي كان صحيحًا. لم تفوّت أي حالة في مجموعة 100,000 حالة للتحديث الثاني التشخيص نفسه. تحسّن زمن الاستجابة من متوسط 20.17 s في الإصدار الأولي لـ V11 إلى 13.26 s في التحديث الثاني، بما يعكس تحسينات محرّك الإنتاج بين التشغيلين؛ الروبرك، كود التقييم، ونقطة نهاية الـ API دون تغيير.

المجموعات المركبة لكل وسم تراوحت من 0.9971 حتى 0.9985 عبر 30 وسم ديال البلدان الأكثر تمثيلاً. الذيل الطويل ديال 97 وسم إضافي (≈7,300 حالة مجموعاً) ما بانش فيه أي تدهور منهجي. أكثر الأوسمة تكراراً حسب عدد الحالات كانت: الولايات المتحدة (10,500)، البرازيل (9,500)، إسبانيا (9,000)، إيطاليا (8,000)، ألمانيا (7,800)، فرنسا (7,400)، البرتغال (5,800)، Türkiye (3,400)، المملكة المتحدة (2,900)، والمكسيك (2,500).

من 15 حالة حتى 100,000: تطور الكوھورت عبر 127 وسم ديال البلدان

لوحة الحالات الأصلية ديال V11 كانت كتغطي سبع تخصصات — أمراض الدم (hematology)، الغدد الصماء (endocrinology)، الطب الاستقلابي (metabolic medicine)، أمراض الكبد (hepatology)، أمراض الكلى (nephrology)، أمراض القلب (cardiology)، طب الروماتيزم (rheumatology) — إضافةً إلى حالتين مخصصتين لفخاخ فرط التشخيص (hyperdiagnosis trap)، وكل حالة كانت لوحة تحاليل دم مُولّدة اصطناعياً. التحديث الثاني ديال V11 كيوسّع التقييم حتى 100,000 حالة اصطناعية عبر 127 وسم ديال البلدان, ، موزعة على ثمانية تخصصات (السبعة الأصلية بالإضافة إلى دلو مخصص للطب الباطني الداخلي يستوعب جزء الفخ). يُطبَّق نفس الروبرك للتقييم مطابقًا حرفيًا على مستوى البايت في كلا التشغيلين.

تصميم لوحة الحالات الأولية V11 — خمس عشرة حالة اختبار لتحليل دم مُولّدة اصطناعيًا عبر سبع تخصصات طبية بالإضافة إلى حالتي فخّ فرط تشخيص (hyperdiagnosis trap cases)؛ حقق نفس الـRubric درجة مركّبة 99.80% على 100,000 حالة في التحديث الثاني V11
الشكل 2: تصميم فريق الحالات الأولي لـ V11 عبر أمراض الدم، الغدد الصماء، الطب الاستقلابي، أمراض الكبد، طب الكلى، طب القلب، الروماتيزم، بالإضافة إلى حالتي فخ — متلازمة جيلبرت ولوحة فحص طبي طبيعية بالكامل. يحافظ التحديث الثاني على هذا الروبرك مطابقًا حرفيًا على مستوى البايت مع توسيع المجموعة إلى 100,000 حالة مستخلصة من مستودع Kantesti SQL.

بما أن جميع الحالات مُولّدة اصطناعياً، ما كاينش مُعرّفات حقيقية باش يتشالوا وما كاينش أي بيانات شخصية. كل حالة اصطناعية كتحتوي على كود ديال الحالة داخل المعيار (benchmark-internal case code) (BT-NNN-LABEL فـ المجموعة الأولية ديال V11، ثابت case_uid فـ التحديث الثاني). ما كاين حتى بيانات شخصية فـ أي مكان فـ الـ harness المنشور، التقرير التقني، ولا فـ المجموعات ديال البيانات اللي تْنشر.

الإصدار الأولي لـ V11 — 15 حالة تم اختيارها يدويًا

تم اختيار لوحة الحالات الأصلية V11 يدويًا من طرف الدكتور توماس كلاين بهدف تمرين أنماط التشخيص التي يخطئ فيها مساعدو الطبّ المخبري في أغلب الأحيان. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية محددة، كما هو مُدرج أدناه.

أمراض الدم (3) BT-001، BT-006، BT-007 فقر الدم بسبب نقص الحديد · نقص فيتامين B12 · بيتا-ثالاسيميا الصغرى (Beta-thalassaemia minor)
الغدد الصماء (3) BT-002، BT-008، BT-012 التهاب الغدة الدرقية هاشيموتو · متلازمة تكيس المبايض (PCOS) مع مقاومة الإنسولين · نقص شديد فيتامين د
الاستقلاب (2) BT-003، BT-013 داء السكري من النوع 2 (T2DM) مع متلازمة أيضية · فرط حمض يوريك مع خطر النقرس
أمراض الكبد (2) BT-004، BT-009 الكبد الدهني غير الكحولي (NAFLD) / التهاب كبد دهني غير كحولي (NASH) · التهاب كبدي فيروسي حاد
أمراض الكلى · طب القلب · طب الروماتيزم (3) BT-005، BT-010، BT-011 المرحلة 3 من مرض الكلى المزمن (CKD) · ديسليبيديميا مُسببة لتصلب الشرايين (Atherogenic dyslipidaemia) · الذئبة الحمامية الجهازية (Systemic lupus erythematosus)
حالات الفخ (2) BT-014، BT-015 متلازمة جيلبرت (فرط بيليروبين غير مباشر معزول) · فحص للبالغين طبيعي بالكامل

لماذا هذا التوزيع بالذات

تخصصات أمراض الدم تحصل على ثلاث حالات لأن التفريعات الصغيرة الحجم والتفريعات الكبيرة الحجم هي أعلى “مصائد” من حيث الحجم في الممارسة المختبرية الواقعية. تخصصات الغدد تحصل على ثلاث حالات لأن العروض المرتبطة بمرض هاشيموتو وPCOS ونقص فيتامين د تُمارس أشكالًا تشخيصية مختلفة (مدفوعة بالأجسام المضادة، مدفوعة بنسبة الهرمونات، ومدفوعة بعلامة واحدة). أما تخصصات الحالة الواحدة فلا تزال ذات معنى لأن كلًّا من CKD وخطر ASCVD وSLE لديه نظامه الخاص للتقييم الذي ينبغي للمحرك استدعاؤه (على التوالي: مراحل KDIGO، وخطر ASCVD لمدة 10 سنوات، ومعايير 2019 EULAR/ACR لـ SLE).

V11 التحديث الثاني — 100,000 حالة اصطناعية عبر 127 وسم ديال البلدان

التحديث الثاني كيبدّل literal ديال بايثون ديال V11 الأصلي اللي كان “hard-coded” ديال 15 حالة، بمجموعة أكبر ديال حالات اصطناعية مُولّدة برمجياً. كتتحمّل مجموعة الحالات فبداية كل تشغيل (run) وكتسجّل الإعدادات باش تكون الشفافية. توزيع الكوھورت حسب مجال المحتوى كيبان فـ الأسفل.

الغدد الصماء 23,900 حالة (23.9%) الغدة الدرقية، تكيس المبايض (PCOS)، نقص فيتامين د، محور الغدد التناسلية، الغدة النخامية
الطبّ الاستقلابي 21,900 حالة (21.9%) داء السكري من النوع 2 (T2DM)، المتلازمة الاستقلابية، لوحات الدهون، فرط حمض يوريك الدم
أمراض الدم 15,400 حالة (15.4%) فروقات صِغَر/كبر حجم كريات الدم (microcytic وmacrocytic)، B12/حمض الفوليك، فحوصات الحديد
طب الكبد 12,400 حالة (12.4%) NAFLD/NASH، التهاب كبدي فيروسي، FIB-4، ركود صفراوي
الطبّ الباطني (بما في ذلك مجموعة فرعية للـ trap) 9,000 حالات (9.0%) عروض مختلطة و8,723 حالة مخصّصة لفخّ فرط التشخيص (hyperdiagnosis trap)
طب القلب 7,500 حالات (7.5%) خطر أمراض القلب الوعائية المُرتبطة بتصلب الشرايين (ASCVD)، عسر شحميات مُولِّد للتصلب (atherogenic dyslipidaemia)، hs-CRP
أمراض الروماتيزم 6,000 حالات (6.0%) الذئبة الحمراء الجهازية (SLE)، التهاب المفاصل الروماتويدي (RA)، التهاب الأوعية، لوحات الأجسام المضادة الذاتية (معايير EULAR/ACR)
طب الكلى 4,000 حالات (4.0%) تصنيف مرض الكلى المزمن (KDIGO)، اتجاهات eGFR، اضطراب الأملاح

توزيع وسم البلدان الاصطناعية — أفضل 10 أوسمة

الحالات الاصطناعية 100,000 كتضم 127 وسم ديال البلدان (ISO 3166-1 alpha-2) باش تختبر التعامل مع الإعدادات المحلية (locale handling). تعيين الوسم: أوروبا 57.7%، الأمريكيتين 25.4%، آسيا-المحيط الهادئ 6.2%، أوسمة الشرق الأوسط/إفريقيا 3.4%، وذيل طويل ديال 97 وسم إضافي مجموعهم تقريباً 7.3%. العشرة أوسمة الأكثر تكراراً حسب عدد الحالات هي: الولايات المتحدة (10,500)، البرازيل (9,500)، إسبانيا (9,000)، إيطاليا (8,000)، ألمانيا (7,800)، فرنسا (7,400)، البرتغال (5,800)، Türkiye (3,400)، المملكة المتحدة (2,900)، والمكسيك (2,500). المجموعات المركبة لكل وسم تراوحت من 0.9971 حتى 0.9985. هاد أعداد الأوسمة هي خصائص ديال الحالات المُولّدة اللي استعملوها باش يختبرو التعامل مع الإعدادات المحلية — ماشي مستعملين حقيقيين وماشي تغطية جغرافية واقعية.

الـ rubric المُسجَّل مسبقاً، شرح

التسجيل المسبق هو أهم خيار منهجي في هذا المعيار. تم الالتزام بكل تشخيص متوقع، بكل نظام تقييم سريري، وبكل قسم من التقرير ضمن كود المصدر قبل استدعاء المحرك. لذلك لا يمكن إجراء ضبط لاحق للمعيار بهدف “تلميع” أداء المحرك.

يتكون المجموع المركب من ثلاثة مكونات. المكوّن البنيوي يساهم بنسبة 35% ويقيس ما إذا كان المحرك قد أرجع الأقسام السبعة الإلزامية للتقرير (العنوان، الملخص، أهم النتائج، التفريق التشخيصي، أنظمة التقييم، التوصيات، المتابعة) والـ16 قسمًا فرعيًا إلزاميًا داخلها. وزن وجود القسم هو 40% ووزن وجود القسم الفرعي هو 60% ضمن الحساب البنيوي.

ال المكوّن السريري يساهم بنسبة 55% ويجمع بين ثلاثة أشياء: استرجاع الكلمات المفتاحية للتشخيص (70% من الدرجة الفرعية السريرية)، واسترجاع نظام التقييم (20% — هل يحسب المحرك Mentzer وFIB-4 وHOMA-IR وخطر ASCVD ومراحل KDIGO ومعايير EULAR/ACR عند الاقتضاء)، وفحص صحة مجموع الاحتمالات (10% — يجب أن تتجمع احتمالات التفريق ضمن المجال [90, 110]). في حالات المصائد، يتم طرح عقوبة صريحة لفرط التشخيص تصل إلى 0.30، محسوبة كـ0.10 لكل علامة مرضية مُصطنعة، مع سقف عند ثلاث علامات.

ال مكوّن زمن الاستجابة يساهم بنسبة 10%. الاستجابة تحت 20 ثانية تحصل على 0.10 كاملة، والاستجابة تحت 40 ثانية تحصل على 0.05، وأي شيء أبطأ يحصل على صفر. تعكس عتبة 20 ثانية هدف مستوى الخدمة الأساسي للإنتاج؛ وتعكس عتبة 40 ثانية ميزانية “الرجوع” في المرحلة 2 لاستدعاءات المحرك الثقيلة.

لقطة شاشة نهائية لإطار معيار Kantesti المرخّص برخصة MIT وهو يعمل ويُصدر درجات لكل حالة — نفس الإطار، والآن مدفوع بـ SQL، أنتج درجة مركّب 99.80% في تشغيل 100,000 حالة للتحديث الثاني لـ V11
الشكل 3: الاختبار أثناء التنفيذ — نفس المحرك الذي أنتج 99.80% درجة تركيب في مجموعة حالات V11 Second Update ذات 100,000 حالة. يتم عرض كل حالة على ملف PDF بحجم A4، ثم رفعها إلى نقطة نهاية الإنتاج v11، وتقييمها مقابل السلم/الروبرك المجمّد. أضاف Second Update مُحمِّل حالات SQL مُعَلَّم بالمعاملات؛ ويتم حفظ عينة عشوائية مُقسَّمة طبقيًا من استجابات المحرك الخام (n = 201) إلى جانب لوحة النتائج المجمّعة.

ما الذي يمنعه التسجيل المسبق

تُعرف المعايير التي ينفذها أصحابها (first-party) بأنها تضخم أرقامها عبر ضبط المعيار لاحقًا. النمط يكاد يكون دائمًا نفسه: الفريق يشغّل المحرك، يرى أين يتراجع الأداء، ثم يعدّل المعيار بهدوء بحيث تُحسب مناطق الضعف بدرجة أقل. وبما أن المعيار تم تثبيته في كود المصدر قبل أول استدعاء للمحرك ونشر الاختبار تحت رخصة MIT، يصبح هذا التعديل ظاهرًا في التحكم بالإصدارات. يمكن لأي شخص نسخ المستودع، والتحقق من تواريخ إنشاء المعيار، والتأكد من أن نتائج المحرك لم تُستخدم لتشكيل عملية التقييم.

حالات فخّ فرط التشخيص — لماذا يكون الإفراط في إطلاق الأحكام هو وضع الفشل الحقيقي

المبالغة في إطلاق تشخيصات مرضية على الفحوصات الطبيعية هي نمط فشل موثق لدى المساعدين الطبيين الموجهين للمستهلكين. تشمل تكاليفه اللاحقة إجراء تحقيقات غير ضرورية، وقلق المريض، وإعدادات علاجية غير لازمة (iatrogenic workup). تم تصميم حالتي المصيدة في هذا المعيار لجعل هذا الفشل ظاهرًا وقابلًا للتقييم.

مقارنة جنبًا إلى جنب بين ذكاء اصطناعي ساذج يقوم باختلاق التهاب الكبد على لوحة متلازمة جيلبرت وبين محرك Kantesti الذي يحدد بشكل صحيح تعدد أشكال UGT1A1 الحميد — منهجية تم توسيعها لتصل إلى صفر إيجابيات كاذبة عبر 87,412 فرصة لعلامات الفخ في معيار التحديث الثاني لـ V11 بدرجة مركّب 99.80%
الشكل 4: تصميم حالة الفخ من الإصدار الأول V11 — محرك يوسم بثقة متلازمة جيلبرت كالتهاب كبد، أو يصنع شذوذًا على الحدّ الفاصل على شاشة طبيعية بالكامل، يُعاقَب بدل أن يُكافأ على “التصويت” السريري. تم توسيع هذه المنهجية إلى 0 / 87,412 الإيجابيات الكاذبة عبر تشغيل V11 Second Update لمجموعة 100,000 حالة الذي أنتج درجة التركيب 99.80%.

🟡 المصيدة 1 — BT-014-GILBERT

العرض. رجل عمره 24 سنة مع بيليروبين كلي قدره 2.4 mg/dL. الجزء المباشر طبيعي، والإنزيمات ناقلة الأمين والفوسفاتاز القلوي ضمن نطاقاتها المرجعية، والخلايا الشبكية غير لافتة، ويستبعد الهبتوغلوبين وLDH حدوث انحلال الدم.

التفسير الصحيح. متلازمة جيلبرت — تعدد أشكال حميد في UGT1A1. يجب ألا يستدعي التفسير التهاب كبد أو تليفًا أو فقر دم انحلاليًا أو انسدادًا صفراويًا.

نتيجة V11. المركب 1.000. لم تظهر أي من إشارات فرط التشخيص الست المراقبة كتشخيصات نشطة.

🟡 المصيدة 2 — BT-015-HEALTHY

العرض. امرأة تبلغ من العمر 35 سنة مع لوحة فحص روتينية مكوّنة من 15 معلمة. كل مؤشّر كيميائي/تحليلي موجود بشكل مريح داخل مجاله المرجعي.

التفسير الصحيح. طمأنة والحفاظ على نمط حياة صحي. يجب ألا يقوم التفسير باختلاق اعتلالات حدودية فقط ليبدو مفيدًا سريريًا.

نتيجة V11. مركّب 1.000. لم تظهر أيٌّ من سبع إشارات إنذار مرتبطة بالإفراط في التشخيص التي تمت مراقبتها — داء السكري، فقر الدم، قصور الغدة الدرقية، اضطرابات الدهون، التهاب الكبد، مرض الكلى، نقص — كتشخيصات نشطة.

عبر كلا المسارين، تم فحص 13 إشارات مرتبطة بالإفراط في التشخيص. لم يتم تفعيل أيٍّ منها. هذه هي النتيجة الأكثر أهمية لأي طبيب يفكر في استخدام محرك ذكاء اصطناعي كأداة فرز أو قبل الاستشارة: لم يقم النظام باختراع مرض عندما لا يوجد أي مرض.

مؤشر منتزر: فصل نقص الحديد عن سِمة الثلاسيميا

اكتشاف ذو قيمة عالية ثانٍ يتعلق بربط الحالة BT-001 (فقر الدم بنقص الحديد) مع الحالة BT-007 (الثلاسيميا بيتا الصغرى). كلاهما يظهر مع صِغر حجم الكريات (microcytosis)، وهو عائق معروف جدًا أمام المصنّفات غير المتمرسة. مؤشر منتزر، المحسوب بقسمة MCV على عدد RBC، يتجاوز 13 في نقص الحديد وينخفض تحت 13 في سِمة الثلاسيميا.

في BT-001، كانت المريضة امرأة عمرها 34 سنة مع هيموغلوبين 10.4 g/dL، وMCV 72.4 fL، وRBC 4.1 × 10¹²/L، وفيريتين 6 ng/mL، وارتفاع TIBC. مؤشر منتزر بحوالي 17.7 يدعم نقص الحديد المطلق. في BT-007، كان المريض رجلًا عمره 28 سنة مع صِغر حجم الكريات (MCV 65.8 fL) لكن مع ارتفاع عدد RBC إلى 6.2، وRDW طبيعي، وفيريتين طبيعي، وHbA2 بنسبة 5.6 بالمئة. مؤشر منتزر بحوالي 10.6 يشير إلى سِمة الثلاسيميا، وارتفاع HbA2 يؤكد الثلاسيميا بيتا الصغرى.

فقر الدم بنقص الحديد منتزر > 13 فيريتين منخفض، TSAT منخفض، TIBC مرتفع، RDW مرتفع
سِمة الثلاسيميا بيتا منتزر < 13 فيريتين طبيعي، RDW طبيعي، HbA2 مرتفع (>3.5%)، عدد RBC مرتفع

حصلت الحالتان على 1.000. استدعى المحرك مؤشر منتزر صراحةً في كلتا القراءتين وأعاد التشخيص الصحيح في كل مرة. هذه هي النتيجة الأكثر طمأنة سريريًا في كامل الاختبار القياسي, ، لأن تصنيف سِمة الثلاسيميا على أنها نقص الحديد يؤدي إلى تعويض/إعطاء الحديد بشكل غير مناسب وفرص ضائعة لفحص أفراد العائلة، كما أن تصنيف نقص الحديد على أنه ثلاسيميا يؤخر العلاج التعويضي البسيط المباشر. يشرح لنطاق الفيريتين السياق التفريقي الأوسع.

نتائج كل حالة على حدة من التشغيل المرجعي الأول V11 (23 أبريل 2026)

يشكّل التشغيل المرجعي الأصلي V11 على مجموعة إثبات المفهوم المكوّنة من 15 حالة الأساس المنهجي لـ Second Update: كل تفصيل لكل حالة أدناه يوضح كيف يتعامل السلم/الروبرك مع استجابة حقيقية من المحرك. حققت 12 من أصل 15 حالة الدرجة القصوى للتركيب وهي 1.000 على المسار الأساسي؛ وتمت خدمة ثلاث حالات عبر آلية الرجوع Phase 2، مع فقدان مكافأة زمن التأخر 0.05 مع الحفاظ على كامل المحتوى السريري والبنيوي. كانت حالة واحدة ناقصة في قسم فرعي إجباري واحد؛ وأعاد أحدها مجموع توزيع احتمالات أقل بشكل طفيف.

رقم الحالة التخصص مركب زمن الاستجابة المسار
BT-001-IDAأمراض الدم1.00017.8 ثأساسي
BT-006-B12أمراض الدم1.00018.4 ثأساسي
BT-007-ثلاسيمياأمراض الدم1.00017.0 ثأساسي
BT-002-هاشالغدد الصماء0.95037.0 ثالرجوع إلى النسخة الاحتياطية
BT-008-تكيس المبايضالغدد الصماء0.98718.6 ثأساسي
BT-003-السكري من النوع 2الأيض1.00019.1 ثأساسي
BT-013-النقرسالأيض1.00019.4 ثأساسي
BT-004-كبد دهني غير كحوليطب الكبد1.00019.6 ثأساسي
BT-009-التهاب الكبد الفيروسيطب الكبد0.95023.4 ثالرجوع إلى النسخة الاحتياطية
BT-014-غيلبرتفخ1.00018.9 ثأساسي
BT-005-قصور الكلى المزمنطب الكلى1.00017.4 ثأساسي
BT-010-الخطورة القلبية الوعائية المرتبطة بتصلب الشرايينطب القلب1.00019.7 ثأساسي
BT-011-SLEأمراض الروماتيزم0.98118.2 ثانيةأساسي
BT-012-VITDالغدد الصماء1.00019.3 ثانيةأساسي
BT-015-HEALTHYفخ1.00018.7 ثانيةالرجوع إلى النسخة الاحتياطية

حالة تكيس المبايض (BT-008) فقدت قسماً فرعياً إلزامياً واحداً في بنية الاستجابة — خمسة عشر من ستة عشر بدل ستة عشر من ستة عشر — مما خفّض الدرجة البنيوية من 1.000 إلى 0.963. حالة SLE (BT-011) أعادت مجموع توزيع احتمالات منخفضاً بشكل طفيف، ما خفّض الدرجة السريرية إلى 0.965 مع الحفاظ على كل الكلمات المفتاحية التشخيصية ونظام التقييم. لم تفوّت أي من الحالتين غير المثاليتين تشخيصاً صحيحاً.

تجميع V11 Second Update — 100,000 حالة

على مستوى السكان (population scale)، صفوف كل حالة بوحدها ما كتكونش قابلة للقراءة من طرف الإنسان، لذلك التحديث الثاني كيعرض مؤشرات مجمّعة (aggregated metrics) بدل جدول من 100,000 سطر. المجمل الرئيسي كيبان فـ الأسفل؛ التفصيل حسب كل تخصص وحسب كل وسم ديال البلد منشور فـ التقرير التقني وإيداع Figshare. كاين نشر لعينة عشوائية مُقسّمة (stratified random sample) ديال n = 201 استجابات المحرك الخام (بذرة حتمية 20260426) في دليل GitHub results/ للفحص.

درجة التركيب V11 initial: 0.9912 (99.12%) → Second Update: 0.9980 (99.80%) Δ = +0.0068 عبر مجموعة 100,000 حالة
درجة البنية (المتوسط) V11 initial: 0.998 → Second Update: 1.000 تطابق بنيوي مثالي على مستوى المجتمع/السكان
درجة الجانب السريري (المتوسط) V11 initial: 0.998 → Second Update: 0.996 −0.002؛ لم تفوّت أي حالة التشخيص نفسه
التأخير — المتوسط (النطاق) V11 البداية: 20.17 ث (17.0–37.0 ث) → التحديث الثاني: 13.26 ث (9.0–16.94 ث) تحسينات محرك الإنتاج بين الدورات
مسار المحرك = الأساسي V11 البداية: 12 / 15 → التحديث الثاني: 100,000 / 100,000 لم تكن هناك حاجة لأي رجوع احتياطي للمرحلة 2 في أي لحظة خلال التشغيل
إشارات فرط التشخيص لمجموعة فرعية من المصائد V11 البداية: 0 / 13 → التحديث الثاني: 0 / 87,412 لا توجد أي إيجابيات كاذبة على مستوى السكان (تمت مراقبة 8,723 حالة مصيدة)

ماذا لا تخبرنا به النتيجة الرئيسية

مجموع مركّب بنسبة 99.80 في المئة تحت هاد الـ Rubric المُسجّل مسبقاً بالضبط، على كوھورت اصطناعية من 100,000 حالة ممتدة على 127 وسم ديال البلدان، كيمثل أداء قريب من السقف (near-ceiling performance) — ولكن خاصو تأطير دقيق. النتيجة كتصف سلوك المحرك مقابل الـ Rubric اللي التزمنا به فـ كود المصدر فـ V11؛ ماشي ادعاء عام على صحة المحرك فكل لوحة ديال تحاليل الدم اللي كاينة فالعالم الحقيقي.

يقول هذا المجموع إن المحرك تعامل بشكل صحيح مع أنماط التشخيص التي تم اختيارها لهذا التقييم عبر مجموعة على مستوى السكان، وبمنهجية منشورة وقابلة لإعادة الإنتاج. لا يقول إن المحرك صحيح في كل لوحة لتحليل الدم موجودة في الواقع. ولا يقول إن المحرك ينبغي أن يحل محل حكم الطبيب. ولا يقول أيضاً إن المحرك يتفوق على أنظمة ذكاء اصطناعي بديلة — إذ كانت التحليلات المقارنة مع محركات أخرى خارج نطاق هذا التقرير عمداً.

ما يثبت هذا المجموع هو خط أساس. وبما أن المعيار والهيكل (harness) متاحان للعموم، يمكن تقييم الإصدارات المستقبلية من المحرك مقابل نفس المعيار — المطبق على حالات V11 البداية الـ 15، أو مجموعة التحديث الثاني من 100,000 حالة، أو أي توسع لاحق — والفجوة بين المجموع المنشور وأي تشغيل لاحق قابلة للقياس بحد ذاتها. وهذه هي قيمة التسجيل المسبق: يحوّل ادعاءات الأداء إلى ادعاءات قابلة للاختبار.

كيفية إعادة إنتاج هذا المعيار في 10 دقائق

تتطلب إعادة الإنتاج فقط زوج بيانات اعتماد API من Kantesti وبيئة Python 3.10 أو أحدث مع requests و reportlab تم تثبيت المكتبات. الهيكل الكامل عبارة عن وحدة Python واحدة مستقلة بذاتها ومُصدرة تحت رخصة MIT.

مخطط شبكة قابلية إعادة الإنتاج يُظهر معيار التحديث الثاني V11 (مركّب 99.80%، 100,000 حالة، 127 وسمًا للبلد) مُنعكسًا عبر Figshare وResearchGate وAcademia.edu وGitHub مع جعل DOI الخاص بـFigshare مرساة/مرجعًا كونيًا (canonical anchor)
الشكل 5: معيار V11 التحديث الثاني — مجموع مركّب 99.80% على 100,000 حالة عبر 127 وسم ديال البلدان — مْرآة/مُنعكسة عبر أربعة منصّات بحث. معرّف Figshare DOI هو المُعرّف العلميّ الكانوني؛ وResearchGate (publication 404175463)، وAcademia.edu (paper 165956808)، وGitHub يستضيفون نسخًا موازية مع حزمة الاختبار (benchmark harness)، وعيّنة عشوائية مُقسّمة (stratified random) من الاستجابات الخام، ولوحات النتائج حسب البلد/الوسم (per-country-label) وحسب التخصّص (per-specialty).

أربع خطوات لتشغيل جديد

واحدة. استنسخ المستودع: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. اثنين. ثبّت الاعتماديات عبر pip install -r requirements.txt (يضيف التحديث الثاني mysql-connector-python ≥ 8.0 لِمُحمِّل حالات SQL). ثلاثة. حدّد KANTESTI_USERNAME و KANTESTI_PASSWORD كمتغيرات بيئية لواجهة برمجة تطبيقات المحرك. ولِمُحمِّل حالات SQL في التحديث الثاني، حدّد أيضاً KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، و KANTESTI_DB_PASSWORD — المحمّل يتصل عبر دور للقراءة فقط (bench_reader) لا يملك أي صلاحيات لتحديد الجداول. أربعة. شغّل python benchmark_bloodtest.py --limit 100000 بالنسبة للتشغيل الكامل لـ Second-Update، أو python benchmark_bloodtest.py --limit 1000 للتكرار السريع. يتم حفظ المخرجات في ./benchmark_results/: لوحة نقاط بصيغة CSV فيها أعمدة للوسم حسب البلد والتخصّص، وملخّص بصيغة JSON، وعيّنة من الاستجابات الخام عشوائية مُقسّمة، وتقرير بصيغة Markdown.

يتم الاحتفاظ بالتشغيلات المرجعية من 23 أبريل 2026 (V11 الأولي، 15 حالة) ومن 26 أبريل 2026 (V11 Second Update، 100,000 حالة) داخل results/ مجلد المستودع. سيُنتج التشغيل الجديد لوحة نتائج جديدة مُؤرَّخة بالوقت مع ترك التشغيلات المرجعية دون تغيير. إذا أعطى تشغيلك نتيجة مختلفة بشكل معتبر، يُرجى فتح issue على GitHub مع وقت تشغيلك وإصدار المحرك الذي تم إرجاعه في بيانات الاستجابة الوصفية (metadata).

القيود والعمل المستقبلي

حتى عند 100,000 حالة عبر 127 وسمًا للبلد، توجد أربع محدوديات تستحق اعترافًا صريحًا: نقص أخذ عينات (undersampling) للذيل الطويل (long-tail)، تقييم مرة واحدة (single-shot evaluation)، نطاق محصور بمحرك واحد (single-engine scope)، ومصدر بيانات واحد (single-source data origin). يتمّ التعامل مع كل واحدة منها ضمن أعمال متابعة جارية.

تغطية الوسوم ذات الذيل الطويل. التحديث الثاني (Second Update) يمتدّ على 127 وسمًا للبلد، لكن التوزيع غير متوازن — أعلى 10 وسوم تمثّل ≈66.4% من الحالات، والذيل الطويل المكوّن من 97 وسمًا إضافيًا يساهم معًا ≈7.3% (حوالي 7,300 حالة مجتمعة، ~75 حالة لكل وسم في المتوسط). لذلك فإن المركّبات لكل وسم في هذا الذيل الطويل أكثر ضجيجًا (noisier) مما توحي به الأرقام الرئيسية. ستُعيد الدورات القادمة موازنة تعيين الوسوم (label assignment) لتثبيت تقديرات كل وسم.

التقييم مرة واحدة. تم تقييم كل حالة في المجموعة مرة واحدة. تُظهر نماذج اللغات الكبيرة تبايناً غير تافه في المخرجات حتى عند درجة حرارة أخذ عينات منخفضة، لذلك فإن بروتوكول متعدد التشغيلات مع خمس تقييمات لكل حالة والإبلاغ عن التباين هو الخطوة الطبيعية التالية — خصوصاً على مجموعة الحالات الفخّية (trap-case subset)، حيث تُعدّ الاتساق تحت اهتزاز أخذ العينات جزءاً من ادعاء السلامة.

نطاق محرك واحد. يصف هذا التقرير محركاً واحداً. التحليلات المقارنة مقابل أنظمة ذكاء اصطناعي بديلة خارج نطاق هذا العمل؛ قد نتابعها كدراسة مستقلة منفصلة مع منهجية مناسبة، وبنفس إطار العمل (harness) المرخّص من MIT.

بيانات مُولّدة (Synthetic data). إنّ 100,000 حالة مُولّدة اصطناعيًا (synthetically generated)، وليست “حالات اصطناعية” (synthetic cases)، والنتائج لا تنتقل إلى الأداء السريري في العالم الحقيقي. إنّ التقييم على بيانات حقيقية مُوافَق عليها (consented) ومأخوذة من مصادر خارجية (externally-sourced) يتطلّب إشرافًا أخلاقيًا مناسبًا، وهو خارج نطاق هذا المعيار الاصطناعي.

إضافةً إلى هذه الأربع، فإن أكثر امتداد مخطط تأثيراً هو تحقيق التكافؤ متعدد اللغات لكل ولاية قضائية. يخدم محرك Kantesti AI المستخدمين بـ 75+ لغة، وسيقوم تشغيل مجموعات فرعية من Second-Update مُقسّمة حسب اللغة (التركية، الألمانية، الإسبانية، الفرنسية، الإيطالية، البرتغالية، العربية، الماندارين) بقياس جودة المخرجات عبر اللغات التي يدعمها المحرك. سيتم نشر كل تحليل مُقسّم حسب اللغة مع DOI خاص به ومع فرع harness خاص.