لماذا يوجد هذا المعيار وماذا يختبر
يتم بشكل متزايد استخدام تحليل الدم بالذكاء الاصطناعي في سير العمل الاستهلاكي والسريري، ومع ذلك تظل أطر التقييم القابلة لإعادة الإنتاج والمصممة لطب المختبرات غير شائعة. الأسئلة الأكثر أهمية في هذا السياق ليست تلك التي يغطيها معيار عام للإجابة عن الأسئلة الطبية: هل يمكن لمحرك أن يفصل نقص الحديد عن سِمة الثلاسيميا عندما تكون الحُجيمات الكروية المتوسطة متطابقة، وهل يفرط في تشخيص Gilbert's syndrome على أنه التهاب كبدي، وهل يُنشئ أمراضًا في لوحة فحص طبيعية بالكامل؟
لوحة تحليل دم واحدة عادةً تحتوي على إشارة كافية لدعم عدة تفسيرات متنافسة، ومهمة الطبيب/الطبيبة المفسِّر/ة هي موازنة تلك التفسيرات فيما بينها بدل البحث عن جواب من كتاب مدرسي. محرّك ينجح في الحالات المدرسية قد يفشل مع الحالات الأكثر أهمية: فخاخ التشخيص التفريقي، والاختلافات الحميدة التي تبدو مقلقة عند النظر إليها وحدها، واللوحات الطبيعية تمامًا التي تُغري المساعدين الواثقين بصناعة “مرض” غير موجود.
تم بناء هذا المعيار تحديدًا حول أنماط الفشل تلك. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية معيّنة: نقص الحديد مع صِغَر الكريات (microcytosis) يجب الحفاظ على تمييزه عن سِمة بيتا-ثالاسيميا (beta-thalassaemia) مع نفس متوسط حجم الكرية (MCV)، وعرض متلازمة جيلبرت حيث الشذوذ الوحيد هو ارتفاع غير مباشر معزول في البيليروبين، ولوحة فحص من 15 معلمة تكون فيها كل مادة محلَّلة ضمن مجالها المرجعي. يكافئ معيار التقييم المحرّكات التي تقرأ كل حالة وفق شروطها الخاصة ويعاقب المحرّكات التي تصل إلى تشخيص واثق عندما لا يكون هذا التشخيص مبرَّرًا.
بصفتي الدكتور Thomas Klein، اخترت مجموعة الحالات لأن هذه هي الأنماط التي ألاحظ أن مساعدين في طب المختبر يخطئون فيها أكثر ما يمكن. نمط الفشل المكلف ليس "تفويت مرض نادر" — بل اختلاق اعتلالات روتينية لدى مرضى لا يعانون منها. ملكنا التحقق الطبي hub كيوصف الإطار العام؛ هاد الصفحة كتشرح الإثبات الأولي ديال V11 وV11 التحديث الثاني اللي وسّعوه حتى 100,000 حالة اصطناعية جايين من مجموعة حالات اصطناعية ممتدة على 127 وسم ديال البلدان — باستعمال نفس Rubric ديال التقييم، مطابق حرفياً (byte-identical)، وما مسموحش أي ضبط لاحق (no post-hoc tuning).
أحدث تشغيل مرجعي — V11 Second Update (26 أبريل 2026)
أنتج تشغيل V11 Second Update المرجعي بتاريخ 26 أبريل 2026 درجة مركّبة قدرها 99.80% على نفس الروبرك المُسجَّل مسبقًا المستخدم في الإصدار الأولي لـ V11، وتم تقييمه على 100,000 حالة اصطناعية جايين من مجموعة الحالات الاصطناعية ديال Kantesti و ممتدة على 127 وسم ديال البلدان و75+ لغات. اكتملت كل حالة على المسار الأساسي الرئيسي للمحرّك؛ ظلت عمليات تفعيل أعلام فرط التشخيص في حالات الفخ عند 0 / 87,412. غطّى تشغيل V11 الأصلي بتاريخ 23 أبريل 2026 15 حالة تم اختيارها يدويًا (درجة مركّبة 99.12%) وجرى التحقق من الروبرك؛ يحافظ التحديث الثاني على هذا الروبرك مطابقًا حرفيًا على مستوى البايت ويُوسّع التقييم ليشمل مجموعة على مستوى السكان.
تجمع معادلة المركب بين ثلاثة مكوّنات: المطابقة البنيوية مع أقسام التقرير الإلزامية السبعة و16 فرعًا إلزاميًا،, دقة المحتوى مُقاسة عبر استرجاع الكلمات المفتاحية (keyword recall) بالإضافة إلى استرجاع نظام التقييم (scoring-system recall) مع فحص صحة التوزيع الاحتمالي، و زمن الاستجابة مقابل هدف مستوى الخدمة للخدمة على المسار الأساسي. يُعرض التفكيك الدقيق في صيغة الروبرك أدناه — لم يتم تعديل أي من هذه الأوزان أو الروبركات الفرعية في التحديث الثاني.
يتفكك الجزء المتبقي البالغ 0.20 نقطة مئوية من هامش السعة تقريبًا بالكامل إلى الدرجة الفرعية السريرية — نسبة صغيرة من الحالات (بشكل أساسي في أمراض الكبد والروماتيزم) كان لديها أحد كلمات نظام التقييم المتوقعة غير موجود في تفسير المحرّك رغم أن المحتوى التشخيصي كان صحيحًا. لم تفوّت أي حالة في مجموعة 100,000 حالة للتحديث الثاني التشخيص نفسه. تحسّن زمن الاستجابة من متوسط 20.17 s في الإصدار الأولي لـ V11 إلى 13.26 s في التحديث الثاني، بما يعكس تحسينات محرّك الإنتاج بين التشغيلين؛ الروبرك، كود التقييم، ونقطة نهاية الـ API دون تغيير.
المجموعات المركبة لكل وسم تراوحت من 0.9971 حتى 0.9985 عبر 30 وسم ديال البلدان الأكثر تمثيلاً. الذيل الطويل ديال 97 وسم إضافي (≈7,300 حالة مجموعاً) ما بانش فيه أي تدهور منهجي. أكثر الأوسمة تكراراً حسب عدد الحالات كانت: الولايات المتحدة (10,500)، البرازيل (9,500)، إسبانيا (9,000)، إيطاليا (8,000)، ألمانيا (7,800)، فرنسا (7,400)، البرتغال (5,800)، Türkiye (3,400)، المملكة المتحدة (2,900)، والمكسيك (2,500).
من 15 حالة حتى 100,000: تطور الكوھورت عبر 127 وسم ديال البلدان
لوحة الحالات الأصلية ديال V11 كانت كتغطي سبع تخصصات — أمراض الدم (hematology)، الغدد الصماء (endocrinology)، الطب الاستقلابي (metabolic medicine)، أمراض الكبد (hepatology)، أمراض الكلى (nephrology)، أمراض القلب (cardiology)، طب الروماتيزم (rheumatology) — إضافةً إلى حالتين مخصصتين لفخاخ فرط التشخيص (hyperdiagnosis trap)، وكل حالة كانت لوحة تحاليل دم مُولّدة اصطناعياً. التحديث الثاني ديال V11 كيوسّع التقييم حتى 100,000 حالة اصطناعية عبر 127 وسم ديال البلدان, ، موزعة على ثمانية تخصصات (السبعة الأصلية بالإضافة إلى دلو مخصص للطب الباطني الداخلي يستوعب جزء الفخ). يُطبَّق نفس الروبرك للتقييم مطابقًا حرفيًا على مستوى البايت في كلا التشغيلين.
بما أن جميع الحالات مُولّدة اصطناعياً، ما كاينش مُعرّفات حقيقية باش يتشالوا وما كاينش أي بيانات شخصية. كل حالة اصطناعية كتحتوي على كود ديال الحالة داخل المعيار (benchmark-internal case code) (BT-NNN-LABEL فـ المجموعة الأولية ديال V11، ثابت case_uid فـ التحديث الثاني). ما كاين حتى بيانات شخصية فـ أي مكان فـ الـ harness المنشور، التقرير التقني، ولا فـ المجموعات ديال البيانات اللي تْنشر.
الإصدار الأولي لـ V11 — 15 حالة تم اختيارها يدويًا
تم اختيار لوحة الحالات الأصلية V11 يدويًا من طرف الدكتور توماس كلاين بهدف تمرين أنماط التشخيص التي يخطئ فيها مساعدو الطبّ المخبري في أغلب الأحيان. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية محددة، كما هو مُدرج أدناه.
لماذا هذا التوزيع بالذات
تخصصات أمراض الدم تحصل على ثلاث حالات لأن التفريعات الصغيرة الحجم والتفريعات الكبيرة الحجم هي أعلى “مصائد” من حيث الحجم في الممارسة المختبرية الواقعية. تخصصات الغدد تحصل على ثلاث حالات لأن العروض المرتبطة بمرض هاشيموتو وPCOS ونقص فيتامين د تُمارس أشكالًا تشخيصية مختلفة (مدفوعة بالأجسام المضادة، مدفوعة بنسبة الهرمونات، ومدفوعة بعلامة واحدة). أما تخصصات الحالة الواحدة فلا تزال ذات معنى لأن كلًّا من CKD وخطر ASCVD وSLE لديه نظامه الخاص للتقييم الذي ينبغي للمحرك استدعاؤه (على التوالي: مراحل KDIGO، وخطر ASCVD لمدة 10 سنوات، ومعايير 2019 EULAR/ACR لـ SLE).
V11 التحديث الثاني — 100,000 حالة اصطناعية عبر 127 وسم ديال البلدان
التحديث الثاني كيبدّل literal ديال بايثون ديال V11 الأصلي اللي كان “hard-coded” ديال 15 حالة، بمجموعة أكبر ديال حالات اصطناعية مُولّدة برمجياً. كتتحمّل مجموعة الحالات فبداية كل تشغيل (run) وكتسجّل الإعدادات باش تكون الشفافية. توزيع الكوھورت حسب مجال المحتوى كيبان فـ الأسفل.
توزيع وسم البلدان الاصطناعية — أفضل 10 أوسمة
الحالات الاصطناعية 100,000 كتضم 127 وسم ديال البلدان (ISO 3166-1 alpha-2) باش تختبر التعامل مع الإعدادات المحلية (locale handling). تعيين الوسم: أوروبا 57.7%، الأمريكيتين 25.4%، آسيا-المحيط الهادئ 6.2%، أوسمة الشرق الأوسط/إفريقيا 3.4%، وذيل طويل ديال 97 وسم إضافي مجموعهم تقريباً 7.3%. العشرة أوسمة الأكثر تكراراً حسب عدد الحالات هي: الولايات المتحدة (10,500)، البرازيل (9,500)، إسبانيا (9,000)، إيطاليا (8,000)، ألمانيا (7,800)، فرنسا (7,400)، البرتغال (5,800)، Türkiye (3,400)، المملكة المتحدة (2,900)، والمكسيك (2,500). المجموعات المركبة لكل وسم تراوحت من 0.9971 حتى 0.9985. هاد أعداد الأوسمة هي خصائص ديال الحالات المُولّدة اللي استعملوها باش يختبرو التعامل مع الإعدادات المحلية — ماشي مستعملين حقيقيين وماشي تغطية جغرافية واقعية.
الـ rubric المُسجَّل مسبقاً، شرح
التسجيل المسبق هو أهم خيار منهجي في هذا المعيار. تم الالتزام بكل تشخيص متوقع، بكل نظام تقييم سريري، وبكل قسم من التقرير ضمن كود المصدر قبل استدعاء المحرك. لذلك لا يمكن إجراء ضبط لاحق للمعيار بهدف “تلميع” أداء المحرك.
يتكون المجموع المركب من ثلاثة مكونات. المكوّن البنيوي يساهم بنسبة 35% ويقيس ما إذا كان المحرك قد أرجع الأقسام السبعة الإلزامية للتقرير (العنوان، الملخص، أهم النتائج، التفريق التشخيصي، أنظمة التقييم، التوصيات، المتابعة) والـ16 قسمًا فرعيًا إلزاميًا داخلها. وزن وجود القسم هو 40% ووزن وجود القسم الفرعي هو 60% ضمن الحساب البنيوي.
ال المكوّن السريري يساهم بنسبة 55% ويجمع بين ثلاثة أشياء: استرجاع الكلمات المفتاحية للتشخيص (70% من الدرجة الفرعية السريرية)، واسترجاع نظام التقييم (20% — هل يحسب المحرك Mentzer وFIB-4 وHOMA-IR وخطر ASCVD ومراحل KDIGO ومعايير EULAR/ACR عند الاقتضاء)، وفحص صحة مجموع الاحتمالات (10% — يجب أن تتجمع احتمالات التفريق ضمن المجال [90, 110]). في حالات المصائد، يتم طرح عقوبة صريحة لفرط التشخيص تصل إلى 0.30، محسوبة كـ0.10 لكل علامة مرضية مُصطنعة، مع سقف عند ثلاث علامات.
ال مكوّن زمن الاستجابة يساهم بنسبة 10%. الاستجابة تحت 20 ثانية تحصل على 0.10 كاملة، والاستجابة تحت 40 ثانية تحصل على 0.05، وأي شيء أبطأ يحصل على صفر. تعكس عتبة 20 ثانية هدف مستوى الخدمة الأساسي للإنتاج؛ وتعكس عتبة 40 ثانية ميزانية “الرجوع” في المرحلة 2 لاستدعاءات المحرك الثقيلة.
ما الذي يمنعه التسجيل المسبق
تُعرف المعايير التي ينفذها أصحابها (first-party) بأنها تضخم أرقامها عبر ضبط المعيار لاحقًا. النمط يكاد يكون دائمًا نفسه: الفريق يشغّل المحرك، يرى أين يتراجع الأداء، ثم يعدّل المعيار بهدوء بحيث تُحسب مناطق الضعف بدرجة أقل. وبما أن المعيار تم تثبيته في كود المصدر قبل أول استدعاء للمحرك ونشر الاختبار تحت رخصة MIT، يصبح هذا التعديل ظاهرًا في التحكم بالإصدارات. يمكن لأي شخص نسخ المستودع، والتحقق من تواريخ إنشاء المعيار، والتأكد من أن نتائج المحرك لم تُستخدم لتشكيل عملية التقييم.
حالات فخّ فرط التشخيص — لماذا يكون الإفراط في إطلاق الأحكام هو وضع الفشل الحقيقي
المبالغة في إطلاق تشخيصات مرضية على الفحوصات الطبيعية هي نمط فشل موثق لدى المساعدين الطبيين الموجهين للمستهلكين. تشمل تكاليفه اللاحقة إجراء تحقيقات غير ضرورية، وقلق المريض، وإعدادات علاجية غير لازمة (iatrogenic workup). تم تصميم حالتي المصيدة في هذا المعيار لجعل هذا الفشل ظاهرًا وقابلًا للتقييم.
🟡 المصيدة 1 — BT-014-GILBERT
العرض. رجل عمره 24 سنة مع بيليروبين كلي قدره 2.4 mg/dL. الجزء المباشر طبيعي، والإنزيمات ناقلة الأمين والفوسفاتاز القلوي ضمن نطاقاتها المرجعية، والخلايا الشبكية غير لافتة، ويستبعد الهبتوغلوبين وLDH حدوث انحلال الدم.
التفسير الصحيح. متلازمة جيلبرت — تعدد أشكال حميد في UGT1A1. يجب ألا يستدعي التفسير التهاب كبد أو تليفًا أو فقر دم انحلاليًا أو انسدادًا صفراويًا.
نتيجة V11. المركب 1.000. لم تظهر أي من إشارات فرط التشخيص الست المراقبة كتشخيصات نشطة.
🟡 المصيدة 2 — BT-015-HEALTHY
العرض. امرأة تبلغ من العمر 35 سنة مع لوحة فحص روتينية مكوّنة من 15 معلمة. كل مؤشّر كيميائي/تحليلي موجود بشكل مريح داخل مجاله المرجعي.
التفسير الصحيح. طمأنة والحفاظ على نمط حياة صحي. يجب ألا يقوم التفسير باختلاق اعتلالات حدودية فقط ليبدو مفيدًا سريريًا.
نتيجة V11. مركّب 1.000. لم تظهر أيٌّ من سبع إشارات إنذار مرتبطة بالإفراط في التشخيص التي تمت مراقبتها — داء السكري، فقر الدم، قصور الغدة الدرقية، اضطرابات الدهون، التهاب الكبد، مرض الكلى، نقص — كتشخيصات نشطة.
عبر كلا المسارين، تم فحص 13 إشارات مرتبطة بالإفراط في التشخيص. لم يتم تفعيل أيٍّ منها. هذه هي النتيجة الأكثر أهمية لأي طبيب يفكر في استخدام محرك ذكاء اصطناعي كأداة فرز أو قبل الاستشارة: لم يقم النظام باختراع مرض عندما لا يوجد أي مرض.
مؤشر منتزر: فصل نقص الحديد عن سِمة الثلاسيميا
اكتشاف ذو قيمة عالية ثانٍ يتعلق بربط الحالة BT-001 (فقر الدم بنقص الحديد) مع الحالة BT-007 (الثلاسيميا بيتا الصغرى). كلاهما يظهر مع صِغر حجم الكريات (microcytosis)، وهو عائق معروف جدًا أمام المصنّفات غير المتمرسة. مؤشر منتزر، المحسوب بقسمة MCV على عدد RBC، يتجاوز 13 في نقص الحديد وينخفض تحت 13 في سِمة الثلاسيميا.
في BT-001، كانت المريضة امرأة عمرها 34 سنة مع هيموغلوبين 10.4 g/dL، وMCV 72.4 fL، وRBC 4.1 × 10¹²/L، وفيريتين 6 ng/mL، وارتفاع TIBC. مؤشر منتزر بحوالي 17.7 يدعم نقص الحديد المطلق. في BT-007، كان المريض رجلًا عمره 28 سنة مع صِغر حجم الكريات (MCV 65.8 fL) لكن مع ارتفاع عدد RBC إلى 6.2، وRDW طبيعي، وفيريتين طبيعي، وHbA2 بنسبة 5.6 بالمئة. مؤشر منتزر بحوالي 10.6 يشير إلى سِمة الثلاسيميا، وارتفاع HbA2 يؤكد الثلاسيميا بيتا الصغرى.
حصلت الحالتان على 1.000. استدعى المحرك مؤشر منتزر صراحةً في كلتا القراءتين وأعاد التشخيص الصحيح في كل مرة. هذه هي النتيجة الأكثر طمأنة سريريًا في كامل الاختبار القياسي, ، لأن تصنيف سِمة الثلاسيميا على أنها نقص الحديد يؤدي إلى تعويض/إعطاء الحديد بشكل غير مناسب وفرص ضائعة لفحص أفراد العائلة، كما أن تصنيف نقص الحديد على أنه ثلاسيميا يؤخر العلاج التعويضي البسيط المباشر. يشرح لنطاق الفيريتين السياق التفريقي الأوسع.
نتائج كل حالة على حدة من التشغيل المرجعي الأول V11 (23 أبريل 2026)
يشكّل التشغيل المرجعي الأصلي V11 على مجموعة إثبات المفهوم المكوّنة من 15 حالة الأساس المنهجي لـ Second Update: كل تفصيل لكل حالة أدناه يوضح كيف يتعامل السلم/الروبرك مع استجابة حقيقية من المحرك. حققت 12 من أصل 15 حالة الدرجة القصوى للتركيب وهي 1.000 على المسار الأساسي؛ وتمت خدمة ثلاث حالات عبر آلية الرجوع Phase 2، مع فقدان مكافأة زمن التأخر 0.05 مع الحفاظ على كامل المحتوى السريري والبنيوي. كانت حالة واحدة ناقصة في قسم فرعي إجباري واحد؛ وأعاد أحدها مجموع توزيع احتمالات أقل بشكل طفيف.
حالة تكيس المبايض (BT-008) فقدت قسماً فرعياً إلزامياً واحداً في بنية الاستجابة — خمسة عشر من ستة عشر بدل ستة عشر من ستة عشر — مما خفّض الدرجة البنيوية من 1.000 إلى 0.963. حالة SLE (BT-011) أعادت مجموع توزيع احتمالات منخفضاً بشكل طفيف، ما خفّض الدرجة السريرية إلى 0.965 مع الحفاظ على كل الكلمات المفتاحية التشخيصية ونظام التقييم. لم تفوّت أي من الحالتين غير المثاليتين تشخيصاً صحيحاً.
تجميع V11 Second Update — 100,000 حالة
على مستوى السكان (population scale)، صفوف كل حالة بوحدها ما كتكونش قابلة للقراءة من طرف الإنسان، لذلك التحديث الثاني كيعرض مؤشرات مجمّعة (aggregated metrics) بدل جدول من 100,000 سطر. المجمل الرئيسي كيبان فـ الأسفل؛ التفصيل حسب كل تخصص وحسب كل وسم ديال البلد منشور فـ التقرير التقني وإيداع Figshare. كاين نشر لعينة عشوائية مُقسّمة (stratified random sample) ديال n = 201 استجابات المحرك الخام (بذرة حتمية 20260426) في دليل GitHub results/ للفحص.
ماذا لا تخبرنا به النتيجة الرئيسية
مجموع مركّب بنسبة 99.80 في المئة تحت هاد الـ Rubric المُسجّل مسبقاً بالضبط، على كوھورت اصطناعية من 100,000 حالة ممتدة على 127 وسم ديال البلدان، كيمثل أداء قريب من السقف (near-ceiling performance) — ولكن خاصو تأطير دقيق. النتيجة كتصف سلوك المحرك مقابل الـ Rubric اللي التزمنا به فـ كود المصدر فـ V11؛ ماشي ادعاء عام على صحة المحرك فكل لوحة ديال تحاليل الدم اللي كاينة فالعالم الحقيقي.
يقول هذا المجموع إن المحرك تعامل بشكل صحيح مع أنماط التشخيص التي تم اختيارها لهذا التقييم عبر مجموعة على مستوى السكان، وبمنهجية منشورة وقابلة لإعادة الإنتاج. لا يقول إن المحرك صحيح في كل لوحة لتحليل الدم موجودة في الواقع. ولا يقول إن المحرك ينبغي أن يحل محل حكم الطبيب. ولا يقول أيضاً إن المحرك يتفوق على أنظمة ذكاء اصطناعي بديلة — إذ كانت التحليلات المقارنة مع محركات أخرى خارج نطاق هذا التقرير عمداً.
ما يثبت هذا المجموع هو خط أساس. وبما أن المعيار والهيكل (harness) متاحان للعموم، يمكن تقييم الإصدارات المستقبلية من المحرك مقابل نفس المعيار — المطبق على حالات V11 البداية الـ 15، أو مجموعة التحديث الثاني من 100,000 حالة، أو أي توسع لاحق — والفجوة بين المجموع المنشور وأي تشغيل لاحق قابلة للقياس بحد ذاتها. وهذه هي قيمة التسجيل المسبق: يحوّل ادعاءات الأداء إلى ادعاءات قابلة للاختبار.
كيفية إعادة إنتاج هذا المعيار في 10 دقائق
تتطلب إعادة الإنتاج فقط زوج بيانات اعتماد API من Kantesti وبيئة Python 3.10 أو أحدث مع requests و reportlab تم تثبيت المكتبات. الهيكل الكامل عبارة عن وحدة Python واحدة مستقلة بذاتها ومُصدرة تحت رخصة MIT.
أربع خطوات لتشغيل جديد
واحدة. استنسخ المستودع: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. اثنين. ثبّت الاعتماديات عبر pip install -r requirements.txt (يضيف التحديث الثاني mysql-connector-python ≥ 8.0 لِمُحمِّل حالات SQL). ثلاثة. حدّد KANTESTI_USERNAME و KANTESTI_PASSWORD كمتغيرات بيئية لواجهة برمجة تطبيقات المحرك. ولِمُحمِّل حالات SQL في التحديث الثاني، حدّد أيضاً KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، و KANTESTI_DB_PASSWORD — المحمّل يتصل عبر دور للقراءة فقط (bench_reader) لا يملك أي صلاحيات لتحديد الجداول. أربعة. شغّل python benchmark_bloodtest.py --limit 100000 بالنسبة للتشغيل الكامل لـ Second-Update، أو python benchmark_bloodtest.py --limit 1000 للتكرار السريع. يتم حفظ المخرجات في ./benchmark_results/: لوحة نقاط بصيغة CSV فيها أعمدة للوسم حسب البلد والتخصّص، وملخّص بصيغة JSON، وعيّنة من الاستجابات الخام عشوائية مُقسّمة، وتقرير بصيغة Markdown.
يتم الاحتفاظ بالتشغيلات المرجعية من 23 أبريل 2026 (V11 الأولي، 15 حالة) ومن 26 أبريل 2026 (V11 Second Update، 100,000 حالة) داخل results/ مجلد المستودع. سيُنتج التشغيل الجديد لوحة نتائج جديدة مُؤرَّخة بالوقت مع ترك التشغيلات المرجعية دون تغيير. إذا أعطى تشغيلك نتيجة مختلفة بشكل معتبر، يُرجى فتح issue على GitHub مع وقت تشغيلك وإصدار المحرك الذي تم إرجاعه في بيانات الاستجابة الوصفية (metadata).
القيود والعمل المستقبلي
حتى عند 100,000 حالة عبر 127 وسمًا للبلد، توجد أربع محدوديات تستحق اعترافًا صريحًا: نقص أخذ عينات (undersampling) للذيل الطويل (long-tail)، تقييم مرة واحدة (single-shot evaluation)، نطاق محصور بمحرك واحد (single-engine scope)، ومصدر بيانات واحد (single-source data origin). يتمّ التعامل مع كل واحدة منها ضمن أعمال متابعة جارية.
تغطية الوسوم ذات الذيل الطويل. التحديث الثاني (Second Update) يمتدّ على 127 وسمًا للبلد، لكن التوزيع غير متوازن — أعلى 10 وسوم تمثّل ≈66.4% من الحالات، والذيل الطويل المكوّن من 97 وسمًا إضافيًا يساهم معًا ≈7.3% (حوالي 7,300 حالة مجتمعة، ~75 حالة لكل وسم في المتوسط). لذلك فإن المركّبات لكل وسم في هذا الذيل الطويل أكثر ضجيجًا (noisier) مما توحي به الأرقام الرئيسية. ستُعيد الدورات القادمة موازنة تعيين الوسوم (label assignment) لتثبيت تقديرات كل وسم.
التقييم مرة واحدة. تم تقييم كل حالة في المجموعة مرة واحدة. تُظهر نماذج اللغات الكبيرة تبايناً غير تافه في المخرجات حتى عند درجة حرارة أخذ عينات منخفضة، لذلك فإن بروتوكول متعدد التشغيلات مع خمس تقييمات لكل حالة والإبلاغ عن التباين هو الخطوة الطبيعية التالية — خصوصاً على مجموعة الحالات الفخّية (trap-case subset)، حيث تُعدّ الاتساق تحت اهتزاز أخذ العينات جزءاً من ادعاء السلامة.
نطاق محرك واحد. يصف هذا التقرير محركاً واحداً. التحليلات المقارنة مقابل أنظمة ذكاء اصطناعي بديلة خارج نطاق هذا العمل؛ قد نتابعها كدراسة مستقلة منفصلة مع منهجية مناسبة، وبنفس إطار العمل (harness) المرخّص من MIT.
بيانات مُولّدة (Synthetic data). إنّ 100,000 حالة مُولّدة اصطناعيًا (synthetically generated)، وليست “حالات اصطناعية” (synthetic cases)، والنتائج لا تنتقل إلى الأداء السريري في العالم الحقيقي. إنّ التقييم على بيانات حقيقية مُوافَق عليها (consented) ومأخوذة من مصادر خارجية (externally-sourced) يتطلّب إشرافًا أخلاقيًا مناسبًا، وهو خارج نطاق هذا المعيار الاصطناعي.
إضافةً إلى هذه الأربع، فإن أكثر امتداد مخطط تأثيراً هو تحقيق التكافؤ متعدد اللغات لكل ولاية قضائية. يخدم محرك Kantesti AI المستخدمين بـ 75+ لغة، وسيقوم تشغيل مجموعات فرعية من Second-Update مُقسّمة حسب اللغة (التركية، الألمانية، الإسبانية، الفرنسية، الإيطالية، البرتغالية، العربية، الماندارين) بقياس جودة المخرجات عبر اللغات التي يدعمها المحرك. سيتم نشر كل تحليل مُقسّم حسب اللغة مع DOI خاص به ومع فرع harness خاص.