لماذا يوجد هذا المعيار وما الذي يختبره
يُستخدم تفسير تحليل الدم بالذكاء الاصطناعي بمساعدة الذكاء الاصطناعي بشكل متزايد في سير العمل الاستهلاكي والسريري، ومع ذلك تظل أطر التقييم القابلة لإعادة الإنتاج والمصممة لطب المختبرات غير شائعة. إن الأسئلة الأكثر أهمية في هذا السياق ليست تلك التي يغطيها معيار عام للإجابة عن الأسئلة الطبية: هل يمكن للمحرك فصل نقص الحديد عن سِمة الثلاسيميا عندما يكون حجم الكريات الحمراء المتوسط متطابقًا، وهل يفرط في تشخيص متلازمة جيلبرت على أنها التهاب كبد، وهل يصنع مرضًا في لوحة فحص طبيعية بالكامل؟
عادةً ما يحتوي لوح تحليل دم واحد على إشارة كافية لدعم عدة تفسيرات متنافسة، ومهمة الطبيب/الاختصاصي الذي يفسّر النتائج هي موازنة تلك التفسيرات فيما بينها بدلًا من استرجاع إجابة من كتاب مدرسي. يمكن لمحرك يتفوّق في الحالات المدرسية أن يفشل في الحالات الأكثر أهمية: فخاخ التشخيص التفريقي، والاختلافات الحميدة التي تبدو مقلقة عند النظر إليها بمعزل، ولوحات التحليل الطبيعية بالكامل التي تُغري المساعدين الواثقين بتصنيع اعتلالات مرضية.
بُني هذا المعيار تحديدًا حول أنماط الفشل تلك. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية محددة: نقص الحديد مع صِغَر الكريات (microcytosis) يجب الحفاظ على تمييزه عن سِمة بيتا-ثالاسيميا (beta-thalassaemia) ذات متوسط حجم كروي متطابق، وظهور متلازمة جيلبرت حيث الشذوذ الوحيد هو فرط بيليروبين غير مباشر معزول، ولوح فحص من خمسة عشر معاملًا تكون فيه كل مادة محلَّلة ضمن مجالها المرجعي. يكافئ السلم/الروبرك المحركات التي تقرأ كل حالة وفق شروطها الخاصة ويُعاقب المحركات التي تتجه إلى تشخيص واثق حيث لا يكون مثل هذا التشخيص مبررًا.
بصفتي توماس كلاين، دكتوراه في الطب (MD)، اخترت مجموعة الحالات لأن هذه هي الأنماط التي أراها مساعدي طب المختبر يخطئون فيها أكثر من غيرها. نمط الفشل المكلف ليس "تفويت مرض نادر" — بل هو اختلاق اعتلالات مرضية روتينية لدى مرضى لا يعانون منها. ملكنا التحقق الطبي يصف hub الإطار الأوسع؛ وتصف هذه الصفحة الإثبات الأولي الأولي لـ V11 والتحديث الثاني لـ V11 اللذين قاما بتوسيعه إلى 100,000 حالة اصطناعية مستمدة من مجموعة حالات اصطناعية تمتد عبر 127 تسمية بلد — باستخدام معيار التقييم نفسه، مطابقًا للبايتات (byte-identical)، دون السماح بأي ضبط لاحق (post-hoc tuning).
أحدث تشغيل مرجعي — V11 Second Update (26 أبريل 2026)
أنتج تشغيل V11 Second Update المرجعي بتاريخ 26 أبريل 2026 درجة مركبة قدرها 99.80% على نفس الروبرك المُسجَّل مسبقًا المستخدم في الإصدار الأولي لـ V11، وتم تقييمه على 100,000 حالة اصطناعية مستمدة من مجموعة الحالات الاصطناعية لـ Kantesti وتمتد عبر 127 تسمية بلد و75+ لغات. اكتملت كل حالة على المسار الأساسي الرئيسي للمحرك؛ ظلت عمليات تفعيل راية فرط التشخيص في حالات الفخ عند 0 / 87,412. غطى تشغيل V11 الأصلي بتاريخ 23 أبريل 2026 15 حالة تم اختيارها يدويًا (درجة مركبة 99.12%) وجرّب الروبرك؛ ويحافظ التحديث الثاني على هذا الروبرك مطابقًا للبايت ويُوسّع التقييم إلى نطاق مجموعة سكانية.
تجمع معادلة المركب بين ثلاثة مكوّنات: المطابقة البنيوية مع أقسام التقرير الإلزامية السبعة وضمّات/فرعيات إلزامية ست عشرة،, دقة محتوى ويُقاس ذلك عبر استرجاع الكلمات المفتاحية (keyword recall) بالإضافة إلى استرجاع نظام التقييم (scoring-system recall) مع التحقق من صحة توزيع الاحتمالات، و زمن الاستجابة مقابل هدف مستوى الخدمة للخدمة على المسار الأساسي. يُعرض التفصيل الدقيق في صيغة الروبرك أدناه — لم يتم تعديل أي من هذه الأوزان أو الروبركات الفرعية في التحديث الثاني.
يتفكك الجزء المتبقي البالغ 0.20 نقطة مئوية من هامش التحسن تقريبًا بالكامل إلى الدرجة الفرعية السريرية — فقد كانت هناك نسبة صغيرة من الحالات (بشكل أساسي في أمراض الكبد وطب الروماتيزم) تفتقد كلمة مفتاحية واحدة متوقعة من نظام التقييم في تفسير المحرك، رغم أن المحتوى التشخيصي كان صحيحًا. لم تفوّت أي حالة في مجموعة 100,000 حالة في تحديث V11 الثاني التشخيص نفسه. تحسنت زمنية الاستجابة من متوسط 20.17 s في الإصدار الأولي لـ V11 إلى 13.26 s في التحديث الثاني، بما يعكس تحسينات محرك الإنتاج بين التشغيلين؛ الروبرك، وكود التقييم، ونقطة نهاية واجهة برمجة التطبيقات دون تغيير.
تراوحت الدرجات المركبة لكل تسمية بين 0.9971 و0.9985 عبر أكثر 30 تسمية بلد تمثيلًا. لم تُظهر الذيل الطويل المكوّن من 97 تسمية إضافية (≈7,300 حالة مجتمعة) أي تدهور منهجي. كانت أكثر التسميات تكرارًا حسب عدد الحالات هي: الولايات المتحدة (10,500)، البرازيل (9,500)، إسبانيا (9,000)، إيطاليا (8,000)، ألمانيا (7,800)، فرنسا (7,400)، البرتغال (5,800)، Türkiye (3,400)، المملكة المتحدة (2,900)، والمكسيك (2,500).
من 15 حالة إلى 100,000: تطور المجموعة عبر 127 تسمية بلد
غطت لوحة الحالات الأصلية لـ V11 سبعة تخصصات — أمراض الدم، الغدد الصماء، الطب الاستقلابي، طب الكبد، طب الكلى، طب القلب، طب الروماتيزم — بالإضافة إلى حالتين مخصصتين لفخاخ فرط التشخيص، وكانت كل حالة عبارة عن لوحة اختبار دم مُولَّدة اصطناعيًا. يوسّع التحديث الثاني لـ V11 التقييم إلى 100,000 حالة اصطناعية عبر 127 تسمية بلد, ، موزعة على ثمانية تخصصات (السبعة الأصلية بالإضافة إلى دلو مخصص للطب الباطني الداخلي يستوعب مجموعة الفخ). يُطبَّق نفس الروبرك للتقييم مطابقًا للبايت عبر كلا التشغيلين.
نظرًا لأن جميع الحالات مُولَّدة اصطناعيًا، فلا توجد مُعرّفات حقيقية لإزالتها ولا توجد بيانات شخصية. تحمل كل حالة اصطناعية رمز حالة داخلي للمعيار (BT-NNN-LABEL في المجموعة الأولية لـ V11، وهو ثابت case_uid في التحديث الثاني). لا تظهر أي بيانات شخصية في أي مكان داخل بيئة الاختبار المنشورة، أو التقرير التقني، أو مجموعات البيانات المُفرج عنها.
الإصدار الأولي لـ V11 — 15 حالة تم اختيارها يدويًا
تم اختيار لوحة الحالات الأصلية V11 يدويًا بواسطة الدكتور توماس كلاين لتدريب أنماط التشخيص التي يخطئ فيها مساعدو الطبّ المخبري في أغلب الأحيان. تم اختيار كل واحدة من الحالات الخمس عشرة لخاصية تشخيصية محددة، كما هو مذكور أدناه.
لماذا تم اختيار هذا التوزيع تحديدًا
تخصصات أمراض الدم تحصل على ثلاث حالات لأن التفريعات متناهية الصغر (microcytic) ومتناهية الكِبر (macrocytic) تمثل أعلى فخاخ من حيث الحجم في الممارسة المختبرية الواقعية. تخصصات الغدد تحصل على ثلاث حالات لأن العروض السريرية لمرض هاشيموتو وPCOS ونقص فيتامين د تمارس أشكالًا تشخيصية مختلفة (مدفوعة بالأجسام المضادة، مدفوعة بنسبة الهرمونات، ومدفوعة بعلامة واحدة). أما تخصصات الحالة الواحدة فلا تزال ذات معنى لأن كلًا من CKD وخطر ASCVD وSLE لديها نظامها الخاص للتقييم الذي يجب على المحرك استدعاؤه (على التوالي: مراحل KDIGO، وخطر ASCVD لمدة 10 سنوات، ومعايير 2019 EULAR/ACR لـ SLE).
التحديث الثاني V11 — 100,000 حالة اصطناعية عبر 127 تسمية بلد
يستبدل التحديث الثاني literal بايثون ثابتًا (hard-coded) من 15 حالة في V11 الأصلي بمجموعة أكبر من الحالات الاصطناعية المُولَّدة برمجيًا. يتم تحميل مجموعة الحالات في بداية كل تشغيل ويتم تسجيل الإعدادات من أجل الشفافية. يُعرض توزيع المجموعة حسب مجال المحتوى أدناه.
توزيع التسمية الاصطناعية للبلد — أفضل 10 تسميات
تحمل 100,000 حالة اصطناعية 127 تسمية بلد (ISO 3166-1 alpha-2) لاختبار التعامل مع الإعدادات المحلية (locale handling). تعيين التسمية: أوروبا 57.7%، الأمريكتان 25.4%، آسيا-المحيط الهادئ 6.2%، تسميات الشرق الأوسط/أفريقيا المسمّاة 3.4%، وذيل طويل من 97 تسمية إضافية مجتمعة تقريبًا 7.3%. التسمية العشر الأكثر تكرارًا حسب عدد الحالات هي: الولايات المتحدة (10,500)، البرازيل (9,500)، إسبانيا (9,000)، إيطاليا (8,000)، ألمانيا (7,800)، فرنسا (7,400)، البرتغال (5,800)، Türkiye (3,400)، المملكة المتحدة (2,900)، والمكسيك (2,500). تراوحت الدرجات المركبة لكل تسمية بين 0.9971 و0.9985. تمثل أعداد هذه التسميات خصائص حالات مُولَّدة تم استخدامها لاختبار التعامل مع الإعدادات المحلية — وليست مستخدمين حقيقيين ولا تغطية جغرافية واقعية.
شرح الـ Rubric المُسجَّل مسبقًا
التسجيل المسبق هو الاختيار المنهجي الأهم في هذا المعيار. تم الالتزام بكل تشخيص متوقع، وبكل نظام تقييم سريري، وبكل قسم من أقسام التقرير ضمن كود المصدر قبل استدعاء المحرك قبل استدعاء المحرك. لذلك لا يمكن إجراء ضبط لاحق للمعيار لإرضاء المحرك.
يتكون الدرجة المركبة من ثلاثة مكونات. المكوّن البنيوي يساهم بنسبة 35% ويقيس ما إذا كان المحرك قد أرجع الأقسام السبعة الإلزامية للتقرير (الترويسة، الملخص، أبرز النتائج، التفريق التشخيصي، أنظمة التقييم، التوصيات، المتابعة) والـ16 قسمًا فرعيًا إلزاميًا ضمنها. وزن وجود القسم يساوي 40% ووزن وجود القسم الفرعي يساوي 60% ضمن الحساب البنيوي.
ال المكوّن السريري يساهم بنسبة 55% ويجمع بين ثلاثة أشياء: استرجاع الكلمات المفتاحية للتشخيص (70% من الدرجة الفرعية السريرية)، واسترجاع نظام التقييم (20% — هل يحسب المحرك Mentzer وFIB-4 وHOMA-IR وخطر ASCVD ومراحل KDIGO ومعايير EULAR/ACR عند الاقتضاء)، وفحص صحة مجموع الاحتمالات (10% — يجب أن تتجمع احتمالات التفريق ضمن الفاصل [90, 110]). في حالات الفخ، يتم طرح عقوبة صريحة لفرط التشخيص تصل إلى 0.30، محسوبة بمقدار 0.10 لكل علامة مرض مُصطنعة، مع سقف ثلاث علامات.
ال مكوّن زمن الاستجابة يساهم بنسبة 10%. الاستجابة خلال أقل من 20 ثانية تحصل على الدرجة الكاملة 0.10، والاستجابة خلال أقل من 40 ثانية تحصل على 0.05، وأي شيء أبطأ يحصل على صفر. يعكس هدف 20 ثانية هدف خدمة الإنتاج الأساسي؛ ويعكس سقف 40 ثانية ميزانية النسخة الاحتياطية في المرحلة 2 لاستدعاءات المحرك الثقيلة.
ما الذي يمنعه التسجيل المسبق
تشتهر المعايير التي يضعها أصحابها (من طرف أول) بتضخيم أرقامها عبر ضبط المعيار لاحقًا. النمط يكاد يكون دائمًا هو نفسه: الفريق يشغّل المحرك، يرى أين يتراجع الأداء، ثم يعدّل المعيار بهدوء بحيث تُحسب مناطق ضعف الأداء بدرجة أقل. وبحصر المعيار في كود المصدر قبل أول استدعاء للمحرك ونشر الاختبار تحت رخصة MIT، يصبح هذا التعديل ظاهرًا في التحكم بالإصدارات. يمكن لأي شخص استنساخ المستودع والتحقق من تواريخ تأليف المعيار، والتأكد من عدم استخدام نتائج المحرك لتشكيل عملية التقييم.
حالات فخّ فرط التشخيص — لماذا يُعدّ الإفراط في الاستدعاء هو وضع الفشل الحقيقي
الإفراط في إطلاق تشخيصات مرضية على فحوصات طبيعية هو نمط فشل موثق لدى المساعدات الطبية الموجهة للمستهلكين. تشمل تكاليفه اللاحقة إجراء تحقيقات غير ضرورية، وقلق المريض، وإعدادًا علاجيًا مُحدثًا (iatrogenic). تم تصميم حالتي الفخ في هذا المعيار لجعل هذا الفشل ظاهرًا وقابلًا للتقييم.
🟡 الفخ 1 — BT-014-GILBERT
العرض. رجل عمره 24 عامًا مع إجمالي بيليروبين قدره 2.4 ملغ/دل. الجزء المباشر طبيعي، والإنزيمات ناقلة الأمين والفوسفاتاز القلوي ضمن نطاقات المرجع، والخلايا الشبكية غير لافتة، ويستبعد الهبتوغلوبين وLDH حدوث انحلال الدم.
التفسير الصحيح. متلازمة جيلبرت — تعدد أشكال حميد في UGT1A1. يجب ألا يستدعي التفسير التهاب كبد أو تليفًا أو فقر دم انحلاليًا أو انسدادًا صفراويًا.
نتيجة V11. المركب 1.000. لم تظهر أي من إشارات الإفراط في التشخيص الست المراقبة كتشخيصات نشطة.
🟡 الفخ 2 — BT-015-HEALTHY
العرض. امرأة تبلغ من العمر 35 عامًا مع لوحة فحص روتينية مكوّنة من خمسة عشر مؤشرًا. كل تحليل يقع بشكل مريح داخل نطاقه المرجعي.
التفسير الصحيح. طمأنة والحفاظ على نمط حياة صحي. يجب ألا يقوم التفسير باختلاق اعتلالات حدودية لجعل النتيجة تبدو مفيدة سريريًا.
نتيجة V11. مركّب 1.000. لم تظهر أي من إشارات الإفراط في التشخيص السبعة التي تمت مراقبتها — السكري، فقر الدم، قصور الغدة الدرقية، اضطرابات الدهون، التهاب الكبد، مرض الكلى، النقص — كتشخيصات نشطة.
عبر كلتا مجموعتي الفحص، تم التحقق من ثلاث عشرة إشارة فرط تشخيص تمت مراقبتها. لم يتم تفعيل أي منها. هذه هي النتيجة الأهم لأي طبيب يفكر في استخدام محرك ذكاء اصطناعي كأداة فرز أو ما قبل الاستشارة: لم يقم النظام باختراع مرض حيث لا يوجد مرض.
مؤشر منتزر: فصل نقص الحديد عن سِمة الثلاسيميا
اكتشاف عالي القيمة ثانٍ يتعلق بربط الحالة BT-001 (فقر الدم بسبب نقص الحديد) بالحالة BT-007 (الثلاسيميا بيتا الصغرى). كلاهما يظهر مع صِغر حجم الكريات (microcytosis) ويُعد عائقًا معروفًا أمام المصنّفات الساذجة. يتجاوز مؤشر منتزر، المحسوب على أنه MCV مقسومًا على عدد كريات الدم الحمراء (RBC)، 13 في نقص الحديد وينخفض تحت 13 في سِمة الثلاسيميا.
في BT-001، كانت المريضة امرأة تبلغ 34 عامًا مع هيموغلوبين 10.4 g/dL، وMCV 72.4 fL، وRBC 4.1 × 10¹²/L، وفيريتين 6 ng/mL، وارتفاع TIBC. يدعم مؤشر منتزر البالغ تقريبًا 17.7 نقص الحديد المطلق. في BT-007، كان المريض رجلًا يبلغ 28 عامًا مع صِغر حجم الكريات (MCV 65.8 fL) لكن مع ارتفاع عدد RBC إلى 6.2، وRDW طبيعي، وفيريتين طبيعي، وHbA2 قدره 5.6 بالمئة. يشير مؤشر منتزر البالغ تقريبًا 10.6 إلى سِمة الثلاسيميا، ويؤكد ارتفاع HbA2 الثلاسيميا بيتا الصغرى.
حصلت الحالتان على درجة 1.000. استدعى المحرك مؤشر منتزر صراحةً في كلتا عمليتي التفسير وأعاد التشخيص الصحيح في كل مرة. هذه هي النتيجة الأكثر طمأنة سريريًا في كامل الاختبار المرجعي, ، لأن تصنيف سِمة الثلاسيميا على أنها نقص الحديد يؤدي إلى إعطاء مكملات حديد غير مناسبة وفرص تفويت فحص أفراد العائلة، ولأن تصنيف نقص الحديد على أنه ثلاسيميا يؤخر العلاج التعويضي البسيط. إن لنطاق الفيريتين يشرح السياق التفريقي الأوسع.
النتائج لكل حالة من التشغيل المرجعي الأول لـ V11 (23 أبريل 2026)
يشكل التشغيل المرجعي الأصلي لـ V11 ضمن تجميعة إثبات المفهوم المكوّنة من 15 حالة الأساس المنهجي للتحديث الثاني: تُوضح كل التفاصيل الخاصة بكل حالة أدناه كيف يتعامل السلم/الروبرك مع استجابة حقيقية من محرك. حققت 12 من أصل 15 حالة الدرجة المركبة القصوى 1.000 على المسار الأساسي؛ وتمت خدمة ثلاث حالات عبر آلية التعويض في المرحلة 2، مع فقدان مكافأة زمن الوصول 0.05 مع الحفاظ على كامل المحتوى السريري والبنيوي. كانت حالة واحدة ناقصة في قسم فرعي إجباري واحد؛ وأعاد أحدها مجموع توزيع احتمالات مُخفَّضًا بشكل طفيف.
حالة تكيس المبايض (BT-008) فقدت بندًا فرعيًا إلزاميًا واحدًا في بنية الاستجابة — خمسة عشر من ستة عشر بدلًا من ستة عشر من ستة عشر — مما خفّض الدرجة البنيوية من 1.000 إلى 0.963. أما حالة SLE (BT-011) فقد أعادت مجموعًا لاحتمالات موزعة بشكل مخفّض بشكل طفيف انخفضت معه الدرجة السريرية إلى 0.965 مع الحفاظ على كل الكلمات التشخيصية ونظام التقييم. لم تفوّت أي من الحالتين غير المثالية تشخيصًا صحيحًا.
تجميع V11 التحديث الثاني — 100,000 حالة
على نطاق السكان، لا تكون صفوف الحالات الفردية قابلة للقراءة من قبل البشر، لذا يقدّم التحديث الثاني مقاييس مجمعة بدلًا من جدول من 100,000 صف. يُعرض الملخص الإجمالي الرئيسي أدناه؛ وتُنشر التفصيلات حسب كل تخصص وحسب كل تسمية بلد في التقرير التقني وإيداع Figshare. يتم نشر عينة عشوائية طبقية من n = 201 استجابات المحرك الخام (بذرة حتمية 20260426) في دليل GitHub results/ للفحص.
ما الذي لا تخبرنا به الدرجة الرئيسية
درجة مركبة قدرها 99.80 بالمئة ضمن معيار التقييم المُسجَّل مسبقًا تحديدًا، على مجموعة متجانسة اصطناعية من 100,000 حالة تمتد عبر 127 تسمية بلد، تمثل أداءً قريبًا من السقف — لكن يلزم تأطيرها بعناية. يصف هذا النتيجة سلوك المحرك مقابل معيار التقييم الذي التزمنا به في كود المصدر في V11؛ ولا يُعد ادعاءً عامًا حول صحة المحرك على كل لوحة اختبار دم موجودة في العالم الحقيقي.
تقول الدرجة إن المحرك تعامل مع أنماط التشخيص التي تم اختيارها لهذا التقييم بشكل صحيح عبر مجموعة على نطاق المجتمع، باستخدام منهجية منشورة وقابلة لإعادة الإنتاج. لا تقول إن المحرك صحيح في كل لوحة blood test موجودة في الواقع. ولا تقول إن المحرك ينبغي أن يحل محل حكم الطبيب. ولا تقول إن المحرك يتفوق على أنظمة ذكاء اصطناعي بديلة — إذ كانت التحليلات المقارنة مع محركات أخرى خارج نطاق هذا التقرير عمدًا.
ما تثبته الدرجة هو خط أساس. وبما أن المعيار والهيكل (harness) متاحان للعامة، يمكن تقييم الإصدارات المستقبلية من المحرك مقابل المعيار نفسه — المطبق على حالات التحديث الأول لـ V11 البالغ عددها 15 حالة، أو مجموعة التحديث الثاني البالغ عددها 100,000 حالة، أو أي توسع لاحق — والفجوة بين الدرجة المنشورة وأي تشغيل لاحق قابلة للقياس بحد ذاتها. وتتمثل قيمة التسجيل المسبق في: إذ يحوّل ادعاءات الأداء إلى ادعاءات قابلة للاختبار.
كيفية إعادة إنتاج هذا المعيار في 10 دقائق
تتطلب إعادة الإنتاج فقط زوج بيانات اعتماد Kantesti API وبيئة Python 3.10 أو أحدث مع requests و reportlab مكتبات مثبتة. تتألف البيئة التجريبية الكاملة من وحدة Python واحدة مستقلة بذاتها ومُصدرة تحت ترخيص MIT.
أربع خطوات لتشغيل جديد
أولًا. استنسخ المستودع: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. اثنان. ثبّت التبعيات باستخدام pip install -r requirements.txt (يضيف التحديث الثاني mysql-connector-python ≥ 8.0 لِمُحمِّل حالات SQL). ثلاثة. اضبط KANTESTI_USERNAME و KANTESTI_PASSWORD كمتغيرات بيئية لواجهة برمجة تطبيقات المحرك. ولِمُحمِّل حالات SQL في التحديث الثاني، اضبط أيضًا KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER، و KANTESTI_DB_PASSWORD — يقوم المُحمِّل بالاتصال عبر دور للقراءة فقط (bench_reader) لا يملك أي صلاحيات لتحديد الجداول. أربعة. شغّل python benchmark_bloodtest.py --limit 100000 لعملية التشغيل الكاملة Second-Update، أو python benchmark_bloodtest.py --limit 1000 للتكرار السريع. يتم حفظ المخرجات في ./benchmark_results/: لوحة درجات بصيغة CSV مع أعمدة لكل بلد ولكل تخصص، وتجميع بصيغة JSON، وعينة خام من الاستجابات العشوائية الطبقية، وتقرير بصيغة Markdown.
يتم الاحتفاظ بنتائج التشغيل المرجعية من 23 أبريل 2026 (V11 الأولي، 15 حالة) ومن 26 أبريل 2026 (V11 Second Update، 100,000 حالة) في results/ دليل المستودع. سيُنتج التشغيل الجديد لوحة معلومات جديدة مُؤرَّخة بطابع زمني مع ترك نتائج التشغيل المرجعية دون تغيير. إذا أسفر تشغيلك عن نتيجة مختلفة بشكل جوهري، يُرجى فتح issue على GitHub مع طابع زمن التشغيل وإصدار المحرّك المُعاد في بيانات الاستجابة الوصفية (metadata).
القيود والعمل المستقبلي
حتى عند 100,000 حالة عبر 127 تسمية بلد، تستحق أربع قيود اعترافًا صريحًا: نقص أخذ عينات تسمية الذيل الطويل، والتقييم لمرة واحدة، ونطاق محرك واحد، وأصل بيانات مصدر واحد. تتم معالجة كل منها في أعمال متابعة جارية.
تغطية تسميات الذيل الطويل. يمتد التحديث الثاني على 127 تسمية بلد، لكن التوزيع غير متوازن — تمثل أفضل 10 تسميات حوالي 66.4% من الحالات، ويسهم الذيل الطويل المكوّن من 97 تسمية إضافية معًا بحوالي 7.3% (قرابة 7,300 حالة مجتمعة، ~75 حالة لكل تسمية بمتوسط). لذلك تكون المركّبات لكل تسمية في هذا الذيل الطويل أكثر ضجيجًا مما توحي به الأرقام الرئيسية. ستعيد عمليات التشغيل المستقبلية موازنة تعيين التسمية لتثبيت تقديرات كل تسمية.
التقييم بنقرة واحدة. تم تقييم كل حالة في المجموعة مرة واحدة. تُظهر نماذج اللغات الكبيرة تباينًا غير تافه في المخرجات حتى عند درجة حرارة أخذ عينات منخفضة، لذا فإن بروتوكول متعدد التشغيلات مع خمس تقييمات لكل حالة والإبلاغ عن التباين يُعد خطوة طبيعية تالية — خصوصًا على مجموعة الحالات الفخّية (trap-case subset)، حيث تُعد الاتساق تحت اهتزاز أخذ العينات جزءًا من ادعاء السلامة.
نطاق محرك واحد. يصف هذا التقرير محرّكًا واحدًا. التحليلات المقارنة مقابل أنظمة ذكاء اصطناعي بديلة خارج نطاق هذا التقرير؛ وقد نتابعها كدراسة مستقلة منفصلة باستخدام منهجية مناسبة، وبالاستناد إلى نفس إطار العمل المرخّص من MIT.
بيانات مُولّدة اصطناعيًا. إن 100,000 حالة مُولّدة اصطناعيًا، وليست “حالات اصطناعية”، ولا تنتقل النتائج إلى الأداء السريري في العالم الحقيقي. يتطلب التقييم على بيانات حقيقية وموافَقًا عليها ومُستقاة خارجيًا إشرافًا أخلاقيًا مناسبًا وهو خارج نطاق هذا المعيار الاصطناعي.
بالإضافة إلى هذه الأربع، فإن أكثر امتداد مخطط تأثيرًا هو تكافؤ متعدد اللغات لكل اختصاص/ولاية قضائية. يخدم محرّك Kantesti AI المستخدمين في 75+ لغة، وسيؤدي تشغيل مجموعات فرعية من Second-Update مُقسَّمة حسب اللغة (التركية، الألمانية، الإسبانية، الفرنسية، الإيطالية، البرتغالية، العربية، الماندارين) إلى قياس جودة المخرجات عبر اللغات المدعومة من المحرّك. سيتم نشر كل تحليل مُقسَّم حسب اللغة مع DOI خاص به وفرع إطار العمل (harness branch).