ಈ ಬೆಂಚ್ಮಾರ್ಕ್ ಏಕೆ ಅಸ್ತಿತ್ವದಲ್ಲಿದೆ ಮತ್ತು ಅದು ಏನು ಪರೀಕ್ಷಿಸುತ್ತದೆ
AI ಸಹಾಯಿತ ರಕ್ತ ಪರೀಕ್ಷೆ ವರದಿ ಅರ್ಥವನ್ನು ಗ್ರಾಹಕ ಮತ್ತು ಕ್ಲಿನಿಕಲ್ ಕಾರ್ಯಪ್ರವಾಹಗಳಲ್ಲಿ ಹೆಚ್ಚಾಗಿ ಬಳಸಲಾಗುತ್ತಿದೆ; ಆದರೆ ಪ್ರಯೋಗಾಲಯ ವೈದ್ಯಕೀಯಕ್ಕೆ ಹೊಂದುವಂತೆ ಪುನರುತ್ಪಾದಿಸಬಹುದಾದ ಮೌಲ್ಯಮಾಪನ ಚೌಕಟ್ಟುಗಳು ಇನ್ನೂ ಅಪರೂಪ. ಈ ಸಂದರ್ಭದಲ್ಲೇ ಅತ್ಯಂತ ಮುಖ್ಯವಾದ ಪ್ರಶ್ನೆಗಳು ಸಾಮಾನ್ಯ ವೈದ್ಯಕೀಯ ಪ್ರಶ್ನೋತ್ತರ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳಲ್ಲಿ ಒಳಗೊಂಡಿರುವುದಲ್ಲ: ಸರಾಸರಿ ಕಾರ್ಪಸ್ಕುಲರ್ ವಾಲ್ಯೂಮ್ ಒಂದೇ ಇದ್ದಾಗ ಎಂಜಿನ್ ಕಬ್ಬಿಣ ಕೊರತೆಯನ್ನು ಥಾಲಸ್ಸೇಮಿಯಾ ಟ್ರೇಟ್ನಿಂದ ಬೇರ್ಪಡಿಸಬಹುದೇ, ಗಿಲ್ಬರ್ಟ್ನ ಸಿಂಡ್ರೋಮ್ ಅನ್ನು ಹೆಪಟೈಟಿಸ್ ಎಂದು ಅತಿಯಾಗಿ ನಿರ್ಣಯಿಸುತ್ತದೆಯೇ, ಮತ್ತು ಸಂಪೂರ್ಣ ಸಾಮಾನ್ಯ ಸ್ಕ್ರೀನಿಂಗ್ ಪ್ಯಾನೆಲ್ನಲ್ಲಿ ಪಥಾಲಜಿಯನ್ನು ತಯಾರಿಸುತ್ತದೆಯೇ?
ಒಂದು ಏಕೈಕ ರಕ್ತ ಪರೀಕ್ಷಾ ಪ್ಯಾನೆಲ್ ಸಾಮಾನ್ಯವಾಗಿ ಹಲವಾರು ಸ್ಪರ್ಧಾತ್ಮಕ ವ್ಯಾಖ್ಯಾನಗಳನ್ನು ಬೆಂಬಲಿಸಲು ಸಾಕಷ್ಟು ಸೂಚನೆಗಳನ್ನು ಹೊಂದಿರುತ್ತದೆ, ಮತ್ತು ವ್ಯಾಖ್ಯಾನಿಸುವ ವೈದ್ಯರ ಕೆಲಸವೆಂದರೆ ಆ ವ್ಯಾಖ್ಯಾನಗಳನ್ನು ಪಠ್ಯಪುಸ್ತಕದ ಒಂದೇ ಉತ್ತರವನ್ನು ಹುಡುಕುವುದಕ್ಕಿಂತ ಪರಸ್ಪರ ತೂಕಮಾಪನ ಮಾಡಿ ಹೋಲಿಸುವುದು. ಪಠ್ಯಪುಸ್ತಕದ ಪ್ರಕರಣಗಳಲ್ಲಿ ಚೆನ್ನಾಗಿ ಕೆಲಸ ಮಾಡುವ ಎಂಜಿನ್ ಕೂಡ ಅತ್ಯಂತ ಮುಖ್ಯವಾದ ಪ್ರಕರಣಗಳಲ್ಲಿ ವಿಫಲವಾಗಬಹುದು: ವಿಭಿನ್ನ-ರೋಗನಿರ್ಣಯದ ತಪ್ಪುಬಲೆಗಳು, ಪ್ರತ್ಯೇಕವಾಗಿ ನೋಡಿದಾಗ ಎಚ್ಚರಿಸುವಂತೆ ಕಾಣುವ ನಿರಪಾಯ ರೂಪಾಂತರಗಳು, ಮತ್ತು ಸಂಪೂರ್ಣ ಸಾಮಾನ್ಯ ಪ್ಯಾನೆಲ್ಗಳು ಆತ್ಮವಿಶ್ವಾಸಿ ಸಹಾಯಕರನ್ನು ರೋಗಪಥ್ಯವನ್ನು ತಯಾರಿಸಲು ಪ್ರೇರೇಪಿಸುವುದು.
ಈ ಬೆಂಚ್ಮಾರ್ಕ್ ಅನ್ನು ನಿಖರವಾಗಿ ಆ ವಿಫಲತೆಯ ಮಾದರಿಗಳ ಸುತ್ತ ನಿರ್ಮಿಸಲಾಗಿದೆ. ಹದಿನೈದು ಪ್ರಕರಣಗಳಲ್ಲಿ ಪ್ರತಿಯೊಂದನ್ನೂ ನಿರ್ದಿಷ್ಟ ರೋಗನಿರ್ಣಯ ಗುಣಲಕ್ಷಣಕ್ಕಾಗಿ ಆಯ್ಕೆ ಮಾಡಲಾಗಿದೆ: ಒಂದೇ mean corpuscular volume ಹೊಂದಿರುವ beta-thalassaemia trait ನಿಂದ ಬೇರ್ಪಡಿಸಬೇಕಾದ iron-deficient microcytosis, ಅಲ್ಲಿ ಏಕೈಕ ಅಸಾಮಾನ್ಯತೆ isolated indirect hyperbilirubinaemia ಆಗಿರುವ Gilbert's syndrome ಪ್ರಸ್ತುತಿ, ಮತ್ತು ಹದಿನೈದು-ಪ್ಯಾರಾಮೀಟರ್ screening ಪ್ಯಾನೆಲ್ನಲ್ಲಿ ಪ್ರತಿಯೊಂದು analyte ತನ್ನ reference range ಒಳಗೇ ಇರುವ ಪರಿಸ್ಥಿತಿ. ರೂಬ್ರಿಕ್ ಅಂತಹ ಎಂಜಿನ್ಗಳಿಗೆ ಬಹುಮಾನ ನೀಡುತ್ತದೆ—ಪ್ರತಿ ಪ್ರಕರಣವನ್ನು ಅದರದೇ ಅರ್ಥದಲ್ಲಿ ಓದುವ ಎಂಜಿನ್ಗಳಿಗೆ—ಮತ್ತು ಯಾವುದೇ ಅಂತಹ ರೋಗನಿರ್ಣಯಕ್ಕೆ ಆಧಾರವಿಲ್ಲದಿದ್ದರೂ ಆತ್ಮವಿಶ್ವಾಸದ ರೋಗನಿರ್ಣಯಕ್ಕೆ ತಲುಪುವ ಎಂಜಿನ್ಗಳಿಗೆ ದಂಡ ವಿಧಿಸುತ್ತದೆ.
ಡಾ. ಥಾಮಸ್ ಕ್ಲೈನ್ (MD) ಆಗಿ, ನಾನು ಈ ಪ್ರಕರಣ ಪ್ಯಾನೆಲ್ ಅನ್ನು ಆಯ್ಕೆ ಮಾಡಿದೆ, ಏಕೆಂದರೆ ಪ್ರಯೋಗಾಲಯ-ವೈದ್ಯಕೀಯ ಸಹಾಯಕರು ಹೆಚ್ಚು ಬಾರಿ ತಪ್ಪಾಗಿ ಪಡೆಯುವ ಮಾದರಿಗಳು ಇವು. ದುಬಾರಿ ವಿಫಲತೆಯ ಮಾದರಿ "ಅಪರೂಪದ ರೋಗವನ್ನು ತಪ್ಪಿಸುವುದು" ಅಲ್ಲ — ಅದಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿ, ಅದನ್ನು ಹೊಂದಿರದ ರೋಗಿಗಳಲ್ಲಿ ಸಾಮಾನ್ಯ ರೋಗಪಥ್ಯವನ್ನು ಕಲ್ಪಿಸಿ ಸೃಷ್ಟಿಸುವುದು. ನಮ್ಮ ವೈದ್ಯಕೀಯ ದೃಢೀಕರಣ ಹಬ್ ವ್ಯಾಪಕವಾದ ಫ್ರೇಮ್ವರ್ಕ್ ಅನ್ನು ವಿವರಿಸುತ್ತದೆ; ಈ ಪುಟವು V11 ಮೊದಲ ಪ್ರೂಫ್-ಆಫ್-ಕಾನ್ಸೆಪ್ಟ್ ಮತ್ತು ಅದನ್ನು 127 ದೇಶ ಲೇಬಲ್ಗಳನ್ನು ಒಳಗೊಂಡ ಸಂಶ್ಲೇಷಿತ ಕೇಸ್ ಸೆಟ್ನಿಂದ ತೆಗೆದುಕೊಂಡ 100,000 ಸಂಶ್ಲೇಷಿತ ಪ್ರಕರಣಗಳಿಗೆ ವಿಸ್ತರಿಸಿದ V11 ಎರಡನೇ ನವೀಕರಣವನ್ನು ವಿವರಿಸುತ್ತದೆ — ಅದೇ ಸ್ಕೋರಿಂಗ್ ರೂಬ್ರಿಕ್, ಬೈಟ್-ಐಡೆಂಟಿಕಲ್, ಮತ್ತು ಪೋಸ್ಟ್-ಹಾಕ್ ಟ್ಯೂನಿಂಗ್ಗೆ ಅನುಮತಿ ಇಲ್ಲದೆ.
26 ಏಪ್ರಿಲ್ 2026ರ V11 Second Update ರೆಫರೆನ್ಸ್ ರನ್ ಒಟ್ಟು ಸಂಯುಕ್ತ ಸ್ಕೋರ್ ಅನ್ನು ಉತ್ಪಾದಿಸಿತು
V11 ಆರಂಭಿಕ ಬಿಡುಗಡೆದಲ್ಲಿ ಬಳಸಿದ ಅದೇ ಪೂರ್ವ-ನೋಂದಾಯಿತ ರೂಬ್ರಿಕ್ ಮೇಲೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾಗಿದೆ 99.80% 100,000 ಅನಾಮಧೇಯ ಕೇಸ್ಗಳ ಮೇಲೆ 100,000 ಸಂಶ್ಲೇಷಿತ ಪ್ರಕರಣಗಳು Kantesti ಸಂಶ್ಲೇಷಿತ ಕೇಸ್ ಸೆಟ್ನಿಂದ ತೆಗೆದುಕೊಳ್ಳಲಾಗಿದೆ ಮತ್ತು ವ್ಯಾಪಿಸುವುದು 127 ದೇಶ ಲೇಬಲ್ಗಳು . 23 ಏಪ್ರಿಲ್ 2026ರ ಮೂಲ V11 ರನ್ 15 ಕೈಯಿಂದ ಆಯ್ದ ಕೇಸ್ಗಳನ್ನು (ಸಂಯುಕ್ತ 99.12%) ಒಳಗೊಂಡಿತ್ತು ಮತ್ತು ರೂಬ್ರಿಕ್ ಅನ್ನು ಮಾನ್ಯಗೊಳಿಸಿತು; Second Update ಅದೇ ರೂಬ್ರಿಕ್ ಅನ್ನು ಬೈಟ್-ಐಡೆಂಟಿಕಲ್ ಆಗಿ ಉಳಿಸಿಕೊಂಡು ಮೌಲ್ಯಮಾಪನವನ್ನು ಜನಸಂಖ್ಯಾ-ಮಟ್ಟದ cohort ಗೆ ವಿಸ್ತರಿಸುತ್ತದೆ. 0 / 87,412. 100,000ರಲ್ಲಿ 100,000 ಕೇಸ್ಗಳಿಗೆ ಸ್ಕೋರ್.
ಸಂಯುಕ್ತ ಸೂತ್ರವು ಮೂರು ಘಟಕಗಳನ್ನು ಸಂಯೋಜಿಸುತ್ತದೆ: ರಚನಾತ್ಮಕ ಹೊಂದಾಣಿಕೆ ಏಳು ಕಡ್ಡಾಯ ವರದಿ ವಿಭಾಗಗಳು ಮತ್ತು ಹದಿನಾರು ಕಡ್ಡಾಯ ಉಪವಿಭಾಗಗಳೊಂದಿಗೆ, ವಿಷಯದ ನಿಖರತೆ ಇದನ್ನು keyword recall + scoring-system recall + probability-distribution validity check ಮೂಲಕ ಅಳೆಯಲಾಗುತ್ತದೆ, ಮತ್ತು ಪ್ರತಿಕ್ರಿಯಾ ವಿಳಂಬ (response latency) ಉಳಿದಿರುವ 0.20 ಶೇಕಡಾ ಪಾಯಿಂಟ್ಗಳಷ್ಟು headroom ಬಹುತೇಕ ಸಂಪೂರ್ಣವಾಗಿ ಕ್ಲಿನಿಕಲ್ ಉಪ-ಸ್ಕೋರ್ಗೆ ವಿಭಜನೆಯಾಗುತ್ತದೆ — ನಿರೀಕ್ಷಿತ ಸ್ಕೋರಿಂಗ್-ಸಿಸ್ಟಮ್ ಕೀವರ್ಡ್ ಎಂಜಿನ್ನ ವ್ಯಾಖ್ಯಾನದಲ್ಲಿ ಗೈರುಹಾಜರಿದ್ದ ಕೆಲವು ಕೇಸ್ಗಳು (ಮುಖ್ಯವಾಗಿ Hepatology ಮತ್ತು Rheumatology ನಲ್ಲಿ) ಇದ್ದವು, ಆದರೆ ರೋಗನಿರ್ಣಯದ ವಿಷಯ ಸರಿಯಾಗಿತ್ತು.
100,000-ಕೇಸ್ Second-Update cohort ನಲ್ಲಿ ಯಾವುದೇ ಕೇಸ್ ಸ್ವತಃ ರೋಗನಿರ್ಣಯವನ್ನು ತಪ್ಪಿಸಿಲ್ಲ. ವಿಳಂಬವು V11 ಆರಂಭಿಕ ಬಿಡುಗಡೆದಲ್ಲಿ ಸರಾಸರಿ 20.17 s ಇಂದ Second Update ನಲ್ಲಿ 13.26 s ಗೆ ಸುಧಾರಿಸಿತು; ಈ ಎರಡು ರನ್ಗಳ ನಡುವೆ ಉತ್ಪಾದನಾ ಎಂಜಿನ್ ಆಪ್ಟಿಮೈಸೇಶನ್ಗಳನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆ. ರೂಬ್ರಿಕ್, ಸ್ಕೋರಿಂಗ್ ಕೋಡ್, ಮತ್ತು API ಎಂಡ್ಪಾಯಿಂಟ್ ಬದಲಾಗಿಲ್ಲ. ದೇಶಾನುಸಾರ ಸಂಯುಕ್ತ ಸ್ಕೋರ್ಗಳು ಅತ್ಯಂತ ಪ್ರತಿನಿಧಿತ 30 ದೇಶಗಳಲ್ಲಿ 0.9971 (ಭಾರತ) ರಿಂದ 0.9985 (ಸ್ವಿಟ್ಜರ್ಲ್ಯಾಂಡ್) ವರೆಗೆ ಇತ್ತು. ಹೆಚ್ಚುವರಿ 97 ದೇಶಗಳ ದೀರ್ಘ tail (ಒಟ್ಟಾರೆ ≈7,300 ಕೇಸ್ಗಳು) ಯಾವುದೇ ವ್ಯವಸ್ಥಿತ ಕುಸಿತ ತೋರಿಸಲಿಲ್ಲ. ಕೇಸ್ ಸಂಖ್ಯೆಯ ಆಧಾರದ ಮೇಲೆ ಪ್ರಮುಖ ಕೊಡುಗೆದಾರರು: ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ (10,500), ಬ್ರೆಜಿಲ್ (9,500), ಸ್ಪೇನ್ (9,000), ಇಟಲಿ (8,000), ಜರ್ಮನಿ (7,800), ಫ್ರಾನ್ಸ್ (7,400), ಪೋರ್ಚುಗಲ್ (5,800), Türkiye (3,400), ಯುನೈಟೆಡ್ ಕಿಂಗ್ಡಮ್ (2,900), ಮತ್ತು ಮೆಕ್ಸಿಕೋ (2,500).
ಪ್ರತಿ-ಲೇಬಲ್ ಸಂಯುಕ್ತ ಅಂಕಗಳು ಅತ್ಯಂತ ಹೆಚ್ಚು ಪ್ರತಿನಿಧಿಸಲಾದ 30 ದೇಶ ಲೇಬಲ್ಗಳಾದ್ಯಂತ 0.9971 ರಿಂದ 0.9985 ವರೆಗೆ ಇದ್ದವು. ಉಳಿದ 97 ಹೆಚ್ಚುವರಿ ಲೇಬಲ್ಗಳ ದೀರ್ಘ ಟೇಲ್ (ಒಟ್ಟಾಗಿ ≈7,300 ಪ್ರಕರಣಗಳು) ಯಾವುದೇ ವ್ಯವಸ್ಥಿತ ಕುಸಿತವನ್ನು ತೋರಿಸಲಿಲ್ಲ. ಪ್ರಕರಣಗಳ ಸಂಖ್ಯೆಯ ಆಧಾರದ ಮೇಲೆ ಅತ್ಯಂತ ಸಾಮಾನ್ಯ ಲೇಬಲ್ಗಳು: ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ (10,500), ಬ್ರೆಜಿಲ್ (9,500), ಸ್ಪೇನ್ (9,000), ಇಟಲಿ (8,000), ಜರ್ಮನಿ (7,800), ಫ್ರಾನ್ಸ್ (7,400), ಪೋರ್ಚುಗಲ್ (5,800), Türkiye (3,400), ಯುನೈಟೆಡ್ ಕಿಂಗ್ಡಮ್ (2,900), ಮತ್ತು ಮೆಕ್ಸಿಕೋ (2,500).
15 ಪ್ರಕರಣಗಳಿಂದ 100,000ಕ್ಕೆ: 127 ದೇಶ ಲೇಬಲ್ಗಳಾದ್ಯಂತ ಕೋಹೋರ್ಟ್ ವಿಕಾಸ
ಮೂಲ V11 ಕೇಸ್ ಪ್ಯಾನೆಲ್ ಏಳು ವಿಶೇಷತೆಗಳನ್ನು ಒಳಗೊಂಡಿತ್ತು — ಹೆಮಟಾಲಜಿ, ಎಂಡೋಕ್ರೈನಾಲಜಿ, ಮೆಟಾಬಾಲಿಕ್ ಮೆಡಿಸಿನ್, ಹೆಪಟಾಲಜಿ, ನೆಫ್ರಾಲಜಿ, ಕಾರ್ಡಿಯಾಲಜಿ, ರ್ಯೂಮಟಾಲಜಿ — ಜೊತೆಗೆ ಎರಡು ಸಮರ್ಪಿತ ಹೈಪರ್ಡಯಾಗ್ನೋಸಿಸ್ ಟ್ರ್ಯಾಪ್ ಪ್ರಕರಣಗಳು; ಪ್ರತಿಯೊಂದು ಕೇಸ್ ಕೂಡ ಸಂಶ್ಲೇಷಿತವಾಗಿ ರಚಿಸಲಾದ ರಕ್ತ-ಪರೀಕ್ಷಾ ಪ್ಯಾನೆಲ್ ಆಗಿತ್ತು. V11 ಎರಡನೇ ನವೀಕರಣವು ಮೌಲ್ಯಮಾಪನವನ್ನು ವಿಸ್ತರಿಸುತ್ತದೆ 127 ದೇಶ ಲೇಬಲ್ಗಳಾದ್ಯಂತ 100,000 ಸಂಶ್ಲೇಷಿತ ಪ್ರಕರಣಗಳಿಗೆ, hematology, endocrinology, metabolic medicine, hepatology, nephrology, cardiology, rheumatology ಗಳಲ್ಲಿ V11 ಆರಂಭಿಕ ಕೇಸ್-ಪ್ಯಾನೆಲ್ ವಿನ್ಯಾಸ — ಜೊತೆಗೆ ಎರಡು ಟ್ರ್ಯಾಪ್ ಕೇಸ್ಗಳು: Gilbert's syndrome ಮತ್ತು ಸಂಪೂರ್ಣವಾಗಿ ಸಾಮಾನ್ಯ screening ಪ್ಯಾನೆಲ್. Second Update ಈ ರೂಬ್ರಿಕ್ ಅನ್ನು ಬೈಟ್-ಐಡೆಂಟಿಕಲ್ ಆಗಿ ಉಳಿಸಿಕೊಂಡು cohort ಅನ್ನು Kantesti SQL ರೆಪೊಸಿಟರಿಯಿಂದ ತೆಗೆದುಕೊಂಡ 100,000 ಕೇಸ್ಗಳಿಗೆ ವಿಸ್ತರಿಸುತ್ತದೆ.
ಎಲ್ಲಾ ಪ್ರಕರಣಗಳು ಸಂಶ್ಲೇಷಿತವಾಗಿ ರಚಿಸಲ್ಪಟ್ಟಿರುವುದರಿಂದ, ತೆಗೆದುಹಾಕಲು ನಿಜವಾದ ಗುರುತುಗಳಿಲ್ಲ ಮತ್ತು ಯಾವುದೇ ವೈಯಕ್ತಿಕ ಡೇಟಾ ಒಳಗೊಂಡಿಲ್ಲ. ಪ್ರತಿಯೊಂದು ಸಂಶ್ಲೇಷಿತ ಕೇಸ್ಗೆ ಬೆಂಚ್ಮಾರ್ಕ್-ಆಂತರಿಕ ಕೇಸ್ ಕೋಡ್ ಇರುತ್ತದೆ (V11 ಮೊದಲ ಸೆಟ್ನಲ್ಲಿ BT-NNN-LABEL, ಎರಡನೇ ನವೀಕರಣದಲ್ಲಿ ಸ್ಥಿರವಾದ . Second Updateಗಾಗಿ ಪ್ರಕ್ರಿಯೆಯನ್ನು ). ಪ್ರಕಟಿತ ಹಾರ್ನೆಸ್, ತಾಂತ್ರಿಕ ವರದಿ, ಅಥವಾ ಬಿಡುಗಡೆಗೊಂಡ ಡೇಟಾಸೆಟ್ಗಳಲ್ಲಿ ಎಲ್ಲಿಯೂ ವೈಯಕ್ತಿಕ ಡೇಟಾ ಕಾಣಿಸುವುದಿಲ್ಲ.
V11 initial release — 15 hand-curated cases
ಮೂಲ V11 ಪ್ರಕರಣ ಪ್ಯಾನೆಲ್ ಅನ್ನು ಡಾ. ಥಾಮಸ್ ಕ್ಲೈನ್ ಅವರು ಕೈಯಾರೆ ಆಯ್ಕೆ ಮಾಡಿ, ಪ್ರಯೋಗಾಲಯ-ವೈದ್ಯಕೀಯ ಸಹಾಯಕರು ಹೆಚ್ಚು ಬಾರಿ ತಪ್ಪಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವ ರೋಗನಿರ್ಣಯ ಮಾದರಿಗಳನ್ನು ಅಭ್ಯಾಸ ಮಾಡಲು ರೂಪಿಸಿದ್ದಾರೆ. ಕೆಳಗೆ ಪಟ್ಟಿ ಮಾಡಿದಂತೆ, ಹದಿನೈದು ಪ್ರಕರಣಗಳಲ್ಲಿ ಪ್ರತಿಯೊಂದನ್ನೂ ನಿರ್ದಿಷ್ಟ ರೋಗನಿರ್ಣಯ ಗುಣಲಕ್ಷಣಕ್ಕಾಗಿ ಆಯ್ಕೆ ಮಾಡಲಾಗಿದೆ.
ಈ ನಿರ್ದಿಷ್ಟ ವಿತರಣೆಯ ಕಾರಣ
ವಾಸ್ತವ ಜಗತ್ತಿನ ಪ್ರಯೋಗಾಲಯ ಅಭ್ಯಾಸದಲ್ಲಿ ಮೈಕ್ರೋಸೈಟಿಕ್ ಡಿಫರೆನ್ಷಿಯಲ್ಸ್ ಮತ್ತು ಮ್ಯಾಕ್ರೋಸೈಟಿಕ್ ಡಿಫರೆನ್ಷಿಯಲ್ಸ್ ಅತಿ ಹೆಚ್ಚು ಪ್ರಮಾಣದ “ಟ್ರ್ಯಾಪ್” ಗಳಾಗಿರುವುದರಿಂದ ಹೆಮಟಾಲಜಿ ಮೂರು ಪ್ರಕರಣಗಳನ್ನು ಪಡೆಯುತ್ತದೆ. ಹ್ಯಾಶಿಮೋಟೋಸ್, PCOS, ಮತ್ತು ವಿಟಮಿನ್ ಡಿ ಕೊರತೆ ಎಂಬ ಪ್ರಸ್ತುತಿಗಳು ವಿಭಿನ್ನ ರೋಗನಿರ್ಣಯದ ಆಕಾರಗಳನ್ನು (ಆಟೋಆಂಟಿಬಾಡಿ ಚಾಲಿತ, ಹಾರ್ಮೋನ್ ಅನುಪಾತ ಚಾಲಿತ, ಏಕ-ಮಾರ್ಕರ್ ಚಾಲಿತ) ಅಭ್ಯಾಸ ಮಾಡುವುದರಿಂದ ಎಂಡೋಕ್ರೈನಾಲಜಿ ಮೂರು ಪ್ರಕರಣಗಳನ್ನು ಪಡೆಯುತ್ತದೆ. CKD, ASCVD ಅಪಾಯ, ಮತ್ತು SLE ಪ್ರತಿಯೊಂದಕ್ಕೂ ತನ್ನದೇ ಆದ ಸ್ಕೋರಿಂಗ್ ವ್ಯವಸ್ಥೆ ಇರುವುದರಿಂದ ಮತ್ತು ಎಂಜಿನ್ ಅದನ್ನು ಕರೆಯಬೇಕಾಗಿರುವುದರಿಂದ ಏಕ-ಪ್ರಕರಣ ವಿಶೇಷತೆಗಳು ಇನ್ನೂ ಅರ್ಥಪೂರ್ಣವಾಗಿವೆ (ಕ್ರಮವಾಗಿ KDIGO ಸ್ಟೇಜಿಂಗ್, ASCVD 10-ವರ್ಷ ಅಪಾಯ, 2019 EULAR/ACR SLE ಮಾನದಂಡಗಳು).
V11 ಎರಡನೇ ನವೀಕರಣ — 127 ದೇಶ ಲೇಬಲ್ಗಳಾದ್ಯಂತ 100,000 ಸಂಶ್ಲೇಷಿತ ಪ್ರಕರಣಗಳು
ಎರಡನೇ ನವೀಕರಣವು ಮೂಲ V11 ಹಾರ್ಡ್-ಕೋಡ್ ಮಾಡಿದ 15-ಕೇಸ್ Python ಲಿಟರಲ್ ಅನ್ನು ದೊಡ್ಡದಾದ, ಪ್ರೋಗ್ರಾಮ್ಯಾಟಿಕಲ್ವಾಗಿ ರಚಿಸಲಾದ ಸಂಶ್ಲೇಷಿತ ಕೇಸ್ ಸೆಟ್ನೊಂದಿಗೆ ಬದಲಿಸುತ್ತದೆ. ಕೇಸ್ ಸೆಟ್ ಪ್ರತಿಯೊಂದು ರನ್ನ ಆರಂಭದಲ್ಲೇ ಲೋಡ್ ಆಗುತ್ತದೆ ಮತ್ತು ಪಾರದರ್ಶಕತೆಯಿಗಾಗಿ ಸಂರಚನೆಯನ್ನು ಲಾಗ್ ಮಾಡಲಾಗುತ್ತದೆ. ವಿಷಯ-ಪ್ರದೇಶದ ಆಧಾರದ ಮೇಲೆ ಕೋಹೋರ್ಟ್ ವಿತರಣೆಯನ್ನು ಕೆಳಗೆ ತೋರಿಸಲಾಗಿದೆ.
ಸಂಶ್ಲೇಷಿತ ದೇಶ-ಲೇಬಲ್ ವಿತರಣಾ — ಟಾಪ್ 10 ಲೇಬಲ್ಗಳು
100,000 ಸಂಶ್ಲೇಷಿತ ಪ್ರಕರಣಗಳು ಸ್ಥಳೀಯತೆ (locale) ನಿರ್ವಹಣೆಯನ್ನು ಪರೀಕ್ಷಿಸಲು 127 ದೇಶ ಲೇಬಲ್ಗಳನ್ನು (ISO 3166-1 alpha-2) ಹೊತ್ತಿರುತ್ತವೆ. ಲೇಬಲ್ ನಿಯೋಜನೆ: ಯೂರೋಪ್ 57.7%, ಅಮೆರಿಕಾಸ್ 25.4%, ಏಷ್ಯಾ-ಪೆಸಿಫಿಕ್ 6.2%, ನಾಮಕರಣಗೊಂಡ ಮಧ್ಯ-ಪೂರ್ವ/ಆಫ್ರಿಕಾ ಲೇಬಲ್ಗಳು 3.4%, ಮತ್ತು ಉಳಿದ 97 ಹೆಚ್ಚುವರಿ ಲೇಬಲ್ಗಳ ದೀರ್ಘ ಟೇಲ್ ಒಟ್ಟಾಗಿ ಸುಮಾರು 7.3%. ಪ್ರಕರಣಗಳ ಸಂಖ್ಯೆಯ ಆಧಾರದ ಮೇಲೆ ಅತ್ಯಂತ ಹೆಚ್ಚು ಇರುವ ಹತ್ತು ಲೇಬಲ್ಗಳು: ಯುನೈಟೆಡ್ ಸ್ಟೇಟ್ಸ್ (10,500), ಬ್ರೆಜಿಲ್ (9,500), ಸ್ಪೇನ್ (9,000), ಇಟಲಿ (8,000), ಜರ್ಮನಿ (7,800), ಫ್ರಾನ್ಸ್ (7,400), ಪೋರ್ಚುಗಲ್ (5,800), Türkiye (3,400), ಯುನೈಟೆಡ್ ಕಿಂಗ್ಡಮ್ (2,900), ಮತ್ತು ಮೆಕ್ಸಿಕೋ (2,500). ಪ್ರತಿ-ಲೇಬಲ್ ಸಂಯುಕ್ತ ಅಂಕಗಳು 0.9971 ರಿಂದ 0.9985 ವರೆಗೆ ಇದ್ದವು. ಈ ಲೇಬಲ್ ಎಣಿಕೆಗಳು ಸ್ಥಳೀಯತೆ ನಿರ್ವಹಣೆಯನ್ನು ಪರೀಕ್ಷಿಸಲು ಬಳಸಲಾದ ರಚಿಸಲಾದ ಪ್ರಕರಣಗಳ ಗುಣಲಕ್ಷಣಗಳು — ಇವು ನಿಜವಾದ ಬಳಕೆದಾರರು ಅಲ್ಲ ಮತ್ತು ನಿಜಜಗತ್ತಿನ ಭೌಗೋಳಿಕ ವ್ಯಾಪ್ತಿಯೂ ಅಲ್ಲ.
ಪೂರ್ವ-ನೋಂದಾಯಿತ ರೂಬ್ರಿಕ್ — ವಿವರಿಸಲಾಗಿದೆ
ಈ ಬೆಂಚ್ಮಾರ್ಕ್ನಲ್ಲಿ ಪ್ರೀ-ರಿಜಿಸ್ಟ್ರೇಶನ್ ಅತ್ಯಂತ ಪ್ರಮುಖವಾದ ವಿಧಾನಾತ್ಮಕ ಆಯ್ಕೆ. ನಿರೀಕ್ಷಿತ ಪ್ರತಿಯೊಂದು ರೋಗನಿರ್ಣಯ, ಪ್ರತಿಯೊಂದು ಕ್ಲಿನಿಕಲ್ ಸ್ಕೋರಿಂಗ್ ವ್ಯವಸ್ಥೆ, ಮತ್ತು ಪ್ರತಿಯೊಂದು ವರದಿ ವಿಭಾಗವನ್ನು ಮೂಲ ಕೋಡ್ಗೆ ಬದ್ಧಗೊಳಿಸಲಾಗಿತ್ತು ಎಂಜಿನ್ ಅನ್ನು ಕರೆಯುವ ಮೊದಲು. ಆದ್ದರಿಂದ ಎಂಜಿನ್ ಅನ್ನು ಮೆಚ್ಚಿಸುವಂತೆ ರೂಬ್ರಿಕ್ಗೆ ನಂತರದ ಹಂತದಲ್ಲಿ ಟ್ಯೂನಿಂಗ್ ಮಾಡುವುದು ಸಾಧ್ಯವಿಲ್ಲ.
ಸಂಯುಕ್ತ ಸ್ಕೋರ್ ಅನ್ನು ರೂಪಿಸುವ ಮೂರು ಘಟಕಗಳಿವೆ. ರಚನಾತ್ಮಕ ಘಟಕ 35 ಶೇಕಡಾ ಕೊಡುಗೆ ನೀಡುತ್ತದೆ ಮತ್ತು ಎಂಜಿನ್ ಏಳು ಕಡ್ಡಾಯ ವರದಿ ವಿಭಾಗಗಳನ್ನು (ಹೆಡರ್, ಸಾರಾಂಶ, ಪ್ರಮುಖ ಕಂಡುಬಂದವುಗಳು, ಡಿಫರೆನ್ಷಿಯಲ್, ಸ್ಕೋರಿಂಗ್ ವ್ಯವಸ್ಥೆಗಳು, ಶಿಫಾರಸುಗಳು, ಫಾಲೋ-ಅಪ್) ಮತ್ತು ಅವುಗಳೊಳಗಿನ ಹದಿನಾರು ಕಡ್ಡಾಯ ಉಪವಿಭಾಗಗಳನ್ನು ಹಿಂತಿರುಗಿಸಿದ್ದೇ ಎಂಬುದನ್ನು ಅಳೆಯುತ್ತದೆ. ವಿಭಾಗದ ಉಪಸ್ಥಿತಿ ರಚನಾತ್ಮಕ ಲೆಕ್ಕಾಚಾರದಲ್ಲಿ 40 ಶೇಕಡಾ ತೂಕ ಹೊಂದಿದ್ದು, ಉಪವಿಭಾಗದ ಉಪಸ್ಥಿತಿ 60 ಶೇಕಡಾ ತೂಕ ಹೊಂದಿದೆ.
ದಿ ಕ್ಲಿನಿಕಲ್ ಘಟಕ 55 ಶೇಕಡಾ ಕೊಡುಗೆ ನೀಡುತ್ತದೆ ಮತ್ತು ಮೂರು ವಿಷಯಗಳನ್ನು ಒಟ್ಟುಗೂಡಿಸುತ್ತದೆ: ರೋಗನಿರ್ಣಯ-ಕೀವರ್ಡ್ ರಿಕಾಲ್ (ಕ್ಲಿನಿಕಲ್ ಉಪ-ಸ್ಕೋರ್ನ 70 ಶೇಕಡಾ), ಸ್ಕೋರಿಂಗ್-ವ್ಯವಸ್ಥೆ ರಿಕಾಲ್ (20 ಶೇಕಡಾ — ಸಂಬಂಧಿಸಿದಲ್ಲಿ ಎಂಜಿನ್ Mentzer, FIB-4, HOMA-IR, ASCVD ಅಪಾಯ, KDIGO ಸ್ಟೇಜಿಂಗ್, EULAR/ACR ಮಾನದಂಡಗಳನ್ನು ಲೆಕ್ಕ ಹಾಕುತ್ತದೆಯೇ), ಮತ್ತು ಪ್ರಾಬಬಿಲಿಟಿ-ಸಮ್ ಮಾನ್ಯತೆ ಪರಿಶೀಲನೆ (10 ಶೇಕಡಾ — ಡಿಫರೆನ್ಷಿಯಲ್ ಪ್ರಾಬಬಿಲಿಟಿಗಳು [90, 110] ಅಂತರದೊಳಗೆ ಮೊತ್ತವಾಗಿರಬೇಕು). ಟ್ರ್ಯಾಪ್ ಪ್ರಕರಣಗಳಿಗಾಗಿ, ಗರಿಷ್ಠ 0.30 ವರೆಗೆ ಸ್ಪಷ್ಟ “ಹೈಪರ್-ಡಯಾಗ್ನೋಸಿಸ್” ದಂಡವನ್ನು ಕಡಿತಗೊಳಿಸಲಾಗುತ್ತದೆ; ಇದು ತಯಾರಿಸಿದ ಪ್ರತಿಯೊಂದು ಪಥಾಲಜಿ ಫ್ಲ್ಯಾಗ್ಗೆ 0.10 ಎಂದು ಲೆಕ್ಕ ಹಾಕಿ, ಗರಿಷ್ಠ ಮೂರು ಫ್ಲ್ಯಾಗ್ಗಳಿಗೆ ಮಿತಿಗೊಳಿಸಲಾಗಿದೆ.
ದಿ ಲೇಟೆನ್ಸಿ ಘಟಕ 10 ಶೇಕಡಾ ಕೊಡುಗೆ ನೀಡುತ್ತದೆ. 20 ಸೆಕೆಂಡುಗಳೊಳಗಿನ ಪ್ರತಿಕ್ರಿಯೆಗೆ ಪೂರ್ಣ 0.10 ಸಿಗುತ್ತದೆ, 40 ಸೆಕೆಂಡುಗಳೊಳಗಿನ ಪ್ರತಿಕ್ರಿಯೆಗೆ 0.05 ಸಿಗುತ್ತದೆ, ಮತ್ತು ಅದಕ್ಕಿಂತ ನಿಧಾನವಾದುದಕ್ಕೆ ಶೂನ್ಯ. 20 ಸೆಕೆಂಡು ಗುರಿ ಉತ್ಪಾದನಾ ಪ್ರಾಥಮಿಕ-ಪಾಥ್ ಸೇವಾ-ಮಟ್ಟದ ಉದ್ದೇಶವನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆ; 40 ಸೆಕೆಂಡು ಮಿತಿ ಭಾರೀ-ಎಂಜಿನ್ ಕರೆಯಿಕೆಗಳಿಗಾಗಿ ಫೇಸ್ 2 ಬ್ಯಾಕಪ್ ಬಜೆಟ್ ಅನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆ.
ಪ್ರೀ-ರಿಜಿಸ್ಟ್ರೇಶನ್ ಏನು ತಡೆಯುತ್ತದೆ
ಫಸ್ಟ್-ಪಾರ್ಟಿ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳು ಪೋಸ್ಟ್-ಹಾಕ್ ರೂಬ್ರಿಕ್ ಟ್ಯೂನಿಂಗ್ ಮೂಲಕ ತಮ್ಮದೇ ಸಂಖ್ಯೆಯನ್ನು ಹೆಚ್ಚಿಸುವುದರಲ್ಲಿ ಪ್ರಸಿದ್ಧ. ಮಾದರಿ ಬಹುತೇಕ ಯಾವಾಗಲೂ ಒಂದೇ: ತಂಡ ಎಂಜಿನ್ ಅನ್ನು ಓಡಿಸಿ, ಎಲ್ಲಿ ಕಡಿಮೆ ಕಾರ್ಯಕ್ಷಮತೆ ಇದೆ ಎಂದು ನೋಡಿ, ನಂತರ ಆ ಕಡಿಮೆ ಕಾರ್ಯಕ್ಷಮ ಪ್ರದೇಶಗಳು ಕಡಿಮೆ ಎಣಿಕೆಯಾಗುವಂತೆ ರೂಬ್ರಿಕ್ ಅನ್ನು ಮೌನವಾಗಿ ಸರಿಪಡಿಸುತ್ತದೆ. ಮೊದಲ ಎಂಜಿನ್ ಕರೆ ಮಾಡುವ ಮೊದಲು ರೂಬ್ರಿಕ್ ಅನ್ನು ಮೂಲ ಕೋಡ್ಗೆ ಬದ್ಧಗೊಳಿಸಿ, MIT ಪರವಾನಗಿಯಡಿ ಹಾರ್ನೆಸ್ ಅನ್ನು ಪ್ರಕಟಿಸುವುದರಿಂದ, ಆ ಸರಿಪಡಿಕೆ ಆವೃತ್ತಿ ನಿಯಂತ್ರಣದಲ್ಲಿ ಗೋಚರವಾಗುತ್ತದೆ. ಯಾರಾದರೂ ರೆಪೊಸಿಟರಿಯನ್ನು ಕ್ಲೋನ್ ಮಾಡಿ, ರೂಬ್ರಿಕ್ ಲೇಖಕರ ದಿನಾಂಕಗಳನ್ನು ಪರಿಶೀಲಿಸಿ, ಮತ್ತು ಸ್ಕೋರಿಂಗ್ ಅನ್ನು ರೂಪಿಸಲು ಎಂಜಿನ್ ಫಲಿತಾಂಶಗಳನ್ನು ಬಳಸಿಲ್ಲವೆಂದು ದೃಢೀಕರಿಸಬಹುದು.
ಹೈಪರ್ಡಯಾಗ್ನೋಸಿಸ್ ಟ್ರ್ಯಾಪ್ ಪ್ರಕರಣಗಳು — ಅತಿಯಾಗಿ ಕರೆಮಾಡುವುದು ನಿಜವಾದ ವೈಫಲ್ಯ ಮೋಡ್ ಏಕೆ
ಸಾಮಾನ್ಯ ಸ್ಕ್ರೀನ್ಗಳಲ್ಲಿ ಪಥಾಲಜಿಯನ್ನು ಅತಿಯಾಗಿ ಕರೆದು ಹೇಳುವುದು ಗ್ರಾಹಕಮುಖ ವೈದ್ಯಕೀಯ ಸಹಾಯಕರಲ್ಲಿ ದಾಖಲಾಗಿರುವ ವೈಫಲ್ಯ ಮಾದರಿಯಾಗಿದೆ. ಅದರ ಕೆಳಗಿನ ವೆಚ್ಚಗಳಲ್ಲಿ ಅನಗತ್ಯ ತನಿಖೆ, ರೋಗಿಯ ಆತಂಕ, ಮತ್ತು iatrogenic (ಚಿಕಿತ್ಸೆಯಿಂದ ಉಂಟಾಗುವ) ವರ್ಕ್ಅಪ್ ಸೇರಿವೆ. ಈ ಬೆಂಚ್ಮಾರ್ಕ್ನಲ್ಲಿನ ಎರಡು ಟ್ರ್ಯಾಪ್ ಪ್ರಕರಣಗಳನ್ನು ಈ ವೈಫಲ್ಯ ಮಾದರಿಯನ್ನು ಗೋಚರವಾಗುವಂತೆ ಮತ್ತು ಸ್ಕೋರ್ ಮಾಡಬಹುದಾಗುವಂತೆ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ.
🟡 ಟ್ರ್ಯಾಪ್ 1 — BT-014-GILBERT
ಪ್ರಸ್ತುತಿಕೆ. ಒಟ್ಟು ಬಿಲಿರುಬಿನ್ 2.4 mg/dL ಇರುವ 24 ವರ್ಷದ ಪುರುಷ. ಡೈರೆಕ್ಟ್ ಭಾಗ ಸಾಮಾನ್ಯವಾಗಿದೆ, ಟ್ರಾನ್ಸ್ಅಮಿನೇಸ್ಗಳು ಮತ್ತು ಅಲ್ಕಲೈನ್ ಫಾಸ್ಫಟೇಸ್ ತಮ್ಮ ಉಲ್ಲೇಖ ಶ್ರೇಣಿಗಳೊಳಗೆ ಇವೆ, ರೆಟಿಕ್ಯುಲೋಸೈಟ್ಗಳು ಗಮನಾರ್ಹವಾಗಿಲ್ಲ, ಮತ್ತು ಹ್ಯಾಪ್ಟೋಗ್ಲೋಬಿನ್ ಹಾಗೂ LDH ಹೀಮೋಲಿಸಿಸ್ ಅನ್ನು ತಳ್ಳಿಹಾಕುತ್ತವೆ.
ಸರಿಯಾದ ಅರ್ಥೈಸಿಕೆ. ಗಿಲ್ಬರ್ಟ್ನ ಸಿಂಡ್ರೋಮ್ — ಒಂದು ಸೌಮ್ಯ UGT1A1 ಪಾಲಿಮಾರ್ಫಿಸಮ್. ಅರ್ಥೈಸಿಕೆಯಲ್ಲಿ ಹೆಪಟೈಟಿಸ್, ಸಿರೋಸಿಸ್, ಹೀಮೋಲಿಟಿಕ್ ಅನೀಮಿಯಾ, ಅಥವಾ ಬಿಲಿಯರಿ ಅಬ್ಸ್ಟ್ರಕ್ಷನ್ ಅನ್ನು ಕರೆಯಬಾರದು.
V11 ಫಲಿತಾಂಶ. ಸಂಯುಕ್ತ 1.000. ಆರು ಮೇಲ್ವಿಚಾರಣೆಯಲ್ಲಿದ್ದ ಯಾವುದೇ ಓವರ್-ಡಯಾಗ್ನೋಸಿಸ್ ಫ್ಲ್ಯಾಗ್ಗಳು ಸಕ್ರಿಯ ರೋಗನಿರ್ಣಯಗಳಾಗಿ ಕಾಣಿಸಲಿಲ್ಲ.
🟡 ಟ್ರ್ಯಾಪ್ 2 — BT-015-HEALTHY
ಪ್ರಸ್ತುತಿಕೆ. 15-ಪ್ಯಾರಾಮೀಟರ್ ರೂಟೀನ್ ಸ್ಕ್ರೀನಿಂಗ್ ಪ್ಯಾನೆಲ್ ಇರುವ 35 ವರ್ಷದ ಮಹಿಳೆ. ಪ್ರತಿಯೊಂದು ಅನಲೈಟ್ ಕೂಡ ತನ್ನ ಉಲ್ಲೇಖ ಶ್ರೇಣಿಯೊಳಗೆ ಆರಾಮವಾಗಿ ಇದೆ.
ಸರಿಯಾದ ಅರ್ಥೈಸಿಕೆ. ಭರವಸೆ ಮತ್ತು ಜೀವನಶೈಲಿ ನಿರ್ವಹಣೆ. ಕ್ಲಿನಿಕಲ್ ಉಪಯುಕ್ತವೆಂದು ತೋರಿಸಲು ವ್ಯಾಖ್ಯಾನವು ಗಡಿ-ಸ್ಥಿತಿಯ ರೋಗಲಕ್ಷಣಗಳನ್ನು ಕೃತಕವಾಗಿ ಸೃಷ್ಟಿಸಬಾರದು.
V11 ಫಲಿತಾಂಶ. ಸಂಯುಕ್ತ 1.000. ಏಳು ಮೇಲ್ವಿಚಾರಣೆಯ ಅತಿಯಾದ-ರೋಗನಿರ್ಣಯ ಎಚ್ಚರಿಕೆಗಳಲ್ಲಿ—ಡಯಾಬಿಟಿಸ್, ರಕ್ತಹೀನತೆ, ಹೈಪೋಥೈರಾಯ್ಡಿಸಮ್, ಡಿಸ್ಲಿಪಿಡೀಮಿಯಾ, ಹೆಪಟೈಟಿಸ್, ಮೂತ್ರಪಿಂಡ ರೋಗ, ಕೊರತೆ—ಯಾವುದೂ ಸಕ್ರಿಯ ರೋಗನಿರ್ಣಯಗಳಾಗಿ ಕಾಣಿಸಲಿಲ್ಲ.
ಎರಡೂ ಟ್ರ್ಯಾಪ್ಗಳಲ್ಲಿ ಹದಿಮೂರು ಮೇಲ್ವಿಚಾರಣೆಯ ಹೈಪರ್ಡಯಾಗ್ನೋಸಿಸ್ ಎಚ್ಚರಿಕೆಗಳನ್ನು ಪರಿಶೀಲಿಸಲಾಯಿತು. ಯಾವುದೂ ಟ್ರಿಗರ್ ಆಗಲಿಲ್ಲ. ಟ್ರೈಯಾಜ್ ಅಥವಾ ಪೂರ್ವ-ಸಲಹಾ ಸಾಧನವಾಗಿ AI ಎಂಜಿನ್ ಬಳಸುವುದನ್ನು ಪರಿಗಣಿಸುವ ಯಾವುದೇ ವೈದ್ಯರಿಗೆ ಅತ್ಯಂತ ಮಹತ್ವದ ಫಲಿತಾಂಶ ಇದು: ಅಸ್ತಿತ್ವದಲ್ಲಿಲ್ಲದ ರೋಗವನ್ನು ವ್ಯವಸ್ಥೆ ಕಂಡುಹಿಡಿದಿಲ್ಲ.
ಮೆಂಟ್ಜರ್ ಸೂಚ್ಯಂಕ: ಕಬ್ಬಿಣದ ಕೊರತೆಯನ್ನು ಥಲಸೆಮಿಯಾ ಟ್ರೈಟ್ನಿಂದ ಬೇರ್ಪಡಿಸುವುದು
ಎರಡನೇ ಹೆಚ್ಚಿನ ಮೌಲ್ಯದ ಕಂಡುಬರುವಿಕೆ ಎಂದರೆ ಪ್ರಕರಣ BT-001 (ಐರನ್ ಕೊರತೆಯ ರಕ್ತಹೀನತೆ) ಅನ್ನು ಪ್ರಕರಣ BT-007 (ಬೀಟಾ-ಥಾಲಸೆಮಿಯಾ ಮೈನರ್) ಜೊತೆ ಜೋಡಿಸಿರುವುದು. ಎರಡೂ ಮೈಕ್ರೋಸೈಟೋಸಿಸ್ನೊಂದಿಗೆ ಕಾಣಿಸಿಕೊಳ್ಳುತ್ತವೆ ಮತ್ತು ನಿರ್ದೋಷಿ ವರ್ಗೀಕರಿಸುವವರಿಗೆ ಇದು ಚೆನ್ನಾಗಿ ತಿಳಿದಿರುವ ಅಡಚಣೆಯಾಗಿದೆ. ಮೆಂಟ್ಜರ್ ಸೂಚ್ಯಂಕ, MCV ಅನ್ನು RBC ಎಣಿಕೆಯಿಂದ ಭಾಗಿಸಿದಂತೆ ಲೆಕ್ಕ ಹಾಕಲಾಗುತ್ತದೆ, ಐರನ್ ಕೊರತೆಯಲ್ಲಿ 13 ಕ್ಕಿಂತ ಹೆಚ್ಚಾಗುತ್ತದೆ ಮತ್ತು ಥಾಲಸೆಮಿಯಾ ಟ್ರೇಟ್ನಲ್ಲಿ 13 ಕ್ಕಿಂತ ಕಡಿಮೆಯಾಗುತ್ತದೆ.
BT-001 ನಲ್ಲಿ, ರೋಗಿ 34 ವರ್ಷದ ಮಹಿಳೆ; ಹಿಮೋಗ್ಲೋಬಿನ್ 10.4 g/dL, MCV 72.4 fL, RBC 4.1 × 10¹²/L, ಫೆರಿಟಿನ್ 6 ng/mL, ಮತ್ತು ಹೆಚ್ಚಿದ TIBC ಇತ್ತು. ಸುಮಾರು 17.7 ರ ಮೆಂಟ್ಜರ್ ಸೂಚ್ಯಂಕವು ಸಂಪೂರ್ಣ ಐರನ್ ಕೊರತೆಯನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ. BT-007 ನಲ್ಲಿ, ರೋಗಿ 28 ವರ್ಷದ ಪುರುಷ; ಮೈಕ್ರೋಸೈಟೋಸಿಸ್ (MCV 65.8 fL) ಇದ್ದರೂ RBC ಎಣಿಕೆ 6.2 ಎಂಬಷ್ಟು ಹೆಚ್ಚಿತ್ತು, RDW ಸಾಮಾನ್ಯವಾಗಿತ್ತು, ಫೆರಿಟಿನ್ ಸಾಮಾನ್ಯವಾಗಿತ್ತು, ಮತ್ತು HbA2 5.6 ಶೇಕಡಾ ಇತ್ತು. ಸುಮಾರು 10.6 ರ ಮೆಂಟ್ಜರ್ ಸೂಚ್ಯಂಕವು ಥಾಲಸೆಮಿಯಾ ಟ್ರೇಟ್ ಅನ್ನು ಸೂಚಿಸುತ್ತದೆ, ಮತ್ತು ಹೆಚ್ಚಿದ HbA2 ಬೀಟಾ-ಥಾಲಸೆಮಿಯಾ ಮೈನರ್ ಅನ್ನು ದೃಢಪಡಿಸುತ್ತದೆ.
ಎರಡೂ ಪ್ರಕರಣಗಳು 1.000 ಅಂಕ ಪಡೆದವು. ಎಂಜಿನ್ ಎರಡೂ ವ್ಯಾಖ್ಯಾನಗಳಲ್ಲಿ ಮೆಂಟ್ಜರ್ ಸೂಚ್ಯಂಕವನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ಬಳಸಿತು ಮತ್ತು ಪ್ರತಿಯೊಂದು ಸಂದರ್ಭದಲ್ಲೂ ಸರಿಯಾದ ರೋಗನಿರ್ಣಯವನ್ನು ನೀಡಿತು. ಇದು ಸಂಪೂರ್ಣ ಬೆಂಚ್ಮಾರ್ಕ್ನಲ್ಲಿ ಅತ್ಯಂತ ಏಕೈಕವಾಗಿ ಕ್ಲಿನಿಕಲ್ ದೃಢೀಕರಣ ನೀಡುವ ಫಲಿತಾಂಶ, ಏಕೆಂದರೆ ಥಾಲಸೆಮಿಯಾ ಟ್ರೇಟ್ ಅನ್ನು ಐರನ್ ಕೊರತೆಯಂತೆ ತಪ್ಪಾಗಿ ವರ್ಗೀಕರಿಸುವುದರಿಂದ ಅನೂಚಿತ ಐರನ್ ಪೂರಕ ನೀಡಲಾಗುತ್ತದೆ ಮತ್ತು ಕುಟುಂಬ-ಸ್ಕ್ರೀನಿಂಗ್ ಅವಕಾಶಗಳು ತಪ್ಪಿಹೋಗುತ್ತವೆ; ಮತ್ತು ಐರನ್ ಕೊರತೆಯನ್ನು ಥಾಲಸೆಮಿಯಾದಂತೆ ತಪ್ಪಾಗಿ ವರ್ಗೀಕರಿಸುವುದರಿಂದ ಸರಳ ಬದಲಾವಣೆ ಚಿಕಿತ್ಸೆಯಲ್ಲಿ ವಿಳಂಬವಾಗುತ್ತದೆ. ನಮ್ಮ ಫೆರಿಟಿನ್ ಶ್ರೇಣಿ ಮಾರ್ಗದರ್ಶಿ ವಿಶಾಲ ಡಿಫರೆನ್ಷಿಯಲ್ ಸಂದರ್ಭವನ್ನು ವಿವರಿಸುತ್ತದೆ.
V11 ಆರಂಭಿಕ ರೆಫರೆನ್ಸ್ ರನ್ನ ಪ್ರತಿ-ಕೇಸ್ ಫಲಿತಾಂಶಗಳು (ಏಪ್ರಿಲ್ 23, 2026)
15-ಕೇಸ್ proof-of-concept ಕೋಹೋರ್ಟ್ನ ಮೇಲಿನ ಮೂಲ V11 ರೆಫರೆನ್ಸ್ ರನ್, ವಿಧಾನಶಾಸ್ತ್ರೀಯ ಆಧಾರವನ್ನು ಒದಗಿಸುತ್ತದೆ Second Update ಗೆ: ಕೆಳಗಿನ ಪ್ರತಿಯೊಂದು ಪ್ರತಿ-ಕೇಸ್ ವಿವರವು ರೂಬ್ರಿಕ್ ನಿಜವಾದ ಎಂಜಿನ್ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಹೇಗೆ ನಿರ್ವಹಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ತೋರಿಸುತ್ತದೆ. ಹದಿನೈದರಲ್ಲಿ ಹನ್ನೆರಡು ಕೇಸ್ಗಳು ಪ್ರಾಥಮಿಕ ಪಾತ್ನಲ್ಲಿ 1.000 ಎಂಬ ceiling ಸಂಯುಕ್ತ ಅಂಕವನ್ನು ಸಾಧಿಸಿವೆ; ಮೂರು ಕೇಸ್ಗಳನ್ನು Phase 2 fallback ಮೂಲಕ ಸೇವೆ ಮಾಡಲಾಯಿತು, ಇದರಿಂದ 0.05 latency ಬೋನಸ್ ಕಳೆದುಹೋಯಿತು ಆದರೆ ಎಲ್ಲಾ ಕ್ಲಿನಿಕಲ್ ಮತ್ತು ರಚನಾತ್ಮಕ ವಿಷಯವನ್ನು ಉಳಿಸಿಕೊಂಡಿತು. ಒಂದು ಕೇಸ್ನಲ್ಲಿ ಒಂದು ಕಡ್ಡಾಯ ಉಪವಿಭಾಗ ಕಾಣೆಯಾಯಿತು; ಒಂದು ಕೇಸ್ನಲ್ಲಿ ಸ್ವಲ್ಪ ಕಡಿಮೆಯಾದ probability distribution ಮೊತ್ತ ಹಿಂದಿರುಗಿತು.
PCOS ಪ್ರಕರಣ (BT-008) ಪ್ರತಿಕ್ರಿಯೆಯ ರಚನೆಯಲ್ಲಿನ ಒಂದು ಕಡ್ಡಾಯ ಉಪವಿಭಾಗವನ್ನು ಕಳೆದುಕೊಂಡಿತು — ಹದಿನಾರುಗಳಲ್ಲಿ ಹದಿನೈದು ಬದಲು ಹದಿನಾರುಗಳಲ್ಲಿ ಹದಿನಾರು — ಇದರಿಂದ ರಚನಾ ಅಂಕ 1.000 ರಿಂದ 0.963ಕ್ಕೆ ಇಳಿಯಿತು. SLE ಪ್ರಕರಣ (BT-011) ಪ್ರತಿಯೊಂದು ರೋಗನಿರ್ಣಯ ಕೀವರ್ಡ್ ಮತ್ತು ಸ್ಕೋರಿಂಗ್ ವ್ಯವಸ್ಥೆಯನ್ನು ಉಳಿಸಿಕೊಂಡಿದ್ದರೂ, ಕ್ಲಿನಿಕಲ್ ಅಂಕವನ್ನು 0.965ಕ್ಕೆ ಇಳಿಸಿದ ಸ್ವಲ್ಪ ಕಡಿಮೆಯಾದ ಸಾಧ್ಯತಾ-ವಿತರಣೆಯ ಮೊತ್ತವನ್ನು ಹಿಂದಿರುಗಿಸಿತು. ಯಾವುದೇ ಉಪ-ಪರಿಪೂರ್ಣ ಪ್ರಕರಣವೂ ಸರಿಯಾದ ರೋಗನಿರ್ಣಯವನ್ನು ತಪ್ಪಿಸಲಿಲ್ಲ.
V11 Second Update ಸಂಗ್ರಹ — 100,000 ಕೇಸ್ಗಳು
ಜನಸಂಖ್ಯಾ ಮಟ್ಟದಲ್ಲಿ, ವೈಯಕ್ತಿಕ ಕೇಸ್ ಸಾಲುಗಳು ಮಾನವ-ಓದಬಹುದಾಗಿರುವುದಿಲ್ಲ, ಆದ್ದರಿಂದ ಎರಡನೇ ನವೀಕರಣವು 100,000-ಸಾಲಿನ ಟೇಬಲ್ ಬದಲು ಸಂಗ್ರಹಿತ ಮೆಟ್ರಿಕ್ಗಳನ್ನು ವರದಿ ಮಾಡುತ್ತದೆ. ಮುಖ್ಯ ಸಂಗ್ರಹವನ್ನು ಕೆಳಗೆ ತೋರಿಸಲಾಗಿದೆ; ಪ್ರತಿ-ವಿಶೇಷತೆ ಮತ್ತು ಪ್ರತಿ-ದೇಶ-ಲೇಬಲ್ ವಿಭಜನೆಗಳನ್ನು ತಾಂತ್ರಿಕ ವರದಿ ಮತ್ತು Figshare ಡೆಪಾಸಿಟ್ನಲ್ಲಿ ಪ್ರಕಟಿಸಲಾಗಿದೆ. ಪದರಿತ ಯಾದೃಚ್ಛಿಕ ಮಾದರಿಯು n = 201 ಕಚ್ಚಾ ಎಂಜಿನ್ ಪ್ರತಿಕ್ರಿಯೆಗಳು (ನಿರ್ಣಾಯಕ seed 20260426) ಪರಿಶೀಲನೆಗಾಗಿ GitHub results/ ಡೈರೆಕ್ಟರಿಯಲ್ಲಿ ಪ್ರಕಟಿಸಲಾಗಿದೆ.
ಹೆಡ್ಲೈನ್ ಸ್ಕೋರ್ ನಮಗೆ ಏನು ಹೇಳುವುದಿಲ್ಲ
ಈ ನಿರ್ದಿಷ್ಟ ಪೂರ್ವ-ನೋಂದಾಯಿತ ರೂಬ್ರಿಕ್ ಅಡಿಯಲ್ಲಿ 99.80 ಶೇಕಡಾ ಸಂಯುಕ್ತ ಅಂಕ, 127 ದೇಶ ಲೇಬಲ್ಗಳನ್ನು ವ್ಯಾಪಿಸುವ 100,000-ಕೇಸ್ ಸಂಶ್ಲೇಷಿತ ಕೋಹೋರ್ಟ್ನಲ್ಲಿ, ಸೀಲಿಂಗ್ ಸಮೀಪದ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಸೂಚಿಸುತ್ತದೆ — ಆದರೆ ಅದನ್ನು ಎಚ್ಚರಿಕೆಯಿಂದ ಸಂದರ್ಭಗೊಳಿಸಬೇಕು. ಈ ಫಲಿತಾಂಶವು V11 ನಲ್ಲಿ ನಾವು ಮೂಲ ಕೋಡ್ಗೆ ಬದ್ಧವಾಗಿದ್ದ ರೂಬ್ರಿಕ್ ವಿರುದ್ಧ ಎಂಜಿನ್ನ ವರ್ತನೆಯನ್ನು ವಿವರಿಸುತ್ತದೆ; ಕಾಡಿನಲ್ಲಿ ಇರುವ ಪ್ರತಿಯೊಂದು ರಕ್ತ-ಪರೀಕ್ಷಾ ಪ್ಯಾನೆಲ್ ಮೇಲೂ ಎಂಜಿನ್ನ ಸರಿತನದ ಬಗ್ಗೆ ಇದು ವಿಶ್ವವ್ಯಾಪಿ ಹಕ್ಕು ಅಲ್ಲ.
ಈ ಅಂಕವು, ಈ ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ಆಯ್ಕೆಮಾಡಿದ ರೋಗನಿರ್ಣಯ ಮಾದರಿಗಳನ್ನು ಜನಸಂಖ್ಯಾ-ಮಟ್ಟದ ಕೋಹೋರ್ಟ್ನಲ್ಲಿ ಎಂಜಿನ್ ಸರಿಯಾಗಿ ನಿರ್ವಹಿಸಿದೆ ಎಂದು ಹೇಳುತ್ತದೆ; ಪ್ರಕಟಿತ ಮತ್ತು ಪುನರುತ್ಪಾದಿಸಬಹುದಾದ ವಿಧಾನಶಾಸ್ತ್ರದ ಮೇಲೆ. ಇದು ಪ್ರಕೃತಿಯಲ್ಲಿ ಇರುವ ಪ್ರತಿಯೊಂದು ರಕ್ತ ಪರೀಕ್ಷೆ ಪ್ಯಾನೆಲ್ನಲ್ಲಿಯೂ ಎಂಜಿನ್ ಸರಿಯಾಗಿದೆ ಎಂದು ಹೇಳುವುದಿಲ್ಲ. ಇದು ಎಂಜಿನ್ ವೈದ್ಯರ ತೀರ್ಮಾನವನ್ನು ಬದಲಿಸಬೇಕು ಎಂದು ಹೇಳುವುದಿಲ್ಲ. ಮತ್ತು ಇದು ಪರ್ಯಾಯ AI ವ್ಯವಸ್ಥೆಗಳನ್ನು ಮೀರಿಸುತ್ತದೆ ಎಂದು ಹೇಳುವುದಿಲ್ಲ — ಇತರ ಎಂಜಿನ್ಗಳ ವಿರುದ್ಧ ಹೋಲಿಕೆಯ ವಿಶ್ಲೇಷಣೆಗಳು ಈ ವರದಿಯ ವ್ಯಾಪ್ತಿಗೆ ಉದ್ದೇಶಪೂರ್ವಕವಾಗಿ ಹೊರಗಾಗಿದ್ದವು.
ಅಂಕವು ಸ್ಥಾಪಿಸುವುದು ಒಂದು ಮೂಲಮಟ್ಟ (baseline). ರೂಬ್ರಿಕ್ ಮತ್ತು ಹಾರ್ನೆಸ್ ಸಾರ್ವಜನಿಕವಾಗಿರುವುದರಿಂದ, ಎಂಜಿನ್ನ ಭವಿಷ್ಯದ ಆವೃತ್ತಿಗಳನ್ನು ಅದೇ ರೂಬ್ರಿಕ್ ವಿರುದ್ಧ ಮೌಲ್ಯಮಾಪನ ಮಾಡಬಹುದು — V11 ಆರಂಭಿಕ 15 ಪ್ರಕರಣಗಳಿಗೆ, ಎರಡನೇ ನವೀಕರಣದ 100,000 ಪ್ರಕರಣಗಳ ಕೋಹೋರ್ಟ್ಗೆ, ಅಥವಾ ಯಾವುದೇ ಮುಂದಿನ ವಿಸ್ತರಣೆಗೆ — ಮತ್ತು ಪ್ರಕಟಿತ ಅಂಕ ಮತ್ತು ಯಾವುದೇ ಮುಂದಿನ ರನ್ ನಡುವಿನ ಅಂತರವೇ ಸ್ವತಃ ಅಳೆಯಬಹುದಾಗಿದೆ. ಪೂರ್ವ-ನೋಂದಣಿಯ ಮೌಲ್ಯ ಇದಾಗಿದೆ: ಕಾರ್ಯಕ್ಷಮತೆಯ ಹಕ್ಕುಗಳನ್ನು ಪರೀಕ್ಷಿಸಬಹುದಾದ ಹಕ್ಕುಗಳಾಗಿ ಪರಿವರ್ತಿಸುತ್ತದೆ.
10 ನಿಮಿಷಗಳಲ್ಲಿ ಈ ಬೆಂಚ್ಮಾರ್ಕ್ ಅನ್ನು ಹೇಗೆ ಪುನರುತ್ಪಾದಿಸಬಹುದು
ಪುನರುತ್ಪಾದನೆಗೆ ಕೇವಲ Kantesti API ಕ್ರೆಡೆನ್ಷಿಯಲ್ ಜೋಡಿ ಮತ್ತು Python 3.10 ಅಥವಾ ನಂತರದ ಆವೃತ್ತಿಯ ಪರಿಸರ ಬೇಕು, requests ಮತ್ತು reportlab ಲೈಬ್ರರಿಗಳು ಇನ್ಸ್ಟಾಲ್ ಆಗಿರಬೇಕು. ಸಂಪೂರ್ಣ ಹಾರ್ನೆಸ್ MIT ಪರವಾನಗಿಯ ಅಡಿಯಲ್ಲಿ ಬಿಡುಗಡೆಗೊಂಡ ಒಂದೇ ಸ್ವಯಂ-ಸಂಪೂರ್ಣ Python ಮಾಡ್ಯೂಲ್ ಆಗಿದೆ.
ಹೊಸ ರನ್ಗೆ ನಾಲ್ಕು ಹಂತಗಳು
ಒಂದು. ರೆಪೊಸಿಟರಿಯನ್ನು ಕ್ಲೋನ್ ಮಾಡಿ: git clone https://github.com/emirhanai/kantesti-blood-test-benchmark.git. ಎರಡು. requirements.txt ನಿಂದ ಅವಲಂಬನೆಗಳನ್ನು ಇನ್ಸ್ಟಾಲ್ ಮಾಡಿ pip install -r requirements.txt (Second Update ಸೇರಿಸುತ್ತದೆ mysql-connector-python ≥ 8.0 SQL case loaderಗಾಗಿ). ಮೂರು. ಸೆಟ್ ಮಾಡಿ KANTESTI_USERNAME ಮತ್ತು KANTESTI_PASSWORD ಎಂಜಿನ್ APIಗೆ ಪರಿಸರ ಚರಗಳಾಗಿ. ಎರಡನೇ ನವೀಕರಣದ SQL case loaderಗಾಗಿ, ಇದನ್ನೂ ಸೆಟ್ ಮಾಡಿ KANTESTI_DB_HOST, KANTESTI_DB_PORT, KANTESTI_DB_NAME, KANTESTI_DB_USER, ಮತ್ತು KANTESTI_DB_PASSWORD — ಗುರುತಿಸುವ ಟೇಬಲ್ಗಳ ಮೇಲೆ ಯಾವುದೇ ಸವಲತ್ತುಗಳಿಲ್ಲದ read-only ಪಾತ್ರದ ಮೂಲಕ ಲೋಡರ್ ಸಂಪರ್ಕಿಸುತ್ತದೆ (bench_reader). ನಾಲ್ಕು. ರನ್ ಮಾಡಿ python benchmark_bloodtest.py --limit 100000 ಸಂಪೂರ್ಣ Second-Update ರನ್ಗಾಗಿ, ಅಥವಾ python benchmark_bloodtest.py --limit 1000 ತ್ವರಿತ ಪುನರಾವರ್ತನೆಗಾಗಿ. ಔಟ್ಪುಟ್ಗಳು ಇಲ್ಲಿ ಇಳಿಯುತ್ತವೆ ./benchmark_results/: ಪ್ರತಿ-ದೇಶ-ಲೇಬಲ್ ಮತ್ತು ಪ್ರತಿ-ವಿಶೇಷತೆಯ ಕಾಲಮ್ಗಳಿರುವ CSV scorecard, ಒಂದು JSON aggregate, stratified-random raw-response sample, ಮತ್ತು ಒಂದು Markdown ವರದಿ.
23 ಏಪ್ರಿಲ್ 2026 (V11 ಆರಂಭಿಕ, 15 ಪ್ರಕರಣಗಳು) ಮತ್ತು 26 ಏಪ್ರಿಲ್ 2026 (V11 Second Update, 100,000 ಪ್ರಕರಣಗಳು) ರಿಂದ ಇರುವ ರೆಫರೆನ್ಸ್ ರನ್ಗಳನ್ನು ರೆಪೊಸಿಟರಿಯ results/ ಡೈರೆಕ್ಟರಿಯಲ್ಲಿ ಉಳಿಸಲಾಗಿದೆ. ಹೊಸ ರನ್ ಹೊಸ ಟೈಮ್ಸ್ಟ್ಯಾಂಪ್ ಹೊಂದಿದ ಸ್ಕೋರ್ಕಾರ್ಡ್ ಅನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ; ಆದರೆ ರೆಫರೆನ್ಸ್ ರನ್ಗಳನ್ನು ಬದಲಾಯಿಸದೆ ಬಿಡುತ್ತದೆ. ನಿಮ್ಮ ರನ್ ಅರ್ಥಪೂರ್ಣವಾಗಿ ವಿಭಿನ್ನ ಫಲಿತಾಂಶ ನೀಡಿದರೆ, ದಯವಿಟ್ಟು ರನ್ ಟೈಮ್ಸ್ಟ್ಯಾಂಪ್ ಮತ್ತು ಪ್ರತಿಕ್ರಿಯೆಯ ಮೆಟಾಡೇಟಾದಲ್ಲಿ ಮರಳಿದ ಎಂಜಿನ್ ಆವೃತ್ತಿಯೊಂದಿಗೆ GitHub issue ತೆರೆಯಿರಿ.
ಮಿತಿಗಳು ಮತ್ತು ಭವಿಷ್ಯದ ಕೆಲಸ
127 ದೇಶ-ಲೇಬಲ್ಗಳ ಅಡಿಯಲ್ಲಿ 100,000 ಪ್ರಕರಣಗಳಿದ್ದರೂ, ನಾಲ್ಕು ಮಿತಿಗಳನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ಒಪ್ಪಿಕೊಳ್ಳಬೇಕು: long-tail label undersampling, single-shot evaluation, single-engine scope, ಮತ್ತು single-source data origin. ಇವುಗಳನ್ನು ಸಕ್ರಿಯ follow-up ಕೆಲಸದಲ್ಲಿ ಪರಿಹರಿಸಲಾಗುತ್ತಿದೆ.
Long-tail label coverage. Second Update ನಲ್ಲಿ 127 ದೇಶ-ಲೇಬಲ್ಗಳಿವೆ, ಆದರೆ ವಿತರಣೆಯು ಅಸಮತೋಲನವಾಗಿದೆ — ಮೇಲಿನ 10 ಲೇಬಲ್ಗಳು ಒಟ್ಟು ಪ್ರಕರಣಗಳ ≈66.4% ಅನ್ನು ಹೊಂದಿವೆ, ಮತ್ತು ಉಳಿದ 97 ಹೆಚ್ಚುವರಿ ಲೇಬಲ್ಗಳ long tail ಒಟ್ಟಾಗಿ ≈7.3% ಅನ್ನು ಕೊಡುಗೆ ನೀಡುತ್ತದೆ (ಸುಮಾರು 7,300 ಪ್ರಕರಣಗಳು ಒಟ್ಟಾಗಿ, ಪ್ರತಿ ಲೇಬಲ್ಗೆ ಸರಾಸರಿ ~75 ಪ್ರಕರಣಗಳು). ಆದ್ದರಿಂದ ಈ long tail ನಲ್ಲಿ ಪ್ರತಿ-ಲೇಬಲ್ composite ಗಳು headline ಅಂಕಿಅಂಶಗಳು ಸೂಚಿಸುವುದಕ್ಕಿಂತ ಹೆಚ್ಚು ಶಬ್ದಯುಕ್ತವಾಗಿವೆ. ಭವಿಷ್ಯದ ರನ್ಗಳಲ್ಲಿ ಪ್ರತಿ-ಲೇಬಲ್ ಅಂದಾಜುಗಳನ್ನು ದೃಢಪಡಿಸಲು label assignment ಅನ್ನು ಮರುಸಮತೋಲನಗೊಳಿಸಲಾಗುತ್ತದೆ.
ಸಿಂಗಲ್-ಶಾಟ್ ಮೌಲ್ಯಮಾಪನ. ಈ ಕೋಹೋರ್ಟ್ನಲ್ಲಿನ ಪ್ರತಿಯೊಂದು ಪ್ರಕರಣವನ್ನು ಒಮ್ಮೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾಗಿದೆ. ಕಡಿಮೆ ಸ್ಯಾಂಪ್ಲಿಂಗ್ ತಾಪಮಾನದಲ್ಲಿಯೂ ದೊಡ್ಡ ಭಾಷಾ ಮಾದರಿಗಳು ಗಮನಾರ್ಹ ಔಟ್ಪುಟ್ ವ್ಯತ್ಯಾಸವನ್ನು ತೋರಿಸುತ್ತವೆ, ಆದ್ದರಿಂದ ಪ್ರತಿ ಪ್ರಕರಣಕ್ಕೆ ಐದು ಮೌಲ್ಯಮಾಪನಗಳೊಂದಿಗೆ ಮತ್ತು ವರದಿಯಾದ ವ್ಯತ್ಯಾಸದೊಂದಿಗೆ ಬಹು-ರನ್ ಪ್ರೋಟೋಕಾಲ್ ಮುಂದಿನ ಸಹಜ ಹಂತ — ವಿಶೇಷವಾಗಿ ಟ್ರ್ಯಾಪ್-ಕೇಸ್ ಉಪಸಮೂಹದಲ್ಲಿ, ಸ್ಯಾಂಪ್ಲಿಂಗ್ ಜಿಟ್ಟರ್ ಅಡಿಯಲ್ಲಿ ಸ್ಥಿರತೆ ಸುರಕ್ಷತಾ ಹಕ್ಕಿನ ಭಾಗವಾಗಿರುವಲ್ಲಿ.
ಸಿಂಗಲ್-ಎಂಜಿನ್ ವ್ಯಾಪ್ತಿ. ಈ ವರದಿ ಒಂದು ಎಂಜಿನ್ ಅನ್ನು ವಿವರಿಸುತ್ತದೆ. ಪರ್ಯಾಯ AI ವ್ಯವಸ್ಥೆಗಳ ವಿರುದ್ಧ ಹೋಲಿಕೆಯ ವಿಶ್ಲೇಷಣೆಗಳು ಇಲ್ಲಿ ವ್ಯಾಪ್ತಿಗೆ ಹೊರತಾಗಿವೆ; ಅದೇ MIT ಪರವಾನಗಿ ಹೊಂದಿದ harness ವಿರುದ್ಧ, ಸೂಕ್ತ ವಿಧಾನಶಾಸ್ತ್ರದೊಂದಿಗೆ, ನಾವು ಅವುಗಳನ್ನು ಪ್ರತ್ಯೇಕ ಸ್ವತಂತ್ರ ಅಧ್ಯಯನವಾಗಿ ಮುಂದುವರಿಸಬಹುದು.
Synthetic data. 100,000 ಪ್ರಕರಣಗಳು synthetic ಆಗಿ ರಚಿಸಲ್ಪಟ್ಟಿವೆ—synthetic cases ಅಲ್ಲ—ಮತ್ತು ಫಲಿತಾಂಶಗಳು ನೈಜ ಜಗತ್ತಿನ ಕ್ಲಿನಿಕಲ್ ಕಾರ್ಯಕ್ಷಮತೆಗೆ ವರ್ಗಾಯಿಸುವುದಿಲ್ಲ. ನೈಜ, ಒಪ್ಪಿಗೆ ಪಡೆದ, ಹೊರಗಿನಿಂದ ಸಂಗ್ರಹಿಸಿದ ಡೇಟಾದ ಮೇಲೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಸೂಕ್ತ ನೈತಿಕ ಮೇಲ್ವಿಚಾರಣೆ ಅಗತ್ಯವಾಗುತ್ತದೆ ಮತ್ತು ಈ synthetic benchmark ವ್ಯಾಪ್ತಿಗೆ ಹೊರತಾಗಿದೆ.
ಈ ನಾಲ್ಕರ ಹೊರತಾಗಿ, ಯೋಜಿತ ಅತ್ಯಂತ ಪರಿಣಾಮಕಾರಿ ವಿಸ್ತರಣೆ ಎಂದರೆ ಪ್ರತಿ ನ್ಯಾಯವ್ಯವಸ್ಥೆಗೆ ಬಹು-ಭಾಷಾ ಸಮಾನತೆ. Kantesti AI Engine 75+ ಭಾಷೆಗಳಲ್ಲಿನ ಬಳಕೆದಾರರಿಗೆ ಸೇವೆ ನೀಡುತ್ತದೆ, ಮತ್ತು ಭಾಷೆ-ವರ್ಗೀಕೃತ Second-Update ಉಪ-ಕೋಹೋರ್ಟ್ಗಳನ್ನು (ಟರ್ಕಿಷ್, ಜರ್ಮನ್, ಸ್ಪ್ಯಾನಿಷ್, ಫ್ರೆಂಚ್, ಇಟಾಲಿಯನ್, ಪೋರ್ಚುಗೀಸ್, ಅರೇಬಿಕ್, ಮಂಡರಿನ್) ರನ್ ಮಾಡುವುದರಿಂದ ಎಂಜಿನ್ ಬೆಂಬಲಿಸುವ ಭಾಷೆಗಳಾದ್ಯಂತ ಔಟ್ಪುಟ್ ಗುಣಮಟ್ಟವನ್ನು ಅಳೆಯಲಾಗುತ್ತದೆ. ಪ್ರತಿಯೊಂದು ಭಾಷೆ-ವರ್ಗೀಕೃತ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಅದರದೇ DOI ಮತ್ತು harness ಬ್ರಾಂಚ್ನೊಂದಿಗೆ ಪ್ರಕಟಿಸಲಾಗುತ್ತದೆ.