
فرق التوظيف تُحب rubrics مقابلاتها. القليل يعرف إن كانت تتنبَّأ فعلاً بمن سينجح. الإجابة الصادقة لمعظم الفرق: لا. مرجعيات الصناعة تضع الارتباط بين درجات المقابلات غير المنظَّمة والأداء الوظيفي عند r = 0.20 — بالكاد فوق العشوائي.
تقييم AI المنظَّم للمقابلات فئة مختلفة. على فئة بنشمارك من 2,400 توظيف بمراجعات أداء مُتحقَّق منها بعد 6 أشهر، ارتباط Pearson هو 0.74. هذه predictive validity قوية — قابلة للمقارنة باختبارات القدرة المعرفية، الـ gold standard في علم النفس الصناعي/التنظيمي.
في وقت المقابلة، يُقيِّم AI كل مرشح حسب الكفاءة: التواصل، العمق التقني، حل المشكلات، الحافز، cultural fit (قابل للضبط). يُسجَّل قرار التوظيف وشروط العرض.
بعد ثلاثة أشهر، يُقيِّم مدير الموظف الجديد الأداء الفعلي. بعد ستة أشهر، مرة أخرى. يُقابل النظام هذه التقييمات مع AI scores الأصلية ويُحسب ارتباط لكل كفاءة. الارتباطات القوية تعني أن الإشارة كانت حقيقية؛ الضعيفة تعني أن ذلك الجزء من rubric ليس تنبُّؤياً — اطرحه.
البنشمارك العالمي r = 0.74 هو نقطة البداية. Fine-tuning لكل عميل، بعد نحو 50 توظيفاً مغلق الحلقة لكل عائلة دور، يرفع predictive accuracy 12–18% إضافية على أدوار ذلك الفريق المحدَّدة.
بعد ثلاث أو أربع دورات توظيف، يُكاليَب النموذج وفق سقفك — يعرف كيف يبدو «backend engineer ممتاز» في شركتك تحديداً. المرشحون الجدد يُقيَّمون مقابل تلك المعايرة. التوظيف يتوقف عن كونه حدساً ويصبح نظاماً قابلاً للقياس.

