ما بعد تدريب النماذج اللغوية: SFT و DPO و RLHF و GRPO

عن الورشة

دورة عملية مكثفة في بناء وتدريب النماذج اللغوية الكبيرة من الصفر، مثل GPT وQwen، تبدأ من تجهيز البيانات وبناء النموذج، مرورًا بالضبط الدقيق، وصولًا إلى التقييم وتحسين السلوك باستخدام أساليب ما بعد التدريب. محاور الدورة 1. بناء معمارية النموذج اللغوي خطوة بخطوة. 2.⁠ ⁠توليد وتجهيز بيانات SFT للضبط الدقيق. 3.⁠ ⁠تدريب النموذج وتقييم أدائه وتحليل مخرجاته. 4.⁠ ⁠تحسين سلوك النموذج باستخدام DPO كأحد أساليب ما بعد التدريب.

قريبًا

سيتم الإعلان عن الموقع قريبًا

التسجيل

مرحباً بك. للمشاركة في الورشة، يرجى التسجيل أدناه.

سجل دخولك للتسجيل

إنشاء حساب يستغرق دقيقة واحدة · لدي حساب · تسجيل الدخول