Chat GPT کو کس طرح ٹرین کیا جاتا ہے؟

چیٹ جی پی ٹی کا تربیت کیسے ہوتا ہے 768x435-718x.jpg

آپ شاید چیٹ جی پی ٹی سے واقف ہیں تو آپ نے شاید سنا ہوگا کہ اسے بہت بڑے زمرے میں ٹرین کیا گیا ہے۔ لیکن یہ دقیقا مراد کیا ہے؟ اس مضمون میں، ٹرین چیٹ جی پی ٹی پر کیسے کیا جاتا ہے، اس کی جزویات پر بحث کریں گے۔

ChatGPT ایک پہلے سے تعلق رکھنے والا زبانی ماڈل ہے جس کی تربیت ناظرین ہوئی ہے اور سرکش تربیت تکنیکوں کی ایک جوڑی کے ذریعے سموی کی گئی ہے۔ChatGPT کی تربیتی عمل میں، زیادہ سے زیادہ متن سے ماڈل میں داخل کرکے اس کے پیرامیٹرز کو تظبیط کیا گیا تکہ وہ تربیتی کارپس کا متن جیسا متن بنائے دے۔

اس عمل کے لئے غیر نگران انتظام یا بے نظر اسٹوڈ ی معاہدہ استعمال کیا گیا تھا، یعنی ماڈل کو صریح طور پر فیڈ بیک نہیں دیا گیا تھا کہ کیا اس کی پیدا کردہ متن درست یا غلط ہے۔ بلکہ، ٹریننگ کورپس میں موجود متن کے ساتھ پیدا کردہ متن ایک دوسرے جیسا ہونے کی امکان کے مطابق اپنے پیرامیٹر کی ترمیم کرتا ہوا ماڈل پیچیدگی کو کم کرتا ہے۔

ChatGPT-3 کی ماں ماڈل GPT-3، 175 ارب پیرامیٹر اور 2048 ٹوکن چوڑا کنٹیکسٹ کے ساتھ تیار شدہ بڑی ترین زبان ماڈلوں میں سے ایک ہے۔ یہ کامن کراول، ویب ٹیکسٹ 2، بکس 1/2، انگریزی میں ویکیپیڈیا سے کروڑوں الفاظ اور سی ایس ایس، جے ایس ایکس، پائتھن اور دیگر پروگرامنگ زبانوں کے کوڈ کے مثالوں سے ٹرین کیا جاتا ہے۔

GPT-3 کے لئے استعمال ہونے والی ٹریننگ میثڈ گینریٹو پری ٹریننگ ہے جس کے تحت دیے گئے ان پٹ کی جملے میں اگلے ٹوکن یا لفظ کی پیشگوئی ٹرین کرایا جاتا ہے۔

بہترین چیٹ جی پی ٹی بدلہ

سپروائزڈ سیکھنے

چیٹ جی پی ٹی ماڈل انسانی ٹرینرز کے ذریعہ سپروائزڈ لرننگ کے ذریعہ فائن ٹیون ہوا۔ یہ ٹرینرز بات چیت کرتے رہے، صارف اور اے آئی معاون کے دونوں کردار نبھاتے ہوئے۔

انھیں اِس ماڈل دو سماج کرنے کے لئے تجاویز دی گئیں تاکہ وہ اپنے جوابات تیار کرنے میں آگے بڑھ سکیں، جو InstructGPT ڈیٹا سیٹ کے ساتھ دو جدولہ فارمیٹ میں تبدیل کردئے جاتے تھے۔

ریانفورسمنٹ لرننگ

ماڈل کو پروکسیمل پالیسی اوپٹیمائزیشن (PPO) کے ذریعہ ری انفورسمنٹ لرننگ کے ذریعہ مزید بہتر بنایا گیا۔ انسانی ٹرینرز نے پچھلی بات چیت سے اندازہ لگایا ہوا ردعمل جنہوں نے ماڈل کے ذریعہ پیدا کیے گئے تھے، ان اندازہوں کو ریوارڈ ماڈلوں کا تعمییر کرنے کے لئے استعمال کیا۔ ان ریوارڈ ماڈلوں کے اس استعمال کے بعد ماڈل زیادہ بہتر بنایا گیا۔

بہتر کارکردگی حاصل کرنے کے لیے فائن ٹیوننگ کا عمل کئی دفعہ کیا گیا۔ اور دیگر الگورتھموں کی نسبت سے، پی پی او الگورتھم لاگت کار ثابت ہوتے ہیںاور عمل کی رفتار بھی زیادہ ہوتی ہے، جس سے یہ عمل کرنے کے لئے بہترین ہیں۔

OpenAI ChatGPT سے انٹریکٹ کرنے والے صارفین سے معلومات جمع کی جا رہی ہے، جو عمل کو بہتر بنانے اور پیشہ ورانہ بنانے کے لئے استعمال کی جاتی ہے۔

صارفین کے پاس ChatGPT کے جوابات کے اپ یا ڈاؤن ووٹ کرنے کا اختیار ہے، اور انہیں مزید اضافی پیش رائی کے موقع بھی دیے جاتے ہیں۔ یہاں تک کہ ان تفصیلات کو استعمال کرتے ہوئے ماڈل کی کارکردگی کو بہتر کیا جاتا ہے اور اسے انسانی نوعیت کے متن کی تیاری کرنے میں مہارت حاصل کروایا جاتا ہے۔

ماڈل کو ٹرین کرنے کے لئے استعمال شدہ ڈیٹا

چیٹ جی پی ٹی-3، جی پی ٹی-3.5 سیریز سے فائن ٹیون لینگویج ماڈل ہے جو ایک ایزور ای آئی سوپر کمپیوٹنگ زیریں سے تربیت دی گئی ہے۔ یہ انٹرنیٹ سے نکلے ہوئے زبردست تعداد کے ٹیکسٹ پر تربیت دی گئی جس میں کتابیں، چیٹ فورمز، مضامین، ویب سائٹس، اکیڈمک پیپرز، کوڈ اور دیگر ماخذ شامل ہیں۔

چیٹ جی پی ٹی - 3 کی تربیت کے لئے استعمال ہونے والی ٹیکسٹ ڈیٹا کا مجموعہ بڑے پیمانے پر 45 ٹیرابائٹ سے زائد کا تھا، جو کہ بہت بڑا ہے اور ماڈل کی صلاحیت میں شامل ہوتا ہے کہ یہ وہ ٹیکسٹ جو صحافی یا مصنف پیدا کر سکتے ہیں کے قریبی مشابہت رکھتا ہے کو پیدا کرے۔

چیٹ جی پی ٹی کیسے ٹرین کیا جاتا ہے؟

سپروائزڈ سیکھنے

ریانفورسمنٹ لرننگ

ماڈل کو ٹرین کرنے کے لئے استعمال شدہ ڈیٹا

متعلقہ مضامین