Tony Kim
1404/10/02 21:56
Character.ai روشهای نوآورانه برای بهینهسازی پیشآموزش در مقیاس بزرگ را آشکار میکند و بر تکنیکهایی مانند Squinch، محدودسازی پویا و Gumbel Softmax تمرکز دارد تا کارایی در آموزش مدلهای مبتنی بر هوش مصنوعی را افزایش دهد.
Character.ai، یک بازیگر برجسته در فضای هوش مصنوعی، اخیراً بینشهایی را در مورد تلاشهای اولیه خود برای بهینهسازی آموزش ترانسفورمر در مقیاس بزرگ به اشتراک گذاشته است. این شرکت که از آن زمان تمرکز خود را به پایههای مدل متنباز تغییر داده است، در ابتدا تکنیکهای مختلفی را برای افزایش کارایی و سرعت آموزش بررسی کرد، بر اساس وبلاگ Character.AI.
فشردهسازی گرادیان: Squinch
یکی از نوآوریهای کلیدی که در تلاشهای Character.ai برجسته شده است، الگوریتم فشردهسازی گرادیان به نام Squinch است. این تکنیک فشردهسازی 6 بیتی که توسط Noam Shazeer، بنیانگذار مشترک توسعه یافته است، برای کاهش قابل توجه پهنای باند ارتباطی در طول آموزش توزیع شده طراحی شده است، در حالی که دقت مدل را حفظ میکند. این الگوریتم به طور مؤثر گرادیانها را به 6 بیت در هر عنصر فشرده میکند و استفاده از پهنای باند خوشههای آموزشی را بهینه میکند.
منظمسازی دقت: Attention Z-Reg
Character.ai همچنین Attention Z-Reg را توسعه داده است، یک روش منظمسازی که بر روی لاجیتهای توجه اعمال میشود تا ثبات عددی را تضمین کند. این تکنیک به حفظ دقت نمایشهای bfloat16 کمک میکند که برای بهینهسازی آموزش مدلهای بزرگ حیاتی است.
ثبات کوانتیزاسیون: محدودسازی پویا
محدودسازی پویا تکنیک دیگری است که برای افزایش ثبات کوانتیزاسیون به کار گرفته میشود. این روش با محاسبه پویای محدوده محدودسازی بر اساس میانگین مربع ریشه وزنهای ورودی، از فروپاشی مقادیر فعالسازی کوچک به صفر جلوگیری میکند. این روش با کاهش خطاهای کوانتیزاسیون، ثبات آموزش را بهبود میبخشد.
API توجه کارآمد: Visibility Mask
معرفی Visibility Mask، ابزاری برای نمایش روابط بین توکنها در طول آموزش و استنتاج، کارایی سیستمهای آموزشی را بهبود بخشیده است. این API به مدیریت محدودههای توجه در دستهها کمک میکند و از روابط اسناد ساختار درختی و توجه دوطرفه پشتیبانی میکند.
بهینهسازی تقطیر: Gumbel Softmax
در قلمرو تقطیر مدل، Character.ai از تکنیک Gumbel Softmax برای کاهش هزینههای ذخیرهسازی و پهنای باند استفاده کرده است، در حالی که وفاداری مدلهای معلم را حفظ میکند. این رویکرد شامل نمونهبرداری از زیرمجموعههای خروجیهای مدل معلم است و مقادیر هدف نرم را برای آموزش کارآمدتر مدل دانشآموز حفظ میکند.
تلاشهای Character.ai در بهینهسازی پیشآموزش راه را برای آموزش کارآمدتر مدلهای هوش مصنوعی هموار کرده است، حتی زمانی که شرکت به سمت یادگیری تقویتی پس از آموزش برای مدلهای متنباز حرکت میکند. این تکنیکها، از جمله Squinch و Gumbel Softmax، تعهد شرکت را به پیشبرد کارایی و مقیاسپذیری هوش مصنوعی نشان میدهد.
منبع تصویر: Shutterstock
منبع: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining


