- دسته بندی : اخبار تکنولوژی ، دیپ سیک ، هوش مصنوعی
- بازدید : 1 بار
- 0 دیدگاه
آموزش مدلهای بزرگ هوش مصنوعی به یکی از بزرگترین چالشهای رایانش مدرن تبدیل شده است؛ چالشی که تنها به پیچیدگی فنی محدود نمیشود، بلکه هزینههای سنگین، مصرف بالای انرژی و اتلاف منابع را نیز در بر میگیرد. در همین راستا، یک مقاله پژوهشی جدید از شرکت دیپسیک (DeepSeek) رویکردی را معرفی کرده است که میتواند بخشی از این فشارها را کاهش دهد.
این روش که Manifold-Constrained Hyperconnection یا به اختصار mHC نام دارد، با هدف سادهتر و قابلاعتمادتر کردن فرایند آموزش مدلهای بزرگ هوش مصنوعی توسعه یافته و برخلاف بسیاری از رویکردهای رایج که تمرکز اصلی آنها تنها بر افزایش عملکرد است، این روش تلاش میکند ناپایداری در فرایند آموزش را کاهش دهد؛ مشکلی رایج که اغلب شرکتها را مجبور میکند دورههای پرهزینه آموزش مدل را از ابتدا آغاز کنند.
به بیان ساده، بسیاری از مدلهای پیشرفته هوش مصنوعی در میانه فرایند آموزش با شکست مواجه میشوند. در چنین شرایطی، هفتهها کار، حجم عظیمی از مصرف برق و هزاران ساعت پردازش GPU از بین میرود. رویکرد دیپسیک با هدف جلوگیری از این شکستها طراحی شده و میکوشد رفتار مدل را قابل پیشبینیتر و پایدارتر نگه دارد.
اهمیت این موضوع از آن ناشی میشود که آموزش مدلهای هوش مصنوعی در حال حاضر مصرف انرژی بسیار بالایی دارد. اگرچه روش mHC مصرف انرژی پردازندههای گرافیکی را بهطور مستقیم کاهش نمیدهد، اما با کمک به تکمیل موفق آموزش مدلها، از اتلاف انرژی ناشی از توقفها و راهاندازیهای مجدد جلوگیری میکند.
از دیگر مزایای این رویکرد میتوان به افزایش بهرهوری در مقیاس کلان اشاره کرد. زمانی که آموزش مدلها پایدارتر باشد، شرکتها کمتر ناچار خواهند بود به رویکردهای مبتنی بر فشار محاسباتی متوسل شوند؛ روشهایی مانند استفاده از تعداد بیشتری GPU، افزایش حافظه یا طولانیتر کردن زمان آموزش صرفاً برای به نتیجه رسیدن. این موضوع میتواند مصرف کلی انرژی را در کل چرخه آموزش بهطور محسوسی کاهش دهد.
پژوهش دیپسیک ادعا نمیکند که کمبود سختافزار یا چالشهای انرژی را یکشبه حل میکند. در عوض، این تحقیق نشاندهنده نوعی پیشرفت آرام اما مهم است: استفاده بهینهتر از منابعی که هماکنون در دسترس هستند. در بلندمدت، تکنیکهایی از این دست میتوانند به توسعهدهندگان هوش مصنوعی کمک کنند تا مدلهای قدرتمندتری را با اتلاف کمتر توان محاسباتی و مصرف انرژی پایینتر آموزش دهند.
با ادامه روند رشد مدلهای زبانی، کاهش ناکارآمدیها ممکن است به اندازه افزایش عملکرد اهمیت پیدا کند؛ و این دقیقاً همان نقطهای است که معماری جدید هوش مصنوعی دیپسیک میتواند تفاوتی واقعی ایجاد کند.
