همانطور که در مغز انسان، نحوه یادگیری هنوز تا حد زیادی یک راز باقی مانده است، ساختار زیربنایی یادگیری در مدلهای ترنسفورمر هوش مصنوعی نیز پیچیده و ناشناخته است. پژوهشگران SISSA Medialab در ایتالیا اخیراً نقطه سوئیچ یادگیری این مدلها را شناسایی کردهاند و یافتههای خود را در مجله Journal of Statistical Mechanics: Theory and Experiment منتشر کردهاند. این مطالعه جزئیات عملکرد داخلی شبکههای عصبی مصنوعی را بهطور دقیق تشریح میکند و نشان میدهد لحظهای وجود دارد که مدلهای زبانی بزرگ (LLM) از تحلیل موقعیت کلمات به درک معنایی منتقل میشوند.
لحظه حیاتی درک معنایی مدلهای زبان بزرگ
هوگو کوی، پژوهشگر پسادکتری در مرکز علوم ریاضی و کاربردها (CMSA) دانشگاه هاروارد، همراه با همکارانش فریا بهرنس، فلورنت کرزاکالا و لنکا زدبورووا از EPFL توضیح دادهاند که مطالعات تجربی پیشین نشان دادهاند ظهور مکانیزمهای الگوریتمی در مدلهای زبانی به بهبود کیفی قابلیتهای آنها منجر میشود، اما چگونگی شکلگیری این مکانیزمها همچنان مبهم بود. تیم SISSA با بررسی عملکرد داخلی LLMها لحظهای را کشف کرد که هوش مصنوعی واقعاً معنای جملات را درک میکند، نه صرفاً موقعیت کلمات را دنبال میکند.
اهمیت درک AI مولد در زندگی روزمره
درک عملکرد AI مولد (Generative AI یا genAI) اهمیت بالایی دارد، زیرا استفاده از آن در محل کار و زندگی شخصی به سرعت در حال افزایش است. این فناوری با یادگیری عمیق قادر است محتوای تصویری، صوتی، ویدئویی و متنی تولید کند. نمونههایی از genAI شامل اتوانکودرهای واریانسی (VAEها)، شبکههای مولد رقابتی (GANها)، مدلهای انتشار (Diffusion Models) و ترنسفورمرها هستند. طبق گزارش فوریه ۲۰۲۵ National Bureau of Economic Research، ۳۹٪ از پاسخدهندگان از AI مولد برای فعالیتهای کاری یا غیرکاری استفاده میکنند و پرکاربردترین آنها ChatGPT از OpenAI، Gemini از گوگل و GPT-based Microsoft Copilot هستند.
مدلهای ترنسفورمر فناوری اصلی برای LLMها مانند ChatGPT، Gemini، Claude از Anthropic و Llama از Meta هستند. معماری ترنسفورمر نخستین بار در سال ۲۰۱۷ با مقاله «Attention is All You Need» معرفی شد. ویژگی متمایز این مدلها، مکانیزم توجه خودکار است که امکان تمرکز بیشتر بر دادههای مرتبطتر را فراهم میکند و باعث آموزش سریعتر و دقت بالاتر مدل میشود.
پژوهشگران برای تحلیل نقطه سوئیچ یادگیری از مفاهیم فیزیکی الهام گرفتهاند، بهویژه مدل ایزینگ که فرو مغناطیس را توصیف میکند. در مدل ایزینگ، گذار فازی زمانی رخ میدهد که سیستم از حالت منظم به بینظم منتقل شود، مشابه نقطهای که در LLMها از وابستگی به موقعیت کلمات به درک معنایی رخ میدهد. تحقیقات نشان داد که این گذار فازی در LLMها کاملاً ناگهانی است. زیر نقطه سوئیچ، شبکه عصبی به موقعیت کلمات وابسته است، اما با عبور از نقطه سوئیچ، بهطور آنی معنای جمله را درک میکند. فوریت این سوئیچ مشابه روشن کردن یک لامپ و لحظه «یورکا» آرشمیدس در کشف حجم است.
این یافتهها نشان میدهند که برای دستیابی به درک معنایی، LLMها باید گذار فازی مشخصی را تجربه کنند و از وابستگی به موقعیت کلمات به درک معنا عبور کنند. این کشف میتواند مسیر توسعه AI قابل توضیح و مقاومتر در آینده را هموار کند و نقش مهمی در بهبود قابلیتهای مدلهای زبان بزرگ داشته باشد.