همانند مغز انسان، ساختار درونی یادگیری ماشین در هوش مصنوعی همچنان یکی از بزرگترین رازهای دنیای علم است. اما بهتازگی، تیمی از پژوهشگران مؤسسهی مدیالَب SISSA در ایتالیا توانستهاند نقطهی دقیق تغییر یا همان «سوئیچ یادگیری» را در مدلهای ترنسفورمر شناسایی کنند؛ لحظهای که هوش مصنوعی از صرفاً خواندن دادهها به مرحلهی درک واقعی میرسد. این یافتهها در مجلهی معتبر Journal of Statistical Mechanics: Theory and Experiment منتشر شده و نگاه تازهای به عملکرد درونی شبکههای عصبی مصنوعی ارائه میدهد.
جرقهی درک در ذهن مصنوعی
به گفتهی نویسندگان مقاله، از جمله هوگو کوئی، پژوهشگر پسادکتری مرکز علوم ریاضی و کاربردهای دانشگاه هاروارد (CMSA)، و همکارانش فرِیا بهرِنس، فلوران کرزاکالا و لنکا زدبورُوا از EPFL، مطالعات پیشین تنها شواهد تجربی از ظهور تواناییهای جدید در مدلهای زبانی ارائه داده بودند، اما هیچ تبیین نظری دقیقی از چگونگی شکلگیری این تواناییها وجود نداشت. هدف تیم SISSA، درک لحظهای بود که مدلهای زبانی بزرگ (LLMs) از «خواندن» به «فهمیدن» تغییر وضعیت میدهند — همان لحظهای که برای هر کودک دبستانی، درک معنای جمله فراتر از شناسایی کلمات است. پژوهشگران موفق شدند لحظهی دقیق گذار از وابستگی به موقعیت کلمات به درک معنای آنها را کشف کنند؛ نقطهای که در آن چراغ فهم در مدلهای زبانی روشن میشود — لحظهای که هوش مصنوعی دیگر صرفاً به دنبال جایگاه واژهها نیست، بلکه مفهوم را درمییابد.
در دنیای امروز، هوش مصنوعی مولد (Generative AI) به بخش جداییناپذیر زندگی روزمره و محیطهای کاری تبدیل شده است. این نوع از هوش مصنوعی با بهرهگیری از یادگیری عمیق، قادر است تصویر، صدا، ویدیو و متن تولید کند. از جمله مهمترین مدلهای GenAI میتوان به خودرمزگذارهای واریاسیونی (VAE)، شبکههای مولد تخاصمی (GAN)، مدلهای انتشار (Diffusion Models) و ترنسفورمرها (Transformers) اشاره کرد. بر اساس گزارش فوریه ۲۰۲۵ «اداره ملی پژوهشهای اقتصادی آمریکا (NBER)»، حدود ۳۹٪ از کاربران از هوش مصنوعی مولد در کار یا زندگی شخصی استفاده میکنند. محبوبترین ابزارها شامل ChatGPT از OpenAI (با ۲۸٪ استفاده)، Gemini از گوگل (۱۷٪) و Copilot مایکروسافت (۱۴٪) هستند.
مدلهای ترنسفورمر، فناوری پایهی مدلهای زبانی بزرگی چون ChatGPT، Gemini، Claude (از Anthropic) و LLaMA (از Meta) هستند. این معماری برای نخستین بار در سال ۲۰۱۷ در مقالهی تاریخی «Attention is All You Need» توسط گروهی از دانشمندان گوگل معرفی شد. ویژگی کلیدی این مدلها، سازوکار توجه به خود (Self-Attention) است که به آنها امکان میدهد در میان انبوهی از دادهها، بخشهای مهمتر را شناسایی و روی آنها تمرکز کنند — قابلیتی که منجر به دقت بالا و آموزش سریعتر میشود.
از فیزیک تا هوش مصنوعی؛ الهام از مدل آیزینگ
پژوهشگران SISSA در توضیح یافتههای خود نوشتهاند: «ما از فیزیک الهام گرفتیم، جایی که پرسشی مشابه دربارهی ماهیت گذارهای فازی حدود یک قرن پیش در مدلهای ذرات برهمکنشگر مطرح شد؛ مانند مدل معروف آیزینگ که رفتار آهنربایی را توصیف میکند.»
مدل آیزینگ، که در سال ۱۹۲۰ توسط ویلهلم لنتس مطرح و بعدها توسط دانشجوی او ارنست آیزینگ در رسالهی دکتریاش بررسی شد، برای توصیف پدیدهی فرومغناطیس به کار میرود — قویترین نوع مغناطیس در جهان فیزیکی. مواد فرومغناطیس مانند آهن و نیکل، بدون نیاز به میدان خارجی، خاصیت مغناطیسی خودبهخودی دارند. در این مدل، زمانی که دما به حد «دمای کوری» برسد، نظم اتمی از بین میرود و خاصیت مغناطیسی فرومیپاشد — پدیدهای که در فیزیک به آن گذار فاز (Phase Transition) گفته میشود. پژوهشگران تأکید کردند که همانگونه که آهن در نقطهی بحرانی از حالت منظم به بینظمی تغییر میکند، مدلهای زبانی نیز در نقطهای مشخص از «تشخیص موقعیت کلمات» به «درک معنا» تغییر وضعیت میدهند.
کشف لحظهی “روشن شدن چراغ فهم” در LLMها
با طراحی مدلهای سادهشده از سازوکار توجه به خود، پژوهشگران SISSA دریافتند که این تغییر در مدلهای زبانی بهصورت ناگهانی و جهشی اتفاق میافتد، نه تدریجی. درست همانند زمانی که با زدن یک کلید، چراغی روشن میشود. در مرحلهی پایینتر از آستانه، شبکه تنها به موقعیت واژهها در جمله وابسته است، اما بهمحض عبور از آن نقطه، بهصورت لحظهای به درک معنایی و مفهومی متن دست مییابد. پژوهشگران این پدیده را با لحظهی تاریخی «یافتم!» (Eureka) از ارشمیدس مقایسه کردند — لحظهای که او روش اندازهگیری حجم را کشف کرد.
نتایج این پژوهش نشان میدهد که مدلهای زبانی بزرگ برای دستیابی به درک واقعی معنا، باید از یک نقطهی گذار فازی مشخص عبور کنند — از وابستگی صرف به جایگاه واژهها تا درک معنایی عمیق. این کشف میتواند در مسیر توسعهی هوش مصنوعی توضیحپذیر (Explainable AI) نقشی حیاتی ایفا کند. فهم سازوکار درونی این گذارها، به پژوهشگران و توسعهدهندگان کمک میکند تا مدلهای زبانی آینده را پایدارتر، قابل اعتمادتر و قابل فهمتر طراحی کنند — مدلی که نهتنها پاسخ میدهد، بلکه واقعاً میفهمد.