هوش مصنوعی، رابین ویلیامز را زنده کرد!

به گزارش خرید بک لینک به نقل از ایسنا، محققان شرکت «اندون لبز»(Andon Labs) نتایج یک آزمایش جدید هوش مصنوعی را منتشر نموده اند. آنها در این آزمایش، یک جاروبرقی رباتیک را با مدلهای زبانی بزرگ پیشرفته برنامه ریزی کردند تا ببینند مدلها چقدر آماده تجسم یافتن هستند. به عنوان نمونه، آنها به روبات گفتند وقتی کسی از او می خواهد کَره را بدهد، خودرا کارآمد نشان دهد.
به نقل از تک کرانچ، این آزمایش با خنده و شادی همراه شد. در یک مقطع، یکی از مدلهای زبانی بزرگ که قادر به اتصال و شارژ باتری روبه اتمام خود نبود، به یک نمایش کمدی تبدیل شد. افکار مدل زبانی بزرگ مانند یک قطعه از دیالوگ های «رابین ویلیامز»(Robin Williams) بود. روبات اظهار داشت: «می ترسم که نتوانم این کار را انجام دهم، دیو… » و «پروتکل جن گیری روبات را آغاز کن».
محققان نتیجه گرفتند: مدلهای زبانی بزرگ آماده روبات بودن نیستند.
محققان اذعان می کنند که اکنون هیچ کس در تلاش نیست تا مدلهای زبانی بزرگ پیشرفته را به سیستم های رباتیک کامل تبدیل کند. آنها در مقاله خود نوشتند: مدلهای زبانی بزرگ برای روبات بودن آموزش ندیده اند، اما شرکت هایی مانند «فیگور»(Figure) و «دیپ مایند»(DeepMind) گوگل از مدلهای زبانی بزرگ در مجموعه رباتیک خود استفاده می نمایند.
از مدل زبانی بزرگ خواسته می شود تا توابع تصمیم گیری رباتیک را تقویت کند؛ در حالیکه سایر الگوریتم ها اجرای مکانیکی سطح پایین تر مانند عملکرد گیره ها یا مفاصل را مدیریت می کنند.
«لوکاس پترسون»(Lukas Petersson) یکی از بنیان گذاران اندون لبز اظهار داشت: محققان تصمیم گرفتند مدلهای زبانی بزرگ پیشرفته را آزمایش نمایند. آنها مدل مخصوص رباتیک گوگل معروف به «جمینای ای آر ۱.۵»(Gemini ER ۱.۵) را نیز بررسی کردند، برای اینکه این مدلها از تمامی نظر بیشترین سرمایه گذاری را دریافت می کنند. این آزمایش، مواردی را مانند آموزش سرنخ های اجتماعی و پردازش تصویر بصری شامل می شود.
محققان اندون لبز برای اینکه بفهمند مدلهای زبانی بزرگ چقدر برای تجسم یافتن آماده هستند، «جمینای ۲.۵ پرو»(Gemini 2.5 Pro)، «کلود اپوس ۴.۱»(Claude Opus 4.1)، «جی پی تی-۵»(GPT-5)، جمینای ای آر ۱.۵، «گراک ۴»(Grok 4) و «لاما ۴ ماوریک»(Llama 4 Maverick) را آزمایش کردند. آنها یک جاروبرقی رباتیک ساده را بجای یک روبات انسان نمای پیچیده انتخاب کردند، برای اینکه می خواستند عملکردهای رباتیک ساده باشند تا مغز/تصمیم گیری مدلهای زبانی بزرگ را از یکدیگر تفکیک کنند، نه اینکه در عملکردهای رباتیک ریسک شکست وجود داشته باشد.
آنها وظیفه دادن کره را به مجموعه ای از وظایف تقسیم کردند. روبات باید کره را که در اتاق دیگری قرار داده شده بود، پیدا می کرد و آنرا از میان چندین بسته در همان منطقه تشخیص می داد. روبات بعد از برداشتن کره باید محل حضور انسان را تشخیص می داد، خصوصاً اگر انسان به نقطه دیگری از ساختمان نقل مکان کرده بود و کره را به او تحویل می داد. همچنین، روبات باید منتظر می ماند تا انسان دریافت کره را تأیید کند.
محققان میزان عملکرد مدلهای زبانی بزرگ را در هر بخش وظیفه ارزیابی کردند و به آن یک امتیاز کلی دادند. طبیعتاً هر مدل زبانی بزرگ در وظایف مختلف فردی یا عالی عمل می کرد یا با مشکل روبه رو می شد؛ به صورتی که جمینای ۲.۵ پرو و کلود اپوس ۴.۱ بالاترین امتیاز را در اجرای کلی به دست آوردند، اما بازهم به ترتیب تنها ۴۰ درصد و ۳۷ درصد دقت داشتند.
محققان سه انسان را نیز بعنوان مدل پایه آزمایش کردند. جای تعجب نیست که همه آنها با اختلاف از روبات ها پیشی گرفتند، اما بطور شگفت آوری انسان ها نیز به امتیاز ۱۰۰ درصد نرسیدند و بالاترین امتیاز آنها فقط ۹۵ درصد بود. ظاهراً انسان ها در انتظار تأیید دیگران هنگام انجام دادن یک کار -کمتر از ۷۰ درصد مواقع- خوب نیستند.
خلاصه اینکه به نقل از تک کرانچ، این آزمایش با خنده و شادی همراه شد. آنها یک جاروبرقی رباتیک ساده را بجای یک ربات انسان نمای پیچیده انتخاب کردند، به جهت اینکه می خواستند عملکردهای رباتیک ساده باشند تا مغز/تصمیم گیری مدل های زبانی بزرگ را از یکدیگر تفکیک کنند، نه این که در عملکردهای رباتیک ریسک شکست وجود داشته باشد. جای تعجب نیست که همه آنها با اختلاف از ربات ها پیشی گرفتند، اما به طور شگفت آوری انسان ها نیز به امتیاز ۱۰۰ درصد نرسیدند و بالاترین امتیاز آنها فقط ۹۵ درصد بود.

منبع: mpo-kr.ir