به گزارش سرویس تازه های دنیای فناوری مجله عصر اطلاعات ،
درحالیکه طی ماههای اخیر شاهد انتشار خبرهای بسیار زیادی درمورد مدلهای زبانی بزرگ (LLM) هستیم، برخی کارشناسان از هوش مصنوعی چندوجهی بهعنوان مسیری بالقوه برای توسعهی هوش عمومی مصنوعی یاد میکنند؛ فناوری جالبی که ظاهراً میتواند در انجام مشاغل فکری جایگزین انسانها شود. درواقع دستیابی به AGI یکی از اهداف مهم OpenAI در فضای هوش مصنوعی است.
بهنظر میرسد مایکروسافت بهتنهایی Kosmos-1 را توسعه داده و OpenAI نقشی در ساخت آن نداشته است. محققان این پروژه را «مدل زبانی بزرگ چندوجهی» یا MLLM مینامند زیرا در پردازش زبان طبیعی از مدلهای زبانی بزرگ (LLM) متنی بهره میبرد که نمونهی بارز آن را در ChatGPT مشاهده کردهایم. محققان برای اینکه Kosmos-1 ورودی تصویری را بپذیرد، ابتدا باید عکس را به یکسری نشانههای خاص متنی ترجمه کنند تا LLM بتواند آن را درک کند. مقالهی مربوط به مدل هوش مصنوعی چندوجهی جدید مایکروسافت این موضوع را با جزئیات بیشتر شرح داده است:
بهنوشتهی ArsTechnica، ابتدا برای ورودی دریافت شده به توالی نشانههای ویژه تبدیل میشود. بهطور خاص از <g> و </g> برای نشان دادن شروع و پایان هر دنباله استفاده شده است. نشانههای ویژهی <image> و </image> نیز شروع و پایان تصاویر رمزنگاریشده را نشان میدهند. بهعنوان مثال <g> سند موردنظر </g> یک ورودی متنی است و <s> پاراگراف <image> تصویر </image> پاراگراف </s> یک ورودی متنی و تصویری را ادغام میکند.
یک ماژول داخلی نیز برای رمزنگاری نشانههای متنی و سایر ورودیها در بردارهای مدل Kosmos-1 تعبیه شده است. این ورودیها سپس وارد بخش دریافتکننده میشوند. علاوهبراین از یک جدول جستجو برای درج نشانههای ورودی، استفاده شده است. برای ورودیهایی مثل صدا و تصویر میتوان آنها را بهشکل کدهای گسسته نمایش داد و سپس بهعنوان زبانهای خارجی درنظر گرفت.
مایکروسافت برای آموزش Kosmos-1 از دادههای وب مثل گزیدههایی از The Pile (منبع متن انگلیسی با حجم ۸۰۰ گیگابایت) و Common Crawl استفاده کرده است. این شرکت سپس تواناییهای مدل هوش مصنوعی جدید خود را در چند آزمون ازجمله درک زبان، تولید زبان، طبقهبندی متن بدون استفاده از روش OCR، توضیح تصویر، پاسخگویی به سؤالات تصویری، پاسخگویی به سؤالات صفحات وب و طبقهبندی تصاویر ارزیابی کرده است. مایکروسافت میگوید عملکرد Kosmos-1 در بسیاری از این آزمونها نسبت به مدلهای هوش مصنوعی پیشرفتهی کنونی بهتر است.
بمنظور اطلاع از دیگر خبرها به صفحه اخبار فناوری مراجعه کنید.