هوش مصنوعی جدید مایکروسافت، محتوای تصاویر را درک می‌کند و به سؤالات تصویری پاسخ می‌دهد

به گزارش سرویس تازه های دنیای فناوری مجله عصر اطلاعات ،

درحالی‌که طی ماه‌های اخیر شاهد انتشار خبرهای بسیار زیادی درمورد مدل‌های زبانی بزرگ (LLM) هستیم، برخی کارشناسان از هوش مصنوعی چندوجهی به‌عنوان مسیری بالقوه برای توسعه‌ی هوش عمومی مصنوعی یاد می‌کنند؛ فناوری جالبی که ظاهراً می‌تواند در انجام مشاغل فکری جایگزین انسان‌ها شود. درواقع دستیابی به AGI یکی از اهداف مهم OpenAI در فضای هوش مصنوعی است.

به‌نظر می‌رسد مایکروسافت به‌تنهایی Kosmos-1 را توسعه داده و OpenAI نقشی در ساخت آن نداشته است. محققان این پروژه را «مدل زبانی بزرگ چندوجهی» یا MLLM می‌نامند زیرا در پردازش زبان طبیعی از مدل‌های زبانی بزرگ (LLM) متنی بهره می‌برد که نمونه‌ی بارز آن را در ChatGPT مشاهده کرده‌ایم. محققان برای اینکه Kosmos-1 ورودی تصویری را بپذیرد، ابتدا باید عکس را به یک‌سری نشانه‌های خاص متنی ترجمه کنند تا LLM بتواند آن را درک کند. مقاله‌ی مربوط به مدل هوش مصنوعی چندوجهی جدید مایکروسافت این موضوع را با جزئیات بیشتر شرح داده است:

به‌نوشته‌ی ArsTechnica، ابتدا برای ورودی دریافت شده به توالی نشانه‌های ویژه تبدیل می‌شود. به‌طور خاص از <g> و </g> برای نشان دادن شروع و پایان هر دنباله استفاده شده است. نشانه‌های ویژه‌ی <image> و </image> نیز شروع و پایان تصاویر رمزنگاری‌شده را نشان می‌دهند. به‌عنوان مثال <g> سند موردنظر </g> یک ورودی متنی است و <s> پاراگراف <image> تصویر </image> پاراگراف </s> یک ورودی متنی و تصویری را ادغام می‌کند.

یک ماژول داخلی نیز برای رمزنگاری نشانه‌های متنی و سایر ورودی‌ها در بردارهای مدل Kosmos-1 تعبیه شده است. این ورودی‌ها سپس وارد بخش دریافت‌کننده می‌شوند. علاوه‌براین از یک جدول جستجو برای درج نشانه‌های ورودی، استفاده شده است. برای ورودی‌هایی مثل صدا و تصویر می‌توان آن‌ها را به‌شکل کدهای گسسته نمایش داد و سپس به‌عنوان زبان‌های خارجی درنظر گرفت.

مایکروسافت برای آموزش Kosmos-1 از داده‌های وب مثل گزیده‌هایی از The Pile (منبع متن انگلیسی با حجم ۸۰۰ گیگابایت) و Common Crawl استفاده کرده است. این شرکت سپس توانایی‌های مدل هوش مصنوعی جدید خود را در چند آزمون ازجمله درک زبان، تولید زبان، طبقه‌بندی متن بدون استفاده از روش OCR، توضیح تصویر، پاسخ‌گویی به سؤالات تصویری، پاسخ‌گویی به سؤالات صفحات وب و طبقه‌بندی تصاویر ارزیابی کرده است. مایکروسافت می‌گوید عملکرد Kosmos-1 در بسیاری از این آزمون‌ها نسبت به مد‌ل‌های هوش مصنوعی پیشرفته‌ی کنونی بهتر است.

بمنظور اطلاع از دیگر خبرها به صفحه اخبار فناوری مراجعه کنید.

درباره ی امیر

مطلب پیشنهادی

با نوکیا، از زمین تا ماه!

به گزارش سرویس تازه های دنیای فناوری مجله عصر اطلاعات ، یکی از مدیران نوکیا …