Институт искусственного интеллекта (ИИ) AIRI представил открытую версию модели OmniFusion 1.1. По словам разработчиков, OmniFusion представляет собой первую в России мультимодальную языковую модель, способную поддерживать визуальный диалог и отвечать на вопросы пользователей по картинкам, а в перспективе — по аудио, 3D и видеоконтенту.
Open source код для обучения и веса модели доступны к использованию.Как утверждают разработчики, модель распознаёт и описывает изображения.
С её помощью можно объяснить, что изображено на фото, узнать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения, узнать, как собрать устройство по фото отдельных его частей, или проанализировать медицинское изображение и указать проблему.
Читать на habr.com