AIRI представил первую в России модель ИИ, способную вести диалог и распознавать картинки
Институт искусственного интеллекта AIRI представил открытую версию модели OmniFusion — OmniFusion 1.1, способную распознавать картинки и вести визуальный диалог. Языковая модель ИИ теперь поддерживает русский язык.
Open-source-код для обучения и веса доступен к использованию и может быть применен в том числе при разработке коммерческих продуктов, говорится в сообщении компании. Модель распознает и описывает изображения, объясняет, что изображено на фото. С ее помощью можно узнать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения или понять, как собрать устройство по фото отдельных его частей.
Также ИИ умеет распознавать текст и решать задачи, в частности, написанный на доске математический пример. Модель может проанализировать медицинское изображение и указать на нем проблему.
«Разумеется, для того чтобы подобная модель помогала ставить диагнозы, ее необходимо дополнительно обучать на профильных датасетах с привлечением экспертов из медицины», — уточнил доктор физико-математических наук, профессор РАН, генеральный директор Института AIRI Иван Оселедец.
Зарубежные аналоги OmniFusion, представленные на рынке, — LLaVA, Gemini, GPT4-Vision, а также китайские модели Qwen, DeepSeek и LVIS. Часть из них находится в закрытом доступе, поэтому трудно оценить их качество.
Что касается OmniFusion, эксперименты по оценке качества показали: модель достигает высоких результатов в большинстве бенчмарков, не уступая зарубежным моделям.
Открытый исходный код и вес модели можно найти по ссылке https://github.com/AIRI-Institute/OmniFusion.
Ранее сообщалось, что американская научно-исследовательская организация OpenAI, которая занимается разработками в области искусственного интеллекта, с апреля 2024 года разрешила пользователям работать с чат-ботом ChatGPT без регистрации. На данный шаг компания пошла для того, чтобы платформа была доступной для большего числа людей.