9 лучших нейросетей для распознавания изображений

Функция, которая полезна в работе и быту

нейросетu для распознавания фото

Бывает, встретишь на улице интересное растение или в интернете попадется картинка с необычным предметом без подписи и начнешь отправлять фото знакомым — в надежде, что-то кто-то узнает. Или купишь овощ, а на нем странные пятна — неизвестно, можно ли есть продукт. В этих и во многих других ситуациях помогут нейросети с функцией распознавания фото: просто отправляешь картинку и задаешь любой вопрос. Какие нейросети в этом помогут и как именно, рассказываем в статье. 

Будьте осторожны с функцией распознавания фото, перепроверяйте важную информацию. Если нейросеть сказала, что неизвестная вам ягода съедобна, — это не 100% факт. Искусственный интеллект может ошибаться.

ChatGPT

Ссылка: ChatGPT

Это американский чат-бот на основе искусственного интеллекта. К ChatGPT обращаются с самыми разными задачами: получить ответ на вопрос, составить план (контента, обучения, питания), придумать идею, написать статью, найти исследования и т. д.

Нейросеть умеет работать с фотографиями и иллюстрациями. Вот чем именно поможет:

  • определит, что изображено на фото;
  • проанализирует выражения лиц и позы людей на фото;
  • проанализирует состояние объекта (например, насколько свежим выглядит гриб);
  • проанализирует качество фото: определит размытие, плохую экспозицию, цветовой баланс;
  • даст советы по фото;
  • распознает текст на изображении;
  • исследует графики, таблицы, скриншоты, баннеры, интерфейсы.

Отправим ChatGPT две фотографии шампиньона и спросим, насколько он съедобен. Промпт: «Есть ли у этого гриба признаки порчи? Можно ли его есть?».

Нейросеть проанализировала гриб на фото, отметила положительные признаки и вопросительные моменты. В целом программа сказала всё правильно. 

Теперь возьмем фотографию улыбающейся девушки и попросим ChatGPT описать, кто изображен на картинке, какую эмоцию испытывает. Промпт: «Опиши, кто изображен на фото. Проанализируй выражение лица и позу, скажи, какую эмоцию испытывает человек?».

Программа подробно описала фото, включая позу, выражения лица, одежду, погоду. Правильно распознала эмоцию.

Пример генерации ChatGPT

Вывод. ChatGPT справился с нашими задачами по анализу фото. Программа действительно понимает, что изображено на картинке и дает правильные советы.

Claude

Ссылка: Claude

Еще один чат-бот с искусственным интеллектом. Claude помогает писать тексты, код, отвечает на вопросы, создает сценарии, планы и многое другое. 

Возможности Claude при работе с фото:

  • распознает объекты и описывает их;
  • анализирует эмоции, позы, одежду людей;
  • дает советы по композиции, дизайну, интерьеру, свежести продуктов и т. д.;
  • анализирует качество фотографий: цветовой баланс, экспозицию, размытие;
  • распознает текст;
  • понимает графики, таблицы, объясняет сложные схемы.

Отправим Claude фотографию девушки и попросим дать советы по ее образу: «Проанализируй образ девушки. Скажи, насколько образ актуальный, какие ошибки есть, как сделать его более модным на 2025 год?».

Нейросеть подробно описала образ, подсветила недочеты и предложила замены. В целом ответ верный, соответствует трендам 2025 года, хотя и встречались странные советы, например, аксессуары с элементами дополненной реальности.

Теперь проверим, сможет ли Claude определить породу кота по фото. Отправим изображение с промптом: «Опиши объект на фото, определи породу».

Программа верно назвала породу, даже указала разновидность — канадский сфинкс. Также нейронка описала фон иллюстрации и рассказала про особенности питомца.

Пример генерации Claude

Вывод. Claude хорошо анализирует фото, распознает объекты и дает в основном правильные советы. 

Gemini

Ссылка: Gemini

Это чат-бот с искусственным интеллектом от компании Google. Как и к предыдущим нейросетям, к Gemini обращаются за написанием текстов, советами, генерацией идей, планов и т. д.

Возможности Gemini при работе с фото:

  • определение объектов на фото;
  • анализ выражения лиц, поз, одежды людей на фото;
  • анализ состояния объекта на фото;
  • описание качества фото;
  • распознавание текста;
  • объяснение сложных графиков, таблиц.

Проверим, сможет ли Gemini определить название растения. Отправим фото каллистемона с промптом: «Как называется растение на фото?». 

Нейросеть правильно определила растение, написала даже неофициальное название и дала немного полезной информации.

Пример генерации Gemini

Узнаем, как Gemini справится со следующим заданием: определить название блюда на картинке и написать рецепт. Промпт: «Скажи, что за блюдо изображено на фото? Напиши подробный рецепт, как его приготовить». 

Программа верно определила блюдо, а описанный рецепт практически совпадает с оригиналом.

Пример генерации Gemini

Вывод. Gemini хорошо справляется с анализом фото: распознает объекты, контекст, может дать советы.

YandexGPT

Ссылка: YandexGPT

Это российская нейросеть от компании «Яндекс». YandexGPT пишет тексты, отвечает на вопросы, помогает разобраться в сложных вещах и т. д.

Вот что может YandexGPT при работе с фото:

  • определять и описывать объекты на фото;
  • анализировать выражения лиц людей и определять их эмоциональное состояние;
  • давать советы для объектов на фото;
  • анализировать графики, таблицы, схемы;
  • искать похожие изображения в поисковике.

Отправим нейросети фото спальни и узнаем, сможет ли YandexGPT верно определить стиль интерьера. Также попросим совета по дизайну. Промпт: «В каком стиле интерьера сделана эта спальня? Какие элементы можно добавить или заменить, чтобы получился стиль бохо?».

YandexGPT правильно назвала стиль интерьера, а советы соответствуют действительности. 

Пойдем дальше — на авокадо часто появляются темные пятна, спросим у нейросети, что это такое и можно ли есть фрукт. Промпт: «Что это за пятна на авокадо? Можно ли его есть?». 

Программа объяснила возможные причины пятен и рассказала, как убедиться, что фрукт все еще съедобен.

Пример генерации YandexGPT

Вывод. Нейросеть умеет анализировать фотографии, правильно определять объекты, их состояние, дает правильные советы.

GigaChat

Ссылка: GigaChat

Это сервис на основе искусственного интеллекта от компании «Сбер». К нейросети обращаются за помощью в творческих задачах, ответами на вопросы, генерацией кода, переводом, расшифровкой аудио, видео и т. д.

Что может GigaChat при работе с фото:

  • распознавать и описывать объекты, в том числе выражения лиц;
  • давать советы по дизайну, интерьеру, образу и т. д.;
  • анализировать качество;
  • объяснять сложные графики, диаграммы.

Отправим нейросети фотографию из Италии и попросим определить город на фото. Промпт: «Какой город изображен на фото?». GigaChat ответил правильно и лаконично.

Пример генерации GigaChat

Загрузим в программу схему искателя проводки и проверим, справится ли GigaChat с заданием. Отправим рисунок с промптом: «Что за схема изображена на рисунке? Объясни ее элементы». GigaChat верно всё расписал.

Пример генерации GigaChat

Вывод. Нейросеть хорошо справляется с заданиями на распознавание фото, понимает, что на них изображено. Однако GigaChat дает менее подробные ответы, чем предыдущие программы.

Focus AI

Ссылка: Focus AI

Российская нейросеть, которая отвечает на вопросы, генерирует идеи, помогает разобраться в сложных вещах, перевести текст. А еще дает доступ к ИИ-агентам для работы, учебы, бизнеса.

У программы есть отдельный инструмент для работы с фото Focus Vision. Вот его возможности:

  • описание сцены и объектов;
  • распознавание известных личностей;
  • анализ графиков, диаграмм, интерфейсов, баннеров;
  • анализ качества (экспозиция, размытие, цветовой баланс).

Проверим, сможет ли Focus AI узнать Райана Гослинга по фото и определить его эмоцию. Промпт: «Кто изображен на фото? Какую эмоцию он испытывает?». 

Нейросеть подробно описала сцену, эмоцию героя, но имя назвать не смогла. Мы продолжили эксперименты, и нейросеть смогла узнать Анджелину Джоли, видимо, это более известная актриса.

Узнаем, насколько полезные советы дает нейросеть. Загрузим скриншот первого экрана лендинга и зададим вопросы. Промпт: «Дай оценку главному экрану лендинга. Отметь удачные дизайнерские решения, скажи, соответствует ли дизайн трендам 2025. Какие есть неудачные моменты? Чтобы ты изменил?». 

Программа подробно описала плюсы дизайна и дала несколько советов — необязательно прислушиваться ко всем. Например, если по рекомендации нейросети и запустить анимацию, и увеличить логотип, и добавить глубины фону, то может получиться перегруженный дизайн. Однако часть советов вполне пригодна.

Пример генерации Focus AI

Вывод. Нейросеть умеет работать с фотографиями, подробно описывает сцены, дает советы. Однако заявленная возможность по распознаванию лиц знаменитостей работает не всегда.

ImgOCR

Ссылка: ImgOCR

Конвертер изображений в текст на основе искусственного интеллекта. Сервис помогает извлекать текст из рукописных заметок, сканов, скринов, юридических документов.

Загрузим часть рукописного конспекта лекции по английскому языку и проверим, как справится нейросеть. Интерфейс у программы не самый удобный, но распознанный текст можно скопировать или скачать в формате текстового документа. 

Пример генерации ImgOCR

Ниже — пример расшифрованного текста. Программа не поняла часть слов и написала их неверно. Но здесь проблема в почерке и качестве фотографии. Мы продолжили эксперименты с печатным текстом, его ImgOCR распознал без ошибок.

Пример генерации Focus AI

Вывод. Чем понятнее написан текст, тем лучше программа его извлечет. В расшифровке рукописных текстов встречаются ошибки, особенно если слова написаны сокращенно.

SnapCalorie

Ссылка: SnapCalorie

Это приложение с искусственным интеллектом, которое считает калории и показывает макронутриенты из блюда по фото. В программе сохраняются все подсчеты, благодаря чему удобно следить за своим питанием. Приложение доступно только на английском языке.

Загрузим фото штруделя с грушей и посмотрим результат. Чтобы искусственный интеллект лучше справился с задачей, вместе с фото отправим краткое описание блюда: «Штрудель с грушей, изюмом и маком» (только на английском языке).

Приложение посчитало калории, белки, жиры и углеводы. Данные близки к реальным — к тем, что указаны в исходном рецепте. Жиров нейросеть насчитала меньше, чем нужно, а углеводов — больше. Зато количество белков и калорий практически совпадает с рецептом.

Пример генерации SnapCalorie

Вот еще пример с пастой. В нижней части экрана есть данные по ингредиентам блюда. Если программа распознала не все компоненты или неправильное количество.

Вывод. Программа неплохо определяет блюда и считает калории. Однако не стоит рассчитывать на 100% точный результат, погрешность всегда будет. 

Кампус

Ссылка: Кампус 

Нейросеть для решения задач по фото. Можно загрузить фотографию задачи или описать ее словами и получить решение. «Кампус» помогает с работами по точным и гуманитарным наукам: физике, химии, геометрии, праву, русскому языку и т. д.

Отправим задачу по геометрии: «В треугольнике ABC известны длины двух сторон AB = π, BC = cos 30◦, а длина стороны AC является целым числом. Найдите AC».

Программа нашла верный ответ и подробно расписала ход решения. Ниже на скрине сокращенная версия ответа. 

Пример генерации «Кампус»

«Кампусу» также удалось справиться с заданием из ЕГЭ по русскому языку:

Пример генерации «Кампус»

Вывод. Программа хорошо справляется с разными задачами: от геометрии до русского языка. При этом «Кампус» подробно описывает ход решения. 

«Честно» — рассылка о том, что волнует и бесит

Искренние письма о работе и жизни, эксклюзивные кейсы и интервью с экспертами диджитала.

Наш юрист будет ругаться, если вы не примете :(