Новые технологии, такие как искусственный интеллект (ИИ) и машинное обучение, помогают лучше проанализировать и понять, что происходит на видеозаписях систем видеонаблюдения в автоматическом режиме.
Распространение видеонаблюдения, в том числе беспроводного к удаленным объектам, а также развитие мощности и возможностей видеокамер в соответствии с законом Мура, не говоря уже о желании общества чувствовать себя в безопасности повсюду, привели к появлению миллиардов камер видеонаблюдения по всему миру, генерирующих тысячи петабайт видеоданных ежедневно.
Что делать со всем этим видео? В этом и заключается проблема. В большинстве случаев видеозаписи с камер видеонаблюдения хранятся на жестком диске до тех пор, пока что-то не произойдет и не возникнет необходимость в проверке отснятого материала.
И не так часто для таких задач, как: мониторинг дорожного движения, развивающегося класса решений “умный город” – видео передается по сети, в некую компьютерную систему, где оно анализируется в режиме online.
Именно в этих системах новые технологии, такие как искусственный интеллект (ИИ) и машинное обучение, помогают понять, что происходит во всем этом видео, не заставляя человека просматривать весь поток.
Для современных систем безопасности область компьютерного зрения — это системы, позволяющие идентифицировать и понимать людей и объекты на видео – человека, попавшего в беду на улице, сумку, оставленную на железнодорожной платформе, номер автомобиля, превысившего скорость, пробки, панику, очереди и т.д. В настоящее время компьютерное зрение переживает значительную эволюцию, в результате которой оно превратится из узкоспециализированного решения в практически вездесущую функцию систем видеонаблюдения. Ключ к этому – более «умные» камеры видеонаблюдения с искусственным интеллектом.
Компьютерное зрение — это растущий рынок, влияющий на все сферы – от дополненной реальности в телефонах, автономного вождения автомобилей до интеллектуального сельского хозяйства. В сфере безопасности компьютерное зрение на основе искусственного интеллекта обещает повысить уровень личной безопасности и автоматизировать защиту объектов и инфраструктуры, основываясь на способности технологии анализировать видеоданные.
Однако осмысление всего видео, генерируемого установленными видеокамерами, сопряжено с определенными трудностями. Для того чтобы компьютерное зрение стало распространенно, решения для камер с искусственным интеллектом должны учитывать несколько тенденций:
Более высокое разрешение. В потребительской электронике видео высокого разрешения является нормой. Даже дверные домофоны стали выходить за рамки разрешения Full HD, 1080p. Не говоря уже о современных смартфонах. Камеры видеонаблюдения также движутся в этом направлении, открывая новые возможности для компьютерного зрения.
На текущий момент самым распространённым разрешением у камер остается 1080p
Высокое разрешение, а также широкоугольные объективы позволяют лучше распознавать людей, предметы и даже поведение в большом поле зрения. Сложность заключается в сохранении этого разрешения при передаче видео от камеры к аналитической системе. Часто для экономии пропускной способности сети приходится уменьшать разрешение видео, что может ограничить эффективность компьютерного зрения. Особенно если таких камер много, и они передают поток по одному каналу.
Защита конфиденциальности. По мере повсеместного распространения видеокамер и повышения их разрешения становится все проще идентифицировать людей в видеопотоке. Эта возможность особенно важна для приложений повторной идентификации, в которых один и тот же человек отслеживается несколько раз в одной и той же камере в разные моменты времени или по нескольким камерам. Например, в офисе, или в метро.
Такие приложения используются как для статистических целей, так и для расследования событий и отслеживания подозрительной активности. В этих случаях все более актуальным становится решение проблемы защиты частной жизни.
Например, включение автоматического размытие лиц, называемое анонимизацией, или локальную обработку видеопотока на самой камере и присвоение метаданных для описания людей или предметов. Другими словами, вместо того чтобы просто передавать и хранить видео с человеком в красной рубашке, система компьютерного зрения передает и хранит только метаданные, указывающие на то, что она увидела человека в красной рубашке.
Только в случае необходимости поиска всех людей в красных рубашках доступ к самому видео будет предоставлен. Как бы это ни было реализовано, защита конфиденциальности должна развиваться параллельно с компьютерным зрением. Хотя в общественных местах, я думаю, об этом не может идти и речи.
Диверсификация аналитики. До недавнего времени компьютерное зрение и аналитика были связаны только с безопасностью и охраной – выявлением потенциальных угроз в тех или иных местах. Однако все чаще организации хотят получать больше информации от установленных видеокамер.
Например, магазин, хочет выявлять воров, но теперь он также заинтересован в анализе перемещения покупателей по помещению, чтобы понять, например, эффективность размещения товаров или маркетинговых дисплеев. Такие камеры могут создавать тепловую карту покупательского интереса и подсвечивать те зоны, в которых покупатели провели больше времени в магазине, что в свою очередь поможет понять какой товар является маржинальным, а какой не представляет интереса для покупателей.
В “умных” городах видео используется не только для обеспечения безопасности, но и для выявления закономерностей движения транспорта, например для регулирования автомобильных потоков в автоматическом режиме. В любом случае к разным видеопотокам одной и той же сцены могут применяться разные аналитические алгоритмы, что требует более мощного и эффективного решения для компьютерного зрения.
Появление видеопроцессоров (VPU). Это более мощное и эффективное решение появилось в виде новых процессоров компьютерного зрения. Этим системам на кристалле (SoC) предстоит решать множество задач, включая видео с более высоким разрешением, решения для защиты конфиденциальности и, возможно, несколько видов аналитической обработки.
Существуют технологии улучшения качества видеоизображения за счет стабилизации изображения, уменьшения размытости и других методов. Если объединить эти возможности с обработкой компьютерного зрения на основе ИИ, то камеры не только “видят” лучше и четче, но и лучше понимают увиденное и создают более качественный визуальный образ сцены.
Более того, применяя искусственный интеллект к обычным технологиям улучшения зрения, например, для уменьшения “шума” изображения в условиях недостаточной освещенности, этот новый класс VPU работает быстрее и эффективнее даже при меньшем количестве доступного света.
Распределенная аналитика. До сих пор эти две задачи обработки видео – улучшение видео и видеоаналитика – выполнялись отдельно. Камера сама улучшает картинку, а улучшенное видео отправляется в облачную систему или центр управления для анализа.
Это неэффективно по нескольким причинам. Во-первых, это задержка в передаче данных. Вторая, связанная с этим причина, заключается в том, что для многих систем безопасности и других “умных” видеоприложений действия должны предприниматься в режиме реального времени, то есть анализ должен проводиться не там, где находится камера. Таким образом, аналитика компьютерного зрения становится все более распределенной, а не централизованной.
В последние годы успех облачных вычислений, когда приложения и обработка выполняются в крупных центрах обработки данных, вызвал интерес к вычислениям, обработка которых выполняются на устройствах, расположенных ближе к месту, где они необходимы.
ИИ особенно выигрывает от использования пограничной модели, поскольку во многих случаях обрабатываемые данные генерируются там, где больше всего нужна обработка и аналитика ИИ. Например, в обрабатывающей промышленности ИИ используется вместе с робототехникой для быстрого обнаружения проблем с качеством на заводе. В медицинских учреждениях ИИ используется в системах визуализации для более точного определения угрожающих жизни состояний и улучшения результатов лечения пациентов.
В сфере безопасности к компьютерному зрению на основе ИИ предъявляются аналогичные требования. В зависимости от области применения, когда камера видеонаблюдения с искусственным интеллектом собирает видео, имеет смысл использовать ИИ и аналитическую обработку ближе к камере, а то и в самой камере.
Это позволяет быстрее принимать меры, в некоторых случаях по инициативе самой камеры. Для этого также требуются новые технологии, в том числе процессоры, предназначенные для работы с нейронными сетями, используемыми в ИИ.
Для работы нейронных сетей, которые обрабатывают данные разрозненно, как синапсы в мозге, с традиционными линейными процессорами требуются мощность и энергия, которые не могут себе позволить такие периферийные устройства, как камеры. Многие видеокамеры устанавливаются в суровых условиях, вдали от надежных источников питания, поэтому, если они должны использовать компьютерную обработку зрения, эта обработка должна быть эффективной. Кроме того, она должна быть мощной.
Современные процессоры ИИ для компьютерного зрения
В свете достижений в области компьютерного зрения и спроса на аналитику ИИ, в отрасли разработаны специализированные процессоры для ИИ. Эти процессоры могут быть интегрированы в интеллектуальные камеры или в видеорегистраторы, расположенные на периферии, такие как системы управления видео (VMS) или сетевые видеорегистраторы (NVR), которые принимают потоки от существующих видеокамер и применяют к ним алгоритмы ИИ.
Пограничный ИИ может стать мощным помощником в двух ключевых направлениях. Первый — это обнаружение людей, событий или ситуаций с помощью различных аналитических средств и автоматическое включение оповещения или реагирования. Второй способ – автоматический анализ видео и применение метаданных для облегчения последующего поиска.
Например, вместо того чтобы искать в хранящихся видеозаписях человека в красной рубашке, специалист по безопасности может задать поиск по слову “красная рубашка” и получить все соответствующие кадры.
Конечно, заменить миллиард камер видеонаблюдения по всему миру интеллектуальными камерами, оснащенными процессорами искусственного интеллекта, будет непростой задачей. Но конечная цель состоит в том, чтобы вывести как можно больше процессов обработки компьютерного зрения – как ИИ, так и улучшающих видео – на саму камеру, где они могут принести наибольшую пользу.