Ученые Томского политехнического университета создали новейший алгоритм автоматического обнаружения лиц в видеопотоке, благодаря которому можно подсчитывать количество человек в толпе, вычислять их пол и возраст, и даже искать преступников и террористов. Метод основан на современных технологиях машинного обучения и сверточной нейронной сети — способе классификации изображений, предложенный в 1990 году ученым-математиком Яном Лекуном и основанный на нейробиологической модели зрительного восприятия кошек.
Удалось создать оригинальный метод, который способен работать с потоком видеоданных сверхвысокого разрешения в формате 4K Ultra HD с приемлемым качеством и намного быстрее существующих в мире аналогов. Это позволит осуществлять автоматический мониторинг окружающей обстановки и оперативно распознавать возникновение нештатных ситуаций, так как не потребует вмешательства оператора и будет иметь более высокую детализацию.
Аспирант вуза Илья Калиновский разработал оригинальный каскад компактных сверточных нейронных сетей. По словам Калиновского, которые приводит пресс-служба вуза, раньше эталонным считалось разрешение Full HD (1920 на 1080 пикселей). Разрешение 4K — это 3840 на 2160 пикселей. Но для обработки и хранения видео с таким высоким разрешением требуются очень мощные серверы, а также каналы передачи данных с высокой пропускной способностью. Созданный в Томске алгоритм позволяет работать с таким видео в 10 раз быстрее, чем существующие аналоги.
Сейчас в вузе разрабатывают камеру для работы с видеопотоком-4K в режиме реального времени. Камера должна будет автоматически обнаруживать лица людей и передавать на сервер только значимые фрагменты. Проект поддержан грантом Фонда содействия развитию малых форм предприятий в научно-технической сфере.
По материалам Компьюлента