В раздел "CCTV – реалии и перспективы" | К списку разделов
Видеодетекторы - взгляд изнутри. Грани интеллекта
(Окончание)
М.В. Руцков, Эксперт
"Хорошо сидим"
Хорошо-то, хорошо - да, ничего хорошего! Вот как поднимались к вершинам интеллекта HomoSapiens, так теперь и будем потихоньку спускаться в обратном направлении. Итак, распознавание ситуаций. Тут уж, как говорится, пока делать нечего. На данном уровне у нас нет достижений, наши алгоритмы не только не могут, скажем, “осознать” динамику поведения человека - они даже не способны обнаружить его как такового, с руками и ногами, совершающими сопутствующие колебательные движения.
Однако периодически “пытливые умы” вторгаются в высокие научные сферы, сотрясая воздух сенсационными проектами примерно такого содержания: “Заложены основы технологии выявления террористов в толпе по походке” - дайте денег! Ну, тогда позвольте и мне историю рассказать. В Москве, на станции метро “Павелецкая-кольцевая” в кабину машиниста врывается вооружённый террорист. Далее следует диалог: “Поезд захвачен, гони в Рио-де-Жанейро! - Да Вы что, с ума сошли - это ж метро! - Ничего не знаю, считаю до числа ? - три, два, один, четырнадцать сотых…(!) Хорошо, хорошо. Осторожно, двери закрываются, следующая станция - Бруклинский мост. Как так! А вот так, без дозаправки - не доедем!“
И ведь, действительно, сразу скакнуть в светлое будущее затруднительно. Почему же такое происходит? Ранее этим баловались мужи со степенями и званиями, а теперь - в эпоху демократии - все, кому не лень. Ну что тут скажешь - “целители”, с полным набором самодельных терминов и теорий-учений для избавления цивилизации от любых высокотехнологических болячек. Нет таких не берут в “космонавты”! Считаю своим долгом в популярной форме донести истинное положение дел.
Почему же им, “целителям”, так искренне верят, да и сами они в это уверовали. Все дело в ассоциативности нашего мышления и страстном желании верить в чудеса. Если снова прибегнуть к собирательному образу “домохозяйки”, то логику ее рассуждений можно выразить примерно так: “Я - вижу, камера - видит. Так надо прикрутить к ней лопатку - пусть сама котлеты и переворачивает”. Хорошо - проехали, спускаемся на ступеньку ниже, в обнаружение объектов.
Но и на данном уровне аналогичная картина, за небольшим исключением, есть только несколько вариаций на тему: отпечаток пальца, радужка, автомобильные номера и детектор лиц (FaceDetector), о технологии FaceRecognition говорить не буду - язык не поворачивается. Однако это лишь примитивные “плоские” решения - достаточно погрузиться в реальное 3D-пространство и… Увы, наши алгоритмы бессильны обнаружить, например, такой абстрактный объект, как “кошка”. А ведь она - киска может в разных ракурсах: бежать, сидеть, лежать, спать, а также совершать другие многочисленные действия. И тут на арену выходит малыш, еще говорить-то как следует не умеющий, и без особых проблем всех посчитал, все обнаружил: и киску, и собачку, и шнурки на ботинках, причем даже сообщил, что они развязались. Так-то вот. Поэтому в сравнении с его мозгом наш рукотворный “интеллект” - пока лишь груда компьютерного металлолома! Но вновь срабатывает ассоциативное мышление: “Ну если даже ребенок может, то уж профессиональная система видеонаблюдения и подавно!”.
А “целители” тут как тут: продули “чакры”, расправили “карму”, заправились “энергетикой” под завязку, подмигнули “третьим глазом” и рванули - прямо в “космос”, при этом их “биополе” засияло всем спектром электромагнитных колебаний, вплоть до жесткого рентгена! Захотелось даже встать, снять шляпу и запеть: “Я Земля, я своих провожаю питомцев, сыновей, дочерей, долетайте до самого Солнца - и домой!”. Конечно, ничего ужасного в таких полетах нет (сам по молодости летал), наоборот, они даже, в некотором роде, отрезвляют, только вот злоупотреблять этим не надо. Ну что все “космонавты” вернулись? Отлично - спускаемся еще на ступеньку вниз, в долину видеодетекторов.
А здесь - жизнь бьет ключом. Почти в каждой системе есть видеодетекторы: движения, активности (это как бы недоразвитые первые), направления движения и другие экзотические (по названию) особи, кто как придумает. Например, “вентильный” или “скользкий”, ой извините - “скользящий”. Но объединяет их всех, пожалуй, наличие модной ныне приставки - “интеллектуальный”. Ну это что-то типа титула “Сэр”. Вся разница только в том, что последний присваивается английской королевой, а в нашем случае - любым менеджером по рекламе. Иногда попадаются и эмоционально-художественные вариации: “самый-самый”, “вульгарный”, “непотопляемый” и т.д. Но дело не в этом, смею вас заверить - “интеллектуальностью” тут даже и не пахнет.
Парад "тупых" алгоритмов
Начнем с нашего любимого видеодетектора движения. Как уже было показано ранее, наши глаза “ничего не видят”, кроме узкой зоны, соответствующей “центральной ямке” сетчатки. А на периферии? Спрашивается, о каком таком “интеллектуальном” анализе вообще может идти речь - в упор не видно ни зги! Мы даже не понимаем что движется, зато моментально реагируем.
Теперь наглядный пример из области стереозрения, а именно: видеодетектор глубины или дистанции - как хотите назовите. Был проведен замечательный эксперимент: взяли, да и насыпали на плоскость случайных точек, продублировали, далее выделили в каждом изображении одинаковые квадратные области и сместили немного в разных направлениях (по горизонтали) - получилась стереопара (рис.1). Теперь попробуйте совместить фреймы - для этого надо как бы посмотреть вдаль (за объект), а потом навести фокус (слегка прищуриться). И вы с изумлением увидите, как из этой каши к вам навстречу выехал квадрат. Самое интересное, распознавать в этих картинках нечего - полная бессмыслица. А теперь вспомним детство и попытаемся найти десять отличий (рис.2). Вместо того, чтобы анализировать число косичек у внучки и куда повернут хвост у мышки, просто посмотрим на это художество, как на стереопару, - все отличия и “повыскакивают”.
А вот еще один удивительный механизм видеодетекции - восстановление формы объекта при движении. Обычно им пользуются как хищники, так и жертвы (каждый в своих интересах), поскольку в неподвижном состоянии их не видно - маскируются. Итак, построили 3D-модель двух цилиндров, накидали на их воображаемые поверхности точки в случайном порядке (рис.3) и закрутили: один по часовой стрелке, а другой - против. Если рассматривать каждую проекцию этого действа на сетчатку отдельно (по кадрам), то получаем хаос, но стоит только выдать серию - ух ты, цилиндры в наших мозгах вращаться начали.
Думаю, примеров предостаточно. Какие же выводы можно сделать? В зрительной системе Homo Sapiens работают “тупые” (в хорошем смысле этого слова) алгоритмы видеодетекции, без обилия всевозможных операторов “if-goto” и рекурсий - изображения буквально продавливаются сквозь нейронные слои, как вареный картофель сквозь сито. Фантастическая мощь - и никакого “интеллекта”.
Конечно, кто-нибудь мне возразит: “А мы вот пойдем - другим путем! Будем использовать текстурный, морфологический, макротопологический и другие разнообразные анализы, вплоть до сегментации”. Да делайте без проблем то, что считаете нужным, только вот живую природу, частью которой вы и являетесь - не проведете. Во-первых, такие алгоритмы потребуют более высокого разрешения, что отразится на быстродействии. А во-вторых, они просто не будут работать на приведенных ранее, в качестве примеров, изображениях. Слышу возражения: “Нет таковых в реальности”. Да, в чистом виде нет, однако многие будут приближаться к оным в силу: малой контрастности, наличия разнообразных естественных и искусственных помех, а также маскировки объектов (камуфляж надели).
И не надо морочить людям головы о том, как “космические” алгоритмы бороздят просторы… вычисляя у каждой снежинки и дождинки: вектор движения, скорость, ускорение и т.д. Хотите наглядный пример? Берем маленького котеночка, сводим указательные пальцы вместе и совершаем ими кругообразные движения. Любопытная усатая мордочка моментально начинает отслеживать все наши траектории. Затем резко разводим руки, и видим, как у изумленной киски глаза буквально разлетаются в стороны. Вот примерно так и “разлетаются”, причем в дребезги, “интеллектуальные” алгоритмы слежения за целями, когда тех становится слишком много - аж две! Не усложняйте, именно об этом и писал Генри Каттнер - “робот-зазнайка”, в конце концов, оказался консервным ножом для открывания пивных банок, так уж его изобретатель задумал, но слегка перемудрил. Продолжаем разговор.
Спаси и сохрани
Итак, подведем предварительный итог. Смею констатировать - наши алгоритмы видеоанализа практически ничего не умеют, кроме примитивной детекции движения. Да и работает все это не лучшим образом - мы только в самом начале пути, предстоит сделать очень много, в том числе реализовать такие функции, которые природа и не предусмотрела. Первые шаги уже сделаны.
За последнее столетие человечество кардинально изменило мир, насытив его жуткими кинетическими и потенциальными энергиями. У эволюции не было времени научить живые существа опасаться остановившихся предметов - угроза всегда исходила от движущихся. Но мы поменялись местами, и теперь сами носимся в самодельных механизмах со страшной скоростью.
Речь пойдет о новом классе видеодетекторов: SlowDownDetection - SDD (детекция замедления). Есть и более популярное название - детектор оставленных/унесенных предметов. Алгоритм позволяет обнаруживать объекты, которые двигались и остановились на время, более заданного. И/или наоборот, сигнализировать через тот же временной интервал, если некоторые предметы покинули первоначальные позиции. Алгоритм контролирует одновременно все объекты, отдельно по каждой из функций на фоне с движением. Остановилась машина в тоннеле, отвалилась и упала на полосу деталь у взлетавшего самолета, что-то застряло на железнодорожном переезде - вот лишь некоторые ситуации, приводящие к катастрофе. Однако область приложений технологии SDD намного шире, о чём и пойдёт речь далее. Но прежде хотелось бы понять: “А зачем все это видеодетектирование нужно?”.
Мнения явно разделились: одни уверены - будущее за системами с видеоанализом, других вполне устраивает текущее положение дел (в голове большой такой цифровой видеомагнитофон и не более того), третьи - сомневаются, уж больно сильны стереотипы, якобы видеодетектирование вещь ненадежная и порождает лавину ложных срабатываний. Ну и наконец, есть четвертая группа “специалистов”, которая в агрессивной манере пытается доказать бесперспективность новых технологий. Причины такого поведения видны как на ладони - конкурентная борьба, а вернее война. Вот так получилось и с технологией SDD: одни порадовались, другие вообще не отреагировали, третьи засомневались еще больше, а вот четвертые - встретили в штыки. Первым делом они сознательно сузили область приложения функции, окрестив ее антитеррорной (в плане обнаружения оставленных/остановившихся предметов с взрывчаткой). Конечно, террор - явление ужасное, однако в техногенных авариях гибнет на порядки больше людей. А далее последовал “абсолютно бронебойный” аргумент: “Эта технология совершенно бесполезна, поскольку система не сможет отличить ведро с вареньем от ведра с динамитом”. Да уж, смахивает на воинствующий атеизм: “Бога - нет, потому что космонавты на небо летали и никого там не видали”. А если воспроизвести внутренний голос, то выглядит немного иначе: ”Прости нас, Господи, космонавтов неразумных, в проблему въехать не можем, мозгов не хватает”.
Хорошо, давайте разбираться вместе. Прежде всего, система видеонаблюдения - не собака-ищейка. И основная ее задача - привлечение внимания оператора. Поэтому такую систему уместно сравнить уже с цепной собакой, которая в случае приближения или внедрения на вверенную ей территорию чего-либо начинает громко лаять. Выходит хозяин и с высоты своего мозга уже сам оценивает ситуацию и принимает решение. А почему собака на цепи? А чтобы кого-нибудь не покусала - мы ведь не можем доверить “тупой” системе какие-либо действия, кроме извещения и отпугивающего лая. Однако собаки (видеодетекторы) разные бывают. Если ваша зверюга, как бешенная, непрерывно лает: на луну и звезды, на птичек и кошек, на дождь и снег, а также на шорохи листвы, да и вообще беспричинно, то возникает единственное желание - пристрелить! Это к вопросу ложных срабатываний. Вот вам и ответ на поставленный ранее вопрос - как только видеодетекторы приблизятся по надежности к традиционным охранным датчикам, то моментально будут востребованы и составят последним достойную компанию.
А технология SDD уже достигла требуемого уровня надежности и с успехом используется на периметре в качестве средства обнаружения. Это стало возможным за счет использования интегральных методов - обрабатываются серии изображений, без поиска каких-либо смысловых признаков в отдельных кадрах. Поэтому алгоритм SDD можно смело назвать “тупым”, по аналогии с видеодетекторами в зрительной системе человека. Попробую объяснить в более популярной форме. Лет так 15 назад в “разминке” КВН-овского матча был задан вопрос: “Почему у бегемота красные глаза”, на что и был получен соответствующий ответ: “Чтобы прятаться в помидорах”. Так вот, если в вашу помидорную оранжерею залезет бегемот в камуфляже и затаится, то система его все равно обнаружит, хотя на отдельных снимках вы бегемотика и не увидите.
Теперь рассмотрим некоторые примеры использования данной технологии в порядке, соответствующем возрастанию времени детекции. Причем чем больше это значение, тем выше помехоустойчивость. В диапазоне менее секунды алгоритм очень хорошо справляется с высокоскоростными помехами: дождь, снег, падающие листья, мошкара перед объективом, летящие птицы и т.д. В интервале 1-5 секунд система начинает сигнализировать о пробках на дорогах. Значения от 5 до 20 секунд самые ходовые: остановка автомашин на трассах, в тоннелях, перед офисами и в других публичных местах. При этом надо четко понимать - основное назначение алгоритма - лишь привлечение внимания службы безопасности. Например, разве не подозрительно, что некий индивид три раза за день присел завязать шнурки перед входом в офис или вертелся перед входной дверью вашего дома или около машины. Большое время детекции (1-10 минут) хорошо использовать на открытых безлюдных пространствах, когда нужно предотвратить такие действия, как: отпилить, утащить, врезаться, подложить и т.д. А вообще был интересный случай: в расчетном зале одной телефонной компании установили систему, причем время детектирования ей задали 5 минут, так она начала, как неводом, вылавливать оставленные мобильные телефоны и борсетки.
Ну и наконец, пример сверхбольших интервалов времени. Дело было в одном из городов США. По улице ехала бабушка на самоходной электротабуретке. При этом она, как фея, макала в ведерко с известью волшебную палочку и прикасалась ею к колесам стоявших машин. Восхищению моему не было предела: “Какая прелесть, наверное, это к счастью”. “Это точно”, - подтвердил мой местный друг. Через два часа фея вернется и осчастливит владельцев штрафом за превышение лимита времени парковки!”.
Конечно, можно много рассказывать и фантазировать на эту тему. Однако то, что реально произошло, - просто повергло всех, и меня в том числе, в состояние шока (в хорошем смысле этого слова). Случилось это на стоянке супермаркета в европейской глубинке. Был будний день - народу никого, подъехала молодая мама с грудным ребенком (он сзади в специальном креслице сидел). Функция SDD отработала через 20 секунд, оператор посмотрел - ничего подозрительного. Далее девушка перешла к ребенку и стоя на коленках, перевесила его в нагрудный рюкзачок (к себе лицом). Стала выбираться, резко разогнулась, сильно ударилась затылком о ребро дверного проема и, теряя сознание, мягко упала - ребенок оказался между ней и землей. Повторно сработал видеодетектор - остальное было делом техники: подбежали, перевернули, а там дите с синевою на лице. Слава богу - обошлось. После этого, мне - изобретателю сего уже не надо мучиться вопросом об актуальности SDD-технологии.
"Интеллект" умер - да здравствует интеллект!
Вот мы и подошли к финалу, теперь по закону жанра следует задать вопрос: “Быть или не быть, интеллектуальным системам видеонаблюдения”. Отвечаю категорически - быть! Но только с одним условием, если кресло председателя займет “его величество” - мозг HomoSapiens. Мы имеем уникальную картину. С одной стороны, только человек может, благодаря своему интеллекту, легко обнаруживать объекты и распознавать ситуации. Но он быстро утомляется и не способен не только одновременно смотреть в десятки окон с изображениями или в квадратор, а даже длительное время контролировать всего лишь одну камеру. С другой стороны, компьютер не устанет никогда (если только программное обеспечение не подведет) и будет без устали детектировать события от десятков источников. Одна лишь беда - ума пока не набрался, но ничего, научим.
Итак, вот он замечательный симбиоз - человек-машина как органическое дополнение друг друга. Однако видеодетекторам надо подтянуться, чтобы не нервировать биомозги. Слышу традиционный протест сторонников цифровых видеомагнитофонов: “А в казино этого, не надо”. Можно подумать, что вся CCTV-индустрия сводится к обслуживанию игорных заведений. Нет, мы должны создавать активные системы, которые не просто регистрируют, а реально предотвращают трагедии и другие негативные проявления. Что толку смотреть в архив: как горят заживо люди в тоннелях и пылающий "Конкорд" летит прямо в рай. Но ничего уже изменить нельзя, остается лишь, стиснув зубы, мысленно повторять: “Ну как же так”, - и посыпать голову пеплом! Нет у нас такого права: почивать на лаврах достигнутого - работать надо.
Ну вот, все мечты пока вроде и закончились. Вы уж меня извините, если кого задел ненароком. Это от большой любви - в самом хорошем смысле этого слова. Есть такая замечательная народная мудрость: “Бей своих, чтоб чужие боялись”. И правильно будут делать, поскольку российский интеллект - самый мощный в мире, и он не иссякнет никогда, хотя бы потому, что любой ребенок, изучающий с пеленок великий и могучий русский язык, получает супергимнастику мозга.
В раздел "CCTV – реалии и перспективы" | К списку разделов