Статьи - CCTV и DVR. Видеонаблюдение и видеорегистрация

В раздел "CCTV – реалии и перспективы" | К списку разделов

ВИДЕОДЕТЕКТОРЫ – ВЗГЛЯД ИЗНУТРИ. ГРАНИ ИНТЕЛЛЕКТА (ЧАСТЬ ТРЕТЬЯ)

Руцков М.В.

О, интеллект – как много в этом звуке! Я верю друзья - нет, не караваны ракет помчат нас вперёд от звезды до звезды …, а ещё немного и мы будем зачитываться рекламно-техническими опусами, примерно следующего содержания: “ Интеллектуальный видеосигнал от интеллектуальной CCTV-камеры, через интеллектуальные провода поступает в интеллектуальный видеобластер …”. Далее со всеми остановками - вплоть до интеллектуального монитора, которому уже ничего не остаётся делать, как только смотреть в самого себя! Невольно в памяти всплывает “робот-зазнайка” (из одноимённого фантастического рассказа Генри Каттнера) - для целей самосозерцания у него из глазниц на рельсиках выкатывались две камерки и разворачивались друг другу навстречу, ну чем не “замкнутое телевидение”. Нет, мне совсем не хочется анализировать полёт рекламной мысли, которая, наверное, скоро докатится и до галактического интеллекта. А хочется чего-то земного, ну немного помечтать на тему: “Интеллектуальное видеонаблюдение от HomoSapiens – попытка взлома (в хорошем смысле этого слова)”. Сразу предупреждаю категорически, никто, кроме меня, ответственности за нижеизложенные мечты – не несёт!

ЗАГЛЯНЕМ В СЕБЯ

Как же мы заблудились в трёх соснах: летаем в космос, ныряем в бездну океанских глубин, и совершенно забыли о том, что мы и есть обладатели самого великого творения Природы – мозга человеческого! Нам бы себя изучить, не отходя от собственного тела, и создать суперсистемы видеонаблюдения. А мы практически засорили лексикон словом “интеллектуальный”, разбрасывая его - и направо, и налево. Невольно возникает вопрос: а что это такое - интеллект? Смотрим в энциклопедию: “интеллект (от лат. intellectus - разумение, понимание, постижение) - относительно устойчивая структура умственных способностей индивида”. Туманно как-то. Да простят меня философы – буду сам излагать, но только отталкиваясь от реальных фактов научных исследований в области нейрофизиологии и психологии.

Итак, вот что утверждает лауреат Нобелевской премии, нейрофизиолог Дэвид Хьюбел : “Головной мозг содержит 10¹² (миллион миллионов) клеток - по любым понятиям число астрономическое; хотя я не знаю, подсчитывал ли кто-нибудь число клеток в печени человека, было бы удивительно, если бы в ней было меньше клеток, чем в нашем мозгу. И все же никто никогда не скажет, что печень так же сложна, как мозг”. Очевидно, что речь идёт о клетках, обрабатывающих информацию – нейронах, а не о клетках-кирпичиках внутренних органов. Что и подтверждается дальнейшим изречением учёного: ”Более веский аргумент в пользу сложности мозга можно усмотреть в соединениях между его клетками. Обычная нервная клетка (нейрон) получает эту информацию от сотен или тысяч других клеток и в свою очередь передаёт информацию сотням или тысячам нейронов”. Можно ли найти рукотворный аналог такой сложности? Нет, не создали пока.

Так как же работает вся эта армада нейронов? Опираясь на данные многочисленных исследований, в научных кругах сложилось мнение, что примерно только 5-10% нейронов головного мозга задействовано на уровне нашего сознания, а вот вся оставшаяся, “подводная часть айсберга” – подсознание. Переводя с философского языка на технический, можно сказать, что сознание - это интерфейс между нашим “Я” и внешним миром. Интерфейс достаточно развитый: это логическое и образное мышление, речь, обработка сенсорной информации от органов чувств, управление всеми частями нашего тела и многое другое. Однако задачи, решаемые на уровне нашего сознания, достаточно просты и фактически не выходят за рамки конструкции – “if-goto”. Действительно, трудно себе представить что, расхаживая с умным видом по комнате (как в кинокомедии “Весна) и повторяя сакраментальную фразу: “Масса солнца равна двум книтиллионам тонн”, можно придумать новую теорию или хотя бы какой-нибудь алгоритм видеодетекции. Или весь день просидеть, размышляя на тему: “Если электрон так же неисчерпаем, как и атом, то исчерпаемы ли те штуковины, из которых он сделан?”

Конечно, путём только логических рассуждений невозможно создавать шедевры в области науки, искусства, экономики, политики и естественно в сфере безопасности. Для этого нужен интеллект, который как раз и сидит в нашем подсознании. В течение всей жизни в него (в подсознание), как в бездонный колодец, валится информация из внешнего мира, раскладываясь “по полочкам” и превращаясь в индивидуальную базу знаний. Мало того, наше подсознание живёт своей жизнью, постоянно перерабатывая все накопленные данные. Как оно взаимодействует с сознанием - одному богу известно, мы можем только догадываться. В очень упрощённом виде это выглядит примерно так. Сознание являет собой маленького и далеко не умного начальника, который пытается все проблемы решать командно-административными мерами. И вот когда он зацикливается на решении очередной задачи, выходящей за пределы её понимания, то следует знаменитое – что делать? Этот призыв, в конце концов, доходит до подсознания, а именно до подчинённых – очень умных, всёзнающих, талантливых, но абсолютно неуправляемых ребят, занятых самосовершенствованием. Те как бы нехотя отвечают: “Вот сейчас всё бросим, и пойдём помогать”. Затем они всё-таки берутся за дело, реализуя народную сказку: “Иди спать, утро вечера мудренее, завтра все твои желания исполнятся”. Кстати Менделеев свою таблицу во сне увидел. А как быть, если цейтнот и времени на сон уже нет? Вспоминаю гениального шахматиста, чемпиона мира - Михаила Таля, который поведал удивительную историю. В одной из партий за шахматную корону, он попал в абсолютно безнадёжную ситуацию, время истекало – решения не было. Вдруг неожиданно пришёл бегемот Корнея Ивановича Чуковского и в голове начала крутиться единственная фраза: “Ох, тяжёлая эта работа - из болота тащить бегемота”. Бегемот во весь мозг – полный паралич сознания. А потом бегемот ушёл, и руки сами собой стали передвигать фигуры. Это тот самый случай, когда цена вопроса была столь высока, что подсознание в аварийном режиме, не дожидаясь пока сознание, пойдёт спать - просто заблокировало его бегемотом и без помех решило проблему.

А вообще есть много вариантов торможения сознания, с целью выхода из состояния ступора – у кого как. Например, изобретатель упомянутого “робота-зазнайки” для реализации своих идей применял пиво. Полностью поддерживаю, а от себя добавлю – очень помогает ещё и рок-музыка, Alice Cooper в частности. Мне даже иногда кажется, что он в некотором роде соавтор моих алгоритмов. Всё это замечательно, одно лишь надо чётко понимать - если нет конкретных знаний, и в голове пусто, то не будет: ни озарений, ни прозрений, ни интуиции, да и вообще ничего не будет, сколько пива ни пей и рок-музыки, ни слушай. Поэтому, как завещал один известный мыслитель, надо – учиться, учиться и ещё раз учиться!

А мозг человеческий, как раз этим и занимается – самообучением. Ключевым свойством этого процесса, является ассоциативность. Информационное воздействие извне вызывает в мозге каскад ассоциаций с целью отыскания аналогий, как ответной реакции. Если ответ не стопроцентный, то отличительные признаки изменяют уже имеющуюся в памяти информацию, либо в сторону её обобщения, либо - наоборот, в сторону разъединения на независимые аналогии, в соответствие с объективной реальностью, которая, кстати, тоже может заблуждаться. Выглядит это примерно так.

На вопрос ведущего, закончить фразу: “Молчит, как …”, он первым бабахнул по кнопке и отчеканил – “партизан”, потом, испугавшись чего-то, тут же воскликнул: “ой нет – рыба”, ну и наконец, сделав совершенно округлые глаза и недоумённо пожав плечами, машинально добавил - “об лёд” (рис.1)! “Нет уж, об лёд она – бьётся, а не молчит”, возразил ведущий. “Понял, теперь буду знать”, согласился подавленный игрок. “А что? Если партизан действительно шарахнет её (рыбу) как следует об лёд, то может быть она и замолчит, т.е. перестанет биться… насмерть… за свободу… слова… – эх, всё правильно, ответ засчитывается”, подвёл итог ведущий. Вот так, они – мысли, и гуляют ассоциативно в нашем подсознании, чаще ночью, создавая новые теории и алгоритмы! А теперь займёмся непосредственно зрением.

ТАМ КТО-ТО СИДИТ И СМОТРИТ В ТЕЛЕВИЗОР

Думаю, нет смысла рассуждать о значимости нашего главного органа чувств – зрении. Это очевидно, но хотелось бы понять, как это всё работает. Именно такой вопрос был задан обыкновенной домохозяйке, на что и был получен соответствующий ответ: “Ну, наши глаза – это маленькие телекамеры, от которых изображение поступает прямо в голову. Так, хорошо, а там что? А там кто-то сидит и смотрит в телевизор! А кто???”.

Ну, тогда позвольте и мне высказаться. Конечно, никакого телевизора в голове у нас нет, да и сидеть там некому, кроме мозга, который: смотрит на мир (нашими широко раскрытыми глазами), анализирует эту видеоинформацию и принимает соответствующие решения. Очень условно можно выделить три базовые функции работы зрительного аппарата: бессознательная видеодетекция, обнаружение объектов и распознавание ситуаций.

Теперь по-порядку, почему именно бессознательная видеодетекция. Дело в том, что этот уровень обработки (а вернее предобработки) – вне нашего сознания. Всё происходит очень быстро и автоматически, помимо нашей воли. Главная задача видеодетекции – привлечение внимания. Думаю для большей ясности, надо немного рассказать об устройстве глаза, а именно о его видеосенсоре - сетчатке. Опустим физиологические подробности, главное - это геометрия распределения светочувствительных элементов, коими являются палочки (про колбочки, воспринимающие цвет, говорить не будем, поскольку их всего 6 миллионов, что в 20 раз меньше). Распределены они крайне неравномерно, причём наиболее густо представлены, в так называемой “центральной ямке”. Чтобы было понятно – перевод этой зоны высокого разрешения на рассматриваемый объект, равносилен “наезду” трансфокатора с 30-35-кратным увеличением. А так мы практически ничего и не видим, в чем легко убедиться (рис.2). Зафиксируйте взгляд на первой букве фразы - мало того, что совершенно невозможно разглядеть буквы в последнем слове, они не видны даже и в конце первого. Почему так Природа придумала – нет бы, сделать максимальное разрешение по всей сетчатке. Ну, тогда наш глаз был бы размером с арбуз, что согласитесь не очень удобно для целей выживания.

Возвращаемся к видеодетекции – а что собственно детектируется. Первым делом – движение, здесь имеем максимальный обзор, практически все 180 градусов. Глаза начинают автоматически поворачиваться в сторону возмущающего воздействия, причём, если этого недостаточно, то докручиваем головой. Далее переходим к исследованию объекта нашего внимания, уже на уровне сознания. Стоп, есть и другие, более быстрые варианты реакции, например такой – он нам достался в наследство от наших далёких предков, а именно: мы уворачиваемся (в целях безопасности) от любых летящих в нас предметов. Видеодетектор движения моментально приводит в действие моторную кору, которая управляет нашей двигательной системой. Знаете, как это часто бывает – сначала мы шарахаемся в сторону, а уже потом, вставая и отряхиваясь, недоумённо спрашиваем: “А что это было?”. Согласитесь - не лучший вариант, например, для хоккейного вратаря. Однако мозг обладает определённой пластичностью, которая позволяет натренировать его (в данном случае) для бессознательной ловли и отбивания шайб. Причём, никакого интеллектуального анализа не требуется – полный автоматизм, нет времени на размышления. Кстати, аналогичные действия могут происходить и на уровне нашего сознания. Например, вот как выглядит классическая оборонительная реакция вида HomoSapiens - “Сам дурак!”. Не беда, с каждым бывает, можно поправить ситуацию - надо просто мило улыбнуться и добавить: “Но в хорошем же смысле этого слова!”.

В силу ограничений по разрешающей способности, наши глаза всё время находятся в движении, совершая, так называемые, саккады - резкие прыжки, наводящие “центральную ямку” на информативные участки анализируемой сцены (рис.3). А “наводчики” – кто? Правильно – видеодетекторы, причём не только движения. Их там целая бригада - что только не детектируется: это и бинокулярность (стереозрение), и контурные перепады (границы объектов), линии, концы линий, причём со всеми вариантами круговой ориентации (точность, лучше 1-го углового градуса), кривизна, цвет объекта и т.д. и т.п. Кроме того, глаза совершают микросаккады (микросканирование), что ещё больше повышает разрешение зрения – этим и объясняется такое обилие нейронов (в первичных зрительных трактах), реагирующих на движение, причём избирательно по каждому направлению, однако совершенно не относящихся к обнаружению реально движущихся объектов. Хотите проверить? Закройте один глаз, а на другой слегка надавите пальцем через веко, чтоб не дёргался – секунд через 10 наступит полная темнота. Самое интересное - все видеодетекторы работают в ультра параллельном режиме, причём одновременно по каждому участку анализируемого изображения!

Переходим к обнаружению объектов. Под объектом, надо понимать уже нечто осмысленное, что можно описать формально с конкретным названием: человек, машина, дерево, лошадь и т.д. Простейшие объекты представляют собой совокупность пространственных комбинаций признаков, выделенных видеодетекторами. На их обнаружение требуется уже гораздо больше времени, что наглядно показывает следующий эксперимент (рис.4). Испытуемым сначала предъявляли изображение (а), на котором просили найти знак доллара. А затем показывали, на короткое время (200 мс), два других (b и c) – в результате подопытные очень часто “видели” искомый знак, хотя там его и не было. Это означает, что простейшие признаки успевают отдетектироваться, а вот на окончательную “сборку” объекта - уже не хватает времени.

Ещё дольше детектируются сложные объекты, состоящие из простейших. Примерно так: “Вас будет ждать мужчина в кепке, в голубых джинсах и белых красовках, в клетчатом пиджаке, галстук-бабочка, на лице тёмные очки, в правой руке бутылка кваса”. В данном случае требуется уже напряжённая работа нашего сознания, чтобы собрать все эти особенности в единое целое. Однако по мере тренировок, обнаружение часто встречающихся объектов переходит на бессознательный уровень. Взять хотя бы чтение. Сначала мы учимся узнавать буквы по взаимному расположению составляющих элементов, затем читаем слова по буквам (они уже узнаются автоматически), далее начинаем “проглатывать” слова целиком, как иероглифы. Ну и, наконец – машинально читаем текст, думая совершенно о другом, а прочитанное просто напрямую “проваливается” в наше подсознание. Однако самое интересное заключается в том, что всё это рано или поздно неожиданно всплывает из памяти, приводя нас в восторженно-недоуменное состояние – “И почему я такой умный – откуда знаю?”.

А теперь высший пилотаж – распознавание ситуаций. Для большей ясности сразу расскажу реальную историю, которая случилась со мной лет так, пять назад. После одной из встреч с силовиками и демонстрации им видеодетектора движения, состоялся следующий диалог: “Скажите, пожалуйста, а Ваша система может распознать человека с оружием? Это как? Ну, вот идёт человек в пиджаке, а карман оттопырен”. Да уж, выражение моего лица приняло соответствующий вид (рис.1), и мне как разработчику стало жутко – какая ж гигантская пропасть лежит между нашим желаемым и действительным! Причём, нет ни доли сомнения, что мозг профессионала реально может решать такие задачи. Только вот формального описания данного процесса, мы не дождёмся. Можно лишь эмоционально охарактеризовать некоторые элементы анализируемой ситуации: “неадекватное поведение”, “блуждающий взор”, “вороватое озирание по сторонам”, “подозрительная ухмылка”, “вертлявая походка” и т.д. и т.п. Как запрограммировать это – непонятно, не получается известными методами! Поэтому, писать учебники на данные темы недостаточно – надо всё показывать натурально, в реале или в виде клипов: как обнаружить слежку, как выявить террориста в толпе или как предупредить давку на стадионе - и многое, многое другое. Это – сверхсложные задачи, решение которых возможно только на уровне подсознания. Именно здесь и проявляется наш интеллект, профессионально натренированный на распознавание нетривиальных ситуаций. Поэтому интеллект, сам по себе, крайне специализирован. Та же домохозяйка обладает кулинарным интеллектом – ей достаточно мельком взглянуть на сковородку с котлетами, чтобы скомандовать - переворачивать, интеллектуальное крестьянское видение подскажет - сеять пора, интеллект оперативного работника примет решение – надо брать, а криминальный интеллект, безошибочно углядит очередную жертву в толпе – “извините, сами мы не местные …”.

Такие вот чудеса, ну что тут скажешь, остаётся лишь восхищаться нашим мозгом – “Хорошо сидит – глубоко глядит!”. А сами-то мы, где сидим, с нашими хвалёными “интеллектуальными“ системами видеонаблюдения? Вот этим и займёмся.

Продолжение следует

В раздел "CCTV – реалии и перспективы" | К списку разделов