Канонические перспективы 143

Экспериментальные данные подтвердили эти выводы. Палмер, Рош и Чейз (Palmer, Rosch & Chase, 1981) делали серии фотографий обычных объектов в различных ракурсах (рис. 4.7). Испытуемые оценивали типичность этих ракурсов и степень знакомства с ними. Во второй части эксперимента испытуемым показывали фотографии лошади и других объектов (например, фотоаппарата, автомобиля, фортепьяно и т. д.), которым была дана подобная оценка, и просили назвать объекты как можно быстрее. Неудивительно, что канонические виды были идентифицированы быстрее всего; при этом время реакции увеличивалось по мере увеличения степени отличия изображения от канонического. Также следует отметить, что зрительная система все же работает достаточно эффективно, даже оценивая не вполне «совершенные» фигуры.

Есть несколько возможных причин того, что время реакции обычно больше для картин, отступающих от канона.

1. Меньшее количество деталей объекта попадают в поле зрения. Посмотрите на вид сзади на рис. 4.7. Сколько частей тела лошади вы можете видеть, смотря на нее сзади? Не очень много. (И кто знает, о чем бы вы подумали, если бы вам показали эту фотографию.)

2. Лучший (канонический) вид (фигура в верхнем левом углу) — тот, который мы видим наиболее часто. Мы «видим» пишущие машинки, стулья, автомобили, телефоны и лошадей в одном ракурсе чаще, чем в других, и поэтому этот вид нам более привычен.

Рис. 4.7. Двенадцать видов лошади, используемых в эксперименте Палмера, Роша и Чейза (Palmer, Rosch & Chase, 1981 ), со средними оценками «хорошей фигуры»

Глава 4. Распознавание паттернов

Теория геонов

Существует альтернатива жесткой модели сравнения с эталоном, требующей бесчисленных миллионов форм для сравнения с ними повседневных образов мира. Она предполагает, что человеческая система обработки информации имеет ограниченное число простых геометрических «базисных элементов», которые могут быть применены к сложным формам. Одна из подобных теорий, также имеющая некоторое сходство с подетальным анализом (мы рассмотрим его далее в этой главе), была сформулирована Ирвингом Бидерманом из Университета Южной Калифорнии. Представления Бидермана о восприятии формы основаны на понятии геон (сокращение от «геометрические ионы»). Согласно этой концепции, все сложные формы состоят из геонов. Например, чашка составлена из двух геонов: цилиндра (емкость для воды) и эллипса (ручка). (Примеры геонов и объектов приведены на рис. 4.9.) Теория геонов, как ее сформулировал Бидерман (Biederman, 1985, 1987, 1990; Biederman & Cooper, 1991; Biederman & Gerhardstein, 1993; Cooper & Biederman, 1993), предполагает, что распознавание объекта, например телефона,

Ирвинг Бидерман продвинул наше понимание распознавания объекта с помощью новаторских экспериментов и теорий, особенно теории геонов

Сравнение с эталоном 149

Рис. 4.9. Геоны и объекты.

Объекты представлены как конфигурации геонов, являющихся простыми зрительными объемными фигурами. Источник: Biederman, 1990

чемодана или еще более сложных форм, состоит из распознавания по компонентам,при котором в сложных формах обнаруживаются простые формы. Геоны — это 24 особые формы, и, подобно буквам алфавита, они образуют определенную систему. При объединении они формируют более сложные формы, так же как буквы, из которых составлены слова на этой странице. Число различных форм, которые могут быть получены путем объединения первичных форм, является астрономическим. Например, три геона, расположенных во всех возможных комбинациях, дают 1,4 млрд трехгеонных объектов! Однако мы используем только часть из возможного числа сложных форм. Бидерман считает, что мы используем приблизительно 30 тыс. сложных форм, из которых мы имеем названия только для 3 тыс.

Теорию геонов можно проверить, например, с помощью упрощенных форм, как показано на рис. 4.10. Какую из этих фигур (а или 6)легче идентифицировать?

На этой иллюстрации у простого объекта удалено 65 % контура. У чашки слева (а)удалены середины отрезков, что все же позволяет наблюдателю видеть, как связаны основные отрезки. У чашки справа (б)удалены части отрезков вершин, включая основные углы, связывающие отрезки друг с другом. Бидерман предъявлял испытуемым объекты такого типа на 100 мс. Он обнаружил, что при удалении частей соединяющих линий (я) испытуемые правильно идентифицировали объект

Рис. 4.10. У чашки было удалено 65 % линий контура, относящихся либо к середине отрезков

(а), либо к вершинам (б). Источник: Biederman, «Human Image Understanding: Recent Research and a Theory» in Computer Vision, Graphics and Image Processing, 1985, 32, 29-73. Copyright 1985 by Academic Press. Воспроизведено с разрешения

Не нашли, что искали? Воспользуйтесь поиском по сайту: