Кто ищет, тот всегда найдет

Предыдущая 11 12 13 14 15 16 171819 20 21 22 23 24 25 26 Следующая

Автор: Джейвд Мустафа (Javed Mostafa) (адъюнкт-профессор информатики Университета штата Индиана, ответственный редактор журнала «Транзакции в информационных системах» (Transactions on Information Systems) Ассоциации по вычислительной технике (ACM). Руководит Лабораторией прикладной математики штата Индиана.) | Источник: «В мире науки» № 5, май 2005

Пользователи, утопающие в потоке ответов на поисковые запросы, вскоре смогут воспользоваться услугами усовершенствованных поисковых машин. Новые поисковые машины будут учитывать контекст поиска, т.е. предпочтения пользователя, его местонахождение и другие факторы. Водоворот информации превратится в направленные потоки данных.

Менее чем за десятилетие методы сбора и обработки информации в корне изменились. Сегодня не надо бежать в библиотеку, чтобы что-то найти. Несколько щелчков по клавиатуре - и нужный документ в вашем распоряжении. Теперь, когда английское слово «googling» стало синонимом слова «искать», пришло время усовершенствовать поисковые машины.

Новые поисковые системы улучшают качество результатов, все глубже зарываясь в доступные хранилища информации, сортируя ее и представляя результаты с учетом пользовательских предпочтений. В будущем поиск не будет ограничиваться лишь обработкой введенных ключевых слов. Например, во внимание будет приниматься местоположение пользователя. Кроме того, новые системы помогут быстро найти нужное изображение по нарисованному от руки эскизу или полузабытую мелодию по нескольким напетым в микрофон нотам.

В статье «Хранение и поиск информации» (Information Storage and Retrieval), опубликованной в Scientific American в сентябре 1966 г., Бен Ами Липетс (Ben Ami Lipetz) описал, как информационные системы того времени справлялись с рутинными конторскими задачами. Автор статьи отметил, что по-настоящему значимые достижения в области информационного поиска появятся только тогда, когда ученые глубже изучат процесс обработки информации человеком, а затем создадут машины с аналогичными способностями. Конечно, компьютеры еще не достигли такого уровня интеллекта, но они уже учитывают личные склонности, привычки и потребности пользователя при выполнении запросов.

Предварительный поиск страниц

Перед обсуждением новых достижений полезно рассмотреть, как работают современные поисковые машины. Что происходит, когда пользователь видит сообщение о том, что Google просеял миллиарды документов, скажем, за 0,32 с? Поскольку проверка соответствия ключевого слова содержанию каждой веб-страницы в отдельности заняла бы слишком много времени, поисковая система выполняет несколько важных предварительных шагов еще до начала поиска.

Сначала непрерывно идентифицируется и собирается воедино предполагаемое содержание запроса. Для исследования содержания веб-страниц и их каталогизации используются программы обхода Сети, образно называемые роботами, пауками и червями. Затем подсчитываются значимые слова и с использованием различных статистических методов устанавливается степень их важности. На третьем шаге из значимых слов формируется высокоэффективная древовидная структура данных. Веб-ресурс, регулярно формируемый роботом и состоящий из ссылок на просмотренные поисковой системой сайты, называется каталогом поисковой системы. Поиск начинается с корня древовидного каталога. На каждом шаге очередная его ветка либо исключается из рассмотрения, либо процесс продолжается по ней. Такой алгоритм позволяет сократить время поиска на несколько порядков.

Чтобы разместить релевантные записи (или ссылки) ближе к корню каталога, в алгоритме поиска применяются различные методы ранжирования. В наиболее распространенном методе (по частоте использования термина с обратным весовым коэффициентом) рассчитывается частотное распределение слов, а затем для каждого из них генерируется свой весовой коэффициент, который определяет степень его значимости в отдельных документах. Часто встречающимся словам (предлогам, союзам и т.п.) присваивается гораздо меньший вес, чем словам, которые семантически более значимы или появляются в документах сравнительно редко.

Помимо весовой стратегии есть и другие способы оценки. Например, при анализе ссылок веб-страница рассматривается с точки зрения ее связей с другими страницами. В частности, определяется, является ли она авторитетным источником (по количеству ссылающихся на нее страниц) или подборкой (по количеству страниц, на которые она ссылается). Стратегия анализа связей применяется в поисковой машине Google для оптимизации ранжирования результатов поиска.

Лучшие из лучших

За последние шесть лет Google стал ведущей поисковой машиной, которая охватывает практически весь Интернет и прекрасно ранжирует веб-страницы по степени значимости с помощью индексации и расчета весовых коэффициентов. Впрочем, недавно разработчики поисковых машин создали несколько новых систем с подобными возможностями.

Большая часть цифрового содержания веб-сайтов остается недоступной для поисковых машин, потому что многие веб-серверы хранят и перерабатывают информацию не в том виде, в каком она представляется посетителю. Многие веб-страницы генерируются только тогда, когда пользователи обращаются к ним. Традиционные сетевые агенты не умеют работать с подобными ресурсами и не в состоянии определить их содержание. В таком виде хранится приблизительно в 500 раз больше информации, чем на традиционных веб-страницах, открытых для поисковых систем. Приходится прилагать немалые усилия, чтобы поиск в скрытой части Интернета стал столь же легким, как и в открытой.

Был разработан целый класс программ, получивших название упаковщиков (wrappers). Принцип их работы основан на том, что он-лайн информация обычно представляется с помощью стандартных «грамматических» структур. В некоторых программах, чтобы получить доступ к скрытому содержанию веб-страниц, используется привычный синтаксис поисковых запросов и стандартный формат он-лайн ресурсов. В других системах реализуются преимущества программируемого интерфейса, который позволяет использовать стандартный набор команд и операций. Примером программы, обеспечивающей доступ к скрытым ресурсам Интернета, может служить Deep Query Manager компании BrightPlanet. Этот менеджер запросов позволяет создавать настраиваемые поисковые порталы и интерфейсы для более чем 70 тыс. скрытых веб-ресурсов.

Если механизм ранжирования опирается только на гиперссылки и слова без учета ограничений, накладываемых на тип сравниваемых веб-страниц, то возникает возможность повлиять на результаты поиска так, чтобы вывести ссылку на какой-либо ресурс в первые строки ответа на поисковый запрос. Например, если в любую из трех главных поисковых машин (Google, Yahoo, MSN) ввести запрос «miserable failure», то в самом верху списка найденных ресурсов почему-то появляется ссылка на правительственный сайт www.whitehouse.gov.

Вместо того чтобы предоставлять пользователю ранжированный список гиперссылок (который сравнительно легко сфабриковать), некоторые поисковые машины пытаются идентифицировать образцы веб-страниц, которые наиболее точно соответствуют запросу, и группируют результаты в более короткие списки. Образцы могут включать в себя распространенные слова, синонимы, словосочетания и даже абстрактные наборы слов. Например, такие системы, как Northern Light и Clusty, связывают каждый набор ссылок с релевантным термином. Пользователь может детализировать дальнейший поиск, выбрав определенную группу результатов.

За пределами GOOGLE

Поскольку количество веб-сайтов продолжает стремительно увеличиваться, пользователи Интернета нуждаются в более эффективных поисковых машинах.

Поисковые машины следующих поколений будут лучше классифицировать информацию и нагляднее представлять ее. Они станут отслеживать интересы пользователей, делая поиск при последующих запросах более целенаправленным. Новое программное обеспечение будет определять местоположение пользователя и обращаться с графикой и музыкой так же легко, как с текстом.

Предыдущая 11 12 13 14 15 16 171819 20 21 22 23 24 25 26 Следующая

Не нашли, что искали? Воспользуйтесь поиском по сайту: