Сделай Сам Свою Работу на 5

Состав и принципы работы поисковой системы.





Санкт-Петербургский Государственный Институт Технологий Механики и Оптики Факультет Среднего Профессионального Образования

Работу сдал: студент 233 группы Крысенко Пётр Работу принял:
Научно-исследовательская работа, на тему «Поисковые системы»

 
 
2011 г.


Содержание:

Поисковые системы

Принципы работы поисковых систем

Состав и принципы работы поисковой системы

Обзор поисковых систем

Основные характеристики поисковой системы

Сравнение поисковых систем

Сводная таблица

Вывод

Список литературы


Поисковые системы


Поисковые системы уже давно стали неотъемлемой частью российского Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.
Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обработки запросов пользователей, о том, из чего эти системы состоят и как функционируют…
Понятие и функции поисковой системы
Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo». В русском Интернете это – «Яндекс», «Рамблер».




Принципы работы поисковых систем

Рассмотреть более подробнее понятие поискового запроса можно на примере любой поисковой системы. Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию о том, как выбрать автомобиль. Для этого, открываем главную страницу поисковой системы, и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов, как, например «как выбрать автомобиль в Урюпинске»)
Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.
Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?
Для того, чтобы удовлетворить ответами все эти вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.





Состав и принципы работы поисковой системы.

 

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты, это модуль индексирования, база данных и поисковый сервер. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.
1. Модуль индексирования
Модуль индексирования состоит из трех вспомогательных программ (роботов):
1.1.Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.
Ссылки извлекаются из тэгов. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:
• URL страницы
• дата, когда страница была скачана
• http-заголовок ответа сервера
• тело страницы (html-код)
1.2.Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.
1.3.Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.
2. База данных
База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.
3. Поисковый сервер
Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.
Поисковый сервер работает следующим образом:
• Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
• Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.
• В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
• Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
• Полученные результаты поиска передаются пользователю в виде SERP (SearchEngineResultPage) – страницы выдачи поисковых результатов.
Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.


Обзор поисковых систем

Google (Гугл)

Поисковая система Google по-прежнему остается самой популярной поисковой системой сети Интернет. За все время нахождения Google на рынке пока ещё ни одной из конкурирующих поисковых систем не удалось сместить американскую поисковую систему с лидирующих позиций. Однако же, как и у других Интернет-ресурсов у Google имеются как существенные преимущества, так и недостатки.

Основным преимуществом поисковой системы Google является простота её использования. Разработчики этой поисковой системы – студенты стэндфордского университета Ларри Пейдж и Сергей Брин стремились создать поисковую систему, которая была бы доступна каждому пользователю сети Интернет без использования каких-либо специальных знаний. Им это удалось. Поисковая система является простым и удобным Интернет-ресурсом. При внесении ключевых слов, она не требует использования кавычек, заглавных букв и так далее, что значительным образом облегчает процесс поиска информации. Кроме того, среди плюсов Google можно назвать её обширную базу данных. На настоящий момент там насчитывается более 3 миллиардов вэб-страниц, благодаря чему эта база данных этой поисковой системы входит в список самых крупных.

Кроме того, среди основных преимуществ этой поисковой систем можно назвать высокую скорость работы. Перед специалистами компании Google стояла задача сделать работу поисковой системы быстрой и эффективной, и им это удалось. Сделав запрос, пользователи практически мгновенно получают результаты поиска (на это уходит всего лишь несколько секунд). Это стало возможным благодаря тому, что разработчики значительно «облегчили» страницы с результатами поиска. Там содержится минимальное количество графики, рекламных объявлений, кроме того, значительно сокращен текст с описанием сайтов.

Плюс ко всему поисковая система Google выдает достаточно точную информацию. Результаты поиска в большинстве случаев соответствуют совершаемым запросам. При этом ссылки к сайтам, которые более всего соответствуют указанным ключевым словам, находятся в верхней части страницы. Также отметим, что Google является практически единственной поисковой системой, в которой учитывается не только количество страниц в результатах поиска, но и их качество. Особые специалисты этой компании регулярно производят «чистку» результатов поиска своей поисковой системы, благодаря чему достигается достаточно высокое качество предлагаемой информации.

Кроме того, одним из неоспоримых преимуществ Google является наличие дополнительных функций. Так, например, эта поисковая система позволяет пользователям ознакомиться с содержанием некоторых страниц, которые уже были закрыты.

Вместо привычной надписи «errоr 404», пользователи могут ознакомиться в с Интернет -страницами, правда в том виде, в каком они были размещены в поисковой системе. Кроме того, повторяющиеся ссылки, ведущие к одному и тому же сайту отображаются в Google в правой части страницы с результатами поиска. Подобная функция значительно сокращает время поиска информации, поскольку в этом случае пользователи не обращаются по нескольку раз на один и тот же сайт.

И, наконец, пользователям предлагается функция «Мне повезёт», благодаря которой, не дожидаясь результатов поиска они сразу же попадают на сайт, находящийся в списке на первом месте. Однако же у Google имеется и ряд недостатков. Так, например, нередко там встречаются ссылки на сайты с уже устаревшей информацией. Кроме того, также случается, что ссылки, которые находятся в результатах поиска, ведут на сайт, находящийся в стадии разработки. Из-за подобных сайтов пользователи тратят свое время впустую, в связи с чем снижается продуктивность работы поисковой системы. Кроме того, при совершении запросов пользователям необходимо проявлять внимательность. Так, например, результаты поиска, содержащие слово «фильм» будут значительно отличаться от результатов поиска, содержащих слово «фильмы». Вместе с тем, результаты поиска будут содержать и сайты, в которых находятся слова «фильм», «фильмов» и так далее.

Кроме того, отсутствие возможности указать конкретную грамматическую форму слова, либо ударение также значительно усложняет процесс поиска информации.

Однако же, несмотря на эти немногочисленные недостатки, поисковая система Google считается самой быстрой и эффективной, что позволяет ей завоевывать доверие всё большего количества пользователей сети Интернет, что обеспечивает ей звание самой популярной поисковой системы. Кроме того, специалисты компании Google занимаются постоянным усовершенствованием возможностей своей поисковой системы, что дает превосходные результаты.

1.2.Апорт!

Поисковая система "Апорт!" (http://www.aport.ru), долгое время пребывавшая в стадии бета-тестирования, летом 1997 г. наконец-то включилась на полную мощность. Разработчики не теряли времени даром и снабдили свое детище массой различных функциональных возможностей, что сделало "Апорт!" одной из самых удобных для пользователя систем. Объем накопленной информации (в настоящее время это сведения более чем о миллионе Web-страниц с 10500 русскоязычных Web-серверов) также внушает уважение.

Одно из главных достоинств "Апорт!" - удачные средства составления запроса. Помимо традиционных операторов "И" и "ИЛИ", поиска по целой фразе (с помощью двойных кавычек), система отличается способностью выделять сочетания терминов только в случае, если они расположены в тексте недалеко друг от друга. Насколько "недалеко", каждый раз определяется пользователем. Так, запрос "[3, телекоммуникационные технологии]" выявит все документы, в которых указанные слова встречаются в пределах трех соседних предложений, а запрос "[4, географические карты]" отыщет только те Web-страницы, в которых между искомыми словами стоит не больше четырех слов. Падежи и числа лексических единиц в данном случае значения не имеют, так как "Апорт!" их самостоятельно отсекает. За счет этого пользователь избавлен от лишнего информационного шума, возникающего при случайном сочетании ключевых слов.

 

Результаты поиска ранжируются в зависимости от частоты употребления на Web-странице искомых терминов, глубины их расположения в тексте и даже размера шрифта, которым они набраны. К сожалению, при этом почему-то не учитывается местоположение ключевого слова, хотя термин в заглавии документа "весит" гораздо больше термина, расположенного в основном тексте. Стандартная ссылка включает название файла, дату и время его последнего обновления, адрес (или адреса) источника с указанием оригинальной кодировки и степень соответствия запросу. Сообщается также количество искомых терминов на данной Web-странице, а сами ключевые слова выводятся в окружающем контексте, что в значительной мере помогает определить, насколько найденный документ релевантен запросу.

При ознакомлении с результатами поиска можно воспользоваться функцией реконструкции всего текста Web-страницы, однако время, затраченное на восстановление текста, не намного меньше времени обращения к исходному источнику.

Несомненное достоинство "Апорт!" - способность выделять один и тот же документ в различных кодировках и выдавать ссылку на него лишь единожды, перечисляя конкретные адреса в списке URL-адресов. Однако при этом вовремя не удаляются сведения об устаревших версиях одной и той же Web-страницы, которые перечисляются как существующие, хотя и отличаются датой обновления. К мелким недостаткам "Апорт!" относится и не всегда корректная обработка названий Web-страниц, из-за чего в результатах поиска часто пишется: "Документ без названия", в то время как метки заголовка (title) на большинстве таких Web-страниц содержат важные данные.

Yandex

Поисковая система Яndex (http://yandex.ru) относится к числу новейших разработок. Ее официальное открытие состоялось в конце сентября 1997 г., однако количество обследованных серверов в настоящее время уже превысило 8 тыс., что говорит о высокой скорости поискового робота. Яndex, помимо Web-серверов, из доменов .ru и .su индексирует содержание зарубежных русскоязычных Web-узлов.

Главным признаком системы (отличающим, кстати, все продукты серии Яndex, в которую входят изделия для поиска данных в электронных текстах с различной структурой, записанных в разных файловых форматах) является глубокий морфологический анализ обрабатываемых терминов. Мощные лингвистические средства позволяют учитывать практически все возможные оттенки употребления ключевых слов и соответственно составлять запрос максимально точно. Допустимо, к примеру, задать употребление термина только в определенном падеже, указать, на каком расстоянии от другого слова или сочетания слов он должен находиться в тексте и какие термины этот текст ни в коем случае не должен содержать. Для этого, однако, необходимо освоить правила формирования расширенных запросов, которые включают чуть ли не все специальные символы компьютерной клавиатуры (среди знаков, используемых в запросах, такие как ~,&,!,/,:,<>,(),|,$). Думается, в данном случае разработчики несколько переусердствовали в стремлении определить все возможные параметры запроса. Однако это не мешает использовать сокращенный перечень условий поиска, также позволяющий составить достаточно полный запрос.

Как и положено системе последнего поколения, Яndex имеет механизм распознавания одного документа, присутствующего в нескольких кодировках или расположенного на зеркальных Web-серверах. Система в большинстве случав корректно выделяет каждый уникальный документ и выдает сведения о нем только один раз, указывая конкретные адреса его местонахождения после резюме (иногда такой список включает шесть-семь адресов).

К сожалению, механизм ранжирования результатов разработан менее детально. Ему присущ тот же недостаток, игнорирование местоположения терминов на Web-странице. В результате документы, полностью посвященные теме, иногда можно обнаружить лишь в четвертом или пятом десятке, а первые места занимают источники, в которых лишь одно из искомых ключевых слов встречается часто, зато другие употреблены совершенно случайно.
Часто можно встретить такой скромный момент, как то, что на запрос пользователь может получить много ссылок на один и тот же сайт, но на разных страницах.
Яндекс является вполне успешным, реализовавшим себя интернет - поисковиком и многим его конкурентам приходится считаться с этой системой, чтобы оставаться конкурентоспособными.

Rambler

Рамблер также является одной из популярных поисковых систем в рунете. Существует мнение, что Рамблер уступает всем другим поисковым системам, являясь самой худшей в своём роде. Это не так. Не смотря на относительно низкую скорость работы, большой плюс этого поисковика - расширенная система ассоциаций. Что-то вроде «У нас тоже ищут». Очень полезно, если пользователь вводит размытые запросы, или сам знает мало о предмете поиска. Эта же система на запрос vepsrf выдаст результаты по запросу «Музыка» (Рамблер реализовал это впереди планеты всей).
Электронная почта на Рамблере очень качественна. «Держится» она долго. Некоторые почтовые ящики созданы 7, 10 лет назад и теперь успешно функционируют. Работает это «мыло» весьма адекватно.

Поисковая система Rambler является довольно старой системой, поэтому отследить алгоритмы её работы сегодня, практически, невозможно. Если сравнивать с другими поисковыми системами, то Рамблер индексирует сайты черезчур медленно, поэтомупродвижение, оптимизация сайта под эту систему, выполняется от трех месяцев до одного года, и то не факт, что вы попадёте в этот поисковик. Оптимизация сайта Ramblerраз в несколько месяцев не гарантирует того, что вы окажетесь на первых позициях в этой поисковой системе, и что ваши усилия получат должную отдачу. Однако, несмотря на свою медлительность Rambler привлекает свою аудиторию, в основном эту аудиторию составляет молодёжь. С Rambler связаны несколько развлекательных порталов, на которых ежедневно находится большое количество пользователей.

Некоторым пользователям (врагам Рамблера, если можно так сказать) не нравится сама система поиска, но это скорее издержки. Наличие развитых дополнительных сервисов радует и дополняет картину положительным образом.

 

Данная система отличается достаточной надежностью, хотя в последние несколько месяцев из-за большой нагрузки работает не так быстро, как год назад. Однако главный недостаток Rambler - невозможность осуществлять поиск по целой фразе или хотя бы указывать в запросах предельное расстояние между искомыми терминами. Случайное сочетание совершенно не связанных слов, например в начале и конце текста, приводит к выдаче ссылок на документы, совершенно не релевантные запросу.


 

Основные характеристики поисковой системы.
Опишем основные характеристики поисковых систем:
• Полнота
Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.
• Точность
Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.
• Актуальность
Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.
• Скорость поиска
Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.
• Наглядность
Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска.


 

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.