Про компьютеры на PCwork.Ru
наш форум
Сейчас на форуме: 4
Тема: «Индексация картинок Яндексом»
Всего тем: 3567
Сообщений: 22898
Пользователей: 686
Новый пользователь: Taleiran
Какими GPS-устройствами вы пользуетесь?
Волонтеры в помощь детям сиротам. Отказники.ру
Главная arrow Интернет arrow Поисковые системы Интернета. Вступление

Поисковые системы Интернета. Вступление



Поисковые системы Интернета Продолжение статьи «Поисковые системы Интернета»

Небольшое вступление

Перед тем, как сообщить пользователю, где находится файл или документ, этот объект нужно найти. Для нахождения информации на сотнях миллионов существующих веб-страниц поисковая машина использует специальных программных роботов, называемых поисковыми агентами или «пауками», которые формируют списки слов, найденных на веб-сайтах. Процесс построения таких списков называется индексированием. (Есть некоторые недостатки, связанные с тем, что часть Интернета называют Всемирной паутиной. Один из них – множество названий инструментов, ассоциирующихся с пауками.) Чтобы построить и поддерживать в рабочем состоянии список слов, поисковые агенты поисковой машины должны обследовать очень много страниц.

Как же поисковый агент начинает свое путешествие по Всемирной паутине? Поиск обычно начинается со списков наиболее часто посещаемых серверов и самых популярных страниц. Агент начинает с популярного сайта, индексирует слова на его страницах и переходит по каждой ссылке, найденной на этом сайте. Таким способом поисковая система начинает быстро перемещаться, охватывая своей деятельностью наиболее интенсивно используемые участки Всемирной паутины.

Google.com с самого начала разрабатывалась как традиционная поисковая машина. В статье, раскрывающей историю построения системы, Сергей Брин и Лоуренс Пейдж привели пример быстродействия своих поисковых агентов. В исходной системе использовалось одновременно несколько поисковых агентов. Как правило, их было три. Каждый агент мог одновременно поддерживать приблизительно 300 соединений с открытыми веб-страницами. На пике производительности, пользуясь четырьмя агентами, эта система была способна анализировать более 100 страниц в секунду, ежесекундно вырабатывая приблизительно 600 килобайт данных.

Чтобы все работало быстро, нужно было создать систему, способную снабжать поисковых агентов необходимой информацией. В ранней версии системы Google был специальный сервер для обеспечения поисковых агентов URL. Чтобы не зависеть от услуг сервера доменных имен (DNS), транслирующего имя сервера в адрес, Google имеет собственный сервер доменных имен, и это сводит задержки к минимуму.

Когда поисковый агент Google исследует HTML страницу, он фиксирует две вещи:

  • слова на странице
  • позицию, в которой эти слова были найдены.

    Слова, появляющиеся в заголовке, подзаголовках, мета-тегах и других сравнительно важных позициях, отмечаются, чтобы во время последующего поиска по запросам пользователей им уделялось особое внимание. Поисковый агент Google запрограммирован таким образом, что индексирует на странице каждое значимое слово, но пропускает артикли «a», «an» и «the». В других поисковых агентах используются иные подходы.

    Как правило, такие подходы разрабатывают с целью ускорения функционирования агента, или для повышения эффективности пользовательского поиска, либо для одновременного решения обеих этих задач. Например, некоторые поисковые агенты отслеживают слова в заголовке, подзаголовках и ссылках, а также 100 наиболее часто встречающихся слов на странице и все слова в первых 20 строках текста. Говорят, что такой подход используется для индексации Всемирной паутины поисковой системой Lycos.

    Другие системы, такие как AltaVista, движутся в ином направлении, индексируя каждое слово на странице, включая «a», «an», «the» и прочие «бессодержательные» слова. Стремление к полноте при таком подходе сравнимо с вниманием, которое в других системах уделяется невидимой части веб-страницы, мета-тегам.

    Продолжение следует.

    Источник: www.howstuffworks.com



    Просмотров: 938

      Ваш коментарий будет первым

    Только зарегистрированные пользователи могут оставлять коментарии.
    Пожалуйста зарегистрируйтесь или войдите в ваш аккаунт.


  • полезная информация
    Всего публикаций на сайте: 1160
    Аппаратное обеспечение
    Периферийные устройства
    Ноутбуки
    КПК
    Сети и системы связи
    Интернет
    Программное обеспечение
    Операционные системы
    Серверные системы
    © 2007-2012 PCwork.Ru
    Копирование материалов сайта допускается только при установке обратной ссылки на PCWork.Ru
    Для связи с администрацией:
    Проектирование, монтаж и обслуживание компьютерных сетей и СКС любой сложности.