Про компьютеры на PCwork.Ru
наш форум
Сейчас на форуме: 3
Тема: «силиконовая смазка для вентиляторов»
Всего тем: 3566
Сообщений: 22884
Пользователей: 686
Новый пользователь: Taleiran
Какими GPS-устройствами вы пользуетесь?
Волонтеры в помощь детям сиротам. Отказники.ру
Главная arrow Интернет arrow Поисковые системы Интернета. Мета-теги. Построение указателя

Поисковые системы Интернета. Мета-теги. Построение указателя



Поисковые системы Интернета Продолжение статьи «Поисковые системы Интернета»

Мета-теги

Мета-теги дают возможность владельцу страницы задать ключевые слова и принципы, по которым данная страница будет индексироваться. Это полезно, прежде всего, в случаях, когда слова на странице могут иметь два или три значения – мета-теги помогают поисковой машине выбрать правильное значение многозначных слов из нескольких возможных вариантов. Однако в излишнем доверии к мета-тегам кроется опасность, поскольку недобросовестные или неразборчивые в средствах владельцы веб-страниц могут добавлять мета-теги, которые соответствуют очень популярным темам, но не имеют ничего общего с фактическим содержимым данной страницы. Для защиты от упомянутых манипуляций поисковые агенты сравнивают мета-теги с содержимым страницы и игнорируют их, если не обнаружится соответствие со словами на странице.

Все сказанное предполагает, что владелец действительно хочет, чтобы его страницу включили в результаты индексирования поисковой машины. Однако зачастую владельцы не хотят подвергать свои страницы индексированию поисковым агентом или показывать их в больших поисковых машинах. Представим себе, например, игру, которая создает новые, активные страницы каждый раз, когда отображаются части страниц или осуществляются переходы по новым ссылкам. Если поисковый агент попадет на одну из этих страниц и начнет переходить по всем ссылкам на новые страницы, программа игры может перепутать его действия с манипуляциями быстрого игрока и выйти из-под контроля. Во избежание подобных ситуаций разработан протокол недопущения роботов. Этот протокол, внедренный в раздел мета-тегов в начале веб-страницы, дает команду поисковому агенту не трогать данную страницу, то есть не индексировать на ней слова и не пытаться переходить по имеющимся на ней ссылкам.

Построение указателя

По завершении поисковыми агентами анализа информации веб-страниц (нужно отметить, что эта работа на практике никогда не может быть выполнена до конца – поскольку Всемирная паутина постоянно меняется, поисковые агенты работают все время) поисковая машина должна сохранить полученную информацию в форме, пригодной для дальнейшего использования. Собранные данные становятся доступными для пользователей благодаря двум ключевым компонентам:

  • информации, хранимой совместно с полученными данными,
  • методу индексирования информации

    В самом простом случае поисковая машина могла бы сохранять лишь слово и URL, где это слово было найдено. В действительности подобный подход приведет к ограничению функциональности поисковой машины, поскольку он не позволяет определить, занимало ли рассматриваемое слово важное или обычное место, использовалось один раз или многократно, а также были ли на данной странице ссылки на другие страницы с этим словом. Иными словами, такой подход не предоставляет инструментов для построения рангового списка с тенденцией к размещению наиболее полезных страниц в начале списка результатов поиска.

    Для формирования более удобных и полезных результатов большинство поисковых машин сохраняет больше информации, чем просто слово и URL. Машина может запоминать, сколько раз данное слово встречается на той или иной странице. Для каждого элемента может быть указан вес, причем больший вес присваивается словам, находящимся в самом начале документа, в подзаголовках, ссылках, мета-тегах и в заголовке страницы. В каждой коммерческой поисковой машине имеется своя, отличная от других, формула присвоения веса словам в указателе. Это одна из причин, по которым поиск по одному и тому же слову разными поисковыми машинами приводит к построению отличающихся списков, с различной последовательностью размещения веб-страниц.

    Независимо от точной комбинации дополнительных частей информации, хранимых поисковой машиной, для экономии места эти данные нужно кодировать. Например, в оригинальном отчете Google для хранения информации о весе, то есть о том, было ли слово написано прописными буквами, о размере шрифта, положении, а также другой информации, помогающей упорядочить результаты поиска, используется по 2 байта, по 8 бит каждый. Каждый коэффициент может занимать 2 или 3 бита в 2-байтовой группировке (8 бит = 1 байт) В итоге большая часть информации может храниться в очень компактном виде. После уплотнения информации она готова к индексированию.

    Указатель составляется с одной простой целью: Он способствует быстрейшему нахождению информации. Есть немного способов построения указателя, и один из наиболее эффективных – создание хеш-таблицы. При хешировании применяется специальная формула для присвоения каждому слову числовой величины. Формула предназначена для равномерного распределения содержимого по заранее установленному количеству категорий. Такое числовое распределение отличается от распределения слов по алфавиту и является ключевым условием эффективного использования хеш-таблицы.

    В английском языке есть буквы, с которых начинается много слов, тогда как слов, начинающихся с других букв, меньше. Можно, например, обнаружить, что раздел «M» в словаре содержит намного больше слов, чем раздел «X». В связи с таким различием, чтобы найти слово, начинающееся с «популярной» буквы, нужно было бы затратить намного больше времени, чем на поиск слова с не такой «популярной» первой буквой. Хеширование уравнивает различия и сокращает среднее время, расходуемое на поиск требуемых данных. Оно также отделяет числовые коэффициенты от реального содержимого. Хеш-таблица содержит хешированное число с указателем на фактические данные, которые можно сортировать любым требуемым способом, что позволяет хранить данные наиболее эффективно. Сочетание эффективного индексирования и эффективного хранения обеспечивает быстрое получение результатов, даже если пользователь формулирует сложный поисковый запрос.

    Продолжение следует.

    Источник: www.howstuffworks.com



    Просмотров: 964

      Ваш коментарий будет первым

    Только зарегистрированные пользователи могут оставлять коментарии.
    Пожалуйста зарегистрируйтесь или войдите в ваш аккаунт.


  • полезная информация
    Всего публикаций на сайте: 1159
    Аппаратное обеспечение
    Периферийные устройства
    Ноутбуки
    КПК
    Сети и системы связи
    Интернет
    Программное обеспечение
    Операционные системы
    Серверные системы
    © 2007-2012 PCwork.Ru
    Копирование материалов сайта допускается только при установке обратной ссылки на PCWork.Ru
    Для связи с администрацией:
    Проектирование, монтаж и обслуживание компьютерных сетей и СКС любой сложности.