ГлавнаяИнтернет Поисковые системы Интернета. Мета-теги. Построение указателя
Поисковые системы Интернета. Мета-теги. Построение указателя
Продолжение статьи «Поисковые системы Интернета»
Мета-теги
Мета-теги дают возможность владельцу страницы задать ключевые слова и принципы, по которым данная страница будет индексироваться. Это полезно, прежде всего, в случаях, когда слова на странице могут иметь два или три значения – мета-теги помогают поисковой машине выбрать правильное значение многозначных слов из нескольких возможных вариантов. Однако в излишнем доверии к мета-тегам кроется опасность, поскольку недобросовестные или неразборчивые в средствах владельцы веб-страниц могут добавлять мета-теги, которые соответствуют очень популярным темам, но не имеют ничего общего с фактическим содержимым данной страницы. Для защиты от упомянутых манипуляций поисковые агенты сравнивают мета-теги с содержимым страницы и игнорируют их, если не обнаружится соответствие со словами на странице.
Все сказанное предполагает, что владелец действительно хочет, чтобы его страницу включили в результаты индексирования поисковой машины. Однако зачастую владельцы не хотят подвергать свои страницы индексированию поисковым агентом или показывать их в больших поисковых машинах. Представим себе, например, игру, которая создает новые, активные страницы каждый раз, когда отображаются части страниц или осуществляются переходы по новым ссылкам. Если поисковый агент попадет на одну из этих страниц и начнет переходить по всем ссылкам на новые страницы, программа игры может перепутать его действия с манипуляциями быстрого игрока и выйти из-под контроля. Во избежание подобных ситуаций разработан протокол недопущения роботов. Этот протокол, внедренный в раздел мета-тегов в начале веб-страницы, дает команду поисковому агенту не трогать данную страницу, то есть не индексировать на ней слова и не пытаться переходить по имеющимся на ней ссылкам.
Построение указателя
По завершении поисковыми агентами анализа информации веб-страниц (нужно отметить, что эта работа на практике никогда не может быть выполнена до конца – поскольку Всемирная паутина постоянно меняется, поисковые агенты работают все время) поисковая машина должна сохранить полученную информацию в форме, пригодной для дальнейшего использования. Собранные данные становятся доступными для пользователей благодаря двум ключевым компонентам:
информации, хранимой совместно с полученными данными,
методу индексирования информации
В самом простом случае поисковая машина могла бы сохранять лишь слово и URL, где это слово было найдено. В действительности подобный подход приведет к ограничению функциональности поисковой машины, поскольку он не позволяет определить, занимало ли рассматриваемое слово важное или обычное место, использовалось один раз или многократно, а также были ли на данной странице ссылки на другие страницы с этим словом. Иными словами, такой подход не предоставляет инструментов для построения рангового списка с тенденцией к размещению наиболее полезных страниц в начале списка результатов поиска.
Для формирования более удобных и полезных результатов большинство поисковых машин сохраняет больше информации, чем просто слово и URL. Машина может запоминать, сколько раз данное слово встречается на той или иной странице. Для каждого элемента может быть указан вес, причем больший вес присваивается словам, находящимся в самом начале документа, в подзаголовках, ссылках, мета-тегах и в заголовке страницы. В каждой коммерческой поисковой машине имеется своя, отличная от других, формула присвоения веса словам в указателе. Это одна из причин, по которым поиск по одному и тому же слову разными поисковыми машинами приводит к построению отличающихся списков, с различной последовательностью размещения веб-страниц.
Независимо от точной комбинации дополнительных частей информации, хранимых поисковой машиной, для экономии места эти данные нужно кодировать. Например, в оригинальном отчете Google для хранения информации о весе, то есть о том, было ли слово написано прописными буквами, о размере шрифта, положении, а также другой информации, помогающей упорядочить результаты поиска, используется по 2 байта, по 8 бит каждый. Каждый коэффициент может занимать 2 или 3 бита в 2-байтовой группировке (8 бит = 1 байт) В итоге большая часть информации может храниться в очень компактном виде. После уплотнения информации она готова к индексированию.
Указатель составляется с одной простой целью: Он способствует быстрейшему нахождению информации. Есть немного способов построения указателя, и один из наиболее эффективных – создание хеш-таблицы. При хешировании применяется специальная формула для присвоения каждому слову числовой величины. Формула предназначена для равномерного распределения содержимого по заранее установленному количеству категорий. Такое числовое распределение отличается от распределения слов по алфавиту и является ключевым условием эффективного использования хеш-таблицы.
В английском языке есть буквы, с которых начинается много слов, тогда как слов, начинающихся с других букв, меньше. Можно, например, обнаружить, что раздел «M» в словаре содержит намного больше слов, чем раздел «X». В связи с таким различием, чтобы найти слово, начинающееся с «популярной» буквы, нужно было бы затратить намного больше времени, чем на поиск слова с не такой «популярной» первой буквой. Хеширование уравнивает различия и сокращает среднее время, расходуемое на поиск требуемых данных. Оно также отделяет числовые коэффициенты от реального содержимого. Хеш-таблица содержит хешированное число с указателем на фактические данные, которые можно сортировать любым требуемым способом, что позволяет хранить данные наиболее эффективно. Сочетание эффективного индексирования и эффективного хранения обеспечивает быстрое получение результатов, даже если пользователь формулирует сложный поисковый запрос.
Продолжение следует.
Источник:
Просмотров: 964
Ваш коментарий будет первым
Только зарегистрированные пользователи могут оставлять коментарии. Пожалуйста зарегистрируйтесь или войдите в ваш аккаунт.