Стоп слова

Не стоит пугаться страшного слова «стоп» в этом определении. Некоторые могут подумать, что увидев стоп слово, поисковик замирает в бешенстве и перестает индексировать документ. Конечно, этого не происходит. Просто такое слово - это слово, которое настолько часто используется в словаре, что не может быть использовано для ранжирования документа. Это практически все предлоги, местоимения, большая часть глаголов, которые употребляются повсеместно во всех текстах и исключаются поисковиками из анализа релевантности. Кроме того, рекомендуем изучить статью про законы Зипфа - поскольку она немножко связана со стоп словами.

Список стоп слов

Такого списка не существует в общем виде, однако его не так сложно составить. Впрочем, интуитивно понятно, что по запросу «ты» - поисковик не выведет что либо вменяемое, кроме как ссылки на словарь русского языка. (Впрочем выводить то, что-то надо, он и выводит всякую глупость)

Другие значения стоп слов

Есть и другое значение стоп слова. Это обширные списки слов (матерных, эротических, незаконных тематик, (казино, фарма, наркотики) которые составляют вебмастера для отсева спамерских сообщений на свои сайты, или при покупке-продаже ссылок в автобиржах типа sape.

Стоп символы

Это понятие не имеет отношение к стоп словам, но нет смысла создавать отдельную статью. В общем, стоп символы, это то, что разбивает шингл или предложения. Проще пояснить это на примере. В документе содержится два слова: веник и скачать. В пером случае они разделены запятой, а во втором - точкой. Так вот, если вы вобьете в поиск Яндекса точное соответствие »!веник !скачать» - то в первом случае он должен найти ваш документ, а во втором - нет. Тем не менее, все это весьма условно, неплохой эксперимент по поиску стоп символов провел в свое время Денис Иванов.1). В общем случае предложения разбивает точка, кроме того стоп символом является тег <td><tr> и некоторые другие теги.

1) Пассажи, и что делит предложение http://ivanov.in/separators/
стоп-слово.txt · создано: 2012/11/21 05:47 — donc · Последние изменения: 2012/11/21 05:50 — donc
Наверх
Driven by DokuWiki