Законы Зипфа описывают закономерности частотного распределения слов в тексте на любом естественном языке. Их опубликовал в 1949 году американский лингвист Джордж Зипф (George Kingsley Zipf — из-за его происхождения фамилия часто встречается в немецком прочтении «Ципф»). Законы эмпирические — они не имеют строгого математического доказательства и основаны на статистическом анализе распределения слов в больших массивах текстов на разных языках. Тем не менее, статистически их верность не вызывает никаких сомнений.
Берем достаточно большой набор текстов, подсчитываем, сколько раз в них встречается каждое слово. Составляем список слов, упорядочивая его по количеству вхождений каждого слова, от самого частого к самому редкому.
Частота — количество вхождений слова в текстах.
Ранг — номер слова в общем списке обнаруженных слов, упорядоченном по убыванию частоты
Слова, входящие в тексты с одинаковой частотой, имеют одинаковый ранг.
Если произвольно выбрать случайную позицию в тексте, вероятность нахождения заданного слова именно на этой позиции обратно пропорциональна его частоте. Эта вероятность равна отношению частоты слова к общему числу слов.
Вероятность = Частота / общее_число_слов
Первый закон Зипфа гласит:
Вероятность обнаружения любого слова, умноженная на его ранг — постоянная величина.
В любом тексте, написанном человеком, этот закон статистически верен. Статистически, а не математически — потому что для небольших текстов всегда возможны отклонения, но чем больше число слов в тексте, тем эти отклонения меньше.
Разные слова в большом массиве текста могут иметь одинаковое количество вхождений. Если построить график, где ось X отображает частоту слова, а ось Y — количество слов, входящих в текст с такой частотой, то для любого массива текста этот график будет одинаковым. В логарифмическом масштабе этот график близок к прямой линии. В линейном масштабе график напоминает гиперболу, наклон кривой на начальном участке различается для разных языков, но для всех текстов на одном языке кривая распределения одинакова.
Как уже сказано, кривая распределения «количество – частота» имеет форму гиперболы – с ветвями, близкими к прямой линии, и с выраженным участком перегиба. Именно на участке перегиба есть небольшая зона, в которую попадают слова наиболее значимые — то есть, ключевые слова.
Законами Зипфа описываются естественные тексты, написанные людьми — а значит, с помощью этих законов можно уверенно распознавать «нечеловеческие» и «неестественные» тексты.
Если ответ на этот вопрос вам до сих пор не ясен — вон из SEO, и больше не подходите к этому занятию на пушечный выстрел. Закономерности, открытые Зипфом, позволяют безошибочно отличить текст, написанный человеком, от псевдотекста, созданного скриптом для наполнения дорвея. При этом даже не нужно знать язык, на котором написан текст — достаточно знать только морфологию.
Заодно эти закономерности объясняют, почему миф об «оптимальном проценте ключевых слов в тексте» был, есть и будет только мифом. Истинная зависимость сложнее, чем процентное содержание какого-то слова. Поэтому глупо рассматривать количество нужных вам слов в тексте в отрыве от количества всех остальных слов, которые в нем встречаются.
Эти же законы объясняют еще один каприз судьбы — слова, которые вы прописываете как содержимое мета-тега keywords, совсем не обязательно являются ключевыми словами. Чаще всего это просто слова запросов, по которым вы хотите найти свою страницу как можно выше в поисковой выдаче. Хотеть не вредно…
Эти же законы подсказывают нам, что программные синонимайзеры и живые «SEO-копирайтеры», плохо владеющие родным языком — зло еще большее, чем генераторы дорвейного контента на «цепях Маркова». Стараясь вставить как можно больше «нужных» слов в заказной текст, «SEO-копирайтеры» нарушают естественное распределение — в результате ключевыми становятся совсем не те слова. А из-за оплаты по числу знаков намеренно добавляют лишние обороты, делающие текст неестественным, но более длинным.