Цепи Маркова

Цепью Маркова называется последовательность случайных событий с конечным числом вероятных исходов, в которой будущее зависит от текущего состояния, но не зависит от прошлого.

Цепи Маркова в анализе текстов

Казалось бы, для чего нам эта математическая абстракция из теории вероятностей? Читатель уже возмущен и готов кричать: «Какое отношение это имеет к SEO?!». Спешим успокоить, самое прямое. Дело в том, что любое предложение в тексте может рассматриваться по крайней мере как марковская цепь первого порядка. Слова в этом случае рассматриваются не в их базовых формах, а в любых.

То есть, после данного слова с разной вероятностью может встретиться еще какое-то слово. Например, слово «побежал» после слова «шкаф» встречается крайне редко, а после слова «он» — очень часто. От каждого слова напрямую зависит, каким может (или не может) быть следующее. Но это гораздо меньше зависит от предшествующей цепочки слов. Если рассматривать построение фразы как цепь первого порядка, то выбор следующего слова зависит от текущего, но не зависит от предыдущих. Разбирая достаточно большой массив текстов, можно для каждого слова определить, какие слова (и насколько часто) могут встречаться после него. Потом на основе такой статистики можно проанализировать какую-то последовательность слов и решить, похожа ли она на текст, или это просто случайный набор слов. Это один из способов, которым поисковая система проверяет тексты на синтаксическую и морфологическую связность. И уж будьте уверены: если в предложениях часто встречаются глаголы после предлогов, то текст эту проверку не пройдет.

Цепи Маркова и синтез текстов

Тот же принцип марковской цепи можно попытаться применить и для создания синтетических текстов — что и сделали дорвейщики. А вы думали, что они сплошь малограмотные и примитивные люди? Не спешите судить о них по их «продукции»…

Генератор псевдотекста с использованием цепи Маркова работает в два прохода. Сначала создается словарная база. Для этого достаточно обширный текст разбирается на слова и для каждого слова определяется, какие слова чаще всего встречаются после него. Далее на основе этой базы можно строить цепочки.

Случайным образом выбирается первое слово. Следующим выбирается слово из ограниченного набора «возможных после него». И так, слово за словом, создается псевдотекст. Смысла в нем нет и не ожидается. Но смысл и не требуется — достаточно, чтобы этот бред прошел машинную проверку на связность, иначе поисковик откажется его индексировать.

Это незавершенная статья.
Вы можете помочь проекту, добавив в статью информацию, иллюстрации или приведя ее в соответствие с реальностью и правилами оформления

цепи-маркова.txt · создано: 2013/01/28 13:28 — Spinne · Последние изменения: 2013/01/29 15:23 — Spinne
Наверх
Driven by DokuWiki