Различия

Здесь показаны различия между выбранной ревизией и текущей версией данной страницы.

Ссылка на это сравнение

цепи-маркова [2013/01/29 15:20]
Spinne [Цепи Маркова в анализе текстов]
цепи-маркова [2013/01/29 15:23] (текущий)
Spinne [Цепи Маркова в анализе текстов]
Строка 5: Строка 5:
 Казалось бы, для чего нам эта математическая абстракция из теории вероятностей? Читатель уже возмущен и готов кричать: "Какое отношение это имеет к SEO?!". Спешим успокоить, самое прямое. Дело в том, что любое предложение в тексте может рассматриваться по крайней мере как марковская цепь первого порядка. Слова в этом случае рассматриваются не в их базовых формах, а в любых. Казалось бы, для чего нам эта математическая абстракция из теории вероятностей? Читатель уже возмущен и готов кричать: "Какое отношение это имеет к SEO?!". Спешим успокоить, самое прямое. Дело в том, что любое предложение в тексте может рассматриваться по крайней мере как марковская цепь первого порядка. Слова в этом случае рассматриваются не в их базовых формах, а в любых.
  
-То есть, после данного слова с разной вероятностью может встретиться еще какое-то слово. Например, слово "побежал" после слова "шкаф" встречается крайне редко, а после слова "он" --- очень часто. От каждого слова напрямую зависит, каким может (или не может) быть следующее. Но это гораздо меньше зависит от предшествующей цепочки слов. Если рассматривать построение фразы как цепь первого порядка, то выбор следующего слова зависит от текущего, но не зависит от предыдущих. Разбирая достаточно большой массив текстов, можно для каждого слова определить, какие слова (и насколько часто) могут встречаться после него. Потом на основе такой статистики можно проанализировать какую-то последовательность слов и решить, является ли она осмысленным текстом, или это просто случайный набор слов. Это один из способов, которым поисковая система проверяет тексты на синтаксическую и морфологическую связность. И уж будьте уверены: если в предложениях часто встречаются глаголы после предлогов, то текст эту проверку не пройдет.+То есть, после данного слова с разной вероятностью может встретиться еще какое-то слово. Например, слово "побежал" после слова "шкаф" встречается крайне редко, а после слова "он" --- очень часто. От каждого слова напрямую зависит, каким может (или не может) быть следующее. Но это гораздо меньше зависит от предшествующей цепочки слов. Если рассматривать построение фразы как цепь первого порядка, то выбор следующего слова зависит от текущего, но не зависит от предыдущих. Разбирая достаточно большой массив текстов, можно для каждого слова определить, какие слова (и насколько часто) могут встречаться после него. Потом на основе такой статистики можно проанализировать какую-то последовательность слов и решить, похожа ли она на текст, или это просто случайный набор слов. Это один из способов, которым поисковая система проверяет тексты на синтаксическую и морфологическую связность. И уж будьте уверены: если в предложениях часто встречаются глаголы после предлогов, то текст эту проверку не пройдет.
  
 ===== Цепи Маркова и синтез текстов ===== ===== Цепи Маркова и синтез текстов =====
цепи-маркова.txt · создано: 2013/01/28 13:28 — Spinne · Последние изменения: 2013/01/29 15:23 — Spinne
Наверх
Driven by DokuWiki