В поисковой терминологии релевантность — это степень соответствия найденного документа поисковому запросу. Именно релевантностью определяется, попадет ли вообще документ в поисковую выдачу по этому запросу, а если попадет, то насколько близко к ее началу. Этот термин происходит от английского relevancy, который имеет несколько смежных значений. Это и «соответствие», и «уместность», и «актуальность», и даже «правомерность».
В простейшем случае релевантность запросу — это наличие слов запроса в тексте документа. Этого достаточно для простого поиска по небольшой базе документов. Но с ростом базы степень соответствия нужно было определять точнее, чем просто «есть или нет».
Первым уточнением было определение расстояния между словами в тексте — просто говоря, находится ли в тексте весь запрос как есть («прямое вхождение» запроса), или между словами запроса в тексте есть какие-то другие слова, или же отдельные слова запроса попадаются в независимых блоках текста (в разных пассажах). Очевидно, что самым релевантным считался документ с прямым вхождением, а с разбросанными по разным пассажам словами — наименее релевантным. Релевантность документа, в котором слова запроса были в одном пассаже (или смежных), но между ними встречались другие слова, рассчитывалась по «расстоянию между словами». То есть, чем меньше посторонних слов между словами запроса, тем более релевантен документ.
Для полноты поиска важны не только прямые вхождения. Запросу могут полностью соответствовать документы, в которых слова запроса встречаются в разных формах (например, существительные в единственном и множественном числе, в разных падежах). Следующей поправкой к определению релевантности стал учет морфологии.
Затем для большей полноты поиска потребовалось учитывать и синонимы. Например, один и тот же документ может соответствовать запросам «автомобиль в аренду» и «автомобиль напрокат». Такие синонимические замены некоторые оптимизаторы называли «переколдовкой запроса».
Пертинентность (от англ. pertinence) — это оценка семантического (в данном случае смыслового) соответствия текста запросу. Этот пока редко употребляемый термин дополняет привычную формальную релевантность. В большой базе очень многие документы могут считаться по каким-то признакам релевантными запросу. Но не все они соответствуют запросу с человеческой точки зрения. Например, в этом тексте есть слово «морфология», но это не значит, что текст о морфологии. Анализ текста с определением его тематики и выделением ключевых слов позволяет судить о том, имеет ли текст отношение к запросу по смыслу.
Для оценки пертинентности выборка слов из текста проверяется на соответствие ограниченным «словарям», имеющим отношение к какой-либо тематике. По наиболее подходящему словарю определяется тематика текста, и текст считается релевантным тем запросам, которые совпадают по тематике. В идеальном случае1) этот текст не будет показан в выдаче по запросу «аренда автомобиля», хотя эти слова в нем и содержатся.