Закон Ципфа и показателя TF-IDF для оценки качества текста

Закон Ципфа это один из алгоритмов оценки качества текста, наряду с другими алгоритмами. Применяется поисковыми системами при продвижения сайтов. Используется этот показатель в течение нескольких лет  и в настоящее время.закон Ципфа

Закон Ципфа — алгоритмы оценки качества текста

Закон Ципфа открыт лингвистом Джоржем Ципфом из Гарвардского университета. Рассчитывается он по формуле, возможно не сложной для специалистов. Но блогеру не обязательно в этом разбираться. Нам важно знать, где можно проверить качество текстов наших страниц.

частота слов

Из выдержки на рисунке становится понятным, что в естественном тексте часто встречающиеся слова должны быть вначале текста. Однако в последующих предложениях их частота должна снижаться. Не вникая в формулы, хочу привести пример своего сайта. Проверяю главную страницу, но моей теме могу часто менять ее содержание. Имею возможность рекламировать на ней те статьи, которые считаю нужным. Таким образом, содержание главной страницы сайта может постоянно меняться. Вначале страницы расположены категории, они будут наиболее часто встречающимся словами.

По закону Ципфа второе слово должно встречаться в тексте в два раза реже, чем первое, третье – в три раза реже, чем первое и второе, и так далее. Если эта закономерность соблюдается, то текст по закону Ципфа написан естественно.

Имеют значение и слова в анонсах, но они Тдолжны убывать. Именно за счет этих слов мы можем исправить естественность  текста, по закону Ципфа. Статьи мы пишем в разное время, иногда употребляя одни и те же слова, в связи с привычным стилем своей речи. Затем обнаруживаем, что статьи, написанные в разные годы, находятся рядом на главной странице. Получается повторение ключевых слов: в анонсах, категориях, названиях статей и даже в сносках под сайтом. В результате имеем страницу с низким качеством текста.

Однако это можно исправить, с помощью сервиса, где в таблице покажут какое количество конкретных слов можно убавить. После проведения коррекции в текстах, а иногда в названиях категорий, проверку можно повторить, несколько раз.  Хорошим качеством текста считается в процентном отношении 50% и выше. У меня главная страница получилась  61%.

Закон Ципфа в других областях

Это не относится к текстам сайта, но все же интересно.

что еще подчиняется закону Ципфа

Показатель релевантности TF-IDF

Проверить свои тексты на релевантность можно в программе site auditor по показателю TF-IDF. Более подробно об этом алгоритме можно почитать в википедии.

TF-IDF — на данный момент, это один из основных показателей определения релевантности страницы. Показатель похож на закон Ципфа, но немножко другой. Это отношение ключевых слов в статье, к частоте употребления их в Мировом Интернете, но в обратной зависимости. Для определения места в выдаче сайтов, ПС учитывают и этот показатель.

Среди огромного числа сайтов, во всем Интернете, очень мала вероятность попасть, в верхние строчки поиска, особенно если не учитывается алгоритм TF-IDF. Чтобы хоть как-то приблизится к целевому ключевому слову, приходится добавлять ещё слова к фразе, чтобы попробовать попасть в ТОП. Добавить или убавить некоторые слова текста поможет site auditor.

Иногда этот показатель называют спам фильтром, приведу это на примере своего сайта о доме и даче. Поскольку мой вариант программы Web site Auditor бесплатен и не полон, не имею права копирования и расскажу на словах. Проверяла разные страницы. Для показателя TF-IDF выделены ключевые слова. Далее делается оценка каждого слова, по сравнению с конкурентами и даются советы для исправления.

Например, у меня был совет «добавить» ключи: «для дома», «для дачи». Против слова «работа» стоял красный восклицательный знак, это означает, что слово во всем сайте употребляется намного чаще, чем у конкурентов и является спамом. Хотя известно, что на блоге хуже спама ничего нет.

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Что будем искать? Например,Человек

Мы в социальных сетях