Как найти уникальные слова в тексте

Выделение уникальных слов в тексте

Обсудить в TG

Инструкция

  • На главную
  • Инструменты
  • Выделение уникальных слов в тексте

Анализатор слов

частота встречаемости уникальных слов в списке

Проанализируйте ключевые слова вашего списка

Инструмент “Анализатор слов” представляет исходный список ключевых фраз в виде списка уникальных слов, отсортированых в порядке убывания частоты встречаемости в исходном списке.

Этот инструмент аналогичен “Анализатору слов” в “Подборе слов” за исключением того, что здесь вы можете использовать произвольный список ключевых слов.

Список уникальных слов полезно просмотреть, чтобы понять, какие из часто встречающихся в выборке слов не относятся к вашей теме, и поэтому их нужно поместить в список слов для исключения. Пример ключевой фразы поможет понять контекст употребления слов и выявить нецелевые контекстные значения ваших поисковых слов.

Например, мы ищем “светлые обои ” для квартиры. Вверху списка уникальных слов находятся слова “рабочий” и “стол”, поэтому фразу “рабочий слол” можно сразу поместить в список исключений, поскольку речь идет об обоях, которые являются электронными картинками для рабочего стола ПК.

Максимальное количество строк в исходном списке – 100 000.

Если в вашем исходном списке ключевых слов встречаются операторы поиска (кавычки, восклицательный знак, минус и т.п., например, при копировании их из кампаний Яндекс Директ), то сначала нормализуйте ваш список ключевых слов.

Бесплатный сервис поиска слов Адвего покажет онлайн все вхождения ключевых слов, стоп-слов и слов по заданному образцу. Поиск фраз и наборов символов на любом языке.

Как работает поиск слов и фраз в тексте

Скопируйте в первое поле проверяемый текст, а во втором поле укажите все слова и фразы по одной на строку, после чего нажмите кнопку “Найти”. Чтобы найти слова в документе или на странице сайта, скопируйте весь текст в поле для проверки.

По умолчанию система ищет только точные совпадения с указанной строкой (с учетом знаков препинания).

Например, по строке “номер” будет найдено слово “номер”, но не будут найдены слова “номерной” или “госномер”. Аналогично, при поиске по фразе “легкий завтрак” будет найдена только фраза “легкий завтрак”, но не будут найдены фразы “легким завтраком” или “легкий, завтрак”.

Чтобы задать поиск по маске, используйте символ звездочки * в начале, в конце или с обеих сторон каждого слова:

  • ра* — будут найдены все слова, начинающиеся на “ра”, в том числе слово “ра”: работа, разный, рад.
  • *ет — будут найдены все слова, заканчивающиеся на “ет”, в том числе слово “ет”: работает, полет, нет.
  • *ой* — будут найдены все слова, содержащие буквосочетание “ой” в любом месте: ойкнул, водопой, спокойствие.

Маску можно указать для одного или нескольких слов во фразе, правила будут применяться последовательно:

  • ра* *ет — будут найдены фразы только из двух рядом стоящих слов, первое из которых начинается на “ра”, а второе заканчивается на “ет”: рабочий совет, но не будут найдены фразы “свет комет” или “равная опора”.

Также можно найти все вхождения любой заданной последовательности символов в тексте — для этого необходимо добавить символ ! в начале и конце строки.

Например, по запросу !дом! будут найдены вхождения этого буквосочетания в словах “дом”, “домашний”, “одомашненный” и т. д., но выделены будут именно вхождения, а не слова целиком, в отличие от режима поиска по маске с символом *.

Чтобы выделить все вхождения конкретного слова или фразы в тексте, нажмите на строку с ними в таблице совпадений. Чтобы выделить все совпадения, нажмите на строку с общим количеством совпадений.

Проверять текст можно неограниченное количество раз — после его редактирования или изменения списка слов нажмите повторно кнопку “Найти” и система покажет результаты новой проверки.

Возможности сервиса:

  • поиск заданных слов и фраз (ключевых, стоп-слов);
  • поиск по фразе целиком или по ее части;
  • поиск необходимого слова или фразы в документе;
  • поиск одинаковых и повторяющихся слов;
  • поиск однокоренных слов по маске;
  • поиск любых последовательностей символов;
  • поиск в английском тексте и на любом языке.

Инструмент позволяет из списка фраз оставить только максимально непохожие фразы, и отсеять дубли и
похожие по смыслу фразы.

Например, это полезно при составлении ТЗ копирайтеру на основании анализа заголовков конкурентов.
Сначала вы собираете все
заголовки, потом этим инструментом отсеиваете дубли и похожие строки. У вас остаются лишь уникальные
пункты, из которых вы уже
соберете план.

Что такое максимальный % похожести и каким его выбрать?

Максимальный процент похожести – это насколько максимально могут быть похожи фразы, чтобы считаться
разными.
Чем меньший процент вы ставите, тем жестче отрабатывает алгоритм, и больше фраз удаляет. И наоборот –
повышая процент, алгоритм оставляет больше фраз.

Чем длиннее фразы в вашем списке, тем алгоритму легче отработать. Поэтому на длинных фразах вы можете
понижать это число до 10-30%, а на коротких –
поднимать до 40-80%. Точных значений нет – экспериментируйте на своих данных.

Как определяется похожесть фраз?

Сначала из фразы удаляются предлоги, союзы и прочие малозначающие части речи – это первичная очистка.

Потом используется алгоритм стеммизации слов. Каждое слово в фразах приводится к некой первоначальной
форме (например, слова дерево и дерева
приведутся к форме дерев. Таким образом каждая фраза представляется в виде множества стемм. Эти
множества и сравниваются между собой на похожесть.

Алгоритм работает не идеально, и в сложных случаях может глючить. Но в 90% случаев он неплохо
отрабатывает, и показывает хорошие результаты.

Ограничения

Поиск похожести – ресурсоемкая задача. Поэтому для незарегистрированных пользователей максимальное
количество строк, которое можно проверить за один раз – 100 фраз.

Подсчет уникальных слов

Подсчитывает количество слов в тексте без повторов.

Статьи, описывающие этот калькулятор

  • Подсчет одинаковых слов

PLANETCALC, Подсчет уникальных слов

Подсчет уникальных слов

Текст, содержащий повторы слов

Удаляет из текста повторяющиеся слова

Показывать количество слов рядом со словом

Слова, которые требуется исключить из подсчета

Количество подсчитанных слов

Файл очень большой, при загрузке и создании может наблюдаться торможение браузера.

Ссылка скопирована в буфер обмена

PLANETCALC, Подсчет уникальных слов

Anton2021-12-10 06:37:41

Добавить комментарий