Что такое дубли страниц сайта
На этой странице вы можете проверить сайт на дубли онлайн. Но зачем это делать? Давайте разбираться. Дубли (дубликаты) сайта — это идентичные по содержанию страницы, открыть которые можно по разным URL адресам. Например:
- www.liftweb.ru
- https://liftweb.ru
- http://liftweb.ru
- 89.13.24.133
Дубликат сайта по айпи адресу
Также нужно помнить как технически компьютер получает информацию с сайтов. Когда мы набираем адрес, состоящий из букв, цифр и символов (liftweb.ru), наш браузер отправляет запрос в “библиотеку доменов” — на DNS сервера.
То есть за каждым доменом закреплен свой адрес, состоящий только из цифр — IP адрес (89.13.24.133). Через DNS сервера компьютер узнает какой IP адрес принадлежит домену. И уже по айпи адресу сигнал идет на сайт для получения данных и отображения страниц.
Для чего вы прочитали эти два абзаца? Некоторые сайты можно открыть, в том числе, набрав в адресную строку их IP адрес. А поисковые системы проиндексируют ресурс дважды, он начнет конкурировать сам с собой. Поэтому нужно ставить редирект (перенаправление) с айпи адреса на домен.
Зачем делать поиск дублей страниц
Как мы уже отметили выше, главная проблема дубликатов страниц в том, что они мешают SEO продвижению сайта. Более того, я сам сталкивался с этим, когда в Google по одному из запросов вышел ресурс с IP адресом вместо домена. Пришлось срочно настраивать 301 редирект и добавлять несуществующий домен в Search Console, чтобы запустить объединение сайтов.
Такая процедура проходит очень неспешно, занимая несколько месяцев ценного времени. А сайт начнет получать трафик в полном объеме только после ее завершения. Поэтому лучше позаботиться о корректно настроенных редиректах заранее и не создавать себе лишние проблемы.
Какие страницы сайта могут стать дубликатами
Важно понимать, что дублироваться может не только главная страница, но и вообще любой контент на сайте. В том числе, это:
- страницы новостей, блога;
- категории товаров;
- продающие страницы, разделы услуг;
- технические страницы.
Как не допустить появление дублей
В первую очередь, мы рекомендуем на каждой странице прописывать атрибут rel=”canonical”. Проверить его наличие можно, используя бесплатный SEO анализ сайта на Liftweb. Отсутствие этого атрибута может стать причиной повторов страниц с get запросами.
Особенно это важно, если контент на сайте динамический — например, в интернет-магазинах. Ведь обычно поисковики понимают, что страницы не отличаются от слова совсем и не их добавляют в индексацию дважды. Но если контент каждый раз генерируется заново — преград в создании дублей не будет. Атрибут rel=”canonical” отлично борется с этой проблемой и с любого из сгенерированных адресов указывает на оригинал.
Как удалить дублированные страницы из поиска
- Во-первых, пропишите атрибут canonical по всему сайту.
- Во-вторых, используйте Вебмастер Яндекс и Search Console Google для оперативного удаления повторяющихся страниц из индексации.
- В-третьих, если дублируется сайт целиком, добавьте дубликат в названные выше кабинеты поисковых систем. Затем запустите процедуру переезда на актуальный адрес.
Как найти (проверить) дубли сайта
Чтобы найти дубликаты, иначе говоря, проверить сайт на дубли — просто введите его адрес в форму в начале этой страницы и нажмите “проверить”. Далее вы увидите по каким URL можно зайти на его страницы. Также для удобства вы можете нажать на иконку рядом с адресом, чтобы перейти по нему. Так можно проверить работоспособность найденного дубликата.
При корректно настроенных перенаправлениях сайт будет доступен только по одному адресу. В остальных строках должна быть отметка “редирект”.
Найти дубли сайта не удалось
Проверка обнаружила дубликаты сайта
«Поиск дублей»
Объединяет контакты клиентов
и реквизиты компаний, «размазанные»
по excel-файлам или базам данных.
Учитывает ошибки, опечатки и варианты написания.
- Sergey Ivanov
- 1982-03-16 00:00:00.000
- 4992423036
- сухонская, москва, 11 д
- Иванов Сергей Иванович
- мск сухонска 11/-89
- 8(916) 823 3454
- Сережа Иванов
- 16 мар 82
- моб 9168-233-454
- serega.ivnv@mail.ru
Если адресов или телефонов несколько,
берем все. Одинаковые — объединяем
- Иванов Сергей Иванович
- 16.03.1982
- +7 916 823-34-54
- +7 499 242-30-36
- 127642, г Москва, ул Сухонская, д 11, кв 89
- serega.ivnv@mail.ru
Попробовать
бесплатно
Покажем первые 100 объединенных записей.
Дальше — 1 копейка за запись
Кому пригодится
Продавцам
Объединить клиентов из разных баз, чтобы не звонить одному человеку несколько раз.
Сравнить списки покупателей разных продуктов, и понять, чем клиент пользуется, а что можно
допродать.
Маркетологам
Собрать единый список клиентов для рассылки или загрузки в CRM.
Отделить заявки новых клиентов от заявок действующих. И по-разному строить коммуникацию
с людьми.
Производителям товаров и дистрибьюторам
Очистить от дублей список торговых точек, чтобы посчитать, сколько денег приносят магазины
и сколько
продукции туда отгружать.
Аналитикам
Объединить разрозненные списки покупателей и посчитать выгоду от каждого клиента.
Службам сбора задолженностей и безопасникам
Собрать из разнородных баз данных компании все контакты должника.
Сличить клиентов с черным списком. Например, с перечнями террористов или должников.
Event-специалистам
Выделить зарегистрировавшихся людей из списка приглашенных на событие.
Найти постоянных посетителей в списках участников разных мероприятий.
Безопасен для ваших клиентов
Строго чтим 152-ФЗ «О персональных данных».
Файлы храним не дольше суток,
затем автоматически удаляем.
Ничего не передаем
третьим лицам. Закреплено в оферте.
Как объединить записи
1.
Зарегистрируйтесь в «Дадате» или
войдите в аккаунт.
На странице «Поиска дублей» загрузите файлы с данными:
100 записей можно просмотреть бесплатно.
Дальше — 1 копейка за запись
2. «Дадата» обработает файлы и покажет статистику, чтобы вы решили, стоит ли платить за обработку:
С_сайта.xls
и еще 4 файла
Обработали и сравнили
6970
записей
ФИО, компании, адреса, телефоны, email-адреса
Нашли:
одинаковых:
43%
записей
их объединили автоматически
Итоговый файл:
57% от
исходного
Скачать
фрагмент
В итоговом файле
два листа: «до слияния» и «после слияния».
На первом похожие и одинаковые записи сгруппированы вместе.
На втором — одинаковые записи объединены.
3. Посмотрите фрагмент файла с результатами — это бесплатно.
Если все устраивает, оплатите обработку и скачайте итоговый документ в формате Excel.
Пример: Объединенные.xlsx
A | B | C | D | E | F | G |
---|---|---|---|---|---|---|
Вот что получилось после объединения одинаковых записей: | ||||||
Статус | ФИО | Дата рождения | Адрес | Телефон | Телефон | |
похожи | Fedor ovchinnikov | 10.12.1990 | 430000, г Самара | info@gazprom.ru | ||
похожи | Овчинников Федор | 12.10.1990 | Самара Кирова 12 | +7 846 993-22-63 | info@gazprom.ru | |
уникальный | Талалаев Денис Давыдович | 630090, г Новосибирск, уд Пирогова, д 2 | +7 383 330-32-44 | |||
объединен | Ященко Ольга Павловна | 03.03.2002 | 197110, г Санкт-Петербург, ул Петрозаводская, д 8, кв 212 | зая +79211803489 | 457 07 25 | olga.ya@yandex.ru |
объединен | Иванов Сергей Владимиров | 16.03.1982 | 129346, г Москва, ул Норильская, д 17, кв 25 | +7 916 823-34-54 | +7 499 242-30-36 | serega.ivnv@mail.ru |
«Дадата» автоматически объединила одинаковые записи. А похожие, которые нельзя
схлопнуть без проверки, сгруппировала
Стоимость
«Поиск дублей» не входит в подписку на «Дадату».
До 100 записей объединим бесплатно.
Больше — по 1 копейке за запись.
Если сервис не найдет одинаковых клиентов или компаний — деньги не снимаем.
Материал адресован предпринимателям и маркетологам, которые хотят сами контролировать состояние сайта, а также проверять работу SEO-подрядчика. Далеко не всегда нужно знать HTML, чтобы успешно склеивать и удалять дубли страниц. Понимание того, как работает система, позволяет сформулировать грамотное техзадание программисту.
Дубли — это страницы сайта, контент которых полностью или частично совпадает. По сути, дубли — это полные или частичные копии страниц, доступные по уникальным URL-адресам.
Дублированный контент — массовая проблема. Считается, что до трети всех сайтов содержит дубли.
Какие бывают дубли страниц на сайте
Дубли бывают полными, когда по разным URL-адресам доступны абсолютно идентичные страницы, и частичными. Во втором случае контент страниц совпадает на 80% и более. Поисковые системы расценивают такие страницы как неуникальные и объединяют их в так называемый дублирующий кластер.
Пожалуй, нет предпринимателей, маркетологов, SEO-специалистов и вебмастеров, которые бы не сталкивались со следующими типами полных дубликатов:
Одна и та же страница по адресу с «WWW» и без «WWW»:
https://site.ru
https://www.site.ru
Дубли страниц с протоколами HTTP и HTTPS:
http//site.ru
https//site.ru
Дубли со слешем (слешами) на конце или в середине URL и без:
https//site.ru/page
https//site.ru/page/
https//site.ru/page//
https//site.ru///page
Дубли главной страницы с различными приписками на конце URL:
https://site.ru/index
https://site.ru/index.php
https://site.ru/index.html
https://site.ru/home.html
https://site.ru/index.htm
https://site.ru/home.htm
https://site.ru/default.asp
https://site.ru/default.aspx
Страница доступна по URL-адресам в верхнем и нижнем регистрах:
https//site.ru/page
https//site.ru/PAGE
https//site.ru/Page
Дубли с нарушениями в иерархии URL-адресов. К примеру, товар доступен по нескольким разным URL:
https://site.ru/category/tovar
https://site.ru/tovar
https://site.ru/category/dir/tovar
https://site.ru/dir/tovar
Дубли с добавлением произвольных вложенностей или символов в URL-адрес:
https://site.ru/page/blablabla
https://site.ru/blablabla/page
https://site.ru/pageblablabla
На месте blablabla может стоять случайный набор цифр и латинских символов.
Дубли с добавлением «звездочки» в конце URL:
https://site.ru/page/
https://site.ru/page/*
Дубли с заменой дефиса на нижнее подчеркивание или наоборот:
https://site.ru/category/tovar-001
https://site.ru/category/tovar_001
Дубли, возникающие из-за добавления в URL-адрес дополнительных параметров и меток:
URL-адреса с GET-параметрами. С помощью GET-параметров вебмастер адаптирует контент страницы под конкретного пользователя. Область применения: интернет-магазины, форумы, отзовики. GET-параметры в адресе расположены после символа «?» и разделяются символом «&». Например, в адресе https://site.ru/?top=1 GET-параметр top имеет значение 1. Если GET-параметр влияет на содержание страницы — это не дубль. А если GET-параметр не меняет контент страницы, то этот параметр называют незначащим, и страницу стоит скрыть от поиска. Примеры адресов с незначащими GET-параметрами:
https://site.ru/index.php?example=15&product=40
https://site.ru/index.php?example=40&cat=15
URL-адреса с UTM-метками. UTM-метки могут иметь вид https://www.site.ru/?utm_source=yandex&utm_medium=cpc Они помогают системам аналитики отслеживать параметры трафика. Несмотря на то, что страницы с UTM не должны индексироваться поисковыми машинами, нередко в выдаче встречается полный дубль страницы с UTM-меткой.
URL-адреса с метками GCLID (Google Click Identifier). Метки позволяют сервису Google Analytics отследить действия посетителей, которые перешли на сайт по рекламному объявлению. Адрес перехода может выглядеть так: https://site.ru/?gclid=blablabla, где blablabla — определенный набор символов.
URL-адреса с метками YCLID. Метки отслеживают эффективность рекламных кампаний в Яндекс Метрике. Адрес перехода может выглядеть так: https://site.ru/?yclid=blablabla (набор цифр)
URL-адреса с метками OPENSTAT. Это универсальные метки, которые применяют для анализа эффективности рекламы, посещаемости и поведения пользователей на сайте. Пример, как может выглядеть ссылка: https://site.ru/?_openstat=blablabla
Дубли, сгенерированные реферальной ссылкой. С помощью реферальных ссылок сайты распознают, от кого пришел новый посетитель. Вид ссылки может быть такой: https://site.ru/register/?refid=blablabla Когда пользователь переходит по URL с параметром «?ref=…», должно происходить перенаправление на URL-адрес без параметра, но разработчики часто забывают сделать эту настройку.
Распространенные типы частичных дублей:
Карточки (страницы) похожих товаров. Актуально для интернет-магазинов и маркетплейсов, где товары отличаются только определенными характеристиками (цветом, размерами, материалом). В итоге карточки имеют практически одинаковый контент. Решением будет объединить близкие товары на одной странице и добавить селектор для выбора характеристик. Либо — уникализировать описания товаров на их карточках.
Страницы результатов поиска по сайту. Этот тип страниц опасен тем, что пользователи могут сгенерировать большое количество подобных страниц за короткий промежуток времени.
Дубли, возникающие при пагинации, сортировке, фильтрации контента. Содержимое таких страниц, включая заголовок и описание, может оставаться неизменным, меняется только порядок размещения элементов:
https://site.ru/category/ (целевая страница)
https://site.ru/category/?price=low (страница-дубль с сортировкой по убыванию цены)
https://site.ru/category/?price=high (страница-дубль с сортировкой по возрастанию цены)
Региональные версии страниц. При выборе региона на странице изменяются адрес, номер телефона, название города, заголовок, но основной контент не меняется, и такие страницы поисковики могут расценить как дубли.
Версии для печати или скачивания в PDF, например:
https://site.ru/category/tovar1
https://site.ru/category/tovar1/print
https://site.ru/category/tovar1/pdf
Страницы отзывов и комментариев, когда при выборе соответствующей вкладки на странице товара, происходит добавление параметра в URL-адрес, но сам контент фактически не меняется, а просто открывается новый таб.
Встречается комбинирование в URL-адресах описанных выше вариантов.
Откуда берутся дубли страниц
Полные и частичные дубликаты страниц часто возникают из-за особенностей работы CMS. Дубли могут автоматически генерироваться при добавлении в адрес GET-параметров и меток.
Человеческие ошибки также приводят к копированию страниц на сайте, например:
- контент-менеджер один и тот же товар поместил в несколько категорий, и теперь карточка товара доступна по разным URL-адресам;
- вебмастер изменил структуру сайта — существующим страницам присвоил новые URL, но они остались доступны и по старым адресам;
- вебмастер допустил ошибку в директивах robots.txt, в настройке 301 редиректов или страницы 404.
Отдельный случай — смысловые дубли, когда разные страницы сайта конкурируют за одни и те же поисковые запросы. Эта ошибка возникает из-за неправильной кластеризации семантики.
Чем опасно дублирование страниц на сайте
Коварство дублей в том, что пользователю они не мешают получить нужную информацию. Зато с точки зрения SEO дубли страниц представляют серьезную опасность.
Прежде всего — поисковые машины могут неправильно идентифицировать релевантную страницу.
Посмотрите на картинку и скажите, какой из трех плодов более релевантен запросу «зеленое яблоко».
Согласитесь, ответить не просто. Все объекты — яблоки, и они зеленые. Они одинаково релевантны запросу, а выбрать нас просят один.
В таком же затруднительном положении оказывается поисковая машина, когда ей нужно выбрать из двух, трех или более копий одну страницу и показать ее в результатах поиска. Не удивительно, что поисковик «колеблется», «меняет мнение» — дубли скачут в выдаче.
Трафик разделяется. В итоге ни одна из конкурирующих страниц не накапливает достаточно метрик для закрепления в топе. Лишь со временем одна страница станет ранжироваться, а другие будут размечены как дубли.
Другой негативный эффект — посадочные страницы недополучают ссылочную массу. Посетители, встречая в результатах поиска не оригинальную страницу, а дубликат, начинают ссылаться на него. Результат — посадочная страница теряет естественную ссылочную массу.
Страдает скорость обхода и индексирования. Когда на сайте много дублей, роботы тратят больше времени на их обход, вместо того, чтобы сканировать ценный контент. А значит, посадочные страницы сайта будут медленнее попадать в поиск.
Сами по себе дубли страниц не являются причиной пессимизации сайта — но лишь до тех пор, пока поисковые алгоритмы не посчитают, что вебмастер намеренно создает дубли с целью манипулировать выдачей.
Даже если дело не доходит до бана, множество страниц с одинаковым контентом размывают качество сайта в глазах поисковиков. Значительная доля страниц-дублей сигнализирует поисковым системам, что сайт не достоин быть в топе выдачи.
Наконец, если устранение дублей откладывать в долгий ящик, их может накопиться столько, что специалисту физически будет сложно обработать отчеты, систематизировать причины дублирования и внести исправления. Дубли страниц подобны баобабам в сказке о Маленьком принце: если их не выпалывать, они корнями разорвут планету.
В интересах SEO-специалиста находить и устранять дубли регулярно.
Как обнаружить дубли страниц?
Поиск дублей страниц можно вести разными способами. Чтобы найти все дубли и ничего не упустить, лучше использовать поочередно несколько сервисов и способов. Для поиска основных дубликатов достаточно какого-то одного инструмента — вебмастер волен выбрать тот, который ему ближе.
Парсинг сайта в специализированной программе или онлайн-сервисе
Для поиска дубликатов подходит программа Screaming Frog SEO Spider. До 500 адресов инструмент позволяет протестировать бесплатно.
Screaming Frog находит как полные дубли страниц, так и частичные. Оба вида дублей отображаются на вкладке Content под фильтрами Exact Duplicates и Near Duplicates.
Среди других инструментов технического аудита сайтов отметим следующие, доступные в России осенью 2022 года:
- SE Ranking
- Site Analyzer
- PromoPult
- Xenu Link Sleuth
- BatchUniqueChecker
- Siteliner
- Copyscape
- Comparser
- СайтРепорт
Поиск дублей с помощью вебмастеров поисковых систем
Раздел «Яндекс Вебмастер/Диагностика» уведомит вебмастера о проблеме, если дубли составят значительную долю страниц на сайте.
В разделе «Яндекс Вебмастер/Индексирование/Страницы в поиске» под фильтром «Исключенные» отображается диаграмма и список исключенных из индекса страниц:
На скриншоте — произвольный сайт-пример. Видно, что Яндекс удалил из индекса 182 неканонические (дублирующие) страницы.
Прокрутив вниз, в правом нижнем углу находим опцию «Скачать таблицу». В скачанном файле у страниц-дублей будет статус DUPLICATE.
Функционал для определения дублей имеется в разделе «Яндекс Вебмастер/Индексирование/Заголовки и описания». Когда сайт свободен от дублей, здесь выводится сообщение: «Всё в порядке. На сайте не найдено большого количества одинаковых Title и Description».
В Google Search Console состояние дел с индексацией страниц отображается на диаграмме:
Кроме того, сервис раскрывает причины, почему часть страниц оказалась вне индекса:
Зная причину дублирования, вебмастер быстрее исправит ошибку.
Поиск дублей через операторы
Поисковый оператор «site:» ограничивает результаты поиска только страницами заданного сайта, например:
Просмотрев выдачу, можем обнаружить страницы-дубликаты, а также «мусорные» страницы, которые нужно удалить из индекса.
Если перед оператором «site:» поместить уникальный фрагмент текста со страницы, то поисковик покажет в выдаче только эту страницу:
Одна страница в результатах поиска значит, что у нее нет дублей. Если же в выдаче несколько страниц, возможно, это и есть дубли, от которых необходимо избавиться.
Этот прием сужает поиск до наиболее важных, посадочных страниц, дублирование которых недопустимо.
Один из явных признаков дублей — повторяющиеся Title. Найти копии метатегов Title на сайте помогают операторы «site:» и «intitle:» — см. скриншот:
Мониторинг дублей, которые возникают на страницах сортировок, фильтров и поиска, можно вести с помощью операторов «site:» и «inurl:».
Запросы будут выглядеть так:
- site:https://site.ru inurl:sort
- site:https://site.ru inurl:filter
- site:https://site.ru inurl:search
Операторы, в основном, одинаково работают в Google и Яндексе.
Поиск дублей с помощью операторов может быть полезен владельцам небольших сайтов, например, бизнесам в сфере услуг.
Задача: избавиться от дублей
Для нового и старого сайтов решения проблемы с дублями — разные. На новом следует предупредить проблему — провести первичную настройку сайта. А на старом уже нужно лечение.
Большинство дублей страниц устраняется с помощью правильной настройки CMS. Иными словами, эффективное избавление от дублей сводится к составлению техзадания вебмастеру или программисту и проверки его реализации.
Для «выкорчевывания» дублей, засоряющих выдачу, существует несколько способов, и применяются они в зависимости от ситуации или типа дублей:
- физическое удаление;
- перенаправление;
- назначение канонической страницы;
- запрет на индексирование.
Рассмотрим основные способы устранения дублей страниц на сайте.
Физическое удаление дублей
Нет страницы — нет проблемы. Физическое устранение — хорошее решение для статических дублей. Одновременно удаляются ссылки на страницу во внутренней перелинковке сайта.
Метод работает со страницами, которые «не жалко», то есть без ссылочного веса и трафика. В противном случае трафик со страницы лучше перенаправить на основную посадочную посредством 301 редиректа.
Склейка дублей через 301 редирект
301 редирект сообщает роботам поисковых систем, что по данному URL страница больше недоступна и перенесена на другой адрес навсегда. Посетители автоматически перенаправляются со старого адреса на актуальный. Как правило, в течение двух недель страница-копия выпадает из поиска.
Главные преимущества 301 редиректа — передача показателей авторитетности и ссылочного веса страницы-копии, а также однозначное указание роботам на склейку доменов/страниц.
301 редирект — самый надежный способ избавления от дублей, но при этом самый требовательный к профессиональным навыкам вебмастера или программиста.
Если сайт использует сервер Apache, то редирект настраивают путем создания или редактирования служебного файла .htaccess Место этого файла — в корневом каталоге сайта (там же, где и файла robots.txt, о котором речь ниже). Доступ к корневому каталогу — по FTP.
Самый простой 301 редирект — со страницы на страницу:
Redirect 301 /page-1/ https://site.ru/page-2/
Один из обязательных технических редиректов, без которого не обходится ни один сайт, — перенаправление трафика с главной страницы с префиксом WWW на главную страницу без WWW. Или наоборот. Процедура называется «выбор главного зеркала сайта».
Два адреса одного сайта — с WWW и без — возникают автоматически в ходе присвоения сайту домена.
Редирект с субдомена WWW на вариант без WWW в файле .htaccess происходит по правилу:
RewriteCond %{HTTP_HOST} ^www.site.ru$ [NC]
RewriteRule ^(.*)$ https://site.ru/$1 [R=301,L]
Выбор в пользу домена с WWW выглядит так:
RewriteCond %{HTTP_HOST} ^site.ru$ [NC]
RewriteRule ^(.*)$ https://www.site.ru/$1 [R=301,L]
Для новых сайтов чаще выбирают домен без WWW, то есть перенаправляют трафик с адреса вида https://www.site.ru на https://site.ru Но если сайт уже получает трафик, лучше выбрать в качестве главного зеркала более посещаемый вариант домена.
Для SEO подавляющего большинства сайтов нет никакой разницы, какое зеркало главное. Только для высоконагруженных проектов, например, сайтов маркетплейсов и социальных сетей всегда выбирают адрес с WWW. Это нужно, в частности, для настройки сети доставки контента (CDN).
Другой обязательный ныне редирект — перенаправление трафика с простого протокола HTTP на защищенный протокол передачи данных HTTPS:
RewriteCond %{HTTPS} !=on
RewriteRule^(.*)$ https://%{HTTP_HOST}/$1 [R=301,L]
Редактируя .htaccess, вебмастера настраивают другие типы 301 редиректов для случаев:
- лишние слеши в URL;
- нарушена иерархия URL;
- URL в разных регистрах;
- URL с параметрами;
- и других.
В этой работе важно следить за корректностью новой части кода: если в ней будут ошибки, исчезнут не только дублирующие страницы, но и весь сайт.
Если сайт размещен на сервере Nginx, то 301 редирект настраивается по-иному.
Большинство CMS упрощает вебмастерам и владельцам сайтов настройку рабочего зеркала сайта. Редактирование файла .htaccess доступно через плагины.
Современные конструкторы сайтов имеют панель, где выбор рабочего зеркала совершается простым выбором опций. К примеру, в Tilda панель выглядит так:
Подобный интерфейс предусмотрен в Яндекс Вебмастере, где склейка доменов производится в разделе «Индексирование/Переезд сайта». В панели убираем (или ставим) галочку напротив WWW, ставим галочку напротив HTTPS и сохраняем изменения.
В течение полутора-двух недель Яндекс склеит зеркала, переиндексирует страницы, и в поиске появятся только URL-адреса страниц сайта в соответствии с нашим выбором.
В Google Search Console главным зеркалом всегда автоматически назначается адрес с HTTPS. Выбор зеркала с WWW или без делается либо с помощью 301 редиректа, либо через указание канонический страницы.
Проверить корректность настройки 301 редиректа можно плагином Redirect Path или другими. А также посмотреть динамику показателей в Google Search Console и Яндекс Вебмастере. Когда после склейки показы и клики на доменах-копиях равны нулю — значит, все настроено правильно.
Если владелец не счел нужным выбрать основной домен, то поисковая система сама назначит один из сайтов на роль основного зеркала. Однако не всегда это решение будет оптимальным с точки зрения продвижения.
301 редирект — мощный инструмент, он работает во всех поисковиках, но имеет ту особенность, что дублирующая страница полностью выпадает из индекса. В ряде случаев это нежелательно.
В таких ситуациях вебмастера оставляют дубли в индексе, но сообщают поисковикам, какая страница является основной или канонической. Именно она появляется в результатах поиска.
Назначение канонической страницы
Альтернативой 301 редиректу является метатег с атрибутом rel=«canonical». Этот атрибут указывает на каноническую, приоритетную для индексации страницу. При этом дубликаты размечаются поисковым роботом как второстепенные документы и не попадают в индекс, но остаются доступны пользователям.
Самый популярный способ указать на приоритетную страницу — в коде между тегами <head> и </head> страницы-дубля добавить метатег Link с атрибутом rel=«canonical»:
<link rel=«canonical» href=«ссылка на каноническую страницу» />
Такую ссылку следует добавить в код всех страниц-дублей. Процедура доступна владельцам сайтов и маркетологам даже с минимальным знанием HTML. Кроме того, тут нечего бояться — настройкой canonical сложно что-либо сломать на сайте.
Другой способ — добавить в код страницы-дубля HTTP-заголовок вида:
Link: <ссылка на каноническую страницу>; rel=«canonical»
Этот способ подходит как для обычных HTML-страниц, так и для электронных документов (PDF, DOC, XLS и т.д.).
Рекомендуем проверить корректность файла sitemap.xml . В карте сайта все страницы по умолчанию считаются каноническими. Однако канонический адрес в sitemap.xml является менее значимым сигналом, чем атрибут rel=«canonical». Лучше не делать ставку на этот метод. Главное, чтобы в карту сайта не попадали дубли страниц, иначе поисковые боты будут путаться в выборе канонического адреса.
Канониклы можно прописывать вручную, но это займет много времени, поэтому есть смысл использовать плагины. Например, в WordPress — это Yoast SEO или All in One SEO.
Конструктор Tilda по умолчанию проставляет каноникал сам на себя — Google такое допускает и даже приветствует. Пример — ниже:
Что выбрать для искоренения дублей — каноникал или 301 редирект?
В ситуации, если вебмастер не хочет показывать пользователю запрашиваемую страницу (ее больше не существует или она переехала), нужно применять 301 редирект.
В том случае, когда пользователь должен увидеть запрашиваемую страницу, даже если они неканоническая, — настраиваем canonical. Среди таких полезных дублей могут быть страницы фильтров, сортировок, пагинации, с UTM-метками, мобильные версии сайтов, AMP- и Turbo-страницы.
301 редирект — это прямой запрет индексации. Атрибут canonical — мягкая рекомендация, которой поисковые системы могут и не последовать. Google анализирует более 20 сигналов, чтобы решить, какую страницу выбрать в качестве канонической из дублирующего кластера, и rel=«canonical» лишь один из них.
Узнать, есть ли у страницы каноническая версия, отличная от указанной вебмастером, можно в «Яндекс Вебмастер/Индексирование/Страницы в поиске/Последние изменения/Статус и URL», а также в «Google Search Console/Проверка URL». Нередко лучшим решением будет довериться алгоритмам в выборе канонической страницы.
Яндекс и Google рекомендуют прописывать в метатеге Link абсолютный, а не относительный адрес канонической страницы. Размещать в коде два и более указания на каноникал бессмысленно — поисковики проигнорируют их все.
Запрет на индексацию дублей
Сканирование и индексацию дублей можно запретить или, по меньшей мере, постараться предотвратить. Делается это с помощью файла robots.txt или метатега.
Текстовый файл robots.txt размещается в корне сайта и управляет доступом к его содержимому. Файл robots.txt сообщает поисковым ботам, какие страницы или файлы сайта не следует сканировать.
Для этого используется директива Disallow, которая запрещает поисковым ботам заходить на ненужные страницы:
User-agent: *
Disallow: /page-duplicate
Специалисты используют блокировку через robots.txt в случаях, когда полностью уверены, что поисковые роботы не должны видеть дубли и служебные страницы. Чаще всего — это страницы с результатами поиска, страницы для печати и скачивания и другие, загрязняющие выдачу.
Способ практически не требует навыков программиста, но он не подходит, если дублей много: на изменение robots.txt каждого дубля уйдет значительное время.
Проверить корректность файла robots.txt позволяет Яндекс Вебмастер…
…и Google Search Console:
На скриншотах в файле robots.txt нет никаких запретов на сканирование и индексацию страниц сайта.
С блокировкой индексации есть две проблемы — маленькая и большая.
Малая проблема состоит в том, что инструкции файла robots.txt носят рекомендательный характер для поисковых ботов. Они не гарантируют удаление дубликатов из выдачи, если они были проиндексированы ранее или на дубли страниц ведут ссылки — роботы могут перейти по ним, и дубликат попадет в индекс.
Более надежный способ запретить индексацию дублей — использовать метатег robots следующих видов:
<meta name=«robots» content=«noindex, nofollow»> (не индексировать документ и не переходить по ссылкам)
<meta name=«robots» content=«noindex, follow»> (не индексировать документ, но при этом переходить по ссылкам)
В отличие от robots.txt, этот метатег — прямая команда, и она не будет игнорироваться поисковыми роботами.
Основная проблема, точнее, особенность, о которой нужно знать, связана с политикой поисковых систем. В настоящее время Google и Яндекс не рекомендует блокировать поисковым роботам доступ к идентичному контенту с помощью файла robots.txt или иными способами.
Не имея возможности сканировать страницы-дубликаты, поисковики не смогут определять, что по разным URL размещены одинаковые материалы, и будут обращаться с этими страницами как с уникальными.
Лучше разрешить сканирование таких URL, но при этом пометить их как копии при помощи тега <link> с атрибутом rel=«canonical» или настроить 301 редирект. Эти инструкции, в отличие от блокировки, передают вес дубликата целевой странице.
Яндекс (только Яндекс!) для блокировки индексации страниц с незначащими GET-параметрами рекомендует использовать директиву Clean-Param.
Пример для адреса с UTM-метками:
Clean-Param: utm_source&utm_medium&utm_campaign
Робот Яндекса, видя эту директиву в файле robots.txt, не будет много раз обходить повторяющийся контент. Как следствие, эффективность обхода повысится.
Завершающий этап — обновление карты сайта
Карта сайта sitemap.xml — служебный файл, который содержит систематизированный перечень страниц, рекомендованных для приоритетной поисковой индексации. При каждом обходе робот смотрит, какие изменения вносились в этот файл, и быстро освежает информацию о сайте в индексе.
Включать в файл sitemap.xml нужно только канонические, открытые для сканирования и индексации страницы, отдающие код ответа 200. И, напротив, следить, чтобы в карту сайта не попадали дубли страниц.
Все URL в карте сайта должны быть открыты в robots.txt для сканирования, индексации и не должны содержать метатег «noindex».
Сайтмап должна автоматически регулярно обновляться при добавлении/удалении, закрытии/открытии для индексации заданных страниц.
Карту сайта следует рассматривать в качестве подсказки роботам, какие страницы владелец сайта, маркетолог, вебмастер считает наиболее качественными. Но это только подсказка, а не руководство к действию.
Пагинация страниц сайта: как избежать дублирования
Пагинация на сайте — это разделение массива данных на части и вывод их на отдельных страницах. Так достигается высокая скорость загрузки страниц, улучшаются поведенческие факторы. Это удобно пользователям десктопов.
Адреса страниц пагинации могут быть как статическими, так и динамическими:
https://site.ru/catalog/page-2/ (статический URL)
https://site.ru/catalog?page=2 (динамический URL)
Множество однотипных страниц пагинации поисковики могут расценить как дубли. Решения проблемы следующие.
Запрет на индексацию в файле robots.txt. Disallow прописывается на всех страницах пагинации, кроме первой. Минус: поисковой системе будет сложнее отыскать все товары или новости категории.
Запрет на индексацию в метатеге robots. На всех страницах пагинации, кроме первой, прописывается инструкция <meta name=«robots» content=«noindex, follow» />. Минус тот же, см. выше.
Назначение первой страницы канонической. На всех остальных страницах пагинации проставляется rel=«canonical» со ссылкой на первую страницу.
Первая страница — это всегда начальная страница категории, поэтому https://site.ru/catalog/ и https://site.ru/catalog/page-1/ будут одной и той же страницей — дубликатами. Важно настроить 301 редирект с https://site.ru/catalog/page-1/ на https://site.ru/catalog/.
Создание страницы «View all» («Показать все») со всеми товарами всех страниц пагинации. На эту страницу настраиваются ссылки-канониклы со страниц пагинации. Роботам достаточно обработать один этот URL, чтобы весь контент попал в индекс. Подходит для небольших категорий с 3-4 страницами пагинации, иначе — слишком долгая загрузка.
Назначение всех страниц пагинации в качестве канонических. Простановка атрибута rel=«canonical» каждой страницы на саму себя. Метод увеличивает число документов коммерческой направленности в индексе, демонстрирует поисковику полный ассортимент продукции в категории, улучшает коммерческие факторы. Подход популярен в англоязычном SEO.
Уникализация каждой страницы пагинации подстановкой номера страницы, топонима, характеристики (НЧ-запроса). Title каждой страницы пагинации отличается от Title первой страницы и образуется по шаблону с подстановкой переменных, например:
- Наименование категории + {номер страницы}
- Купить {наименование товара} + в {название города} + по цене от {минимальная стоимость}
- {Характеристика товара (тип, цвет и т.д.)} + купить в интернет-магазине «название»
Description страниц пагинации образуется по такому же принципу:
- Заказывайте {наименование товара} + в интернет-магазине «название». Скидка 10% на первый заказ, бесплатная доставка курьером.
- Купить {наименование товара} — доставка по России, гарантия 1 год, наложенный платеж. Более 300 моделей в интернет-магазине «название». Выбирайте {наименование категории} от производителя.
- {Наименование товара} + по цене от {минимальная стоимость} — характеристики, фото, реальные отзывы покупателей. Заходите на сайт «название» или звоните +7 (xxx) xxx-xx-xx.
Оптимизированный текст должен быть размещен только на первой странице и не повторяться на остальных страницах пагинации.
Связывание страниц пагинации атрибутами rel=«prev»/«next». Для первой страницы в head вставляем строку: <link rel=«next» href=«https://site.ru/page2.html»>. Для каждой последующей страницы указываем ссылку на следующую и предыдущую страницу. Для второй страницы пагинации в разделе head должно быть прописано:
<link rel=«prev» href=«https://site.ru/page1.html»>
<link rel=«next» href=«https://site.ru/page3.html»>
И так далее. Правда, Google уже несколько лет не использует эту разметку, а Яндекс ее не считывает. На поиске присутствие/отсутствие такой цепочки никак не отражается.
Бесконечная прокрутка, или Single Page Content. Содержимое категории подгружается динамически, как только посетитель ресурса прокручивает скролл до самого низа или нажимает на кнопку «Показать еще». Бесконечные ленты приняты в социальных сетях, мобильных версиях маркетплейсов и онлайн-СМИ. Прием способен надолго задержать посетителя на ресурсе. Настраивается прокрутка при помощи AJAX-подгрузок в JavaScript. При этом URL не меняется, просто по запросу пользователя подгружаются новые порции контента. Google находит у этого современного способа представления контента ощутимые преимущества.
Никак не работать с пагинацией. Этот путь не такой глупый, как может показаться. Расчет на то, что современные поисковики сами способны разобраться со структурой представления товаров/новостей, как бы ни была реализована пагинация. Главная задача вебмастера — обеспечить индексацию страниц пагинации.
Пожалуй, одного универсального решения касательно дублирования страниц при пагинации не существует. Выбор стратегии зависит от обстоятельств: объема ассортимента, типа сайта, CMS, приоритетной поисковой системы и других.
«Холивары», которые ведутся по этому вопросу в SEO-среде, имеют своим истоком абсолютизацию положительного опыта, полученного в конкретных обстоятельствах. Не факт, что этот опыт хорошо себя покажет в другом контексте.
Тем не менее, выделим тренды в SEO страниц пагинации, которые нам представляются актуальными:
- не закрывать контент от индексации;
- уникализировать страницы пагинации;
- настраивать канониклы на страницу «View all»;
- настраивать канониклы на самих на себя;
- смелее использовать бесконечную прокрутку.
Поясним последний пункт. В 2022 году смартфоны — это около 80% всего интернет-трафика. Экраны размером с ладонь сформировали UX, где нет мест пагинации.
На смартфонах удобно:
- прокручивать вертикально;
- смахивать горизонтально;
- просматривать (сортировать, фильтровать) карточки, которых может быть много;
- кликать по карточкам — загружать не только одноэкранное изображение или вертикальное видео, но и пространный материал (статью, rich-контент в маркетплейсе).
Смартфоны диктуют иные способы структуризации и представления многостраничного контента, отличные от традиционной пагинации. Какие именно способы и как теперь быть с дублями — тема отдельной статьи.
Добавим сюда отложенную загрузку изображений Lazy Load, распределенные сети доставки контента CDN, стандарты связи LTE и 5G, другие технологии, которые кардинально ускоряют загрузку даже тяжелого контента. Все это снимает одну из главных задач пагинации — ускорение загрузки контента.
В 2022 году пагинация — это бензиновый двигатель. Пока еще широко распространен, но будущего нет. Актуальны вопросы организации и представления контента в мобайле, включая устранение дублей.
Не согласны? Возразите нам в комментариях к статье!
Заключение
Одни и те же дубли страниц на сайте можно закрыть от индексации разными способами. На практике работают и канонизация страниц, и редирект, и директивы robots.txt, и метатег robots.
Каждый поисковик дает свои рекомендации. Google не приветствует закрытие дублей с помощью robots.txt или метатега robots с атрибутами «noindex, nofollow», а предлагает использовать rel=«canonical» и 301 редирект.
А вот Яндекс более лоялен к robots.txt — здесь даже есть своя директива Clean-Param, которая помогает устранять дубли с GET-параметрами.
Задача оптимизатора – подобрать способы, которые будут оптимальны для конкретного кейса. К примеру, если ресурс ориентирован на зарeбежную аудиторию, лучше взять за основу рекомендации Google. Для России лучше придерживаться рекомендаций Яндекса.
Выбирайте способ, исходя из технических предпосылок и собственных навыков программирования. Ну, а если нет времени на то, чтобы разобраться с дублями, закажите бесплатный аудит сайта в impulse.guru
Помимо рекомендаций по работе с дублями вы получите массу полезной информации о своем ресурсе: наличии ошибок в HTML-коде, заголовках, метатегах, структуре, внутренней перелинковке, юзабилити, оптимизации контента. В итоге у вас на руках будет готовая SEO-стратегия продвижения ресурса в интересах вашего бизнеса.
Как найти дубли в системе
Synergy CRM отслеживать дубли в базе контактов и компаний и «отмечать» объекты, которые совпадают по одному или нескольким полям.
Обратите внимание: система не объединяет дубли автоматически, а просто отмечает их специальным значком.
Вы сами решаете, что сделать с найденными дублями — удалить один из объектов, перенеся в нужный контакт/компанию всю информацию, или проигнорировать совпадения (например, если отмеченные как совпадающие контакты оказались просто однофамильцами).
Чтобы автоматически получать актуальную информацию о дублях, вам достаточно один раз настроить систему.
Шаг первый: установите правила для поиска дублей
Правило поиска дублей — это набор (одно или несколько) полей, на которые будет обращать внимание система, проверяя базу данных на совпадения. Например, правило «Имя и Телефон» для контактов найдёт всех клиентов, у которых совпадает и имя, и номер телефона, а правило «Название и e-mail» для компаний найдёт юр. лиц, у которых совпадает и название, и электронная почта.
Также вы можете добавить несколько правил для поиска дублей. Например, первое правило — «Фамилия и Телефон», а второе — «E-mail и Телефон». Так система найдёт дубли даже если менеджер допустил опечатку, когда вносил фамилию или адрес электронной почты — в любом случае сработает или первое, или второе правило.
Обратите внимание: мы не рекомендуем искать дубли компаний только по названию, а дубли контактов — только по имени. Имена, как и названия, могут совпадать, и это приведёт к ложным срабатываниям функции поиска дублей.
Комбинируйте поле Название и Имя с другими полями. Например, с телефоном или почтой. В таком случае поиск дублей будет выполняться точнее.
Чтобы настроить критерии для поиска объектов-дублей, перейдите в Настройки — Поиск дублей. Слева выберите объект, для которого хотите создать новое правило — Контакт или Компанию. Нажмите Добавить напротив Правила поиска.
Укажите поля, которые хотите добавить в правило поиска, нажмите Создать.
Шаг второй: включите отображение меток рядом с объектами-дублями
Проверка базы данных на совпадения активна, осталось отобразить метки напротив совпадающий объектов. Перейдите в раздел Контакты или Компании, кликните на значок ••• в правом верхнем углу, выберите пункт Видимость колонок, отметьте галочкой Дубли и сохраните изменения.
Теперь в колонке Дубли напротив объектов, совпадающих по установленным в правилах полям, загорится синий значок связи и число, отображающее количество объектов-дублей. Эту колонку можно отфильтровать убыванию, чтобы контакты с наибольшим количеством «двойников» отобразились вверху списка.
Нажмите на значок связи, чтобы увидеть, с какими объектами и по каким полям совпадает выбранный контакт или компания.
Также система сообщит, если вы создаёте дубль.
В этой статье расскажем, откуда берутся дубли, чем они мешают бизнесу и как Loginom помогает избавиться от дубликатов, консолидировать клиентскую базу и держать ее под постоянным контролем.
- Почему дубли вредят бизнесу
- Что же такое дубли
- Как с ними бороться
- Очистка клиентских данных
- Методы и стратегии поиска дублей
- Подведем итоги
Почему дубли вредят бизнесу
Все сталкивались с тем, что один и тот же клиент заведен в базах данных компании несколько раз. Причин этому множество, в том числе любимый «человеческий фактор». Например, клиент авторизовался на сайте интернет-магазина, а потом позвонил в call-центр или обратился лично, и менеджер повторно внес его данные.
Путаница в клиентской базе может обернуться большой проблемой для компании, и вот почему:
- Ошибки в проведении маркетинговых кампаний, планировании продаж, закупок и т.д.
- Репутационные потери — например, вследствие ошибочных рассылок и спама.
- Отток клиентов из-за того, что усилия на удержания не доходят до нужных адресатов.
- Лишние траты на коммуникации с клиентами.
- Отсутствие четкого представления о реальном объеме клиентской базы, т.к. зачастую дубли могут составлять десятки процентов от общего количества контрагентов.
Перечисленные последствия — малая часть проблем. Cо временем они усугубляются и разрастаются, как болезнь, становятся причиной все бОльших и бОльших убытков.
Что же такое дубли
В общем случае под дублями понимаются несколько записей в учетных системах, относящихся к одному клиенту. Типичный пример таких данных:
Карточки 1 и 4 являются полностью идентичными и относятся к одному клиенту, при этом карточка 3, вероятно, также относится к этому же клиенту, а различие обусловлено опечатками и пропусками при заполнении. А вот карточка 2 относится совершенно к другому клиенту и не является дублирующей. Таким образом, можно выделить полные и потенциальные дубли.
Основной задачей дедупликации является настройка таких алгоритмов поиска, которые, с одной стороны, позволяют выявить максимум записей, относящихся к одному клиенту, а с другой — минимизировать ложные срабатывания, т.е. попадания в группу дублей записей о другом клиенте.
Как с ними бороться
Большинство негативных последствий можно избежать, если «причесать» информацию, настроить и внедрить систему дедупликации данных.
Наиболее эффективный подход, используемый в решении Loginom Data Quality для устранения проблемы дублей, состоит из следующих шагов:
- Предварительная очистка и обогащение данных о клиентах.
- Подготовка стратегии поиска дублей — задание условий, при выполнении которых записи будут считаться совпадающими.
- Тестирование стратегии на реальных данных и ее корректировка.
- Задание правил формирования «золотой» записи — записи о клиенте с максимально заполненными полями и актуальными атрибутами, такими как ФИО, телефоны, документы, дата рождения и т.д.
Loginom Data Quality — это решение с инструментами для самостоятельной настройки параметров анализа, смены правил и модификации. Воплотить необходимые технологические бизнес-процессы оказалось просто, последующее использование системы показало существенный прирост производительности и эффективности в обработке данных.
Анастасия Рязанова
Ведущий аналитик-программист департамента техподдержки «Инвитро»
Расскажем подробнее о каждом шаге поиска дублированных записей.
Очистка клиентских данных
До начала дедупликации нужно оценить степень загрязненности карточек клиентов. Как правило, ситуация с качеством данных в CRM-системах сложная. Операторы вводят данные о контрагентах «как придется».
Одна из проблем — разные форматы записи атрибутов клиентов: ФИО, телефонов, e-mail, документов, адресов. Распространена ситуация, когда ФИО записано в CRM-системах в разных последовательностях, например, Александров Иван Сергеевич и Иван Сергеевич Александров. Еще чаще не структурированы адресные данные, номера телефонов и документов.
Такие записи при автоматической проверке на полное совпадение будут определены как разные. В этих случаях для повышения эффективности поиска дублей все атрибуты приводятся к унифицированному стандарту, а адреса к формату ФИАС.
Другая проблема — опечатки:
- Ошибочный ввод символов, расположенных рядом на клавиатуре, например, вместо Федор пишут Ыедор или вместо 74 АА 397530 записано 74 АА 297530.
- Смешанные символы из разных алфавитов со схожим написанием, например, в написании номера водительского удостоверения 74 АА 397530 символ А может быть записан латиницей, и такое написание не совпадет с написанием полностью на кириллице.
- Неверный язык при вводе букв, например, Иван будет записан как Bdfy.
Все эти типы ошибок учитываются в решении Loginom Data Quality для формирования «чистых» клиентских атрибутов, которые позже направляются на дедупликацию.
Методы и стратегии поиска дублей
В общем случае можно выделить два подхода для сравнения записей и поиска дублей — полное совпадение и нечеткое сравнение. Каждый из подходов имеет свои плюсы и минусы.
Проверка на полное совпадение является простой и быстрой, что особенно важно, когда клиентская база — десятки миллионов записей. Однако для корректного решения задачи дедупликации недостаточно только точного совпадения клиентских атрибутов. После очистки все еще остается множество клиентских записей, содержащих неисправленные опечатки и пропуски, поэтому точное сравнение не позволит найти все дубли. В итоге потеряется большой массив потенциальных дублей.
Для улучшения качества дедупликации целесообразно применение нечеткого сравнения — сопоставления значений на основе метрик схожести, таких как расстояния Хемминга, Левенштейна, Дамерау-Левенштейна.
Такие методы позволяют найти кандидаты в дубли, которые невозможно обнаружить при помощи сравнения на полное совпадение. Но расчет нечетких метрик схожести является ресурсоемким. Это приводит к снижению производительности на больших объемах данных, а также необходимости оптимизировать процедуру сравнения, что является нетривиальной задачей.
В решении Loginom Data Quality для поиска дублей используется комбинированный подход, с использованием точного и нечеткого сравнения. Он выражается в применении стратегий поиска — наборов условий сравнения различных клиентских атрибутов, при выполнении которых записи будут считаться дублями.
Рассмотрим примеры стратегий поиска дублей для сравнения следующих записей:
Видно, что в в фамилии Трунов и Трнов значения расходятся в один символ, поэтому использовать точное сравнение по данным атрибутам нельзя. В качестве метрики выберем расстояние редактирования. Если мы зададим его равным 1, то, казалось бы, найдем нужные дубли, но при этом записи 5 и 6 имеют разное имя и явно относятся к разным клиентам. Для этого нужно при сравнении записей учитывать длину строк.
Таким образом получаем один из критериев сравнения — расстояние редактирования не более 1, но не более 25% от длины сравниваемых строк. Однако и в этом случае могут возникнуть ошибки.
Так, в записи 2 может оказаться значение Трынов, а не Трунов, и строки 1 и 2 уже будут относятся к разными клиентам. Да и в целом, даже полное совпадение ФИО не дает основания считать записи дублями. Нужно вводить еще один критерий — на точное совпадение, например, по дате рождения.
Также нужно определиться, как поступать в ситуациях, когда в сравниваемых записях встречаются пустые значения (или null).
Здесь есть два варианта:
- Не обращать внимания на null и считать записи дублями. Подходит чаще при сравнении контактных данных: e-mail, номера телефонов.
- При наличии null в данных не считать записи дублями и отправлять их на ручную проверку. Применимо к ключевым атрибутам — фамилия, имя, отчество и т.п. Например, в ситуации в таблице выше лучше использовать данный вариант.
Стоит обратить внимание и на то, что некоторые дубли не всегда можно выявить автоматически. В этом случае используются более «мягкие» стратегии — наборы условий с менее жестким порогом совпадения. Результаты работы таких стратегий передаются на ручную обработку.
Подведем итоги
- Методы поиска дублей бывают точные и нечеткие.
- Для наиболее эффективного поиска дублей необходимо формировать стратегии, которые охватят все возможные варианты совпадений.
- Не все дубли можно выявить в автоматическом режиме, поэтому некоторые результаты поиска идут на ручную обработку.
- Необходим индивидуальный подход к формированию стратегий.