Как найти все проиндексированные страницы

Cправка – Search Console

Войти

Справка Google

  • Справочный центр
  • Сообщество
  • Search Console
  • Политика конфиденциальности
  • Условия предоставления услуг
  • Отправить отзыв

Тема отзыва

Информация в текущем разделе Справочного центра

Общие впечатления о Справочном центре Google

  • Справочный центр
  • Сообщество

Search Console

Технические доработки под требования SEO и оптимизация структуры сайта – это первостепенные моменты в продвижении ресурса, но если поисковые системы не знают о нем, то есть он не проиндексирован, то продвижение невозможно.

Что же такое индексация? Это добавление поисковыми роботами собранных сведений о ресурсе в базы данных. Дальнейшее ранжирование происходит уже по проиндексированным страницам. Предлагаем несколько простых и понятных способов проверки страниц, которые «видят» поисковые системы.

Рассмотрим каждый вариант подробнее.

Оглавление:

  1. Проверка индексирования сайта через панель Яндекс.Вебмастера и Google Search Console

  2. Проверка количества проиндексированных страниц в ПС при помощи операторов

  3. Анализ индексации сайта при помощи плагинов и расширений

  4. Отслеживание проиндексированных страниц с помощью online сервисов

  5. Программы для контроля индексации сайта

  6. Проверка индексации страницы

  7. Почему сайт может не индексироваться

  8. Выводы SEO-специалиста Веб-Центра

1. Проверка индексирования сайта через панель Яндекс.Вебмастера и Google Search Console

Бесплатный и достоверный способ с использованием сервисов для вебмастеров.

Яндекс.Вебмастер

В первую очередь выполняем авторизацию в аккаунте Яндекса и входим в сервис Вебмастер. Далее вводим url ресурса и нажимаем кнопку «Добавить».

Добавление сайта в вебмастер Яндекса

Добавление сайта в вебмастер Яндекса

После прохождения верификации переходим в панель и нажимаем вкладку «Индексирование» – «Страницы в поиске». Тут представлены страницы веб-сайта, участвующие в поиске Яндекса.

Просмотр страниц в поиске Яндекса через панель для вебмастеров

Просмотр страниц в поиске Яндекса через панель для вебмастеров

Также количество загруженных и проиндексированных страниц можно посмотреть в сервисе на странице «Мои сайты».

Просмотр количества страниц в поиске на вкладке «Мои сайты»

Просмотр количества страниц в поиске на вкладке «Мои сайты»

Для анализа список страниц можно скачать из сервиса файлом в форматах .xls и .csv.

Google Search Console

Аналогично вебмастеру Яндекса проходим авторизацию в аккаунте Google, входим в сервис search.google, вводим url сайта и нажимаем кнопку «Добавить ресурс».

Пример верификации в панели вебмастеров в Гугл

Пример верификации в панели вебмастеров в Гугл

После подтверждения прав на сайт для проверки индексации ресурса в панели Вебмастера Гугл переходим во вкладку «Индекс» – «Покрытие».

Просмотр страниц в ПС Гугл через панель для вебмастеров

Просмотр страниц в ПС Гугл через панель для вебмастеров

Нужно учитывать, что информация в Google Search Console примерная, так как в отчете показывается статистика после последнего обхода, то есть количество страниц может быть другим на текущий момент проверки.

Примеры проверки индексации сайта

На скриншоте – сайт, у которого нет проблем с индексацией в Яндексе

На скриншоте – сайт, у которого нет проблем с индексацией в Яндексе

На скриншоте – сайт, у которого регулярно удаляются страницы из поиска Яндекса

На скриншоте – сайт, у которого регулярно удаляются страницы из поиска Яндекса

На скриншоте – сайт, у которого регулярно удаляются страницы из поиска Гугл

На скриншоте – сайт, у которого регулярно удаляются страницы из поиска Гугл

Picture

2. Проверка количества проиндексированных страниц в ПС при помощи операторов

1. Оператор «site»

Применяя документный оператор «site» возможно увидеть примерное количество страниц в индексе. Для использования этого параметра введите в строке поиска «site:адрес_интересующего_сайта», например «site:https://www.bordur32.ru».

Пример использования оператора «site» в Яндексе

Пример использования оператора «site» в Яндексе

Пример использования команды «site» в Гугле

Пример использования команды «site» в Гугле

Но в использовании этого оператора есть особенность. Если на сайте более 2 тысяч страниц, то Яндекс часто показывает их некорректное количество. Поэтому сам Яндекс рекомендует уточнять информацию по количеству страниц в индексе через панель вебмастеров, о которой говорили выше.

33.jpg

С помощью оператора мы видим количество страниц – 2 тысячи, если смотреть через панель вебмастера, то число будет совсем другим – 7 808:

44.jpg

Оператор «host»

Оператор «host:» работает по принципу оператора «site», только он позволяет сузить область поиска до конкретного домена. Поддомены не учитываются и не выводятся в результатах поиска. Чтобы использовать оператор, введите в строке поиска «host:адрес_интересующего_сайта».

66.jpg

Если бы мы использовали оператор «site», в выдачу попали бы страницы с поддоменами других городов.

67.jpg

3. Анализ индексации сайта при помощи плагинов и расширений

Чтобы не вводить операторы в строке браузера перед url используется данный автоматизированный способ. Скачиваем бесплатный букмарклет для браузера (небольшой по размеру скрипт, сохраняемый в закладках) и кликаем на специальную иконку находясь на сайте.

Пример использования плагина SEO-tools

Пример использования плагина SEO-tools

Установить расширение вы можете по ссылке

Пример использования расширения RDS bar

Пример использования расширения RDS bar

Установить расширение вы можете по ссылке

4. Отслеживание проиндексированных страниц с помощью online сервисов

Еще один способ проверки индексации это использование сторонних ресурсов. Например, переходим на сайт a.pr-cy.ru
вводим url и нажимаем «Анализировать».

Скриншот проверки индексации сайта в a.pr-cy.ru

Скриншот проверки индексации сайта в a.pr-cy.ru

Индексацию сайта можно проверить и в других сервисах, например: seogadget.ru, xseo.in и других.

5. Программы для контроля индексации сайта

Существуют бесплатные (Site-Auditor) и платные программы (Semonitor) для анализа сайта и проверки страниц в индексе. Выбранное программное обеспечение скачиваем и устанавливаем на ПК. В строку ввода добавляем url проверяемого сайта.

Скриншот фрагмента анализа сайта в программе Site-Auditor

Скриншот фрагмента анализа сайта в программе Site-Auditor

    Больше полезных материалов о digital читайте в телеграм-канале «В центре маркетинга»

    Подпишись на Телеграм-канал.png

Проверка индексации страницы

Иногда требуется не только узнать сколько страниц проиндексировано в Яндексе и Google, но и нужно определить индексируется ли какая-то конкретная страница. Это можно сделать следующими способами:

1. В панели для вебмастеров:

  • Яндекс – следовать по пути «Индексирование» – «Проверить статус URL». В поле для ввода данных ввести либо полный урл интересующей страницы, либо путь от корня сайта начинающийся с «/». Далее нажать кнопку «Проверить».

    Проверяемая страница в поиске Яндекса

    Проверяемая страница в поиске Яндекса

  • Google – перейти во вкладку «Проверка URL» и ввести урл интересующей страницы.

    Проверяемая страница проиндексирована в Google

    Проверяемая страница проиндексирована в Google

2. Оператор «url»

В строке поиска вводим специальный оператор. Запрос будет выглядеть так: «url:адрес_интересующей_страницы».

Пример использования оператора «url» в ПС Яндекс

Пример использования оператора «url» в ПС Яндекс

Ранее, по типу оператора «url» в Яндекс, в поисковой системе Google был оператор «info». В 2019 году Google отключил данный поисковый оператор. Причиной этого решения стал тот факт, что эта команда мало используется, а получить эти данные можно с помощью инструмента проверки URL в Search Console.

Используя оператор info, можно было просмотреть канонический URL для конкретной страницы. Однако, поскольку эти данные доступны в инструменте проверки URL, то отдельный поисковый оператор, по мнению Google, больше не нужен.

3. Оператор «info»

В поисковой системе Google можно воспользоваться оператором «info». Запрос в строке поиска будет выглядеть следующим образом: «info:адрес_интересующей_страницы»

Пример использования оператора «info» в ПС Гугл

Пример использования оператора «info» в ПС Гугл

Почему сайт может не индексироваться

В идеале страницы ресурса должны быть проиндексированы и их количество в поисковых системах должно быть примерно одинаковым. Но так бывает далеко не всегда. Рассмотрим причины мешающие индексации сайта.

Ошибки в файле robots.txt

Файл robots.txt – это текстовый документ в формате .txt лежащий в корневом каталоге веб-сайта, запрещающий или разрешающий индексирование страниц роботам ПС. Поэтому неправильное использование директив может закрыть от индексации весь сайт или отдельные страницы ресурса.

Отсутствие файла sitemap.xml

Карта сайта (файл sitemap.xml) – это специальный документ расположенный в корневом каталоге, содержащий ссылки на все страницы ресурса. Этот файл помогает поисковым роботам оперативно и качественно индексировать ресурс. Поэтому в него нужно добавлять только те страницы, которые должны попасть в индекс.

Новый сайт

Процесс индексации нового ресурса занимает некоторое время. Поэтому в данном случае нужно просто подождать, не забывая контролировать процесс индексации.

Приватные настройки

В некоторых CMS, таких, как WordPress и Megagroup, существует возможность скрыть от индексации страницы через админку сайта, данные настройки могут стоять по умолчанию.

Тег «noindex»

Страницы могут быть закрыты от индекса в коде с помощью мета тега name=”robots” content=”noindex, nofollow” />. Нужно проверить его наличие и либо убрать из кода, либо заменить на «index» и «follow».

Мусорные страницы

Еще одной из причин может стать большое количество мусорных страниц, не предоставляющих полезного и уникального контента в рамках сайта. Такие страницы нужно закрывать от индексации, чтобы не возникали проблемы с индексированием ресурса и робот не тратил время на посещения этих страниц.

Также причиной не индексации страниц ресурса могут быть ошибки сканирования, блокировка сайта в файле .htaccess, дубли страниц, не уникальный контент, низкий uptime хостинга, медленная скорость загрузки сайта, баны и фильтры ПС.

    Если вы не смогли решить проблему с индексацией отдельных страниц, или хотите поручить поисковую оптимизацию сайта профессионалам, расскажите нам о вашем проекте. Команда Веб-Центра выводит в топ сайты любой тематики.

Выводы SEO-специалиста Веб-Центра

Главная цель как владельца сайта так и SEO-специалиста добиться индексирования нужных страниц ресурса. Для этого нужно регулярно контролировать страницы в поиске Яндекса и Google, проверять сервисы для вебмастеров на наличие ошибок на сайте, наполнять его уникальным и полезным контентом, следить и оптимизировать скорость загрузки ресурса.

Для ускорения процесса индексации нужно подтвердить права на сайт в Яндекс.Вебмастер и Google Search Console и разместить в них ссылку на файл sitemap.xml, также можно отправлять на переобход важные страницы ресурса.

Подробно эту тему мы разобрали в видео на нашем Ютуб-канале

    А если у вас возникли трудности или вы не хотите тратить время, то можете заказать бесплатную SEO-консультацию у наших специалистов.

Как проверить индексацию для неподтвержденного сайта мы рассказали ранее. Сейчас же расскажем о проверке с помощью данных, которые предоставляет Яндекс Вебмастер и Google Search Console.

Список проиндексированных страниц

Для того чтобы получить полный список проиндексированных страниц в Яндексе, необходимо зайти в раздел Индексация > Страницы в поиске > вкладка «Все страницы».

Ниже представлен список всех страниц, находящихся в поиске, и возможность выгрузить таблицу в XLS и CSV.

В новой версии Google Search Console также появилась возможность увидеть список всех проиндексированных страниц. Для этого нужно зайти в отчет «Покрытие» (в разделе «Индекс»).

В списке ниже представлена информация о страницах, о которых известно поисковой системе и дополнительная информация по ним.

Детальный список проиндексированных страниц можно получить из списка со статусом «Страница без ошибок».

Проверка индексации

Чтобы обнаружить «мусорные страницы», нужно следовать следующему алгоритму:

  • Получаем полный список страниц, которые должны быть проиндексированы. Для этого мы используем программу Screaming Frog SEO Spider. При правильной настройке файла robots.txt спарсится список всех доступных для индексации страниц.
  • Выгружаем индексируемые страницы сайта из Вебмастеров.
  • Сравниваем попарно получившиеся списки с помощью инструмента «Условное форматирование» в Excel, подсветив все уникальные значения.

В ходе сравнения могут возникнуть следующие ситуации:

  • подсветка страниц, которые есть только в списке парсера. В таком случае нужно диагностировать причину, почему страница не находится в индексе. Если она должна индексироваться, то отправляем ее на переобход.
  • подсветка страниц, которые есть только в индексе. В данном случае пытаемся понять, почему ее нет в списке всех страниц сайта. Возможно, это страница с кодом 404, которая так и не была удалена поисковым роботом или деактивированный элемент, у которого неверно настроен код ответа.

Для удаления страниц в Вебмастере существует инструмент «Удаление страниц из поиска», позволяющий единовременно удалить до 500 отдельных страниц или группу страниц по префиксу в url. Главное, чтобы страницы были закрыты от индексации.

Инструмента для принудительного удаления страниц у Google нет, но можно временно удалить свои URL из результатов поиска.

Для этого необходимо зайти в старую версию Search Console и в левом меню выбрать «Индекс Google» > «Удалить URL-адреса».

Далее указываем URL страницы, которую вы хотите скрыть. Выбираем из списка необходимое действие и отправляем запрос.

Ждите новые заметки в блоге или ищите на нашем сайте.

Иногда оптимизатору нужно получить список всех страниц сайта, в том числе технических и не проиндексированных. Чтобы собрать их вручную, придется потратить не один час, особенно если сайт большой. Существуют сервисы, которые упрощают задачу. Чтобы при аудите ни один документ не потерялся, можно воспользоваться не одним, а сразу несколькими инструментами.

Расскажем, как найти все страницы сайта и какие сервисы для этого нужны.

Зачем нужна такая информация

Список страниц полезен для того, чтобы:

  • Найти все страницы, которые не проиндексированы или выпали из индекса поисковой системы. Их нужно проанализировать. Возможно, причина в технических настройках (например, URL закрыт от роботов ПС) или в низком качестве документов. При необходимости их нужно доработать.
  • Такой список — хорошая помощь, когда нужно найти причину проблем. Например, при резком падении трафика.
  • Настроить перелинковку — проставить внутренние ссылки, правильно распределить ссылочный вес.
  • Избавиться от «мусорных» документов, ошибок, дублей.
  • Найти все страницы сайта с кодом ответа, отличным от 200 OK.

Почему для сбора данных одного инструмента мало

Выбор инструмента зависит от задачи. Если встал вопрос, как найти все проиндексированные документы или только те, на которые идет трафик, Вебмастера и Метрики будет достаточно. Если проводится технический аудит, подходит Screaming frog SEO spider.

Если нужен полный список страниц, удобнее воспользоваться сразу несколькими инструментами и объединить получившиеся списки. Если ограничиться только одним способом, перечень будет неполным. Например, если использовать только xml-карту, в списке не окажется «мусорных» файлов, сгенерированных из-за неправильных технических настроек. Яндекс.Вебмастер показывает только те документы, которые попали в поиск или выпали из него.

Пиксель Тулс

С помощью онлайн-инструмента «Анализ структуры проекта» можно узнать все страницы, проиндексированные поисковой системой Яндекс. Для анализа не нужен доступ к файлам сайта и Метрике. Можно получить список URL любого проекта, например, конкурента.

Введите домен в верхнюю строку и кликните на кнопку «Найти». Если выбрать опцию «Анализировать число документов только для разделов второго уровня», сервис подсчитает количество страниц в категориях и не будет определять объем подкатегорий.

Интерфейс Пиксель Тулс

Инструмент строит подробную наглядную структуру (иерархию), подсчитывает количество документов в разделах и процент от общего объема проекта.

Интерфейс Пиксель Тулс

Яндекс.Вебмастер

Откройте подраздел «Страницы в поиске» в разделе «Индексирование».

Интерфейс Яндекс.Вебмастера

Откройте вкладку «Все страницы» и скачайте таблицу в формате CSV или XLS.

Интерфейс Яндекс.Вебмастера

Чтобы получить перечень не попавших в индекс документов, нужно скачать таблицу в разделе «Исключенные страницы».

Яндекс.Метрика

Полный список страниц, на которые заходят пользователи, можно найти в Яндекс.Метрике. Для этого нужно выбрать большой период, например, год, и зайти в раздел «Адрес страницы».

Интерфейс Яндекс.Метрики

По умолчанию документы ранжируются по количеству просмотров.

Интерфейс Яндекс.Метрики

В список попадают не только проиндексированные, но и неканонические документы: пагинационные, с результатами поиска и другие.

 Xml-карта сайта

Обычно Xml-карта располагается по стандартному адресу site.ru/sitemap.xml, но может находиться и на другом URL. Иногда карта строится как список всех адресов, расположенных по датам индексации.

Интерфейс XML Sitemap

Карта может представлять собой набор файлов со ссылками. Чтобы получить полный список страниц, нужно открыть каждый файл и скопировать ссылки.

Интерфейс XML Sitemap

Интерфейс XML Sitemap

Google Analytics

В счетчике Google Analytics, так же, как и в метрике, можно посмотреть все адреса, на которые есть заходы.

Откройте отчет «Страницы и экраны». Кликните на «Путь к странице и класс экрана».

Интерфейс Google Analytics

Чтобы скачать результат, выберите опцию «Поделиться отчетом»-«Загрузить файл».

Интерфейс Google Analytics

Google Search Console

Еще один способ получить нужные данные — скачать их через консоль Google. В разделе «Индексирование» сформированы два перечня — проиндексированных и не проиндексированных документов. Здесь же показаны причины, почему документы не индексируются. Например, ошибка 404, переадресация, блокировка в файле robots.txt.

Интерфейс Google Search Console

Чтобы скачать отчет, кликните «Экспортировать» в правом верхнем углу и выберите удобный формат.

Сканирование через Screaming frog SEO spider

Screaming Frog SEO Spider («Паук», «Лягушка») – десктопная платная программа, один из самых популярных и продвинутых парсеров. Умеет без доступа к файлам и админпанели сканировать любые сайты.

  • Проверяет весь сайт или указанный раздел, файлы только основного домена или всех поддоменов.
  • Находит все страницы сайта, проверяет коды ответа сервера.
  • Составляет список битых ссылок.
  • Находит все страницы с очень длинными заголовками, тегами или URL-адресами.
  • Ищет изображения без тега alt.
  • Вычисляет дубли SEO-тегов или URL.
  • Проверяет орфографию.
  • Находит документы с директивами nofollow, noindex, canonical.
  • Проверяет файл robots.txt, микроразметку Schema.
  • Выявляет все страницы без контента или с минимумом контента.

Иногда лучше ограничить парсинг только некоторыми разделами или типами документов. Чтобы уменьшить время сканирования и объем работы, можно снять галочки с Изображений, CSS, JavaScript и SWF ресурсов.

Во вкладке Settings можно настроить парсинг относительно правил robots.txt.

Respect robots.txt — сканируются только те файлы, которые открыты в файле robots.txt.

Ignore robots.txt — парятся все файлы домена, независимо от того, открыты ли они для индексирования.

Ignore robots.txt but report status — сканируются все файлы, но отдельно выводится информация, проиндексирован документ или нет.

Интерфейс Screaming Frog SEO Spider

Чтобы запустить сканирование, введите адрес сайта, выберите функцию Spider, кликните на кнопку Start.

Интерфейс Screaming Frog SEO Spider

Итоговый список страниц можно скачать на компьютер в удобном формате.

Заключение

Существуют сервисы, которые формируют списки документов сайта. Выбор инструмента зависит от задачи. Если нужно просканировать свой проект, возможно, будет достаточно Google Analytics, Яндекс.Метрики и Яндекс.Вебмастера. Если планируется глубокий технический аудит, с задачей справится Screaming frog SEO spider. Он же подходит для парсинга конкурентов. Также для анализа чужого сайта можно воспользоваться Xml-картой и инструментом «Анализ структуры проекта» от Пиксель Тулс.

Уследить за всеми страницами сайта сложно, особенно если сайт большой. Но иногда без полного списка страниц не обойтись. Например, если вы хотите создать xml карту сайта, удалить лишние страницы или настроить внутреннюю перелинковку.

С полным списком страниц вы сможете очистить сайт от мусора, исправить технические ошибки на страницах и улучшить ранжирование. Возникает логичный вопрос: как собрать такой список максимально быстро и просто.

Легче всего выгрузить все страницы из одного инструмента, но тогда ваш список может оказаться неполным. Чтобы собрать абсолютно все страницы, в том числе закрытые от поисковых роботов и страницы с техническими ошибками, придется потрудиться.

Почему для сбора данных одного инструмента мало

Собирать данные мы будем из трех инструментов:

  1. Из модуля «Аудит сайта» в SE Ranking выгрузим все страницы, открытые для поисковых роботов;
  2. В Google Analytics найдем все страницы, у которых есть просмотры;
  3. Из Google Search Console достанем оставшиеся закрытые от поисковых роботов страницы, у которых нет просмотров.

Сравнив все данные мы получим полный список страниц вашего сайта.

Проиндексированные URL-ы мы найдем еще на первом этапе. Но нам нужны не только они. У многих сайтов найдутся страницы, на которые не ведет ни одна внутренняя ссылка. Их называют страницами-сиротами.

Почему страницы оказываются «в изоляции»? Причины могут быть разные, к примеру:

  • посадочные страницы создавались под конкретную кампанию;
  • тестовые страницы создавались для сплит-тестирования;
  • страницы убрали из системы внутренней перелинковки, но не удалили;
  • страницы потерялись во время переноса сайта;
  • была удалена страница категории товаров, а страницы товаров остались.

Такие страницы отрезаны от остального сайта, а значит поисковой робот не может их просканировать. Также кроулер не увидит страницы, закрытые от него через файл .htaccess. Ну, и наконец, часть страниц не индексируется из-за технических проблем.

С помощью разных инструментов мы найдем абсолютно все страницы. Но давайте по порядку. Для начала выгрузим список всех проиндексированных и корректно работающих страниц.

Ищем открытые для краулеров страницы в SE Ranking

Экспортировать страницы, открытые пользователям и краулерам, будем с помощью инструмента «Аудит сайта» SE Ranking.

Инструмент «Аудит сайта» SE Ranking

Чтобы поисковый робот просканировал все необходимые страницы, выберем нужные параметры в настройках.

Заходим в НастройкиИсточник страниц для анализа сайта и разрешаем системе сканировать Страницы сайта, Поддомены сайта и XML карту сайта. Так инструмент отследит все страницы сайта, включая поддомены.

Настройки анализа сайта на платформе SE Ranking

Дальше переходим в раздел Правила сканирования страниц и разрешаем учитывать директивы robots.txt.

Правила сканирования страниц в SE Ranking

Осталось нажать кнопку Сохранить.

Затем переходим во вкладку Обзор и запускаем анализ — нажимаем кнопку Перезапустить аудит.

Перезапуск аудита в SE Ranking

Когда анализ завершится, на главном дашборде нажимаем на зеленую линию в разделе Индексация страниц.

Раздел «Индексация страниц» SE Ranking

Вы увидите полный список страниц, открытых для поисковых роботов. Теперь можно выгрузить данные — нажимаем на кнопку Экспорт.

Список страниц, открытых для поисковых роботов

На следующем этапе мы будем сравнивать большие массивы данных. Если вам удобно это делать в Excel — оставляйте все как есть. Если вы предпочитаете Google таблицы, скопируйте оставшиеся строки и вставьте их в новую таблицу.

Через Google Analytics ищем все страницы с просмотрами

Поисковые роботы находят страницы переходя по внутренним ссылкам сайта. Поэтому если на страницу не ведет ни одна ссылка на сайте, кроулер ее не найдет.

Обнаружить их можно с помощью данных из Google Analytics — система хранит инфу о посещениях всех страниц. Одно плохо — GA не знает о тех просмотрах, которые были до того, как вы подключили аналитику к вашему сайту.

Просмотров у таких страниц будет немного, потому что с сайта на них перейти не получится. Находим их следующим образом.

Заходим в ПоведениеКонтент сайтаВсе страницы. Если ваш сайт не молодой, стоит указать данные за какой период вы хотите получить. Это важно, так как Google Analytics применяет выборку данных — то есть анализирует не всю информацию, а только ее часть.

Календарь Google Analytics

 Дальше, кликаем на колонку Просмотры страниц, чтобы отсортировать список от меньшего к большему значению . В результате, вверху окажутся самые редко просматриваемые страницы — среди них-то и будут страницы-сироты.

Просмотры страниц в Google Analytics

Двигайтесь вниз по списку, пока не увидите страницы, у которых просмотров существенно больше. Это уже страницы с настроенной перелинковкой.

Собранные данные экспортируем в .csv файл.

Выделяем страницы-сироты

Наш следующий шаг — сравнить данные из SE Ranking и Google Analytics, чтобы понять, к каким страницам у поисковых роботов нет доступа.

Копируем данные из .csv файла, выгруженного из Google Analytics, и вставляем их в таблицу рядом с данными из SE Ranking.

Из Google Analytics мы выгрузили только окончания URL, а нам нужно, чтобы все данные были в одном формате. Поэтому в колонку B вставляем адрес главной страницы сайта как показано на скриншоте.

Сравнить данные из SE Ranking и Google Analytics

Далее, с помощью функции сцепить (concatenate) объединяем значения из колонок B и C в колонке D и протягиваем формулу вниз до конца списка.

Используем функцию concatenate

А теперь самое интересное: будем сравнивать колонку «SE Ranking» и колонку «GA URLs», чтобы найти страницы-сироты.

На практике страниц будет намного больше, чем на скриншоте, поэтому анализировать их вручную пришлось бы бесконечно долго. К счастью, существует функция поискпоз (match), которая позволяет определить, какие значения из колонки «GA URLs» есть в колонке «SE Ranking». Вводим функцию в колонке E и протягиваем ее вниз до конца списка.

Результат должен выглядеть так:

Сопоставляем данные функцией match

В колонке E увидим, каких страниц из GA нет в колонке SE Ranking, там таблица выдаст ошибку (#N/A). В примере видно, что в ячейке E9 нет значения, потому что ячейка A11 — пустая.

Ваш список будет намного больше. Чтобы собрать все ошибки, отсортируйте данные в колонке E по алфавиту:

Отсортировать данные в Google таблицах

Теперь у вас есть полный список страниц, не связанных ссылками с сайтом. Перед тем, как двигаться дальше, изучите каждую одинокую страницу. Ваша цель — понять, что это за страница, какова ее роль, и почему на нее не ведет ни одна ссылка.

Дальше есть три варианта развития событий:

  • Поставить на страницу внутреннюю ссылку. Для этого нужно определить ее место в структуре вашего сайта.
  • Удалить страницу, настроив с нее 301 редирект, если это лишняя страница.
  • Оставить все как есть, но присвоить странице тег <noindex>, если, например, страница создавалась под рекламную кампанию.

Поработав с изолированными страницами, можно еще раз выгрузить и сравнить списки из SE Ranking и GA. Так вы убедитесь, что ничего не упустили.

Ищем оставшиеся страницы через Google Search Console

Как найти страницы, не связанные ссылками с сайтом, разобрались. Приступим к остальным страницам, о которых знает Google, — будем анализировать данные Google Search Console.

Для начала откройте свой аккаунт и зайдите в раздел Покрытие. Убедитесь, что выбран режим отображения данных «Все обработанные страницы» и откройте вкладку «Страницы без ошибок».

Вкладка "Без ошибок" в Google Search Console

Таким образом в список попадут Проиндексированные страницы, которых нет в карте сайта, а также Отправленные и проиндексированные страницы.

Сведения Google Search Console

Кликните на список, чтобы развернуть его. Внимательно изучите данные: возможно в списке есть страницы, которые вы не видели в выгрузках из SE Ranking и GA. В таком случае убедитесь, что они должным образом выполняют свою роль в рамках вашего сайта.

Теперь перейдем во вкладку Исключено, чтобы отобразились только непроиндексированные страницы.

Вкладка "Исключено" в Google Search Console

 Чаще всего страницы из этой вкладки были намеренно заблокированы владельцами сайта — это страницы с переадресациями, закрытые тегом «noindex», заблокированные в файле robots.txt, и так далее. Также в этой вкладке можно выявить технические ошибки, которые нужно исправить.

Ошибки в Google Search Console

 Если обнаружите страницы, которые вам не встречались на предыдущих этапах, добавьте их в общий список. Таким образом, вы наконец получите список всех без исключения страниц вашего сайта.

В заключение

Если у вас есть доступ к необходимым инструментам, собрать все страницы сайта не сложно. Да, сделать все в два клика не получится, но в процессе сбора данных вы найдете страницы, о существовании которых могли и не догадываться.

Страницы, которые не видят ни поисковые роботы, ни пользователи, не приносят сайту никакой пользы. Так же как и страницы, которые не индексируются из-за технических ошибок. Если таких страниц на сайте много, это может негативно сказаться на результатах SEO.

Хотя бы один раз собрать все страницы сайта нужно обязательно, чтобы адекватно его оценивать и знать, откуда ждать проблем 🙂

Светлана — контент-маркетолог и редактор в SE Ranking. Светлана убеждена, что о сложных вещах можно писать просто и делится своими знаниями в области SEO и диджитал-маркетинга в блоге SE Ranking и других тематических медиа.
Вечера Светлана проводит, изучая новые языки, планируя увлекательные путешествия и играя с кошкой.

Добавить комментарий