Как найти все сайты содержащие ссылку

Дата обновления: 06.02.2023

Время чтения: 11 мин.

Марат Исрафилов

ЭКСПЕРТ

Совладелец и директор агентства интернет-рекламы Юла Group. Более 15 лет опыта на рынке.
Основная деятельность:
– SEO Продвижение сайтов в …

Бэклинки или, как их ещё называют, обратные или входящие ссылки – это внешние ссылки на ваш сайт, которые размещены на сторонних ресурсах. 

Они влияют на ранжирование сайта в поисковых системах. И если раньше поисковики оценивали только количество ссылок, то сейчас нужно следить и за их качеством. Некорректные бэклинки только навредят вашему проекту, поэтому нужно время от времени их анализировать.

Тысячи надёжных каналов для продвижения бизнеса в Telegram

Telega.in — платформа нативных интеграций с блогерами в Telegram. Каждый канал в каталоге проверен вручную, а админы готовы к сотрудничеству — никаких долгих переговоров!

  • Выбирайте лучшие каналы в открытом каталоге самостоятельно или с помощью менеджера.
  • Планируйте кампании эффективно: интеграции гарантированно будут опубликованы в срок и в том виде, в котором их согласует заказчик.
  • Экономьте время: отчёты по каждой кампании предоставляются в удобной таблице со всеми необходимыми данными.

Для чего нужно проверять бэклинки на сайт

Линкбилдинг, или построение ссылочной массы для вашего проекта – важная часть в SEO-продвижении сайта. Хорошие бэклинки помогают выйти на первые позиции в выдаче поиска. Даже если ваш сайт хорошо оптимизирован, без входящих ссылок результата не будет.

Отличное видео из уроков Школы SEO, в котором доступно рассказано, на что влияют бэклинки:

Не стоит думать, что другие сайты начнут сами по себе на безвозмездной основе оставлять ссылки на вас и приводить трафик. Это, конечно, возможно, если у вас действительно крутой и полезный контент.  Но вряд ли все ссылки будут хорошего качества (почему это важно, расскажем ниже). Поэтому нужно самостоятельно работать с бэклинками.

Проверяя внешние ссылки, вы сможете решить ряд задач:

  • Узнаете, кто и как отзывается о вашем проекте. Это могут быть как качественные статьи, подборки полезных сервисов, так и негативные отзывы или заказные материалы конкурентов. Увидев вовремя такие бэклинки, сможете оперативно реагировать на них. Так вы не допустите падения вашего сервиса в поисковой выдаче.
  • Обнаружите ссылки на сомнительных сайтах, которые также могут оставлять конкуренты. От них нужно обязательно избавляться, ведь такие бэклинки могут привести к блокировке вашего сервиса.
  • Проверите контекст, в котором употребляется ссылка и её правильность. Например, если к бэклинку применили атрибут nofollow (т.е. скрыли ссылку от индексации), от неё будет мало пользы. 
  • Проанализируете ссылочную массу конкурентов и узнаете, почему их сайт находится в поиске выше.
  • Исключите плохие и некачественные бэклинки.

Как узнать, кто ссылается на сайт

Вручную найти бэклинки сложно или даже невозможно. Но есть сервисы, благодаря которым вы сможете узнать, кто и как ссылается на вас.

Есть как бесплатные сервисы, так и платные. Расскажем про 6 самых популярных, которые помогают найти и проанализировать входящие ссылки.

Бесплатные сервисы

У бесплатных сервисов для проверки обратных ссылок есть очевидный плюс – чтобы ими пользоваться, не нужно платить. Но есть и ряд минусов:

  • представленный в них функционал, не так широк, как в платных;
  • часто есть ограничения по количеству ссылок, которые можно изучить;
  • они не всегда корректны.

Мы подобрали 2 бесплатных сервиса с широким функционалом и подробно расскажем о каждом из них.

XTool

Сначала нужно зарегистрироваться. Затем на почту приходит пароль, который можно поменять на свой в настройках.

Для проверки бэклинков необходим только адрес сайта. Вводим его в соответствующее окно и нажимаем «Найти».

Бесплатно сервис ищет до 1000 ссылок, которые формирует в таблицу. Там можно увидеть номер ссылки, донор (ссылающийся сайт), акцептор (страница сайта, на которую ведет ссылка), ТИЦ (тематический индекс цитирования), уровень, анкор и состояние ссылки. Отметим, что ТИЦ сейчас не поддерживается Яндексом. Ссылки можно отсортировать по показателю параметра.

Помимо списка бэклинков на странице выводятся таблицы с популярными акцепторами и анкорами.

Данные по обратным ссылкам можно выгрузить в Excel или CSV для более удобной работы.

Backlink Watch

Очень простой в использовании сервис. В нем даже не надо регистрироваться. Чтобы найти бэклинки, нужно ввести адрес сайта, подтвердить, что вы не робот и нажать кнопку Check Backlinks. Он выдаёт не все ссылки, а список из 1000 штук. Но этого достаточно, чтобы проверить качество внешних ссылок.

Отметим, что сервис может работать некорректно. При проверке нашего сайта он выдал информацию, что никаких внешних ссылок нет и посоветовал создать их.

«На вашем веб-сайте нет обратных ссылок, о которых нужно сообщить. Продолжайте… и сначала создайте обратные ссылки».

«На вашем веб-сайте нет обратных ссылок, о которых нужно сообщить. Продолжайте… и сначала создайте обратные ссылки».

Поэтому для демонстрации работы сервиса мы проверили сам сайт backlinkwatch.com. После нажатия на кнопку проверки появляется плашка с количеством обработанных и необработанных ссылок. По мере готовности они появляются в таблице. На то, чтобы обработать 1000 обратных ссылок, ушло 30 минут.

В таблице выводится номер ссылки, URL бэклинка, текст (при наличии), рейтинг страницы, количество внешних ссылок на странице и атрибут nofollow (если есть).

Есть возможность отсортировать бэклинки по имеющимся параметрам, щёлкнув по плашке с категорией.

Платные инструменты

Платные сервисы более функциональны, поэтому для серьёзной работы с бэклинками лучше отдавать предпочтение им. Расскажем о 5 платформах для анализа входящих ссылок. Чтобы пользоваться ими, нужна регистрация.

MegaIndex

После регистрации автоматически активизируется бесплатный тариф, который позволяет увидеть информацию:

  • Типы ссылок
  • Тематику сайтов
  • Типы доменов
  • Популярные страницы
  • Популярные анкоры
  • 5 ссылающихся сайтов

Чтобы посмотреть больше информации, необходимо подключить платный тариф.

Сколько стоит использование сайта? Есть несколько тарифных планов, которые отличаются по цене и функционалу:

  • Начальный – 2990 р. в месяц
  • Стандартный – 5990 р. в месяц
  • Премиум – 23980 р. в месяц

Если оплачивать на несколько месяцев вперёд, можно получить скидку.

Важное уточнение для сервисов, которые приведем ниже! С марта 2022 года из-за санкций платежных систем Visa и MasterCard эти сервисы не принимают российские банковские карты. Можно оплатить только через карты, выпущенные за рубежом. 

Majestic

На платформе можно изучить количество и качество входящих ссылок, посмотреть, сколько действующих и удалённых бэклинков, наглядные диаграммы, историю ссылок и многое другое.

Стоимость использования платформы за месяц:

  • Lite – 49,99 $
  • Pro – 99,99 $
  • API – 399,99 $

При подключении первых двух тарифов можно вернуть деньги в течение 7 дней, если что-то не понравилось.

Moz

Сервис показывает информацию по внешним ссылкам:

  • Потерянные и актуальные бэклинки
  • Самые популярные ссылки
  • Лучшие ссылающиеся сайты
  • Анкорный текст и др.

Бесплатно доступно 10 проверок на месяц, посмотреть можно 5 популярных позиций.

Есть 4 тарифа с ежемесячной платой:

  • Standard – 99 $
  • Medium – 179 $
  • Large – 299 $
  • Premium – 599 $

Перед оформлением подписки можно активировать пробный 30-дневный период.

Будьте внимательны! При оформлении нужно ввести номер своей карты, по истечении срока с вас спишут деньги.

У платных сервисов для проверки бэклинков есть один минус – они платные. Но в остальном они обходят бесплатные инструменты. У них шире функционал, больше точность, больше возможностей.

Для сервисов Ahrefs и Serpstat: кроме проблем с оплатой, они не работают через российские IP, сильно ограничен функционал и даже есть риск блокировки аккаунта. Поэтому их можно полноценно использовать только с ВПН. 

Ahrefs

Один из самых удобных и точных инструментов, который помогает находить обратные ссылки свои и конкурентов. База данных обновляется каждые 20-30 минут. В таблице выводятся:

  • Ссылающаяся страница
  • Текст анкора
  • Трафик
  • Дата создания бэклинка

Для анализа ссылок сначала переходим в Site Explorer:

Далее прописываем нужный домен и жмем на поиск:

Высветится общая информация по беклинкам, где в левом меню выбираем Backlinks:

Отобразится полный список ссылок, которые можно отсортировать или отфильтровать, как вам нужно:

Отметим, что у сервиса нет пробной бесплатной проверки, при регистрации нужно оплатить один из тарифов:

  • Lite – 89 €
  • Standard – 179 €
  • Advanced – 369 €
  • Enterprise – 899 €

Serpstat

На этом сайте можно ознакомиться с анализом ссылок:

  • Суммарный отчёт, в котором собраны все данные, которые мы перечислим ниже;
  • Ссылающиеся домены;
  • Вредоносные сайты;
  • Входящие ссылки;
  • Исходящие ссылки;
  • Исходящие домены;
  • Анкоры ссылок.

Во вкладке «Входящие ссылки» можно увидеть количество активных и потерянных ссылок. В бесплатной версии можно ознакомиться с 10 популярными бэклинками.

Чтобы получить больше информации, нужно подключить платный тариф. Один месяц использования стоит 69$. Если оплачивать на несколько месяцев вперёд, получите скидку.

Больше аналогичных сервисов можно найти здесь.

Где искать входящие ссылки онлайн в Google и Яндекс

Кроме платных и бесплатных инструментов, есть специальные сервисы от Google и Яндекс, которые анализируют информацию по бэклинкам в своих поисковиках – Google Search Console, Яндекс.Вебмастер. 

В них не получится анализировать внешние ссылки конкурентов, потому что для доступа к аналитике необходимо подтвердить, что вы являетесь владельцем сайта.

Как работать с этими сервисами? Нужно, чтобы у вас был аккаунт почты Google и Яндекс, соответственно. Зайдите на выбранную платформу и введите адрес своего сайта. Затем вам предложат варианты для подтверждения владения сайтом. 

В Google Search Console:

  • Через HTML-файл
  • Через метатег
  • Через аккаунт Google Analytics
  • Через Диспетчер тегов Google
  • Через DNS-запись

После подтверждения вы попадёте в аккаунт со всей информацией о сайте. В анализе по внешним ссылкам можно найти страницы, на которые чаще всего ссылаются, сайты, ссылающиеся на вас и многое другое.

Инструмент бесплатный, показывает множество нужных для аналитики параметров, можно выгрузить данные в Гугл Таблицу. Показывает статистику именно по своей поисковой системе Googl, что логично.

В панели слева нужно зайти в Ссылки, затем выбираем Внешние ссылки и появляется информация о сайтах, которые больше всего ссылаются на выбранный домен. Здесь показано общее количество бэклинков на сайт:

Можно проверить конкретную страницу, на скриншоте показали данные по главной нашего сайта:

В Яндекс.Вебмастер подтвердить владение доменом можно:

  • Через HTML-файл
  • Через метатег
  • Через DNS-запись

Важный момент: с января 2021 года Вебмастер не обновляет статистику. Так что сейчас для поиска актуальных данных этот инструмент недоступен. На скриншоте видны даты последнего обновления сайта:

Как анализировать внешние ссылки

Расскажем на примере, как проводить аналитику по внешним ссылкам. Будем использовать сервис XTool.

1. Регистрируемся на выбранном сайте. Вводим email, получаем письмо с паролем и входим.

2. Нажимаем «Обратные ссылки» и вводим адрес сайта, затем – «Найти».

3. Появится таблица с ссылками и данными по ним.

4. Нажать на кнопку «Проверить позиции текущих ссылок».

5. Дожидаемся окончания проверки и нажимаем «Перенести ссылки в массовую проверку».

6. Нажимаем «Проверить».

После проверки скачиваем файл, нажав на его название.

Чтобы улучшить показатели ссылок, нужно решить проблемы с плохими и увеличить количество хороших.

Главное, что нужно помнить при анализе имеющихся ссылок и создании новых – это качество. Чем меньше спама на доноре и больше траста, тем лучше сайт и больше доверия к нему.

Как работать с бэклинками и где их получать

После того, как вы найдёте обратные ссылки и проанализируете их, нужно уменьшить потери и увеличить их качество и количество.

Как уменьшить потери по бэклинкам?

  • Исправьте битые ссылки
  • Проанализируйте популярные материалы

Рассмотрим каждый пункт подробнее.

Исправление битых ссылок

Обратные ссылки на ваш сайт могут оказаться некорректными, например, если страница была изменена. При переходе по таким ссылкам пользователи попадают на страницу с ошибкой. Соответственно, они не попадают на ваш сайт, соответственно, такие ссылки не ранжируются.

Во многих сервисах есть возможность отфильтровать бэклинки, выявив именно битые. В отчёте покажут, какие ссылки некорректны и на каком сайте. Чтобы их исправить, нужно попросить владельцев сайта заменить ссылку на работающую или настроить на нее 301 редирект.

Как исправить битые ссылки, смотрите в видео:

Анализ популярных материалов

Для чего это нужно? Узнав, на какие ваши материалы ссылаются чаще всего, вы поймёте, как создавать популярные статьи. Не нужно проверять свою интуицию, лучше довериться статистике.

В сервисе для поиска бэклинков можно отсортировать страницы по популярности. Сделайте это и посмотрите, какой контент привлёк читателей и они ссылались на ваш сайт. Возможно, это какое-то исследование, интервью с экспертом, привлекательные иллюстрации к статье. Учитывайте это в будущем, при составлении контент-плана и создания материалов.

Как получать больше входящих ссылок? Для этого есть несколько способов:

  • Покупка внешних ссылок
  • Продвижение статьями
  • Крауд-маркетинг

Расскажем о каждом способе подробнее.

Покупка внешних ссылок

Этот способ используется чаще всего. Приобретать их можно на биржах или автоматизированных сервисах, таких как Gogetlinks и Rotapost.

Как выбрать сайт-донор:

  • Проверьте трафик и его качество. Важно, чтобы это был естественный, а не искусственный трафик.
  • Важна и тематика сайта, она должна быть релевантной вашей. Если у вас сайт про садоводство, будет глупо полагать, что на него перейдут с сайта про компьютерные игры.
  • У площадки должен быть высокий рейтинг траста и небольшая заспамленность.

Этот способ увеличения ссылочной массы экономит время и предлагает большой выбор площадок. Конечно, минусом станет трата денег, но если подойти к вопросу с умом, то она окупится.

Продвижение статьями

Это один из способов получения естественных внешних ссылок. Он эффективен, но требует времени и ресурсов. Для этого нужно:

  • Написать качественный материал с ссылкой в нём;
  • Найти подходящий сайт для публикации – с релевантной аудиторией, заинтересованностью, возможностью размещения материала с ссылкой на ресурс (на некоторых сайтах запрещается оставлять ссылки);
  • Договориться о публикации на безвозмездной основе, либо за плату.

Плюс этого метода в том, что всего один качественный материал может привести на ваш сайт хороший трафик. Один из изестных сервисов для продвижения статьями – Miralinks.

Крауд-маркетинг

Этот способ похож на предыдущий, но всё же имеет отличия. Как это работает:

  • Сначала нужно найти обсуждение или статью с подходящей для вас целевой аудиторией;
  • Затем написать текст на обсуждаемую тему;
  • Опубликовать текст с прикреплением ссылки.

Главное условие – нужно писать естественным языком, без явной рекламы. Лучше всего подойдёт для раскручивания конкретных страниц на сайтах – с товарами или услугами. 

Крауд-маркетинг привлечёт естественный трафик, улучшит видимость в поисковиках. Есть и минусы – нужно время чтобы найти подходящую площадку, написать хороший текст и дождаться результатов размещения. Хорошие сервисы для крауд-маркетинга: Linkum и Zenlink.

Более детально тему крауд-ссылок разбирают в этом видео:

Чтобы успешно наращивать ссылочную массу, нужно сначала избавиться от битых и некорректных ссылок, а уже потом распространять «правильные». Не забывайте делать это регулярно.

Как найти бэклинки у конкурентов

Найти бэклинки конкурентов можно с помощью бесплатных или платных сервисов, которые не требуют подтверждения, что вы владелец сайта. То есть все платформы, о которых мы рассказали, кроме Google Search Console и Яндекс.Вебмастер. 

Зачем нужно искать и анализировать внешние ссылки конкурентов?

  • Это поможет усовершенствовать вашу собственную стратегию продвижения.
  • Вы сможете обнаружить новые возможности маркетинга, поймёте свои ошибки.
  • Если сайт конкурента отображается в поиске выше, чем ваш, вы сможете увидеть, какие методы применяет он и использовать в своих целях.

Перед тем, как начать анализ внешних ссылок конкурентов, определите, что это за компании. Это очень важно. Если вы выявите соперников, с которыми на самом деле не конкурируете, анализ окажется бесполезным.

Как определить конкурентов:

  • Работают в том же сегменте, что и вы.
  • Продают похожие товары, услуги.
  • Работают в той же ценовой категории.
  • Работают в вашем городе/области/стране.

Если все пункты совпадают, значит, это ваш ключевой конкурент. Когда вы определились с конкретной компанией, можно приступать к анализу её бэклинков. 

Покажем на примере сайта XTool.

  1. Введите в окошко адрес сайта конкурента, который хотите проверить.
  2. Нажмите «Найти».
  3. Выведется таблица, в которой можно увидеть сайты-доноры, акцептор, анкор и др.

Те же действия повторите для каждого своего конкурента.

В первую очередь обращайте внимание на ссылки с высоким уровнем, перейдите по ним, посмотрите, что зацепило читателей в материале. Так изучите самые популярные позиции.

После изучения поймёте, что привлекает клиентов, почему они переходят на сайт вашего конкурента.

Заключение

Бэклинки – это неотъемлемый инструмент в SEO-продвижении сайта и бренда. Чем качественнее они будут, тем лучше поведенческие и выше позиции. Регулярно проверяйте внешние ссылки, чтобы исправлять плохие и создавать новые, хорошие.

Вам понравилась статья?

1

0

Как найти все ссылки на сайт

Наличие сайтов, ссылающихся на определенный ресурс, важнейший фактор успешного продвижения сайта в поисковых системах. Чем больше качественных обратных ссылок, тем выше позиции в выдаче. Отследить качественные ссылки очень важно для оптимизаторов и владельцев интернет-ресурсов.

Как найти все ссылки на сайт

Ссылки на сайт называют обратными, беклинками или входящими, а ссылающиеся сайты сайтами-донорами. Их наличие – самый важный фактор в продвижении ресурса. Владельцы заинтересованы в увеличении ссылочной массы, так как это влияет на выгодные позиции в выдаче поисковиков. Чем больше таких ссылок, тем выше авторитетность. Сайты, попавшие в ТОП выдачи, то есть в первую десятку, имеют большое количество посетителей. Больше посетителей – выше доход с сайта.

Имея аккаунт в основных поисковиках Google и Yandex, легко отслеживать и делать анализ обратных ссылок на свой ресурс с помощью сервисов для вебмастеров. В Яндексе это Вебмастер, в Гугле – Инструменты для вебмастеров.

Кроме того, в Яндексе есть Яндекс метрика. Сервис, который дает полную картину жизнедеятельности сайта, включая наличие обратных ссылок и их адресный анализ.

На вкладке общей информации вебмастера Яндекс наличествует строка о внешних ссылках на сайт. Диаграмма внешних ссылок дает возможность скачать документ для детального изучения ссылающихся ресурсов. Это позволяет отследить наличие покупных ссылок и ссылок естественного происхождения, а также качество ссылочной массы.

На сервисе инструментов для вебмастеров Google откроется список всех ссылок, которые учитывает Google и их детализация на одной странице, что очень удобно визуально.

Поскольку Вебмастер Яндекс и вебмастер Гугл показывает только наличие тех ссылок, которые каждый из них берет во внимание, то создано много других анализаторских ресурсов. С их помощью можно отследить все ссылки, которые ведут на сайт. При этом можно отслеживать и ресурсы конкурентов, и свои собственные.

Чтобы сайт имел много качественных беклинков, нужно чтобы он содержал интересный контент, задерживал посетителей на своих страницах, заставлял их возвращаться снова и снова, ссылаться на статьи и рекомендовать его другим пользователям интернета.
Это в идеале. На практике же сайты часто продвигают покупкой обратных ссылок.

В одном и в другом случае отслеживать не только наличие, но и качество доноров необходимо. Поисковики принимают во внимание только ссылки с сайтов однородной или схожей тематики. Такие ссылки имеют вес. Все остальные могут существенно повредить ресурсу.

Авторитетными и популярными среди оптимизаторов считаются веб-ресурсы linkpad.ru (бывший Solomono.ru), megaindex.ru, RDS, alexa.com, pr-cy.ru, dinews.ru и многие другие. Как русскоязычные, так и зарубежные.

Принцип поиска ссылок на них примерно одинаков. В окно анализатора водится адрес сайта или сразу нескольких сайтов. Из множества результатов выбирается тот, что покажет наличие обратных ссылок. Не во всех анализаторах имеется возможность увидеть все подробно, поэтому придется провести ревизию ресурсов, которыми стоит пользоваться.

Как правило, анализаторские сервисы, на которых можно увидеть обратные ссылки на любой ресурс, базируются на биржах ссылок. Поэтому они частично бесплатные, то есть дают возможность анализировать определенное количество сайтов, по ограниченному числу показателей. Но есть и полностью бесплатные, но не менее подробные и удобные.

Кроме того, ни один анализатор не дает абсолютно точное количество обратных ссылок на сайт. Поэтому, важно пройти по ним, проанализировать и выбрать те ресурсы, результаты которых покажутся наиболее полными.

Несмотря на то, что Яндекс объявил об изменении принципов выдвижения сайтов в ТОП, и отныне, важнейшим становится фактор поведения посетителей на сайте, практика показывает, что высокий показатель индекса цитирования практически гарантирует первые строчки в выдаче.

alcorn

php

  • PHP

  • Компьютерные сети

Как организовать поиск ссылок в интернете?

Добрый день. Возникла следующая задача.
Имеется ссылка вида www.домен.ru каким образом можно найти сайты в интернете имеющие данную ссылку у себя на странице.


  • Вопрос задан

    более трёх лет назад

  • 3008 просмотров


Комментировать


Решения вопроса 1

blasheevich

Пригласить эксперта


Ответы на вопрос 1

Kaigorodov


Похожие вопросы


  • Показать ещё
    Загружается…

16 мая 2023, в 00:11

20000 руб./за проект

15 мая 2023, в 23:43

100 руб./за проект

15 мая 2023, в 23:39

2000 руб./за проект

Минуточку внимания

Is it possible to find all the pages and links on ANY given website? I’d like to enter a URL and produce a directory tree of all links from that site?

I’ve looked at HTTrack but that downloads the whole site and I simply need the directory tree.

Davidmh's user avatar

Davidmh

3,76718 silver badges35 bronze badges

asked Sep 17, 2009 at 14:43

Jonathan Lyon's user avatar

Jonathan LyonJonathan Lyon

3,8027 gold badges39 silver badges52 bronze badges

1

Check out linkchecker—it will crawl the site (while obeying robots.txt) and generate a report. From there, you can script up a solution for creating the directory tree.

gerzenstl's user avatar

answered Sep 17, 2009 at 14:51

Hank Gay's user avatar

10

If you have the developer console (JavaScript) in your browser, you can type this code in:

urls = document.querySelectorAll('a'); for (url in urls) console.log(urls[url].href);

Shortened:

n=$$('a');for(u in n)console.log(n[u].href)

answered Jan 5, 2015 at 22:03

ElectroBit's user avatar

ElectroBitElectroBit

1,14211 silver badges16 bronze badges

7

Another alternative might be

Array.from(document.querySelectorAll("a")).map(x => x.href)

With your $$( its even shorter

Array.from($$("a")).map(x => x.href)

answered Mar 1, 2020 at 19:00

Seb's user avatar

SebSeb

87812 silver badges20 bronze badges

1

If this is a programming question, then I would suggest you write your own regular expression to parse all the retrieved contents. Target tags are IMG and A for standard HTML. For JAVA,

final String openingTags = "(<a [^>]*href=['"]?|<img[^> ]* src=['"]?)";

this along with Pattern and Matcher classes should detect the beginning of the tags. Add LINK tag if you also want CSS.

However, it is not as easy as you may have intially thought. Many web pages are not well-formed. Extracting all the links programmatically that human being can “recognize” is really difficult if you need to take into account all the irregular expressions.

Good luck!

answered Sep 17, 2009 at 15:17

mizubasho's user avatar

mizubashomizubasho

911 silver badge7 bronze badges

1

function getalllinks($url) {
    $links = array();
    if ($fp = fopen($url, 'r')) {
        $content = '';
        while ($line = fread($fp, 1024)) {
            $content. = $line;
        }
    }
    $textLen = strlen($content);
    if ($textLen > 10) {
        $startPos = 0;
        $valid = true;
        while ($valid) {
            $spos = strpos($content, '<a ', $startPos);
            if ($spos < $startPos) $valid = false;
            $spos = strpos($content, 'href', $spos);
            $spos = strpos($content, '"', $spos) + 1;
            $epos = strpos($content, '"', $spos);
            $startPos = $epos;
            $link = substr($content, $spos, $epos - $spos);
            if (strpos($link, 'http://') !== false) $links[] = $link;
        }
    }
    return $links;
}

try this code….

Morgoth's user avatar

Morgoth

4,8358 gold badges39 silver badges65 bronze badges

answered Dec 3, 2014 at 7:42

user4318981's user avatar

3

Ниже вы найдете обновленное руководство о том, как SEO-специалисты, профессионалы контекстной рекламы и эксперты по цифровому маркетингу могут использовать краулер Screaming Frog (также называемый поисковым роботом, пауком или ботом) для оптимизации своего рабочего процесса.

Оглавление статьи

  • 1 Основы краулинга
    • 1.1 Как сканировать весь сайт
    • 1.2 Как сканировать один подкаталог
    • 1.3 Как сканировать определенный набор поддоменов или подкаталогов
    • 1.4 Я хочу получить список всех страниц моего сайта
    • 1.5 Я хочу получить список всех страниц в определенном подкаталоге
    • 1.6 Как найти все поддомены на сайте и проверить внутренние ссылки.
    • 1.7 Как сканировать сайт электронной коммерции или другой крупный сайт
    • 1.8 Как сканировать сайт, расположенный на старом сервере — или как просканировать сайт, не положив его
    • 1.9 Как просмотреть сайт, на котором используются файлы cookie
    • 1.10 Как сканировать, используя другой пользовательский агент
    • 1.11 Как сканировать страницы, требующие аутентификации
  • 2 Внутренние ссылки
    • 2.1 Мне нужна информация обо всех внутренних и внешних ссылках на моем сайте (якорный текст, директивы, ссылки на страницу и т.д.).
    • 2.2 Как найти неработающие внутренние ссылки на странице или сайте
    • 2.3 Как найти неработающие исходящие ссылки на странице или сайте (или все исходящие ссылки в целом)
    • 2.4 Как найти ссылки, которые перенаправляются
  • 3 Контент сайта
    • 3.1 Как определить страницы с “тонким” контентом
    • 3.2 Мне нужен список ссылок на изображения на определенной странице
    • 3.3 Как найти изображения, у которых отсутствует alt-текст, или изображения, у которых alt-текст длинный
    • 3.4 Как найти все CSS файлы на моем сайте
    • 3.5 Как найти каждый файл JavaScript на моем сайте
    • 3.6 Как определить все плагины jQuery, используемые на сайте, и на каких страницах они используются
    • 3.7 Как найти, где на сайте внедрен flash
    • 3.8 Как найти все внутренние PDF файлы, на которые есть ссылки на сайте
    • 3.9 Как понять сегментацию контента внутри сайта или группы страниц
    • 3.10 Как найти страницы, на которых есть кнопки поделиться в соцсетях
    • 3.11 Как найти страницы, использующие iframes
    • 3.12 Как найти страницы, содержащие встроенное видео или аудио содержимое
  • 4 Мета-данные и директивы
    • 4.1 Как определить страницы с длинными заголовками, мета-описаниями или URL-адресами
    • 4.2 Как найти дублирующиеся заголовки страниц, мета-описания или URL-адреса
    • 4.3 Как найти дублированный контент и/или URL, которые необходимо переписать/перенаправить/канонизировать
    • 4.4 Как определить все страницы, которые включают мета-директивы, например: nofollow/noindex/noodp/canonical и т.д.
    • 4.5 Как проверить, что мой файл robots.txt работает так, как нужно
    • 4.6 Как найти или проверить разметку Schema или другие микроданные на моем сайте
  • 5 Sitemap
    • 5.1 Как создать XML Sitemap
    • 5.2 Создание карты сайта XML путем загрузки URL-адресов
    • 5.3 Как проверить существующий XML Sitemap
  • 6 Устранение общих неполадок
    • 6.1 Как определить, почему определенные разделы моего сайта не индексируются или не ранжируются
    • 6.2 Как проверить, была ли миграция/редизайн моего сайта успешной
    • 6.3 Как найти медленно загружающиеся страницы на моем сайте
    • 6.4 Как найти вредоносное ПО или спам на моем сайте
  • 7 PPC и аналитика
    • 7.1 Как проверить, что мой код Google Analytics находится на каждой странице или на определенном наборе страниц моего сайта
    • 7.2 Как проверить список PPC URLs в массовом порядке
  • 8 Скраппинг
    • 8.1 Как произвести скраппинг метаданных для списка страниц
    • 8.2 Как найти на сайте все страницы, содержащие определенное посадочное место
  • 9 Переписывание URL
    • 9.1 Как найти и удалить идентификатор сеанса или другие параметры из моих просмотренных URL
    • 9.2 Как переписать URL (например: заменить .com на .co.uk, или писать все URL в нижнем регистре)
  • 10 Исследование ключевых слов
    • 10.1 Как узнать, какие страницы наиболее ценны для моих конкурентов
    • 10.2 Как узнать, какой анкорный текст используют мои конкуренты для внутренней перелинковки
    • 10.3 Как узнать, какие мета ключевые слова (если таковые имеются) добавили мои конкуренты на свои страницы
  • 11 Линкбилдинг
    • 11.1 Как проанализировать список перспективных мест размещения ссылок
    • 11.2 Как найти неработающие ссылки, чтобы использовать их для аутрич-возможностей
    • 11.3 Как проверить мои обратные ссылки и просмотреть анкорный текст
    • 11.4 Я нахожусь в процессе очистки своих обратных ссылок и мне нужно проверить, что ссылки удаляются в соответствии с запросом
    • 11.5 Бонусный раунд
    • 11.6 Как редактировать метаданные
    • 11.7 Как просканировать сайт с JavaScript
  • 12 Просмотр оригинального HTML и рендеринга HTML
    • 12.1 Заключительные замечания

Основы краулинга

Как сканировать весь сайт

До начала краулинга сайта будет полезным оценить, какую информацию вы хотите получить, насколько велик сайт и какую часть сайта вам нужно сканировать, чтобы получить представление обо всем сайте. Иногда на больших сайтах лучше ограничить работу краулера только некоторыми URL-адресами, чтобы получить репрезентативную выборку данных. В этом случае размеры файлов и экспорт данных становятся более управляемыми. Подробнее об этом мы расскажем ниже. Для сканирования всего сайта, включая все поддомены, вам потребуется внести небольшие изменения в конфигурацию паука, чтобы начать работу.

По умолчанию Screaming Frog сканирует только тот поддомен, который вы указали. Любые дополнительные поддомены, которые встречает паук, будут рассматриваться как внешние ссылки. Для того чтобы просканировать дополнительные поддомены, необходимо изменить настройки в меню Configuration паука. Установив флажок ‘Crawl All Subdomains’, вы убедитесь, что паук просматривает все ссылки на другие поддомены вашего сайта, которые он встречает.

Шаг 1:

Шаг 2:

Кроме того, если вы начинаете поиск из определенной подпапки или подкаталога, но при этом хотите, чтобы Screaming Frog просмотрел весь сайт, установите флажок «Crawl Outside of Start Folder».

По умолчанию SEO Spider настроен на краулинг только той подпапки или поддиректории, из которой вы начинаете сканирование. Если вы хотите сканировать весь сайт и начинать с определенного подкаталога, убедитесь, что в конфигурации установлен режим просмотра за пределами начальной папки.

Профессиональный совет:

Чтобы сэкономить время и дисковое пространство, не забывайте о ресурсах, которые могут не понадобиться в процессе сканирования. Веб-сайты содержат ссылки не только на страницы. Снимите флажки с Изображений, CSS, JavaScript и SWF ресурсов, чтобы уменьшить размер краулинга.

Как сканировать один подкаталог

Если вы хотите ограничить краулинг одной папкой, просто введите URL и нажмите старт, не изменяя никаких настроек по умолчанию. Если вы переписали исходные настройки по умолчанию, сбросьте их в меню ‘File’.

Если вы хотите начать поиск в определенной папке, но продолжить поиск по остальной части поддомена, обязательно выберите «Crawl Outside Of Start Folder» в настройках конфигурации паука перед вводом конкретного начального URL.

Как сканировать определенный набор поддоменов или подкаталогов

Если вы хотите ограничить краулинг определенным набором поддоменов или подкаталогов, вы можете использовать RegEx, чтобы установить эти правила в настройках Include или Exclude в меню Configuration.

Исключение:

В этом примере мы сканировали все страницы на сайте seerinteractive.com, исключая страницы «О сайте» на каждом поддомене.

Шаг 1:

Перейдите в меню Configuration > Exclude (Конфигурация > Исключить); используйте регулярное выражение с подстановочным знаком, чтобы определить URL-адреса или параметры, которые вы хотите исключить.

Шаг 2:

Проверьте регулярное выражение, чтобы убедиться, что оно исключает те страницы, которые вы ожидали исключить, прежде чем начать сканирование:

Включение:

В приведенном ниже примере мы хотели просканировать только подпапку «Команда» на сайте seerinteractive.com. Снова используйте вкладку «Тест» для проверки нескольких URL-адресов и убедитесь, что RegEx правильно настроен для вашего правила включения.

Это отличный способ краулинга по большим сайтам; на самом деле, Screaming Frog рекомендует этот метод, если вам нужно разделить и подчинить себе краулинг по большому домену.

Я хочу получить список всех страниц моего сайта

По умолчанию Screaming Frog настроен на сканирование всех изображений, JavaScript, CSS и флеш-файлов, которые встречаются пауку. Чтобы проверять только HTML, вам нужно снять флажки ‘Check Images’, ‘Check CSS’, ‘Check JavaScript’ и ‘Check SWF’ в меню Spider Configuration.

Запуск паука с этими настройками без галочек, по сути, предоставит вам список всех страниц вашего сайта, на которые ведут внутренние ссылки.

После завершения сканирования перейдите на вкладку ‘Internal’ («Внутренние») и отфильтруйте результаты по «HTML». Нажмите «Экспорт», и вы получите полный список в формате CSV.

Совет профессионала:

Если вы склонны использовать одни и те же настройки для каждого краулинга, Screaming Frog теперь позволяет сохранять параметры конфигурации:

Я хочу получить список всех страниц в определенном подкаталоге

В дополнение к снятию флажков ‘Check Images’, ‘Check CSS’, ‘Check JavaScript’ и ‘Check SWF’, вы также должны снять флажок ‘Check Links Outside Folder’ в настройках конфигурации паука. Запуск паука с этими настройками без галочки даст вам список всех страниц в вашей начальной папке (если они не являются страницами-сиротами) Примечание: страницы-сироты — это страницы, которые не связаны ни с одной другой страницей / разделом сайта, поэтому если пользователь попал на неё, он не сможет перейти с этой страницы на другую.

Как найти все поддомены на сайте и проверить внутренние ссылки.

Существует несколько различных способов найти все поддомены на сайте.

Способ 1:

Используйте Screaming Frog для определения всех поддоменов на данном сайте. Перейдите в раздел Configuration > Spider и убедитесь, что выбрана опция «Crawl all Subdomains». Как и при описанном выше сканировании всего сайта, это поможет сканировать все поддомены, на которые есть ссылки на сайте. Однако это не поможет найти поддомены, которые являются “сиротливыми” или на которые нет ссылок.

Метод 2:

Используйте Google для определения всех проиндексированных поддоменов.

С помощью расширения Scraper Chrome и некоторых операторов расширенного поиска можно найти все индексируемые поддомены для данного домена.

Шаг 1:

Начните с использования оператора поиска site: в Google, чтобы ограничить результаты конкретным доменом. Затем используйте оператор поиска -inurl, чтобы сузить результаты поиска, удалив основной домен. Вы должны увидеть список субдоменов, которые были проиндексированы в Google и не содержат основного домена.

Шаг 2:

Используйте расширение Scraper, чтобы извлечь все результаты в лист Google. Просто щелкните правой кнопкой мыши URL в поисковой выдаче, нажмите «Scrape Similar» и экспортируйте в Google Doc.

Шаг 3:

В Google Doc используйте следующую функцию, чтобы обрезать URL до поддомена:

=LEFT(A2,SEARCH(«/»,A2,9))

По сути, приведенная выше формула должна помочь отсечь любые подкаталоги, страницы или имена файлов в конце сайта. Эта формула, по сути, говорит sheets или Excel возвращать то, что находится слева от косой черты. Начальное число 9 является важным, потому что мы просим начать поиск косой черты после 9-го символа. Это учитывает протокол: https://, длина которого составляет 8 символов.

Дедублируйте список и загрузите его в Screaming Frog в режиме списка — вы можете вставить список доменов вручную, использовать функцию вставки или загрузить CSV.

Способ 3:

Введите URL корневого домена в инструменты, помогающие искать сайты, которые могут существовать на том же IP, или в поисковые системы, созданные специально для поиска поддоменов, например FindSubdomains. Создайте бесплатную учетную запись, чтобы войти в систему и экспортировать список поддоменов. Затем загрузите список в Screaming Frog с помощью режима списка.

После завершения работы паука вы сможете увидеть коды состояния, а также все ссылки на домашних страницах поддоменов, якорный текст и дублирующиеся заголовки страниц.

Как сканировать сайт электронной коммерции или другой крупный сайт

Изначально Screaming Frog не был создан для просмотра сотен тысяч страниц, но благодаря обновлениям он становится все ближе к этому.

В версии 11.0 Screaming Frog позволил пользователям сохранять все данные на диске в базе данных, а не просто хранить их в оперативной памяти. Это впервые открыло возможность обхода очень больших сайтов.

В версии 12.0 краулер автоматически сохраняет данные в базе данных. Это позволяет получить к ним доступ и открыть их с помощью команды «File > Crawls» в меню верхнего уровня — на случай, если вы запаникуете и задумаетесь, куда делась команда open!

Хотя использование базы данных краулинга помогает Screaming Frog лучше управлять большими сканами, это, конечно, не единственный способ краулить большой сайт.

Во-первых, вы можете увеличить объем памяти, выделяемой пауку.

Во-вторых, вы можете разбить краулинг по подкаталогам или сканировать только определенные части сайта с помощью настроек Include/Exclude («Включить/Исключить»).

В-третьих, вы можете отказаться от просмотра изображений, JavaScript, CSS и flash. Отменив выбор этих опций в меню Конфигурация, вы можете сэкономить память, выполняя сканирование только HTML.

Профессиональный совет:

До недавнего времени Screaming Frog SEO Spider мог приостановиться или упасть при просмотре большого сайта. Теперь, когда хранение базы данных установлено по умолчанию, вы можете восстановить краулинг, чтобы продолжить работу с того места, на котором остановились. Кроме того, вы можете получить доступ к URL-адресам, поставленным в очередь. Это может дать вам представление о дополнительных параметрах или правилах, которые необходимо исключить при краулинге большого сайта.

Как сканировать сайт, расположенный на старом сервере — или как просканировать сайт, не положив его

В некоторых случаях старые серверы могут быть не в состоянии обрабатывать стандартное количество запросов URL в секунду. На самом деле, мы рекомендуем на всякий случай включить ограничение на количество URL-адресов для просмотра в секунду, чтобы проявить уважение к серверу сайта. Лучше всего сообщить клиенту о том, что вы планируете провести сканирование сайта, на всякий случай, если у него есть защита от неизвестных пользовательских агентов. С одной стороны, им может понадобиться внести ваш IP или User Agent в белый список до того, как вы пройдете по сайту. Худший сценарий может заключаться в том, что вы посылаете слишком много запросов на сервер и непреднамеренно разрушаете сайт.

Чтобы изменить скорость краулинга, выберите «Speed» в меню «Configuration» и во всплывающем окне выберите максимальное количество потоков, которые должны работать одновременно. В этом же меню вы можете выбрать максимальное количество URL-адресов, запрашиваемых в секунду.

Профессиональный совет:

Если вы обнаружите, что в результате вашей проверки возникает много ошибок сервера, перейдите на вкладку ‘Advanced’ в меню Spider Configuration и увеличьте значение ‘Response Timeout’ и ‘5xx Response Retries’, чтобы получить лучшие результаты.

Как просмотреть сайт, на котором используются файлы cookie

Хотя поисковые боты не принимают cookies, если вы сканируете сайт и вам нужно разрешить cookies, просто выберите ‘Allow Cookies’ во вкладке ‘Advanced’ в меню Spider Configuration.

Как сканировать, используя другой пользовательский агент

Чтобы выполнить поиск с использованием другого агента пользователя, выберите ‘User Agent’ в меню ‘Configuration’, затем выберите поискового бота из выпадающего списка или введите желаемые строки агента пользователя.

Поскольку Google теперь ориентируется на мобильные устройства, попробуйте просмотреть сайт под именем Googlebot Smartphone или измените User-Agent, чтобы он имитировал Googlebot Smartphone. Это важно по двум разным причинам:

  1. Краулинг, имитирующий пользовательский агент Googlebot Smartphone, может помочь определить любые проблемы, возникающие у Google при краулинге и рендеринге содержимого вашего сайта.
  2. Использование модифицированной версии агента Googlebot Smartphone поможет вам отличить ваши краулинги от краулингов Google при анализе журналов сервера.

Как сканировать страницы, требующие аутентификации

Когда паук Screaming Frog наткнется на страницу, защищенную паролем, появится всплывающее окно, в котором вы сможете ввести имя пользователя и пароль.

Аутентификация на основе форм — очень мощная функция, и для ее эффективной работы может потребоваться рендеринг JavaScript. Примечание: Аутентификация на основе форм должна использоваться редко и только опытными пользователями. Краулер запрограммирован на переход по каждой ссылке на странице, поэтому потенциально это может привести к ссылкам на выход из системы, создание сообщений или даже удаление данных.

Чтобы управлять аутентификацией, перейдите в раздел Configuration > Authentication.

Чтобы отключить запросы на аутентификацию, отмените выбор ‘Standards Based Authentication’ в окне ‘Authentication’ в меню Configuration.

Внутренние ссылки

Мне нужна информация обо всех внутренних и внешних ссылках на моем сайте (якорный текст, директивы, ссылки на страницу и т.д.).

Если вам не нужно проверять изображения, JavaScript, flash или CSS на сайте, отмените выбор этих опций в меню Spider Configuration, чтобы сэкономить время обработки и память.

После того как паук закончит проверку, воспользуйтесь меню Bulk Export, чтобы экспортировать CSV ‘All Links’. Это позволит вам получить все местоположения ссылок, а также соответствующий якорный текст, директивы и т.д.

Все ссылки могут быть большим отчетом. Помните об этом при экспорте. Для большого сайта этот экспорт может занять несколько минут.

Чтобы быстро подсчитать количество ссылок на каждой странице, перейдите на вкладку «Internal» и отсортируйте по «Outlinks». Все, что превышает 100, может потребовать пересмотра.

Как найти неработающие внутренние ссылки на странице или сайте

Если вам не нужно проверять изображения, JavaScript, flash или CSS сайта, снимите выделение этих опций в меню конфигурации паука, чтобы сэкономить время обработки и память.

После того как паук закончит сканирование, отсортируйте результаты на вкладке «Internal» по «Status Code». Любые 404, 301 или другие коды статуса будут легко просматриваться.

При нажатии на любой отдельный URL-адрес в результатах сканирования вы увидите изменение информации в нижнем окне программы. Перейдя на вкладку ‘In Links’ в нижнем окне, вы увидите список страниц, которые ссылаются на выбранный URL, а также якорный текст и директивы, используемые в этих ссылках. Вы можете использовать эту функцию для выявления страниц, на которых необходимо обновить внутренние ссылки.

Чтобы экспортировать полный список страниц, содержащих неработающие или перенаправленные ссылки, выберите «Redirection (3xx) In Links» или «Client Error (4xx) In Links» или «Server Error (5xx) In Links» в меню «Advanced Export», и вы получите экспорт данных в формате CSV.

Чтобы экспортировать полный список страниц, содержащих неработающие или перенаправленные ссылки, зайдите в меню Bulk Export. Прокрутите вниз до кодов ответов и просмотрите следующие отчеты:

  • No Response Inlinks (Входящие ссылки без ответа)
  • Redirection (3xx) Inlinks (Перенаправление (3xx) Входящие ссылки)
  • Redirection (JavaScript) Inlinks (Перенаправление (JavaScript) Внутренние ссылки)
  • Redirection (Meta Refresh) Inlinks (Перенаправление (Meta Refresh) Входящие ссылки)
  • Client Error (4xx) Inlinks (Ошибка клиента (4xx) Входящие ссылки)
  • Server Error (5xx) Inlinks (Ошибка сервера (5xx) Ссылки)

Просмотр всех этих отчетов должен дать нам адекватное представление о том, какие внутренние ссылки должны быть обновлены, чтобы они указывали на каноническую версию URL и эффективно распределяли ссылочный капитал.

Как найти неработающие исходящие ссылки на странице или сайте (или все исходящие ссылки в целом)

После удаления выбора ‘Check Images’, ‘Check CSS’, ‘Check JavaScript’ и ‘Check SWF’ в настройках конфигурации паука, убедитесь, что ‘Check External Links’ остается выбранным.

После того как паук закончит сканирование, перейдите на вкладку ‘External’ в верхнем окне, отсортируйте по ‘Status Code’ и вы легко сможете найти URL с кодами состояния, отличными от 200. Если щелкнуть на любом отдельном URL-адресе в результатах сканирования, а затем перейти на вкладку ‘In Links’ в нижнем окне, вы найдете список страниц, которые указывают на выбранный URL-адрес. Вы можете использовать эту функцию для определения страниц, на которых необходимо обновить исходящие ссылки.

Чтобы экспортировать полный список исходящих ссылок, нажмите «Внешние ссылки» на вкладке «Массовый экспорт».

Для получения полного списка всех местоположений и якорного текста исходящих ссылок выберите ‘All Outlinks’ в меню ‘Bulk Export’. Отчет «All Outlinks» будет включать исходящие ссылки на ваши поддомены; если вы хотите исключить ваш домен, перейдите к отчету «External Links», о котором говорилось выше.

Как найти ссылки, которые перенаправляются

После того, как паук закончил сканирование, выберите вкладку ‘Response Codes’ в главном пользовательском интерфейсе и отфильтруйте по Status Code. Поскольку Screaming Frog использует регулярные выражения для поиска, используйте следующие критерии в качестве фильтра: 301|302|307. Это должно дать вам довольно солидный список всех ссылок, которые вернулись с каким-либо перенаправлением, независимо от того, был ли контент постоянно перемещен, найден и перенаправлен, или временно перенаправлен из-за настроек HSTS (это вероятная причина 307 перенаправления в Screaming Frog). Отсортируйте по ‘Status Code’, и вы сможете разбить результаты по типам. Перейдите на вкладку ‘In Links’ в нижнем окне, чтобы просмотреть все страницы, на которых используется перенаправляющая ссылка.

Если вы экспортируете данные непосредственно с этой вкладки, вы увидите только те данные, которые показаны в верхнем окне (исходный URL, код состояния и место, куда перенаправляет ссылка).

Чтобы экспортировать полный список страниц, включающих перенаправляющие ссылки, вам нужно выбрать ‘Redirection (3xx) In Links’ в меню ‘Advanced Export’. В результате вы получите CSV, содержащий расположение всех ваших перенаправленных ссылок. Чтобы показать только внутренние перенаправления, отфильтруйте столбец ‘Destination’ в CSV, чтобы включить только ваш домен.

Совет:

Используйте VLOOKUP между двумя вышеуказанными экспортными файлами, чтобы сопоставить столбцы Source и Destination с окончательным местоположением URL.

Пример формулы:

=VLOOKUP([@Destination],’response_codes_redirection_(3xx).csv’!$A$3:$F$50,6,FALSE)

(Где ‘response_codes_redirection_(3xx).csv’ — CSV файл, содержащий URL перенаправления, а ’50’ — количество строк в этом файле).

Контент сайта

Как определить страницы с “тонким” контентом

После того, как паук закончил сканирование, перейдите на вкладку ‘Internal’, отфильтруйте по HTML, затем прокрутите страницу вправо до столбца ‘Word Count’. Отсортируйте столбец ‘Word Count’ от низкого к высокому, чтобы найти страницы с низким содержанием текста. Вы можете перетащить столбец ‘Word Count’ влево, чтобы лучше сопоставить низкие значения количества слов с соответствующими URL-адресами. Нажмите кнопку «Export» на вкладке «Internal», если вы предпочитаете работать с данными в формате CSV.

Мне нужен список ссылок на изображения на определенной странице

Если вы уже просканировали весь сайт или подкаталог, просто выберите страницу в верхнем окне, затем нажмите на вкладку ‘Image Info’ в нижнем окне, чтобы просмотреть все изображения, которые были найдены на этой странице. Изображения будут перечислены в столбце «To».

Совет профессионала:

Щелкните правой кнопкой мыши на любой записи в нижнем окне, чтобы скопировать или открыть URL-адрес.

Кроме того, вы можете просмотреть изображения на одной странице, выполнив поиск только по этому URL. Убедитесь, что глубина просмотра установлена на ‘1’ в настройках конфигурации паука, затем, когда страница будет просмотрена, перейдите на вкладку ‘Images’, и вы увидите все изображения, которые нашел паук.

Как найти изображения, у которых отсутствует alt-текст, или изображения, у которых alt-текст длинный

Во-первых, вы должны убедиться, что опция ‘Check Images’ выбрана в меню Spider Configuration. После того, как паук закончит поиск, перейдите на вкладку ‘Images’ и отфильтруйте изображения по ‘Missing Alt Text’ или ‘Alt Text Over 100 Characters’. Вы можете найти страницы, на которых находится любое изображение, нажав на вкладку ‘Image Info’ в нижнем окне. Страницы будут перечислены в колонке ‘From’.

Наконец, если вы предпочитаете CSV, используйте меню ‘Bulk Export’ для экспорта ‘All Images’ или ‘Images Missing Alt Text Inlinks’, чтобы увидеть полный список изображений, где они расположены и любой связанный с ними alt text или проблемы с alt text.

Кроме того, используйте правую боковую панель для перехода к разделу «Images»; здесь вы можете легко экспортировать список всех изображений с отсутствующим alt-текстом.

Как найти все CSS файлы на моем сайте

В меню Spider Configuration выберите ‘Crawl’ и ‘Store’ CSS перед просмотром, затем, когда просмотр будет завершен, отфильтруйте результаты во вкладке ‘Internal’ по ‘CSS’.

Как найти каждый файл JavaScript на моем сайте

В меню Spider Configuration выберите ‘Check JavaScript’ перед просмотром, затем, когда просмотр будет завершен, отфильтруйте результаты во вкладке ‘Internal’ по ‘JavaScript’.

Как определить все плагины jQuery, используемые на сайте, и на каких страницах они используются

Во-первых, убедитесь, что опция ‘Check JavaScript’ выбрана в меню Spider Configuration. После того как паук закончит поиск, отфильтруйте вкладку ‘Internal’ по ‘JavaScript’, а затем выполните поиск по ‘jquery’. В результате вы получите список файлов плагинов. При необходимости отсортируйте список по ‘Address’ для более удобного просмотра, затем просмотрите ‘InLinks’ в нижнем окне или экспортируйте данные в CSV, чтобы найти страницы, на которых используется файл. Они будут находиться в колонке ‘From’.

Также вы можете использовать меню ‘Advanced Export’ для экспорта CSV ‘All Links’ и отфильтровать столбец ‘Destination’, чтобы показать только URL-адреса с ‘jquery’.

Профессиональный совет:

Не все плагины jQuery вредны для SEO. Если вы видите, что на сайте используется jQuery, лучше всего убедиться, что контент, который вы хотите проиндексировать, включен в исходный текст страницы и передается при ее загрузке, а не после. Если вы все еще не уверены, погуглите плагин, чтобы получить больше информации о том, как он работает.

Как найти, где на сайте внедрен flash

В меню Spider Configuration выберите ‘Check SWF’ перед началом сканирования, затем, когда сканирование будет завершено, отфильтруйте результаты на вкладке ‘Internal’ по ‘Flash’.

Это становится все более важным для поиска и идентификации содержимого, передаваемого с помощью Flash, и предложения альтернативного кода для этого содержимого. Chrome находится в процессе повсеместного отказа от Flash; это действительно то, что следует использовать для выявления проблем с критическим содержимым и Flash на сайте.

Примечание: Этот метод позволяет найти только файлы .SWF, связанные со страницей. Если Flash подтягивается через JavaScript, вам нужно будет использовать специальный фильтр.

Как найти все внутренние PDF файлы, на которые есть ссылки на сайте

После того, как паук закончил поиск, отфильтруйте результаты во вкладке ‘Internal’ по ‘PDF’.

Как понять сегментацию контента внутри сайта или группы страниц

Если вы хотите найти страницы вашего сайта, содержащие определенный тип контента, установите пользовательский фильтр для отпечатка HTML, уникального для данной страницы. Это нужно сделать *до* запуска паука.

Как найти страницы, на которых есть кнопки поделиться в соцсетях

Чтобы найти страницы, содержащие кнопки поделиться в соцсетях, вам нужно установить пользовательский фильтр перед запуском паука. Чтобы установить пользовательский фильтр, перейдите в меню Конфигурация и нажмите ‘Custom’. Оттуда введите любой фрагмент кода из источника страницы.

В приведенном выше примере я хотел найти страницы, содержащие кнопку Facebook «Мне нравится», поэтому я создал фильтр для facebook.com/plugins/like.php.

Как найти страницы, использующие iframes

Чтобы найти страницы, использующие iframe, установите пользовательский фильтр для <iframe перед запуском паука.

Как найти страницы, содержащие встроенное видео или аудио содержимое

Чтобы найти страницы, содержащие встроенное видео или аудио содержимое, установите пользовательский фильтр для фрагмента кода вставки для Youtube или любого другого медиаплеера, который используется на сайте.

Мета-данные и директивы

Как определить страницы с длинными заголовками, мета-описаниями или URL-адресами

После того, как паук закончил сканирование, перейдите на вкладку ‘Page Titles’ и отфильтруйте их по ‘Over 60 Characters’, чтобы увидеть слишком длинные заголовки страниц. То же самое можно сделать на вкладке ‘Meta Description’ или на вкладке ‘URI’.

Как найти дублирующиеся заголовки страниц, мета-описания или URL-адреса

После того, как паук закончил поиск, перейдите на вкладку ‘Page Titles’, затем отфильтруйте их по ‘Duplicate’. То же самое можно сделать на вкладках ‘Meta Description’ или ‘URI’.

Как найти дублированный контент и/или URL, которые необходимо переписать/перенаправить/канонизировать

После того, как паук закончил поиск, перейдите на вкладку ‘URI’, затем отфильтруйте по ‘Underscores’, ‘Uppercase’ или ‘Non ASCII Characters’ для просмотра URL, которые потенциально могут быть переписаны в более стандартную структуру. Отфильтруйте по ‘Duplicate’ и вы увидите все страницы, которые имеют несколько версий URL. Фильтр по ‘Параметрам’ позволяет увидеть URL-адреса, содержащие параметры.

Кроме того, если вы перейдете на вкладку ‘Internal’, отфильтруете по ‘HTML’ и прокрутите колонку ‘Hash’ в крайнем правом углу, вы увидите уникальную серию букв и цифр для каждой страницы. Если вы нажмете кнопку «Экспорт», вы сможете использовать условное форматирование в Excel, чтобы выделить дублирующиеся значения в этом столбце, что в конечном итоге покажет вам страницы, которые идентичны и требуют внимания.

Как определить все страницы, которые включают мета-директивы, например: nofollow/noindex/noodp/canonical и т.д.

После того, как паук закончил сканирование, перейдите на вкладку ‘Directives’. Чтобы увидеть тип директивы, просто прокрутите страницу вправо и посмотрите, какие столбцы заполнены, или воспользуйтесь фильтром, чтобы найти любой из следующих тегов:

  • index
  • noindex
  • follow
  • nofollow
  • noarchive
  • nosnippet
  • noodp
  • noydir
  • noimageindex
  • notranslate
  • unavailable_after
  • refresh

Как проверить, что мой файл robots.txt работает так, как нужно

По умолчанию, Screaming Frog будет соблюдать инструкции robots.txt. В первую очередь, он будет следовать директивам, сделанным специально для пользовательского агента Screaming Frog. Если нет директив специально для агента пользователя Screaming Frog, то паук будет следовать любым директивам для Googlebot, а если нет специальных директив для Googlebot, то паук будет следовать глобальным директивам для всех агентов пользователя. Паук будет следовать только одному набору директив, поэтому если есть правила, установленные специально для Screaming Frog, он будет следовать только этим правилам, а не правилам для Googlebot или любым глобальным правилам. Если вы хотите заблокировать определенные части сайта от паука, используйте обычный синтаксис robots.txt с агентом пользователя ‘Screaming Frog SEO Spider’. Если вы хотите игнорировать robots.txt, просто выберите эту опцию в настройках конфигурации паука.

Configuration > Robots.txt > Settings

Как найти или проверить разметку Schema или другие микроданные на моем сайте

Чтобы найти каждую страницу, которая содержит разметку Schema или любые другие микроданные, вам необходимо использовать пользовательские фильтры. Просто нажмите на ‘Custom’ → ‘Search’ в меню конфигурации и введите искомый след.

Чтобы найти каждую страницу, содержащую разметку Schema, просто добавьте следующий фрагмент кода в пользовательский фильтр: itemtype=http://schema.org

Чтобы найти определенный тип разметки, вам придется уточнить его. Например, используя пользовательский фильтр для ‘span itemprop=»ratingValue»‘, вы получите все страницы, содержащие разметку Schema для оценок.

Начиная с версии Screaming Frog 11.0, SEO-паук также предлагает нам возможность сканировать, извлекать и проверять структурированные данные непосредственно из краулинга. Проверяйте любые структурированные данные JSON-LD, Microdata или RDFa в соответствии с рекомендациями Schema.org и спецификациями Google в режиме реального времени по мере сканирования. Чтобы получить доступ к инструментам проверки структурированных данных, выберите опции в разделе «Config > Spider > Advanced».

В главном интерфейсе появится вкладка «Структурированные данные» (Structured Data), которая позволяет переключаться между страницами, содержащими структурированные данные, отсутствующими структурированными данными, а также страницами с ошибками проверки или предупреждениями:

Вы также можете экспортировать проблемы со структурированными данными в массовом порядке, посетив раздел «Reports > Structured Data > Validation Errors & Warnings.».

Sitemap

Как создать XML Sitemap

После того, как паук закончил сканирование вашего сайта, нажмите на меню «Sitemaps» и выберите «XML Sitemap».

Открыв настройки конфигурации XML Sitemap, вы сможете включить или исключить страницы по кодам ответа, последним изменениям, приоритету, частоте изменений, изображениям и т.д. По умолчанию Screaming Frog включает только URL-адреса 2xx, но это хорошее правило — всегда перепроверять.

В идеале, ваша XML sitemap должна включать только единственную, предпочтительную (каноническую) версию каждого URL со статусом 200, без параметров или других дублирующих факторов. После внесения всех изменений нажмите кнопку OK. Файл XML sitemap загрузится на ваше устройство, и вы сможете отредактировать соглашение об именовании по своему усмотрению.

Создание карты сайта XML путем загрузки URL-адресов

Вы также можете создать XML sitemap, загрузив URL-адреса из существующего файла или вставив их вручную в Screaming Frog.

Измените «Режим» с «Паук» на «Список» и нажмите на выпадающий список «Загрузить», чтобы выбрать любой из вариантов.

Нажмите кнопку «Старт», и Screaming Frog начнет просматривать загруженные URL-адреса. После того, как URL будут просмотрены, вы будете следовать тому же процессу, что и выше.

Как проверить существующий XML Sitemap

Вы можете легко загрузить существующую XML карту сайта или индекс карты сайта, чтобы проверить ее на наличие ошибок или несоответствий.

Перейдите в меню ‘Mode’ в Screaming Frog и выберите ‘List’. Затем нажмите «Upload» в верхней части экрана, выберите «Download Sitemap» или «Download Sitemap Index», введите URL-адрес карты сайта и начните сканирование. После того как паук закончит сканирование, вы сможете найти любые перенаправления, ошибки 404, дублированные URL и многое другое. Вы можете легко экспортировать выявленные ошибки.

Выявление отсутствующих страниц в XML Sitemap

Вы можете настроить параметры краулинга для обнаружения и сравнения URL-адресов в XML-карте сайта с URL-адресами в краулинге сайта.

Перейдите в ‘Configuration’ -> ‘Spider’ в главной навигации и внизу есть несколько опций для XML sitemaps — автоматическое обнаружение XML sitemaps через файл robots.txt или ручной ввод ссылки XML sitemap в поле. *Важное замечание — если ваш файл robots.txt не содержит надлежащих ссылок назначения на все XML sitemap, которые вы хотите получить, вы должны ввести их вручную.

После обновления настроек краулинга XML Sitemap перейдите к разделу «Crawl Analysis» в навигации, затем нажмите «Configure» и убедитесь, что кнопка Sitemaps отмечена. Сначала необходимо выполнить полное сканирование сайта, затем вернуться в «Crawl Analysis» и нажать кнопку Start.

После завершения Crawl Analysis вы сможете увидеть любые несоответствия, например, URL-адреса, которые были обнаружены в ходе полного обхода сайта и отсутствуют в XML sitemap.

Устранение общих неполадок

Как определить, почему определенные разделы моего сайта не индексируются или не ранжируются

Интересуетесь, почему определенные страницы не индексируются? Во-первых, убедитесь, что они не были случайно помещены в robots.txt или помечены как noindex. Затем необходимо убедиться, что пауки могут добраться до страниц, проверив внутренние ссылки. Страница, на которую нет внутренней ссылки на вашем сайте, часто называется «сиротской”.

Для того чтобы определить все подобные страницы, выполните следующие действия:

  • Перейдите в ‘Configuration’ -> ‘Spider’ в главной навигации, там внизу есть несколько опций для XML sitemap — Автоматическое обнаружение XML sitemap через ваш файл robots.txt или ручной ввод ссылки XML sitemap в поле. *Важное замечание — если ваш файл robots.txt не содержит надлежащих ссылок назначения на все XML sitemap, которые вы хотите получить, вам следует ввести их вручную.
  • Перейдите в раздел ‘Configuration → API Access’ → ‘Google Analytics’ — с помощью API вы можете получить данные аналитики для определенного аккаунта и вида. Чтобы найти страницы-«сироты» из органического поиска, убедитесь, что проведена сегментация по ‘Organic Traffic’
  • Вы также можете зайти в General → ‘Crawl New URLs Discovered In Google Analytics’, если хотите, чтобы URLs, обнаруженные в GA, были включены в полный обход сайта. Если эта функция не включена, вы сможете просматривать новые URL, полученные из GA, только в отчете Orphaned Pages (“сиротским” страницам).
  • Перейдите в раздел ‘Configuration → API Access’ → ‘Google Search Console’ — с помощью API вы можете получить данные GSC для определенного аккаунта и вида. Чтобы найти страницы-«сироты», вы можете искать URL-адреса, получающие клики и впечатления, которые не включены в ваш краулинг.
  • Вы также можете зайти в General → ‘Crawl New URLs Discovered In Google Search Console’, если хотите, чтобы URLs, обнаруженные в GSC, были включены в полный обход сайта. Если эта функция не включена, вы сможете просматривать новые URL-адреса, полученные из GSC, только в отчете Orphaned Pages.
  • Выполните сканирование всего сайта. После завершения обхода перейдите в меню ‘Crawl Analysis –> Start’ и дождитесь его завершения.
  • Просмотрите “сиротские” URL-адреса на каждой из вкладок или экспортируйте все осиротевшие URL-адреса оптом, перейдя в Reports → Orphan Pages.

Если у вас нет доступа к Google Analytics или GSC, вы можете экспортировать список внутренних URL в файл .CSV, используя фильтр ‘HTML’ на вкладке ‘Internal’.

Откройте CSV-файл и на втором листе вставьте список URL, которые не индексируются или плохо ранжируются. Используйте VLOOKUP, чтобы проверить, были ли URL из вашего списка на втором листе найдены в ходе сканирования.

Как проверить, была ли миграция/редизайн моего сайта успешной

У @ipullrank есть отличный Whiteboard Friday на эту тему, но общая идея в том, что вы можете использовать Screaming Frog для проверки того, перенаправляются ли старые URL, используя режим ‘List’ для проверки кодов состояния. Если старые URL-адреса выдают 404, то вы будете знать, какие URL-адреса еще нужно перенаправить.

Как найти медленно загружающиеся страницы на моем сайте

После того, как паук закончил сканирование, перейдите на вкладку ‘Response Codes’ и отсортируйте по столбцу ‘Response Time’ от высокого к низкому, чтобы найти страницы, которые могут страдать от низкой скорости загрузки.

Как найти вредоносное ПО или спам на моем сайте

Во-первых, вам нужно определить посадочное место вредоносного ПО или спама. Далее, в меню Конфигурация, нажмите на ‘Custom’ → ‘Search’ и введите посадочное место, которое вы ищете.

Вы можете ввести до 10 различных посадочных мест для каждого сканирования. Наконец, нажмите OK и перейдите к просмотру сайта или списка страниц.

Когда паук закончит сканирование, выберите вкладку «Custom» в верхнем окне, чтобы просмотреть все страницы, содержащие ваши посадочные места. Если вы ввели более одного пользовательского фильтра, вы можете просмотреть каждый из них, изменив фильтр на результатах.

PPC и аналитика

Как проверить, что мой код Google Analytics находится на каждой странице или на определенном наборе страниц моего сайта

Начните с выбора Пользовательских фильтров в разделе Конфигурация.

Определите, что вы хотите искать в фильтрах. Обычно один фильтр показывает страницы, содержащие нужную информацию, а другой — страницы, не содержащие ее. Например, фильтры 1 и 2 обычно представляют собой страницы, содержащие или не содержащие номер UA.

Для примера ниже использован номер UA компании SEER: UA-11852503-1.

Если сайт использует кросс-доменное отслеживание, поскольку он охватывает несколько доменов или субдоменов, возьмите строку кода для кросс-доменного отслеживания и поместите ее в фильтры 3 и 4. Сделайте один фильтр Contains, а другой — Does Not Contain.

Для примера ниже использованы setDomainName’, ‘seerinteractive.com.

Для фильтра 5 попробуйте добавить фрагмент из второй части кода GA. Я был удивлен количеством сайтов, которые отбрасывают вторую часть и сохраняют только верхнюю часть кода.

Для примера ниже использован google-analytics.com/ga.js.

После того как все настройки выполнены, введите URL-адрес в Screaming Frog и нажмите кнопку Start.

Оттуда перейдите на вкладку Custom. Данные, которые отображаются, будут относиться к любому из ваших фильтров. Вы можете быстро проверить данные фильтров на наличие проблем или экспортировать данные из каждого фильтра в CSV для дальнейшего анализа или отправки клиенту.

Как проверить список PPC URLs в массовом порядке

Сохраните ваш список в формате .txt или .csv, затем измените настройки ‘Mode’ на ‘List’.

Затем выберите файл для загрузки и нажмите ‘Start’ или вставьте список вручную в Screaming Frog. Посмотрите код состояния каждой страницы на вкладке «Internal».

Скраппинг

Как произвести скраппинг метаданных для списка страниц

Итак, вы собрали кучу URL, но вам нужно больше информации о них? Установите режим ‘List’, затем загрузите список URL в формате .txt или .csv. После того, как паук закончит работу, вы сможете увидеть коды статуса, исходящие ссылки, количество слов и, конечно же, метаданные для каждой страницы из вашего списка.

Как найти на сайте все страницы, содержащие определенное посадочное место

Сначала вам нужно определить посадочное место. Далее, в меню Конфигурация, нажмите на ‘Custom’ → ‘Search’ или ‘Extraction’ и введите посадочное место, которое вы ищете.

Вы можете ввести до 10 различных посадочных мест для каждого краулинга. Наконец, нажмите OK и приступайте к краулингу сайта или списка страниц. В приведенном ниже примере я хотел найти все страницы, на которых в разделе цен написано «Пожалуйста, позвоните», поэтому я нашел и скопировал HTML-код из источника страницы.

Когда паук закончит краулинг, выберите вкладку «Custom» в верхнем окне, чтобы просмотреть все страницы, содержащие ваше посадочное место. Если вы ввели более одного пользовательского фильтра, вы можете просмотреть каждый из них, изменив фильтр в результатах.

Ниже приведены дополнительные общие посадочные места, которые вы можете соскраппить с веб-сайтов и которые могут быть полезны для вашего SEO-аудита:

  • http://schema.org — Поиск страниц, содержащих schema.org
  • youtube.com/embed/|youtu.be|<video|player.vimeo.com/video/|wistia.(com|net)/embed|sproutvideo.com/embed/|view.vzaar.com|dailymotion.com/embed/|players.brightcove.net/|play.vidyard.com/|kaltura.com/(p|kwidget)/ — Поиск страниц, содержащих видеоконтент.

Профессиональный совет:

Если вы извлекаете данные о продуктах с сайта клиента, вы можете сэкономить себе время, попросив клиента извлечь данные непосредственно из его базы данных. Приведенный выше метод предназначен для сайтов, к которым у вас нет прямого доступа.

Переписывание URL

Как найти и удалить идентификатор сеанса или другие параметры из моих просмотренных URL

Чтобы определить URL с идентификатором сессии или другими параметрами, просто выполните сканирование вашего сайта с настройками по умолчанию. Когда паук закончит работу, перейдите на вкладку «URI» и отфильтруйте «Parameters», чтобы просмотреть все URL-адреса, содержащие параметры.

Чтобы убрать параметры из URL, которые вы сканируете, выберите в меню конфигурации ‘URL Rewriting’, затем на вкладке ‘Remove Parameters’ нажмите ‘Add’, чтобы добавить параметры, которые вы хотите убрать из URL, и нажмите ‘OK’. Вам придется запустить паука снова с этими настройками, чтобы переписывание произошло.

Как переписать URL (например: заменить .com на .co.uk, или писать все URL в нижнем регистре)

Чтобы переписать любой URL, выберите ‘URL Rewriting’ в меню Configuration, затем во вкладке ‘Regex Replace’ нажмите ‘Add’, чтобы добавить RegEx для того, что вы хотите заменить.

После добавления всех необходимых правил вы можете протестировать правила на вкладке ‘Тест’, введя тестовый URL в поле ‘URL before rewriting’. ‘URL after rewriting’ будет автоматически обновлен в соответствии с вашими правилами.

Если вы хотите установить правило, чтобы все URL возвращались в нижнем регистре, просто выберите ‘Lowercase discovered URLs’ на вкладке ‘Options’. Это устранит дублирование URL с заглавными буквами.

Помните, что вам придется запустить паука с этими настройками, чтобы произошло переписывание URL.

Исследование ключевых слов

Как узнать, какие страницы наиболее ценны для моих конкурентов

Как правило, конкуренты пытаются увеличить популярность ссылок и привлечь трафик на свои наиболее ценные страницы, размещая на них внутренние ссылки. Любой SEO-мыслящий конкурент, вероятно, также будет ссылаться на важные страницы из своего блога. Чтобы найти ценные страницы конкурентов, просмотрите их сайт, а затем отсортируйте вкладку «Internal» по столбцу «Inlinks» от наибольшего к наименьшему, чтобы увидеть, на каких страницах больше всего внутренних ссылок.

Чтобы просмотреть страницы, на которые ведут ссылки из блога конкурента, снимите флажок ‘Check links outside folder’ («Проверять ссылки вне папки») в меню «Конфигурация паука» и просмотрите папку/поддомен блога. Затем на вкладке ‘External’ отфильтруйте результаты, используя поиск по URL-адресу основного домена. Прокрутите список вправо и отсортируйте его по колонке ‘Inlinks’, чтобы увидеть, на какие страницы чаще всего ссылаются.

Профессиональный совет:

Перетаскивайте столбцы влево или вправо, чтобы улучшить вид данных.

Как узнать, какой анкорный текст используют мои конкуренты для внутренней перелинковки

В меню ‘Bulk Export’ выберите ‘All Anchor Text’, чтобы экспортировать CSV, содержащий весь анкорный текст на сайте, где он используется и на что он ссылается.

Как узнать, какие мета ключевые слова (если таковые имеются) добавили мои конкуренты на свои страницы

После того, как паук закончил работу, посмотрите на вкладку ‘Meta Keywords’, чтобы увидеть все мета ключевые слова, найденные для каждой страницы. Отсортируйте по столбцу ‘Meta Keyword 1’, чтобы упорядочить список по алфавиту и визуально отделить пустые записи, или просто экспортируйте весь список.

Линкбилдинг

Как проанализировать список перспективных мест размещения ссылок

Если вы провели скраппинг или иным образом составили список URL, которые необходимо проверить, вы можете загрузить и просмотреть их в режиме ‘List’, чтобы собрать больше информации о страницах. Когда паук закончит сканирование, проверьте коды состояния на вкладке «Response Codes» и просмотрите исходящие ссылки, типы ссылок, якорный текст и директивы nofollow на вкладке «Outlinks» в нижнем окне. Это даст вам представление о том, на какие сайты и как ссылаются эти страницы. Чтобы просмотреть вкладку «Outlinks», убедитесь, что интересующий вас URL выбран в верхнем окне.

Конечно, вы захотите использовать пользовательский фильтр, чтобы определить, ссылаются ли эти страницы уже на вас.

Вы также можете экспортировать полный список внешних ссылок, нажав на «All Outlinks» в «Bulk Export Menu». Это не только покажет вам ссылки на внешние сайты, но и покажет все внутренние ссылки на отдельных страницах в вашем списке.

Как найти неработающие ссылки, чтобы использовать их для аутрич-возможностей

Итак, вы нашли сайт, с которого вы хотели бы получить ссылку? Используйте Screaming Frog для поиска битых ссылок на нужной странице или на сайте в целом, затем свяжитесь с владельцем сайта, предложите свой сайт в качестве замены битой ссылки, если это возможно, или просто предложите битую ссылку в знак доброй воли.

Как проверить мои обратные ссылки и просмотреть анкорный текст

Загрузите список обратных ссылок и запустите паука в режиме ‘List’. Затем экспортируйте полный список исходящих ссылок, нажав на ‘All Out Links’ в ‘Advanced Export Menu’. В результате вы получите URL-адреса и якорный текст/alt-текст для всех ссылок на этих страницах. Затем вы можете использовать фильтр в столбце ‘Destination’ в CSV, чтобы определить, есть ли на вашем сайте ссылки и какой якорный текст/alt текст включен.

Я нахожусь в процессе очистки своих обратных ссылок и мне нужно проверить, что ссылки удаляются в соответствии с запросом

Установите пользовательский фильтр, содержащий URL вашего корневого домена, затем загрузите список обратных ссылок и запустите паука в режиме ‘List’. Когда паук закончит сканирование, выберите вкладку ‘Custom’, чтобы просмотреть все страницы, которые все еще ссылаются на вас.

Бонусный раунд

Знаете ли вы, что, щелкнув правой кнопкой мыши на любом URL в верхнем окне результатов, вы можете сделать любое из следующих действий?

  • Скопировать или открыть URL
  • Повторно просканировать URL или удалить его из просмотра
  • Экспортировать информацию об URL, входящие ссылки, исходящие ссылки или информацию об изображении для этой страницы.
  • Проверить индексацию страницы в Google, Bing и Yahoo
  • Проверить обратные ссылки страницы в Majestic, OSE, Ahrefs и Blekko
  • Посмотреть кэшированную версию/дату кэширования страницы
  • Посмотреть более старые версии страницы
  • Проверить валидность HTML страницы
  • Открsnm robots.txt для домена, на котором расположена страница
  • Искать другие домены на том же IP

Аналогично, в нижнем окне, щелкнув правой кнопкой мыши, вы можете:

  • Скопировать или открыть URL-адрес в столбце «To» или «From» для выбранной строки.

Как редактировать метаданные

Режим SERP Mode позволяет просматривать сниппеты поисковой выдачи по устройствам, чтобы наглядно показать, как ваши метаданные будут отображаться в результатах поиска.

  • Загрузите URL, заголовки и метаописания в Screaming Frog с помощью документа .CSV или Excel
  • Если вы уже выполнили сканирование своего сайта, вы можете экспортировать URL-адреса, перейдя в раздел ‘Reports → SERP Summary’. Это позволит легко отформатировать URL-адреса и мета-описания, которые вы хотите повторно загрузить и отредактировать.
  • Mode → SERP → Upload File
  • Редактирование метаданных в Screaming Frog
  • Массовый экспорт обновленных метаданных для отправки непосредственно разработчикам для обновления

Как просканировать сайт с JavaScript

Все чаще сайты строятся с использованием JavaScript-фреймворков, таких как Angular, React и т. д. Google настоятельно рекомендует использовать решение для рендеринга, поскольку Googlebot все еще с трудом справляется с содержимым на javascript. Если вы обнаружили сайт, построенный с использованием javascript, следуйте приведенным ниже инструкциям, чтобы сканировать его.

  • ‘Configuration → Spider → Rendering → JavaScript
  • Измените настройки рендеринга в зависимости от того, что вы ищете. Вы можете настроить время ожидания, размер окна (мобильное, планшетное, настольное и т.д.).
  • Нажмите OK и сканируйте сайт.

В нижней навигации перейдите на вкладку Rendered Page («Рендеринг страницы»), чтобы посмотреть, как отображается страница. Если страница отображается некорректно, проверьте наличие заблокированных ресурсов или увеличьте лимит тайм-аута в настройках конфигурации. Если ни один из этих способов не помогает решить проблему рендеринга страницы, возможно, необходимо выявить более серьезную проблему.

Вы можете просмотреть и экспортировать в массовом порядке все заблокированные ресурсы, которые могут влиять на краулинг и рендеринг вашего сайта, перейдя в раздел ‘Bulk Export’ → ‘Response Codes’.

Просмотр оригинального HTML и рендеринга HTML

Если вы хотите сравнить исходный HTML и рендеринг HTML, чтобы выявить любые несоответствия или убедиться, что важное содержимое находится в DOM, перейдите в ‘Configuration’ → ‘Spider’ -> ‘Advanced’ и нажмите store HTML & store rendered HTML.

В нижнем окне вы сможете увидеть необработанный и преобразованный HTML. Это может помочь выявить проблемы с тем, как ваше содержимое отображается и просматривается краулерами.

Заключительные замечания

В заключение, я надеюсь, что это руководство даст вам лучшее представление о том, что Screaming Frog может сделать для вас. Оно сэкономило мне бесчисленное количество часов, поэтому я надеюсь, что оно поможет и вам!

Кстати, я не связан со Screaming Frog; я просто считаю, что это потрясающий инструмент.

Источник: https://www.seerinteractive.com/blog/screaming-frog-guide/

Добавить комментарий