Содержание
Парсеры сайтов по способу доступа к интерфейсу
Облачные парсеры
Облачные сервисы не требуют установки на ПК. Все данные хранятся на серверах разработчиков, вы скачиваете только результат парсинга. Доступ к программному обеспечению осуществляется через веб-интерфейс или по API.
Примеры облачных парсеров с англоязычным интерфейсом:
Screaming Frog SEO Spider
Пожалуй, самый популярный SEO-анализатор от британских разработчиков. С его помощью можно быстро и наглядно выяснить:
- содержимое, код ответа, статус индексации каждой страницы;
- длину и содержимое title и description;
- наличие и содержимое заголовков h1 и h2;
- информацию об изображениях на сайте — формат, размер, статус индексации;
- информацию по настройке канонических ссылок и пагинации;
- другие важные данные.
Бесплатная версия ограничена 500-ми url. В платной (лицензию можно купить на год) количество страниц для парсинга не ограничено, и она имеет гораздо больше возможностей. Среди них — парсинг цен, названий и описаний товаров с любого сайта. Как это сделать, мы подробно описали в гайде.
Netpeak Spider
Популярный инструмент для комплексного анализа сайта. Проверяет ресурс на ошибки внутренней оптимизации, анализирует важные для SEO параметры: битые ссылки, дубли страниц и метатегов, коды ответа, редиректы и другие. Можно импортировать данные из Google Search Console и систем веб-аналитики. Для агентств есть возможность сформировать брендированный отчет.
Инструмент платный, базовые функции доступны доступны во всех тарифах. Бесплатный пробный период — 14 дней.
ComparseR
Это программа, которая анализирует ресурс на предмет технических ошибок. Особенность парсера в том, что он также показывает все страницы сайта в индексе Яндекс и Google. Эта функция полезна, чтобы выяснить, какие url не попали в индекс, а какие находятся в поиске (и те ли это страницы, которые нужны оптимизатору).
Программу можно купить и установить на один компьютер. Для того, чтобы ознакомиться с принципом работы, скачайте демо-версию.
SiteAnalyzer от Majento
Бесплатная программа для сканирования всех страниц, скриптов, документов и изображений сайта. Используется для проведения технического SEO-аудита. Требует установки на ПК (ОС Windows), но может работать и со съемного носителя. «Вытаскивает» следующие данные: коды ответа сервера, наличие и содержимое метатегов и заголовков, определение атрибута rel=”canonical”, внешние и внутренние ссылки для каждой страницы, дубли страниц и другие.
Отчет можно экспортировать в форматы CSV, XLS и PDF.
Анализ сайта от SE Ranking
Инструмент анализирует ключевые параметры оптимизации сайта: наличие robots.txt и sitemap.xml, настройка главного зеркала, дубли страниц, коды ответа, метатеги и заголовки, технические ошибки, скорость загрузки, внутренние ссылки. По итогам сканирования сайту выставляется оценка по 100-балльной шкале. Есть опция создания XML-карты сайта. Полезная возможность для агентств — формирование брендированного отчета, который можно скачать в удобном формате или отправить на email. Отчеты запускаются вручную или по расписанию.
Возможны две модели оплаты — за проверки позиций и ежемесячная подписка. Бесплатный пробный период — 2 недели.
A-Parser
Этот сервис объединяет более 70 парсеров под разные цели: парсинг выдачи популярных поисковых систем, ключевых слов, приложений, социальных сетей, Яндекс и Google карт, крупнейших интернет-магазинов, контента и другие. Кроме использования готовых инструментов есть возможности для программирования собственных парсеров на основе регулярных выражений, XPath, JavaScript. Разработчики также предоставляют доступ по API.
Тарифы зависят от количества опций и срока бесплатных обновлений. Возможности парсера можно оценить в демо-версии, которая будет доступна в течение шести часов после регистрации.
Анализ сайта от PR-CY
Онлайн-инструмент для анализа сайтов более чем по 70 пунктам. Указывает на ошибки оптимизации, предлагает варианты их решения, формирует SEO-чеклист и рекомендации по улучшению ресурса. По итогам сканирования сайту выставляется оценка в процентах.
Бесплатно можно получить лишь общую информацию по количеству страниц в индексе, наличию/отсутствию вирусов и фильтров поисковых систем, ссылочному профилю и некоторые другие данные. Более детальный анализ платный. Тариф зависит от количества сайтов, страниц в них и проверок на аккаунте. Есть возможность для ежедневного мониторинга, сравнения с показателями конкурентов и выгрузки брендированных отчетов. Бесплатный пробный период — 7 дней.
Упомянем также о парсерах, которые решают узконаправленные задачи и могут быть полезны владельцам сайтов, вебмастерам и SEO-специалистам.
Xenu’s Link Sleuth
Бесплатная программа для парсинга всех url сайта: внешних и внутренних ссылок, ссылок на картинки и скрипты и т.д. Можно использовать для разных задач, в том числе, для поиска битых ссылок на сайте. Программу нужно скачать и установить на компьютер (ОС Windows).
По каждой ссылке будет показан ее статус, тип (например, text/plain или text/html), размер, анкор и ошибка.
Парсер метатегов и заголовков PromoPult
Это инструмент, который парсит метатеги title, description, keywords и заголовки h1-h6. Можно воспользоваться им для анализа своего проекта или сайтов-конкурентов. В первом случае легко выявить незаполненные, неинформативные, слишком длинные или короткие метатеги, дубли метаданных, во втором — выяснить, какие ключевые запросы используют конкуренты, определить структуру и логику формирования метатегов.
Добавить список url можно вручную, XLSX-файлом или ссылкой на XML-карту сайта. Отчеты выгружаются в форматах HTML и XLSX. Первые 500 запросов — бесплатно. Все нюансы работы с инструментом мы описали в гайде.
Инструкция по первому запуску программы
Перед работой с программой ознакомьтесь с ответами на технические вопросы о версиях Windows, Excel, как включить макросы и прочее.
Запуск на примере тестовой настройки для парсинга сайта-поставщика https://relefopt.ru/ (для наглядного восприятия посмотрите видео):
- Создаем в любом месте папку на жесткой диске или в облачном хранилище с произвольным названием, например, «Парсер». И скачиваем в неё программу Parser.xla.
- Заходим в папку «Парсер», кликаем правой кнопкой мыши по файлу программы Parser.xla, нажимаем «Свойства», ставим галочку «Разблокировать», жмем «Применить» затем «ОК»:
Открываем файл двойным кликом левой кнопкой мыши, в папке «Парсер» будет создана папка «Настройки парсеров» и запустится Excel с дополнительными элементами в ленте:</li>
В папку «Настройки парсеров» скачиваем файл настройки Relefopt.ruTest.xlp, далее в Экселе нажимаем «Дополнительно» и «Обновить панель инструментов»:</li> В ленте из выпадающего списка выбираем название «Relefopt.ruTest» и нажимаем «Начать загрузку данных»:</li> Ожидаем завершения загрузки данных. Исходя из технического задания на парсинг сайта relefopt.ru в процессе работы программы в папке с парсером созданы папки Downloads (для загрузки фото) и files (для сохранения файлов выгрузки) с подпапками для каждого раздела отдельно.</li> Если желаете прервать загрузку нажимаем «Отмена» — «Да»:</li></ul> Примечание: рассмотренный выше парсер загружает по одной позиции с каждой подкатегории сайта. Другие тестовые настройки можно найти в каталоге работ. Создать техническое задание на настройку программы «Парсер сайтов» можно тут. <
TurboFileHandler – программа для удаления дублей доменов или ссылок + создание выборок
April 17th, 2021 0 коммент. »
Программа TurboFileHandler предназначена для быстрого удаления дублей доменов или ссылок в очень больших файлах. Также с помощью TurboFileHandler можно делать выборки строк или ссылок из огромных текстовых файлов.
</strong></p>
Платформа:
Windows
Разрядность:
64 bit Программа может удалять дубли доменов ссылок или строк из файлов размером до 20 ГБ. Скорость обработки более 100 000 строк в секунду.
Также есть возможность делать выборки строк из очень больших файлов (например, извлечь ссылки на форумы).Подробнее »
CSVPRO – программа для обработки таблиц CSV с товарами
May 10th, 2021 4 коммент. »
Программа CSVPRO предназначена для обработки таблиц с товарами.
Перейти на сайт программы >>>
Подробнее »
О программе «Парсер сайтов»
Программа «Парсер сайтов» разработана для сбора, анализа, выборки, группировки, структуризации, трансформации данных с последующим выводом данных в таблицу Excel в форматах xls* и csv.
Парсер создан на VBA (Visual Basic for Applications) и представлен в виде надстройки для MS Excel, по сути это набор макросов, каждый набор отвечает за выполнение определенных функций при обработке.
Для парсинга любого сайта пишется подпрограмма управления макросами (файл-настройка с расширением .xlp).
Таким образом, для работы программы необходимы: файл надстройки Parser.xla и файл управления надстройкой Name.xlp (Name — имя файла).
C 01.07.2020 работаем с сайтами только спортивной тематики, приносим свои извинения.
ли со статьей или есть что добавить?