«Нужно всего-то писать полезный для юзера контент», — говорили они.
С одной стороны, что может быть проще? С другой стороны, постоянная генерация свежих идей для интересного и ценного с точки зрения вашей аудитории контента — задача не из лёгких. Где черпать идеи, когда иссякает вдохновение и запас заранее заготовленных корпоративных материалов? Как заново изобрести велосипед и создать контент, посвящённый, к примеру, уже давно раскрытой теме?
В поисках ответа на этот вопрос мы решили обратиться к нашим конкурентам. Их опыт может быть источником ценной информации о том, что наиболее востребовано и интересно для нашей целевой аудитории.
Ниже мы расскажем о том, как при помощи Netpeak Spider найти наиболее востребованный контент на сайтах ваших конкурентов и позаимствовать у них идеи для собственных публикаций. В качестве примера мы проведём анализ контента на сайте онлайн-журнала wonderzine.com.
1. Выбираем показатели для оценки популярности
Уровень популярности и востребованности контента можно оценивать по ряду различных показателей: это могут быть просмотры, лайки (отметки «мне нравится» и т. п.), шейры (репосты) или комментарии. Выбор будет зависеть от двух вещей — от вашей личной заинтересованности и от того, какой из показателей публично доступен на выбранном сайте.
В случае с Wonderzine мы видим на каждой странице счётчик комментариев и просмотров, соответственно — отталкиваться нам придётся исключительно от их числа.
Для того, чтобы спарсить данные со всего сайта (или раздела), вам нужно:
- Открыть страницу любой публикации на сайте.
- Найти счётчик и выделить его левой кнопкой мыши.
- Кликнуть по нему правой кнопкой мыши и выбрать пункт «Просмотреть код».
- В той части окна, где по клику отобразился код страницы, кликнуть по подсвеченной строке правой кнопкой мыши. В открывшемся меню выберите «Копировать» / «Копировать XPath».
XPath — это тип данных, которые мы будем использовать в рамках данного кейса. В зависимости от строения сайта и задач, решаемых с помощью парсинга, это могут быть и другие типы — например, RegExp или CSS-селектор.
Полученный код будет лучше сохранить в файл, чтобы в случае необходимости не нужно было «добывать» его с сайта заново.
Что дальше? Запускаем Netpeak Spider и начинаем настраивать процедуру парсинга (извлечения данных с сайта). Для этого нужно:
- В основном меню программы выбрать «Настройки» / «Парсинг».
- В открывшемся окне поставить флажок возле опции «Использовать парсинг HTML-данных».
- С учётом того, что мы будем запускать парсинг по двум показателям, у нас будет 2 потока. Для удобства обработки данных лучше задать потокам имена: «Комментарии» и «Просмотры».
- Выберите тип данных, по которым идёт поиск (в данном случае это XPath) и область поиска (Внутренний текст).
- В строку поиска поместите тот самый XPath, который мы советовали вам сохранить ранее.
Исходя из того, что нам нужны данные сразу по двум показателям, то всю процедуру нужно будет проделать дважды и лишь затем запускать поиск.
2. Ограничение поиска рамками категории или раздела
Если для получения максимально полных и достоверных данных вам нужно проанализировать контент со всего сайта, нет необходимости выставлять какие-то специфические настройки — вполне подойдут настройки, выставленные в Netpeak Spider по умолчанию.
Если вас интересует определённый раздел или категория публикаций, нужно выполнить один из двух сценариев настроек:
- Запустить сканирование исключительно внутри раздела.
- Запустить сканирование с применением «Правил».
2.1. Настройка сканирования внутри раздела
Этот метод будет уместен в том случае, если адрес категории и адреса страниц, относящихся к этой категории, начинаются одинаково.
К примеру:
wonderzine.com/wonderzine/health — адрес категории.
wonderzine.com/wonderzine/health/personal/235007-i-m-a-previvor — адрес материала, который относится к этой категории.
2.2. Настройка правил сканирования
Обращаться ко второму методу следует тогда, когда адреса категории и публикаций, относящихся к ней, не совпадают. Соответственно, чтобы не упустить существующие в этом разделе материалы, вам нужно задать правила, согласно которым будут сканироваться все нужные, отвечающие вашим запросам страницы.
К примеру, URL блога может иметь вид website.com/blog, но все посты блога будут начинаться с website.com/post.
В нашем случае адреса материалов начинаются так же, как и адрес блога, потому в использовании правил нет необходимости.
Чтобы задать правила для сканирования, выполните следующие действия:
- Откройте «Настройки» / «Правила».
- Включите «Использовать правила сканирования».
- Выберите тип соответствия (к примеру, «начинается с»).
- Вставьте в строку поиска ту часть URL, с которой начинаются материалы интересующего вас раздела или категории.
- Нажмите «ОК», чтобы применить настройки.
3. Запуск сканирования и выгрузка результатов
Прежде, чем запускать сканирование, вам нужно:
- Убедиться в корректности настроек сканирования и парсинга, а также правильности выставленных правил.
- Отключить все параметры на боковой панели в основном окне программы, кроме Title и Description (они понадобятся вам для быстрой оценки результатов без необходимости открывать каждую ссылку по отдельности). Вы сможете найти их на вкладке «Параметры».
Удостоверившись в правильности всех параметров, запускайте сканирование.
После завершения процедуры в основном окне программы на вкладке «Все результаты» вы увидите список всех просканированных страниц, данные тегов Title и Description по каждой из них, а также всю информацию о том, на каких страницах были найдены показатели счётчиков (комментарии, просмотры и лайки).
Чтобы увидеть все значения показателей вовлечённости и упорядочить их в порядке возрастания или убывания, откройте на боковой панели вкладку «Отчёты» / «Парсинг» и нажмите на кнопку «Все результаты».
В открывшемся окне будет представлен отчёт, данные которого удобно сортировать и экспортировать в формате .cvs или .xlsx.
Отсортировав информацию, полученную с помощью функции парсинга, вы можете составить выборку, чтобы делать дальнейшие выводы и строить темы для собственного контент-плана.
Кстати, для всех читателей нашего блога действует скидка 10% на покупку лицензии Netpeak Spider. Для этого достаточно перейти по этой ссылке на сайт Netpeak Software или использовать при оплате промокод 2b7448a4.