Парсим контент к себе на сайт простейшим способом.

Lasto's Abductor, Похититель буковок Lasto's Abductor, Похититель буковок

Парсим контент к себе на сайт простейшим способом.

Очень часто у владельцев сайтов возникает необходимость публикации каких-то динамических данных с других сайтов. Например, кому-то нравится публиковать информацию о погоде в своем городе, кто-то публикует программу телепередач для любимого канала, различные анонсы и т.п. Упростить задачу можно с помощью парсера. В нашем случае напишем его на php и условимся, что ваш хостинг его поддерживает. Никаких особых навыков программирования от читателя не требуется.

Парсер контента: введение.

Допустим, интересующая нас информация есть на каком-нибудь стороннем сайте и там же обновляется. Разумеется, можно периодически посещать сайт с информацией, копировать ее оттуда и обновлять у себя на сайте пресловутыми: Ctrl+C и Ctrl+V. Но можно и не заходить, а поручить задачу несложному скрипту - парсеру, который по требованию: зайдет на сайт-донор, найдет и вырежет нужную нам информацию и отобразит ее на нашем сайте. Проще говоря, информация с другого сайта будет публиковаться на вашем в полностью автоматическом режиме. Если перспектива для вас радужная - читаем далее.

Итак, пишем свой скрипт, который заходит на какой-нибудь сайт, выдергивает кусок нужной нам информации и публикует его на нашем сайте. Никаких программистских навыков от вас не требуется, делаем все попунктно и пробуем реализацию на своем блоге.

Реализация парсера на PHP

Пожалуй, самый ответственный момент в нашем случае - это поиск донора, то есть сайта, на котором будет появляться интересующая нас информация. Сайт должен работать бесперебойно, выполнять свои обязанности по обновлению информации исправно и текст должен быть открытый (то есть, открыв исходный код страницы в браузере - мы должны видеть там интересующую нас информацию).

Когда сайт-донор и нужная нам страница для парсинга найдена, запоминаем ее урл и переходим к следующему этапу. Создаем в блокноте текстовый файл, например parser.php и помещаем в него следующий код:

<?php

#откуда будем парсить информацию:
$content=file_get_contents('URL донора');

#начало забираемого контента:
$pos=strpos($content,'код, размещенный перед контентом');

Отрезаем все, что идет до нужной нам позиции:
$content=substr($content,$pos);

Таким же образом находим позицию конечной строки:
$pos=strpos($content, 'кода, размещенный в конце нужного нам текста');

Отрезаем ненужное:
$content=substr($content,0,$pos);

Если встречается код, который нам ненужен, вырезаем его:
$content=str_replace('Код, который нужно вырезать.','', $content);

Выводим спарсенный текст:
echo $content;
?>

Итак, несколько строчек кода, и сторонний контент автоматически публикуется на нашем блоге. Красным цветом в коде обозначены места, которые вы обязательно должны отредактировать.

Интеграция парсера на PHP в WordPress

Итак, парсер готов. Его работа протестирована, результатом довольны.

Но как показать спарсенный контент на странице или в записи wordpress?

Если мы вставим вышеприведенный код в запись вордпресс пусть даже в режиме html, то в целях безопасности скрипты вордпресса его попросту вырежут - цензура не пропустит.

Решение находим, установив плагин, разрешающий вордпресс публиковать код php прямо в записи. Ищем какой нибудь плагин типа "Allow PHP in Posts and Pages" и смело заходим в редактор страницы/записи в вордпресс и в нужное место на странице вставляем вызов нашей страницы.

[php] $content=file_get_contents('http://мой сайт/parser.php');
echo $content; [/php]

Как видите, все просто. Проверяем работу скрипта, опубликовав запись. Если наблюдаются иероглифы в спарсенном контенте, последнюю строчку в этом коде перезаписываем на что-то типа этого:

echo iconv("windows-1251", "UTF-8", $content);

Со значениями windows-1251 и UTF-8 играем, переставляя их местами, в зависимости от начальных кодировок сайта-донора и пациента.

Предупреждаю, что это самая простая реализация парсера на php, но в некоторых случаях большего и не требуется (для большинства блогеров).

В качестве живого примера - парсер телевизионной программы для сайта охотничьей тематики - atmhunt.ru/oxota-i-rybalka-onlajn/ - как видим, на сайте автоматически обновляется телепрограмма на текущую неделю телеканала "Охота и рыбалка" и у автора блога нет необходимости еженедельно обновлять ее руками.

Поделиться статьёй с друзьями:

Другие статьи раздела "Парсинг контента":

  1. 13.03.13 Парсер выдачи поисковиков Butterfly 3
  2. 12.03.13 Как работают генераторы сайтов?
  3. 11.03.13 Парсер контента X-Parser.
  4. 03.03.13 zParser - парсер контента по ключевым словам.
  5. 23.02.13 Как чувствует себя контент из социальных сетей в индексе?
  6. 21.02.13 Парсинг ВебАрхива на трастовый домен. Что будет?
  7. 13.02.13 Парсим контент к себе на сайт простейшим способом.
  8. 10.02.13 Создаем сайты с помощью парсера DataCol.
  9. 09.02.13 Teleport Pro как универсальный парсер контента.
  10. 08.02.13 Парсинг социальных сетей, что это даст.
Прыг: 01 02 03 04