Проблематика сервера.

Lasto's Abductor, Похититель буковок Lasto's Abductor, Похититель буковок

Проблематика сервера.

Может случиться так, что простая и понятная последовательность действий, изложенная в документе о проверке парсера, не принесёт результата. В пункте три инструкции, доступной по указанной ссылке, на экран не выдаётся URL-ов статей. Массив ссылок пустой.

Ну или не для всякого поисковика (их список не ограничен Гуглом, как в примере) парсятся URL-ы. Почему так, и кто виноват?

Причин может быть ровно две:

  1. Причина, которая вряд ли имеет место.
    Некорректная сигнатура для поисковика.

    Структура HTML кода поисковой выдачи, конечно, время от времени меняется. И, как правило, почти ежегодно требуется корректировать ту самую регулярку, править её.

    Однако автор скрипта своевременно это делает, и в "правилах поиска статей на донорских ресурсах" всегда должны быть актуальные и правильные записи. Те самые, которые страшные на вид.

    Как убедиться в том, что они действительно актуальные и правильные?
    Тоже просто.

    В сервис проверки парсера этого сайта в первую форму нужно внести сигнатуру для не работающего у Вас поисковика. Пусть это будет для примера "еженедельный" Гугл:

    [google.ru-w][serp][url]=http://www.google.ru/search?hl=ru&tbs=qdr:w&q====query===&start====page===
    [google.ru-w][serp][utf8]=true
    [google.ru-w][serp][code]=urlencode
    [google.ru-w][serp][page]=10
    [google.ru-w][snip][tmpl]=<h3 class=\"r\"><a href=\"\/url\?q=(.+)\&\;.+>.+<\/a><\/h3>
    [google.ru-w][snip][code]=urldecode

    В нижнее поле той же формы поместите какой-нибудь запрос.
    Естественно, в принятом формате:

    [google.ru-w][работа не волк][1]

    Если на данном сайте парсер поисковика работает, а на Вашем нет, значит, дело не в сигнатурах.

    Если и на данном сайте парсер отказался выдать линки, то читаем далее:

  2. Более вероятная причина.
    Отказ поисковика в обслуживании запросов с конкретного айпишника.

    Начинаем знать, что любой поисковик, вне зависимости от его названия или страны приписки, имеет лимит на число запросов с любого айпишника. Скажем, 1000 штук в сутки. Или в час.

    Это стандартное ограничение - любой другой сервис, типа Whois, также не станет обслуживать миллион запросов с одного IP.

    Но, с другой стороны, мы также понимаем, что хостер держит в одном айпишнике пару-тройку-пятерку сотен сайтов. Которые тоже могут чего-то парсить с того же самого поисковика для своих нужд. И что получится?

    Получится так, что временами парсинг вроде бы возможен. Это когда по местному времени поисковика начались новые сутки, ограничения на лимиты сбросились, и началось штатное обслуживание сервисом внешних запросов. Потом, по исчерпании лимита, все запросы с конкретного IP получают отлупы, и запросы больше не обслуживаются.

    Понятно, что поисковик не различает разные сайты на одном айпишнике, и для всех для них лимит общий.

    Кроме того, у поисковиков есть внушительный список айпишников, в которых живут всякие доргены и прокси. Все запросы из таких IP не обслуживаются вообще никогда, ни в рамках лимитов, ни вне этих рамок.