Пробный запуск скрипта Lasto's Abductor:

Lasto's Abductor, Похититель буковок Lasto's Abductor, Похититель буковок

Пробный запуск скрипта Lasto's Abductor:

Теперь, уже понимая, что куда писать, дабы немудрёно утащить хоть какой-нибудь контент по нужному ключевику, причём понимая это на уровне полей формы админки, можно поэкспериментировать.

Допустим, нам хочется сделать сайт для хомячков, с тематикой "Слухи и домыслы".
Не проблема, давайте обозначим последовательность действий.
Как это вообще достигается.

  1. В парсере доноров для какого-нибудь из разделов "Правил наполнения", в полном соответствии с имеющейся там инструкцией, формируем задание. К примеру, Гуглу. Пусть он отдаст первую страницу выдачи по запросу "слухи и домыслы", причём за последнюю неделю. Чтобы оно было актуально.

    Из инструкции следует, что нам нужно вписать в форму такую команду:

    [google.ru-w][слухи и домыслы][1]=

    Вписываем, жмём на дне страницы кнопку "Изменить".
    Страница настроек обновляется, наше задание закрепляется в форме.

  2. Поскольку мы сейчас занимаемся исключительно тестингом, имеет смысл отключить все настройки, которые способны этому помешать. Их не так много:

    1. В парсере доноров установите настройку "Период поиска новых статей" в положение 0.5 - по умолчанию там будет стоять 12 часов, что для тестера слишком много.

      Смысл этой опции - время между опросами гугла.

    2. В парсере статей обе настройки:

      "Минимальное время между импортом статей"
      "Максимальное время между импортом статей"

      установите в 0.01

      Это даст возможность импортировать по новой статье каждые 36 секунд, а не так редко, как там стояло по умолчанию. Мы же тестеры.

      В этом же разделе админки настройку:

      "Начальник для правил из этой формы"

      переверните в положение "Работать круглосуточно". Это отключит расписание работы парсера, которое там прописано по умолчанию.

  3. В админке непременно будут такие кнопки:

    Тот функционал, что осуществляет импорт контента, в данной менюшке называется парсером. С его рапортами. На эту кнопку админки следует нажать. Сформируется новое окно браузера, в котором нарисуется отчёт о действиях парсера:

Import URLs of Articles: 10 new articles.
 
Array
(
    [cats] => main (Слухи и домыслы)
    [rule] => google.ru-w
    [keys] => слухи и домыслы
    [page] => 1
    [urls] => Array
        (
            [0] => http://ru.board.bigpoint.com/farmerama/forumdisplay.php?f=1216
            [1] => http://gtrk-orenburg.ru/2013/01/25/231235/
            [2] => http://biz.liga.net/all/it/novosti/2413969-lenovo-oprovergla-slukhi-o-pokupke-proizvoditelya-blackberry.htm
            [3] => http://www.cybersecurity.ru/hard/168816.html
            [4] => http://kurs.ru/news/49853/lenovo-oprovergla-sluhi-o-vozmozhnom-priobretenii-rim
            [5] => http://ru.wikipedia.org/wiki/%D0%A2%D0%BE%D0%BC%D1%81%D0%BA%D0%B8%D0%B9_%D0%BA%D0%B0%D0%BC%D0%B5%D1%80%D0%BD%D1%8B%D0%B9_%D1%82%D0%B5%D0%B0%D1%82%D1%80_%C2%AB%D0%98%D0%BD%D1%82%D0%B8%D0%BC%C2%BB
            [6] => http://tv.kp.ru/daily/26021/2942061/
            [7] => http://vk.com/wall-237426_336648
            [8] => http://samlib.ru/e/elx_l/biooshibka206.shtml
            [9] => http://www.ural56.ru/news/24/239319/
        )
)
  1. Отчёт сделан таким исключительно для наглядности, чтобы тыкание браузером в URL парсера наглядно показывало, чем парсер занимается, что он выискал, и т.п.

    Понятно, что в Вашем случае парсер найдёт что-то иное, и URL-ы будут другие.

    Проделанное нами действие в алгоритме скрипта значится под номером 4a.

  2. Если обновить страницу "Парсера с его отчётами", он перейдёт к следующему этапу. Импорту статей. И тут вариабельность результатов побольше будет.

  3. В том случае, если документ, выданный нам в данном случае Гуглом, статьёй не является вообще, парсер проявит неудовольствие вот таким образом (обратите внимание на длину текста в байтах):

Working time.
 
Article ignored. 
from: http://ru.board.bigpoint.com/farmerama/forumdisplay.php?f=1216 
title: Светская хроника 
bytes: 64 article is too short. 
to cat: main (Слухи и домыслы)
  1. Если рассматриваемый документ является статьёй, но статьёй слишком короткой, то есть ущербной, и совершенно не годящейся по этой причине для наполнения СДЛ ресурса, реакция парсера будет похожей (напомню, что в настройках минимальная длина импортируемой статьи переопределяется так, как Вам надо):

Working time.
 
Article ignored. 
from: http://gtrk-orenburg.ru/2013/01/25/231235/ 
title: Сергей Митин подтвердил слухи о разладе внутри оренбургского отделения «Справедливой России» 
bytes: 568 article is too short. 
to cat: main (Слухи и домыслы)
  1. А вот если статья удовлетворяет настройкам фильтров качества, то происходит её импорт:

Working time.
 
Article imported. 
from: http://biz.liga.net/all/it/novosti/2413969-lenovo-oprovergla-slukhi-o-pokupke-proizvoditelya-blackberry.htm 
title: Lenovo опровергла слухи о покупке производителя BlackBerry 
bytes: 1730  
to cat: main (Слухи и домыслы)
  1. Как только такое произошло, во внутренней области сайта, доступной вот через эту кнопку админки:

    станет виден список импортированных статей (у нас она пока одна):

    Новые статьи раздела "Слухи и домыслы":

    1. 01.02.13 Lenovo опровергла слухи о покупке производителя BlackBerry
  2. Клик в ссылку откроет просмотр этой статьи:

    Lenovo опровергла слухи о покупке производителя BlackBerry

    Финансовый директор китайской Lenovo Вонг Вай Минь в интервью китайскому изданию Sina Tech заявил, что его интервью на прошлой неделе было неверно интерпретировано в СМИ. Около недели назад он заявил, что Lenovo готовится начать реализацию агрессивной стратегии поглощений и не исключил, что по ее итогам может быть куплен канадский производитель платформы BlackBerry, компания Research in Motion.

    Как сообщает CyberSecurity, тогда многие аналитики как в Китае, так и на Западе сочли, что такое поглощение действительно имело бы смысл. Даже если бы поглощения не было, то стратегическое сотрудничество между компаниями было бы полезно им обеим.

    Очевидно, что заявление высокопоставленного менеджера крупной компании было резонансным и в ИТ-отрасли спровоцировало волну слухов и домыслов, в том числе и тех, на которых вездесущие биржевые спекулянты попытались заработать.

    В интервью Sina Tech CFO Lenovo заявил, что его слова были неверно поняты и тогда он говорил о реализации стратегии поглощений Lenovo "в самом широком смысле", а компанию RIM он привел "исключительно в качестве примера". Также он заявил, что на сегодня никаких официальных или неофициальных переговоров между RIM и Lenovo нет.

    Несмотря на то, что Вонг заявил, что сейчас "нет оснований для разговоров о покупке RIM", он не стал опровергать, что Lenovo может в будущем заинтересоваться активами этой компании.

    В пресс-службе Lenovo также заявили, что именно последнее заявление CFO компании следует трактовать как верное. Здесь же тоже заверили, что между двумя компаниями сейчас нет переговорного процесса относительно покупки RIM.

  3. Увидев, что контент действительно находится и импортируется, можно делать вывод о наличии на хосте всего необходимого функционала, и возвращать на место все настройки, изменённые ранее с тестовыми целями в первых двух пунктах данной инструкции.