Teleport Pro как универсальный парсер контента.

Lasto's Abductor, Похититель буковок Lasto's Abductor, Похититель буковок

Teleport Pro как универсальный парсер контента.

Некоторые сателлитостроители озабоченны тем, где и как можно взять много контента для своих сайтов. Ведь если производство их поставить на поток, то контента нужно будет много и постоянно, а вручную копипастить будет затруднительно. А парсеры в основном заточены под один или группу сайтов, которые уже запарсили до дыр.

Я расскажу вам, как сам собираю контент для сайтов.

Прошу любить и жаловать универсальный парсер – Teleport Pro.

Вообще-то эта программа создана для скачки и оффлайнового просмотра сайтов. Телепорт качает весь сайт вместе с дизайном и контентом, а также всем остальным (картинки, стили, джава скрипты). Но нам нужен только текст...

Не проблема. Для этого в программе есть подходящие настройки.

Для начала качаем саму программу.
Предлагаю Вам погуглить.

Потом устанавливаем софт, и разбираемся с его интерфейсом. Когда вы вдоволь насмотритесь на прогу, начинаем работать.

Выбираем себе жертву. Например, вы захотите спарсить статьи с сайта про двери. Заходим на страницу какого-нибудь сайта со статьей про двери, и смотрим на урл. Например, он выглядит так:

dveri.ru/article/dveri/statia.html

Создаем новый проект, и в поле "URL для копирования" вставляем dveri.ru/article/dveri/ (это если хотите только статьи по дверям, а если все статьи, то оставляем только dveri.ru/article/), нажимаем далее.

В настройку "от начала следовать" ставим 3, а "что скачивать" ставим галочку напротив "только текст".

Теперь указываем, куда мы хотим, чтоб сохранился сайт на компе, и нажимаем "старт". Тем самым проект создан.

Далее запускаем софт в работу, пускай трудится.

Потом когда все будет скачано, заходим в папку с локальной копией сайта. В ней будут лежать сохраненные страницы с текстами статей.

Если хотите, можете открывать каждый файл, и ручками копировать текст статей. А можете воспользоваться программой TextKit, которая из html страниц выдерет только нужный вам тест.

А какие парсить сайты, я говорить вам не буду, вы и так все знаете. А если не знаете, проявите смекалку. Ну а если совсем нет мыслей, то для начала можете попробовать парсить большие блоги.

Поделиться статьёй с друзьями:

Другие статьи раздела "Парсинг контента":

  1. 13.03.13 Парсер выдачи поисковиков Butterfly 3
  2. 12.03.13 Как работают генераторы сайтов?
  3. 11.03.13 Парсер контента X-Parser.
  4. 03.03.13 zParser - парсер контента по ключевым словам.
  5. 23.02.13 Как чувствует себя контент из социальных сетей в индексе?
  6. 21.02.13 Парсинг ВебАрхива на трастовый домен. Что будет?
  7. 13.02.13 Парсим контент к себе на сайт простейшим способом.
  8. 10.02.13 Создаем сайты с помощью парсера DataCol.
  9. 09.02.13 Teleport Pro как универсальный парсер контента.
  10. 08.02.13 Парсинг социальных сетей, что это даст.
Прыг: 01 02 03 04