Джако Крузо
12.01.2018Прочий софт

MassArticleParser - массовый парсинг статей

Новая версия уже в продаже!

Парсер MassArticleParser автоматически парсит все статьи с указанных сайтов. Просто укажите в файле sites.txt список сайтов, с которых нужно спарсить статьи, и нажмите START. Никаких настроек не требуется! Начало и конец статьи определяются автоматически, удаляется не относящийся к статье контент. Статьи могут сохраняться со всеми тегами, или можно сохранять только текст или изображения.
Описание настроек - https://searchengines.guru/showpost.php?p=15517393&postcount=18
В template.txt задаётся шаблон для сохранения статей. Теги шаблона:
[ARTICLE_URL] - урл страницы, с которой взята статья.
[ARTICLE_TITLE] - тайтл страницы.
[ARTICLE_H] - первый заголовок H, если есть.
[ARTICLE_KEY] - первый заголовок H, либо тайтл, если заголовка H нет. От тайтла берётся самая длинная часть.
[ARTICLE_BODY] - сама статья.

Статьи сохраняются в папку articles. В папке urls для каждого сайта сохраняются урлы, с которых спарсены статьи. При повторном парсинге эти страницы уже не обходятся.
В поле Threads указывается, сколько сайтов парсить одновременно.
В поле Link limit указывается, сколько максимум страниц обходить.
Кнопки:
START - запуск парсинга.
PAUSE - остановить парсинг, дождавшись завершения начатых парсингов сайтов.
STOP ALL - немедленно останавливает все потоки.
ABORT - сбрасывает выделенный поток.
Если потоков много, то обновление списка будет тормозить. Чтобы список не обновлялся, можно поставить галочку "Do not update thread list". Если её снять, то список снова будет обновляться.



Программа стоит 2500 руб. ($44). Пишите мне, чтобы приобрести.
Ветка на серче - https://searchengines.guru/showthread.php?t=982834