Джако Крузо
12.01.2018Прочий софт

MassArticleParser - массовый парсинг статей

Парсер MassArticleParser автоматически парсит все статьи с указанных сайтов. Просто укажите в файле sites.txt список сайтов, с которых нужно спарсить статьи, и нажмите START. Никаких настроек не требуется! Начало и конец статьи определяются автоматически, удаляется не относящийся к статье контент. Сохраняются теги strong, i, u, h1-h4, img, ролики youtube. Для каждой статьи есть title и url. Статьёй считается определённый как основной контент текст с любой страницы.
В template.txt задаётся шаблон для сохранения статей. Теги шаблона:
[ARTICLE_URL] - урл страницы, с которой взята статья.
[ARTICLE_TITLE] - тайтл страницы.
[ARTICLE_H] - первый заголовок H, если есть.
[ARTICLE_KEY] - первый заголовок H, либо тайтл, если заголовка H нет. От тайтла берётся самая длинная часть.
[ARTICLE_BODY] - сама статья.

Статьи сохраняются в папку articles. В файле settings.txt можно указать кодировку файлов: *saveencoding=windows-1251
Чтобы имена файлов были из заголовков статей укажите: *keyfilenames=1
В папке urls для каждого сайта сохраняются урлы, с которых спарсены статьи. При повторном парсинге эти страницы уже не обходятся.
В поле Threads указывается, сколько сайтов парсить одновременно.
В поле Link limit указывается, сколько максимум страниц обходить.
Кнопки:
START - запуск парсинга.
PAUSE - остановить парсинг, дождавшись завершения начатых парсингов сайтов.
STOP ALL - немедленно останавливает все потоки.
ABORT - сбрасывает выделенный поток.
Если потоков много, то обновление списка будет тормозить. Чтобы список не обновлялся, можно поставить галочку "Do not update thread list". Если её снять, то список снова будет обновляться.



Программа стоит 1700 руб. ($29). Пишите мне, чтобы приобрести.
20.01.2018 - Продажи приостановлены, т.к. обнаружил ошибки, а также для улучшения парсинга решил переписать некоторые функции.