Система импорта новостей FDE Grabber 5.9 (автоматический парсер и публикатор уникального контента в разные CMS)
03.06.2013
FDE Grabber 5.9 (fde-grabber.ru) - это не модуль к какой-либо CMS, а отдельная система, RSS/Atom клиент-граббер, HTML парсер, способный импортировать новостной контент, включая изображения, уникализировать его, и публиковать полученные новости в различные CMS, а также комментарии к ним. FDE Grabber 5.9 может работать и как простой безшаблонный парсер (граббер) для импорта статей/новостей, и как полностью настраиваемый до мелочей профессиональный инструмент для граббинга сайтов. Скрипт также позволяет вести удалённую публикацию: когда граббер стоит и работает на одном сервере, а публикует на другой.
По сути, FDE Grabber 5.9 является аналогом скрипта Мультикомплекс 4.0 (nullseo.com/seoclub/vip/preview.php?ID=4874) и работает со следующими движками (CMS), публикуя в них полученные новости:
- DLE (Data Life Engine), NG, Wordpress, Joomla 1.5.x/1.6.x/2.5.x/3.0.x (поддерживается работа только с MySQL базами данных), E107, Drupal, Danneo, Open Slaed (поддерживается и коммерческая версия), InstantCMS, FDE CMS.
Возможности FDE Grabber 5.9:
- импорт полного контента с RSS/Atom фидов, а также граббинг с HTML страниц со списками новостей; - возможность логина на сайт, с которого идёт граббинг (например, для чтения скрытого от гостей текста); - самая совершенная система настройки шаблонов для парсинга (1 - простая, без регулярных выражений; 2 - с использованием регулярных выражений; 3 - с использованием технологии DOM парсинга; 4 - а также технология бесшаблонного парсинга); - разнообразные фильтры и замены слов (1 - простые, без регулярных выражений; 2 - с использованием регулярных выражений; 3 - по указанному DOM шаблону в паре с заменой); - полноценная система перелинковки; - поддержка изображений, внедрённых в тело HTML документа, закодированных, с помощью Base64 схемы; - поддержка импорта данных с сайтов, расположенных в доменах, содержащих символы национальных алфавитов; - возможность создания превью для картинок; - возможность получения краткой новости (статьи, анонса) как из источника, так и путём обрезки полной новости по заданному количеству символов/абзацев/предложений с автоматической корректировкой незакрытых HTML тегов (дескрипторов); - умная система выравнивания картинок в статьях (в зависимости от размера изображения); - возможность наложения на картинки вотермарков; - настраиваемая обрезка каждой из сторон изображений (например, справа обрезать на столько-то пикселей, а слева на столько-то); - возможность предварительного тестирования правильности настроек; - встроенный синонимайзер (в комплекте 2 базы: русскоязычная и англоязычная); - редактирование синонимов и стоп-слов через администраторский интерфейс; - экспорт/импорт настроек граббера; - экспорт/импорт баз синонимайзера; - корректная работа с известными кодировками; - возможность автоматического определения кодировки страницы по данным HTML тега META, а также отправляемому сервером заголовку Content-Type; - возможность работы через прокси; - ведение лога событий; - поддержка фейковых пользователей и комментариев; - возможность парсить ленты которые работают через FeedBurner; - возможность парсить ленты, получать картинки, сохранять статьи, обходя редиректы; - возможность публикации полученного контента на все указанные сайты или случайно в один из указанных; - возможность выкачивания полностью всех новостей с сайта, в случае использования HTML источников (это достигается путём задействования обхода пейджера: site.com/page/{page}/, где {page} будет принимать значения номеров страниц пейджера сайта с указанным интервалом); - возможность обхода по параметру, в случае использования HTML источников: site.com/param/{param}/, где {param} будет принимать указанные значения; - корректная работа с тегом base; - возможность использовать собственные хаки (микропрограммы для обработки контента). На данный момент, в стандартный дистрибутив входит порядка 10 хаков; - отдельная настройка размеров изображений для краткой и полной новости; - возможность не только уменьшать картинки, но и производить операцию обрезки (crop image); - мультиязычность администраторского интерфейса (в данный момент доступны языки: русский, английский; язык сменяется через конфигурационный файл граббера); - разграничение прав пользователей в админке граббера. Возможность назначать пользователям группу. Возможность создавать новые группы, с указанием прав доступа; - возможность устанавливать лимит публикуемых статей за день; - возможность автоматического клонирования категорий и источников; - возможность массового изменения каких-либо параметров у выбранных категорий и источников; - возможность автоматического определения категории, к которой относится данная статья на основе обработанных стеммером ключевых слов; - возможность распознавания русских дат; - возможность указания нескольких шаблонов для парсинга через теги логического ИЛИ: {or}, а также логического И: {and}; - возможность автоматического переименования получаемых картинок путём транслитерации заголовка статьи для получения псевдо SEF (ЧПУ) адресов; - возможность настройки расположения вотермарка: левый верхний угол/правый верхний угол/левый нижний угол/ правый нижний угол/по центру/случайно из перечисленных вариантов; - возможность указания случайной флуктуации дат публикации статей, которая устанавливается на уровне настройки категории источников; - возможность указания фиксированного смещения даты новостей, которая устанавливается на уровне настройки категории источников; - возможность универсальной настройки получаемых дат статей при граббинге: a) из источника; б) дата, на момент граббинга источника; в) дата, на момент граббинга статьи; д) дата, на момент публикации.
Требования к хостингу, на котором может располагаться транзитная система публикации граббера в CMS (для удалённых, remote публикаций):
- PHP 4.3.0 и выше (рекомендуется от 5.2.5 и выше); - MySQL 4 и выше; - библиотеки PHP: pcre, mysql, iconv, gd, mb.