Система импорта новостей FDE Grabber 5.9 (автоматический парсер и публикатор уникального контента в разные CMS)
FDE Grabber 5.9 (fde-grabber.ru) - это не модуль к какой-либо CMS, а отдельная система, RSS/Atom клиент-граббер, HTML парсер, способный импортировать новостной контент, включая изображения, уникализировать его, и публиковать полученные новости в различные CMS, а также комментарии к ним. FDE Grabber 5.9 может работать и как простой безшаблонный парсер (граббер) для импорта статей/новостей, и как полностью настраиваемый до мелочей профессиональный инструмент для граббинга сайтов. Скрипт также позволяет вести удалённую публикацию: когда граббер стоит и работает на одном сервере, а публикует на другой.
По сути, FDE Grabber 5.9 является аналогом скрипта
Мультикомплекс 4.0 и работает со следующими движками (CMS), публикуя в них полученные новости:
- DLE (Data Life Engine), NG, Wordpress, Joomla 1.5.x/1.6.x/2.5.x/3.0.x (поддерживается работа только с MySQL базами данных), E107, Drupal, Danneo, Open Slaed (поддерживается и коммерческая версия), InstantCMS, FDE CMS.
Возможности FDE Grabber 5.9:
- импорт полного контента с RSS/Atom фидов, а также граббинг с HTML страниц со списками новостей;
- возможность логина на сайт, с которого идёт граббинг (например, для чтения скрытого от гостей текста);
- самая совершенная система настройки шаблонов для парсинга (1 - простая, без регулярных выражений; 2 - с использованием регулярных выражений; 3 - с использованием технологии DOM парсинга; 4 - а также технология бесшаблонного парсинга);
- разнообразные фильтры и замены слов (1 - простые, без регулярных выражений; 2 - с использованием регулярных выражений; 3 - по указанному DOM шаблону в паре с заменой);
- полноценная система перелинковки;
- поддержка изображений, внедрённых в тело HTML документа, закодированных, с помощью Base64 схемы;
- поддержка импорта данных с сайтов, расположенных в доменах, содержащих символы национальных алфавитов;
- возможность создания превью для картинок;
- возможность получения краткой новости (статьи, анонса) как из источника, так и путём обрезки полной новости по заданному количеству символов/абзацев/предложен
ий с автоматической корректировкой незакрытых HTML тегов (дескрипторов);
- умная система выравнивания картинок в статьях (в зависимости от размера изображения);
- возможность наложения на картинки вотермарков;
- настраиваемая обрезка каждой из сторон изображений (например, справа обрезать на столько-то пикселей, а слева на столько-то);
- возможность предварительного тестирования правильности настроек;
- встроенный синонимайзер (в комплекте 2 базы: русскоязычная и англоязычная);
- редактирование синонимов и стоп-слов через администраторский интерфейс;
- экспорт/импорт настроек граббера;
- экспорт/импорт баз синонимайзера;
- корректная работа с известными кодировками;
- возможность автоматического определения кодировки страницы по данным HTML тега META, а также отправляемому сервером заголовку Content-Type;
- возможность работы через прокси;
- ведение лога событий;
- поддержка фейковых пользователей и комментариев;
- возможность парсить ленты которые работают через FeedBurner;
- возможность парсить ленты, получать картинки, сохранять статьи, обходя редиректы;
- возможность публикации полученного контента на все указанные сайты или случайно в один из указанных;
- возможность выкачивания полностью всех новостей с сайта, в случае использования HTML источников (это достигается путём задействования обхода пейджера:
http://site.com/page/{page}/, где {page} будет принимать значения номеров страниц пейджера сайта с указанным интервалом);
- возможность обхода по параметру, в случае использования HTML источников:
http://site.com/param/{param}/, где {param} будет принимать указанные значения;
- корректная работа с тегом base;
- возможность использовать собственные хаки (микропрограммы для обработки контента). На данный момент, в стандартный дистрибутив входит порядка 10 хаков;
- отдельная настройка размеров изображений для краткой и полной новости;
- возможность не только уменьшать картинки, но и производить операцию обрезки (crop image);
- мультиязычность администраторского интерфейса (в данный момент доступны языки: русский, английский; язык сменяется через конфигурационный файл граббера);
- разграничение прав пользователей в админке граббера. Возможность назначать пользователям группу. Возможность создавать новые группы, с указанием прав доступа;
- возможность устанавливать лимит публикуемых статей за день;
- возможность автоматического клонирования категорий и источников;
- возможность массового изменения каких-либо параметров у выбранных категорий и источников;
- возможность автоматического определения категории, к которой относится данная статья на основе обработанных стеммером ключевых слов;
- возможность распознавания русских дат;
- возможность указания нескольких шаблонов для парсинга через теги логического ИЛИ: {or}, а также логического И: {and};
- возможность автоматического переименования получаемых картинок путём транслитерации заголовка статьи для получения псевдо SEF (ЧПУ) адресов;
- возможность настройки расположения вотермарка: левый верхний угол/правый верхний угол/левый нижний угол/ правый нижний угол/по центру/случайно из перечисленных вариантов;
- возможность указания случайной флуктуации дат публикации статей, которая устанавливается на уровне настройки категории источников;
- возможность указания фиксированного смещения даты новостей, которая устанавливается на уровне настройки категории источников;
- возможность универсальной настройки получаемых дат статей при граббинге: a) из источника б) дата, на момент граббинга источника в) дата, на момент граббинга статьи д) дата, на момент публикации.
Требования к хостингу, на котором может располагаться транзитная система публикации граббера в CMS (для удалённых, remote публикаций):
- PHP 4.3.0 и выше (рекомендуется от 5.2.5 и выше);
- MySQL 4 и выше;
- библиотеки PHP: pcre, mysql, iconv, gd, mb.