Скрытый контент: доступен к просмотру после авторизации.
Для теста решил выложить свежую базу форумов, собранную по публичным признакам с какого-форума в выдаче примерно за 14 часов парсинга. На картинке вы можете увидеть, что за последние 6 с половиной часов было отсеяно почти 30 МИЛЛИОНОВ дублей. Так что скорость парсинга очень высока.
Ну и ссылка на саму базу. База никак не фильтровалась (кроме дублей самим Хрефером, разумеется).
Что-то небольшое могу выпарсить бесплатно.
PS: За сутки вполне реально спарсить до миллиона уникальных ссылок.
PPS: Также имеется база популярных англ. слов и словосочетаний (собиралась собственноручно), которая возможно пригодится для парсинга.