- uCrawler — фабрика новостных агрегаторов с ИИ
- 9 лучших сайтов-агрегаторов новостей (+ как создать свой собственный)
- Что такое сайты новостных агрегаторов?
- 1. Feedly
- 2. Новости Google
- 3. Alltop
- 4. Новости360
- 5. Панда
- 6. Techmeme
- 7. Флипборд
- 8. Карман
- 9. Inoreader
- Похвальные грамоты
- Как создать сайт новостного агрегатора с помощью WordPress
- Шаг 1. Настройка сайта новостного агрегатора
- Шаг 2: Установите и активируйте плагин WP RSS Aggregator
- Шаг 3. Добавление источников каналов для импорта элементов каналов
- Шаг 4. Опубликуйте свой контент-агрегатор в прямом эфире
- Шаг 5. Добавление дополнительных функций в ваш агрегатор контента WordPress
uCrawler — фабрика новостных агрегаторов с ИИ
В ноябре 2017 года я запустил сайт «Новостной робот» (https://newsbot.press). А также написал статью об этом проекте на VC.ru: «Как я сделал свои Яндекс.Новости» (https://vc.ru/29708-kak-ya-sdelal-svoi-yandeks-novosti). Чтобы не перечитывать тот материал, я коротко расскажу об этом проекте, так как он дал начало платформе uCrawler.
Новостной робот — это автоматизированная система сбора и анализа новостной информации. Задача робота: собрать информацию с сайтов СМИ, выделить главные новости в разных категориях и сгруппировать их по темам. Робот полностью автономен. Ни я, ни кто-либо еще не принимает участия в его повседневной работе. Он все делает самостоятельно, в том числе выбирает главные темы дня или срочные новости последних часов. Он намного сложнее традиционных агрегаторов. Внутри — машинное обучение, нейронные сети. На данный момент, вся система проработала без сбоев полгода.
Для меня это был пет-проект, одной из целей которого было испытать новые технологии. Я реализовывал его один: от фронтенда до бэкенда, от микросервисов до алгоритмов машинного обучения, от работы с облаками до интеграции в соцсети.
Наиболее интересной частью этого проекта (с технической стороны) является семантический анализатор, который использует библиотеку fastText от Facebook. fastText позволил мне строить семантические векторы слов и даже целых фраз, а затем сравнивать их и делать выводы о том, насколько похожи сами слова между собой. «Новостной робот» стал понимать, к примеру, что «импичмент» и «отставка» близкие в определенном контексте слова.
Другой отличительной особенностью проекта является его экономичность в плане ресурсов. Для этого пришлось переписать некоторые библиотеки (в том числе и fastText), отказаться от многих удобных облачных услуг. Но в итоге, вся система работает на одной виртуальной машине с 1 CPU и 1 GB RAM.
Последнее, что достойно внимания — это отсутствие привязки «Новостного робота» к языку. Не смотря на то, что newsbot.press — это русскоязычный ресурс, сам робот может выполнять свою функцию и для других языков.
Нужно понимать, что я не стремился создать новостной ресурс с тысячами пользователей. Развитие таких площадок — это не моя область деятельности. Мне ничего про это не известно. Не было и цели заработать на рекламе, поэтому никакой рекламы на сайте нет. Я лишь решал сложную и интересную техническую задачу. И добился отличного результата. Новостной робот всегда знает о главных темах.
С момента публикации первой статьи о «Новостном роботе» я получил много отзывов. И должен выразить признательность всем людям за проявленный интерес.
Читая различные предложения, я обратил внимание на то, что многие занимались созданием аналогичных систем-агрегаторов. Отличались лишь тематики и языки, но в общем наши задачи были схожи. Тогда мой друг предложил создать из «Новостного робота» инструмент, который мог бы помочь в решении этих задач. Фактически, нужно было превратить существующую систему в платформу, которую можно было бы развернуть и настроить для произвольного набора источников (на любую тематику и на любом языке). И это действительно было возможно.
Во-первых, как уже было сказано, робот не требует серьезных вычислительных ресурсов. А это значит, мы могли арендовать под каждый новый агрегатор свою недорогую виртуальную машину в облаке.
Во-вторых, робот не ориентирован на один язык или определенную тематику, и может быть настроен, к примеру, на сбор данных с сайтов о криптовалютах на французском языке. Было бы совершенно бессмысленно пытаться создавать множество таких площадок самим. Недостаточно только создать ресурс, нужно еще и развивать его. А это совсем иная задача. Мы же могли бы помочь собрать нужные данные, обработать их своими алгоритмами и передать результат потребителю.
Чтобы создать такую платформу, мне потребовалось серьезно изменить существующую админку «Новостного робота». Сделать ее удобной, чтобы работать в ней мог не только я, но и любой другой человек. Кроме того, я существенно упростил процесс добавления новых источников. Раньше, для этого требовалось указывать не менее 5 селекторов на языке запросов XPath (потому что, далеко не всегда существует RSS-поток, а для кластеризации нужны полные тексты).
Сейчас краулер обладает алгоритмами, которые позволяют автоматически определять расположение контента на странице. Он умеет находить основной заголовок, картинки, полный текст статьи; умеет убирать ненужный текст вида «следуй за нами в соц.сетях». В половине случаев необходимость в написании XPath запросов отпала вовсе! В других случаях, требуется написать один или два запроса, и данные будут корректно собраны со страницы. Сейчас я могу за один вечер внести от 50 до 100 источников за раз.
Небольшое примечание. Краулер очень аккуратно работает с источниками! Он запускается не часто, учитывает robots.txt, делает длинные паузы между запросами страниц, кэширует ответы, и не забирает данные повторно. Возможно, именно поэтому он ни разу не был забанен. Все это отражается и на времени опроса. Краулер работает очень быстро, даже если в списке есть «медленные» сайты.
Кроме админки, было еще много вопросов, которые пришлось решать. Например, DevOps. Нужно было научиться быстро «поднимать» полностью сконфигурированную на работу машину в облаке. Сейчас этот процесс автоматизирован. Однако, делаем мы это по непосредственному запросу по почте.
Оставлю «за кадром» все остальные проблемы и задачи, которые стояли в ходе разработки. И сразу перейду к тому, что получилось в итоге.
Платформу мы назвали uCrawler. Она была разработана достаточно быстро, но ее развитие не прекращается и сейчас. Мы занимаемся проектом столько сколько нам позволяет время.
uCrawler предоставляется в виде SaaS услуги. В начале, клиенту дается бесплатный Демо-доступ сроком на неделю. Добавление источников происходит в один клик из готового списка. Если каких-то источников в списке нет, то мы оперативно добавляем их по запросу клиента.
После того, как краулер запускается в работу, клиент может начинать забирать результат к себе. Для этого предусмотрены разные варианты. Можно забирать результат по API в виде JSON или XML, можно настроить RSS-ленту, а можно и просто посмотреть на результат в виде сгенерированного статического сайта.
Что из себя представляет результат? Это кластеризованный ранжированный новостной поток от источников, содержащий всю информацию, которую собирает краулер, включая полные тексты новостей и картинки. Вот примеры сбора новостей ИТ и криптовалют.
Мы полностью отвечаем за работу краулера и гарантируем его стабильность. Мы понимаем, что многие выводят данные от uCrawler сразу к себе на сайт. Или автоматически публикуют новости в своем Telegram-канале (через IFTTT). Поэтому мы отслеживаем все рабочие процессы каждой виртуальной машины под нашим управлением. Видим все «проблемные» источники. Не так давно были атакованы устройства Cisco, что сразу отразилось на доступности многих сайтов. Об этой проблеме мы узнали сразу же, как только она произошла. Все uCralwer инстансы продолжили работу в штатном порядке, несмотря на некоторые потери среди источников.
Как только мы начали создавать первые Демо-машины, нам сразу стали поступать различные предложения по развитию функционала. Но наши возможности ограничены, и выполнить все задуманное практически нельзя. Однако, мы стали отбирать самые частые предложения, чтобы постараться выполнить хотя бы их. Так мы реализовали фильтрацию новостного потока по ключевым словам. Это оказалось очень востребованной функцией.
uCrawler позволяет создавать неограниченное количество фильтров. Каждый фильтр может быть настроен индивидуально со своим набором ключевых слов. При этом, данные от таких фильтров кластеризуются также, как и основная группа новостей. Эти данные можно получить по API в виде JSON или XML, или настроить RSS-ленту, или посмотреть в виде сгенерированного статического сайта. Поиск по словам выполняет Elasticsearch, который мы устанавливаем внутрь uCrawler, когда функция фильтрации требуется клиенту. Такой подход вынуждает нас использовать более дорогие виртуальные машины (так как Elasticsearch написан на Java), однако, в итоге дает хороший результат.
Опыт с Elasticsearch мы решили развивать. uCrawler помнит данные лишь за несколько дней, и не может быть использован для постоянного хранения информации. Но он умеет выгружать кластеризованные данные в Elasticsearch. А Elasticsearch умеет делать различные интересные агрегации. Мы воспользовались этой возможностью, и начали тестировать свой небольшой раздел аналитики по СМИ. Мы научили uCrawler забирать различные счетчики из соц.сетей (комментарии, репосты, лайки), и сопоставлять их с данными от СМИ. И написали специальный сайт, где «на лету» можно генерировать отчеты по любому запросу. Сейчас этот функционал проходит тестирование, и мы набираем минимально необходимый объем данных. Раздел аналитики уже доступен для экспериментов тут.
В запасе есть и другие интересные задачи. Это и переводы текстов «на лету», и автоматический рерайтинг, и определение первоисточников. Возможно, вы сможете придумать что-то еще. Тогда обязательно свяжитесь с нами! Мы всегда рады новым идеям.
uCrawler появился совсем недавно. И мы даже не успели подумать о продвижении, как к нам стали обращаться за Демо-доступом.
На самом деле, у нас не так много постоянных пользователей. Но этого хватает, чтобы мы с энтузиазмом продолжали свою работу. Каждый новый запрос Демо — это свое небольшое испытание для нашей платформы. К примеру, несколько дней назад, мы запустили систему на арабском языке для одной африканской страны.
Источник
9 лучших сайтов-агрегаторов новостей (+ как создать свой собственный)
Хотите читать последние новости и обновления из ваших любимых блогов в одном месте?
Если так, то сайты новостных агрегаторов — лучший вариант для вас. Эти веб-сайты автоматически отображают последний контент из ваших любимых веб-сайтов на одной странице.
Таким образом, вы сможете быстро получать все свои новости и обновления блога, ничего не упуская.
В этой статье мы поделимся нашим выбором лучших сайтов-агрегаторов новостей для использования в 2019 году. Мы также покажем вам, как создать собственный сайт-агрегатор новостей с использованием WordPress.
Что такое сайты новостных агрегаторов?
Сайты новостных агрегаторов позволяют пользователям просматривать новости и обновления из разных источников в одном удобном месте. Они извлекают данные, упорядочивают их по тегам / категориям и отображают в правильном порядке для более удобного использования.
Вы также можете рассматривать их как подборку новостей и обновлений, представленных в соответствии с предпочтениями пользователя.
Используя агрегаторы новостей, вам не нужно посещать различные веб-сайты для получения их последнего контента. Вместо этого вы можете найти весь контент в одном месте.
В интернете есть разные типы агрегаторов контента. Некоторые из них похожи на Новости Google, которые просто собирают статьи из популярных онлайн-газет и отображают их в связанных категориях.
С другой стороны, есть другие, такие как Feedly, которые предлагают более персонализированный опыт. Они позволяют вам создавать свои собственные каналы с выбранными вами издателями.
Большинство агрегаторов новостей не публикуют свой собственный контент. Они получают статьи с других веб-сайтов, используя свои RSS-каналы, поэтому их также называют читателями каналов.
С учетом сказанного давайте посмотрим на лучшие новостные сайты-агрегаторы.
1. Feedly
Feedly — один из самых популярных новостных сайтов в Интернете. Это позволяет вам создавать собственный поток новостей с последним контентом от ваших любимых издателей.
Используя эту платформу, вы можете подписаться на контент по широкому кругу тем. Вы можете использовать их механизм предложения контента, чтобы открывать новые сайты по темам.
Вы также можете вручную добавить свои любимые новостные сайты или блоги. Например, вы можете подписаться на WPBeginner для статей, связанных с WordPress.
Feedly доступен как в бесплатной, так и в платной версиях. Бесплатный план позволяет подписаться на 100 источников и создать до 3 личных каналов.
Вы можете использовать Feedly в браузере или загрузить его как мобильное приложение или расширение для браузера.
2. Новости Google
Новости Google — это мощный агрегатор новостей, основанный на сложных поисковых технологиях Google, искусственном интеллекте и собственной истории поиска пользователя. По умолчанию он показывает самые популярные новости в зависимости от вашего географического положения.
Он предлагает последние новости и обновления для местных, региональных, международных, деловых, технологических, развлекательных, спортивных, научных и медицинских новостей.
Вы можете сохранять темы, источники и поиски, чтобы настроить свой канал.
Новости Google — это бесплатный агрегатор новостей, который вы можете использовать в Интернете, на своих устройствах Android и iOS.
Если вы ищете альтернативу, отличную от Google, Bing News и Yahoo News предлагают аналогичную функциональность.
3. Alltop
AllTop объединяет новости и статьи в блогах самых популярных в мире веб-сайтов, таких как TechCrunch, Mashable, BBC, CNN и другие. Он курирует и отображает контент в режиме реального времени.
Существуют отдельные категории для политики, технических новостей, спорта, развлечений, образа жизни, бизнеса и т. Д. Нажав на эти категории, вы можете найти самые популярные истории, а также главные новости из лучших источников в соответствующей теме.
Помимо самых последних новостей, в нем есть вирусная категория, в которой представлены новейшие вирусные материалы и тенденции.
4. Новости360
News360 — одно из самых популярных приложений для сбора новостей в Интернете. Это позволяет вам найти мировые новости, а также истории вокруг ваших интересов. Это отличная альтернатива Google News и Feedly.
Когда вы зарегистрируетесь в News360, вы сможете выбрать интересующие вас темы, а затем он покажет вам новейший контент по этим темам. Это дает вам здоровый поток новостей из коробки, который вы можете дополнительно настроить, добавляя или удаляя темы и источники.
News360 позволяет получать самые важные новости из более чем 100 000 надежных источников в Интернете.
Вы можете читать News360 в своем браузере, устройствах iOS и Android.
5. Панда
Panda объединяет контент, полезный для веб-дизайнеров, разработчиков и технических предпринимателей. Он собирает контент с Dribble, Behance, TechCrunch, Wired и других подобных веб-сайтов.
Как нишевый агрегатор новостей, Panda отображает новости в более привлекательной форме, что позволяет вам находить наиболее интересный контент. Подача контента для таких источников, как Dribble, Awwwards, представляет собой интеллектуальную сетку миниатюр.
6. Techmeme
Techmeme — это сайт технологических новостных агрегаторов. Он охватывает главные истории о технологиях из различных надежных источников, таких как TechCrunch, Wired, New York Times и другие.
На главной странице представлены самые последние новости в сфере технологий, спонсорские посты, вакансии и предстоящие технические события. Пользователи также могут переключаться в представление «Река» для получения обновлений по мере их поступления или в представление «Таблица лидеров», в котором отображается контент по темам.
Techmeme является хорошей отправной точкой для тех, кто ищет более простой способ быть в курсе последних технических новостей.
7. Флипборд
Flipboard — это отличный сайт-агрегатор блогов, который позволяет вам создавать собственные фиды контента на основе ваших интересов. Он включает в себя широкий спектр тем, в том числе деловые новости, технические новости, путешествия, новости политики, красота и многое другое.
Вы также можете использовать Flipboard в качестве локального агрегатора новостей, потому что он имеет каналы почти для всех городов мира.
Flipboard имеет потрясающий макет в стиле журнала, который поставляется с интерактивными опциями для размещения, комментирования и публикации контента в ваших профилях в социальных сетях.
Flipboard доступен через браузер или мобильные приложения для устройств Android или iOS.
8. Карман
Pocket — еще одно приложение для сбора новостей, где вы можете исследовать самый популярный контент в Интернете. Это также позволяет вам создавать собственное пространство для чтения, сохраняя контент, который вам нравится.
Pocket содержит различные типы контента, включая статьи, видео и истории из самых разных публикаций. Он имеет различные категории контента, такие как «обязательно читаемые», тренды, технологии, финансы, здравоохранение и т. Д. Для удобного просмотра.
Он позволяет вам сохранять контент для последующего чтения, находясь в пути, и доступен как для расширений браузера, так и для мобильных приложений.
9. Inoreader
Inoreader — это мощная альтернатива Feedly и отличное программное обеспечение для чтения каналов. Доступный в Интернете, на устройствах iOS и Android, Innoreader позволяет легко добавлять любимые веб-сайты или находить новые блоги для подписки.
Он предлагает множество опций для курирования, реорганизации и отображения контента в разных макетах и цветовых схемах.
Если вы уже используете программу чтения новостей, вы можете легко импортировать свои подписки. По мере роста вашего списка чтения вы также сможете управлять подписками в пакетах и темах.
Похвальные грамоты
Ну, это был наш список новостных агрегаторов в 2019 году! Но есть еще много агрегаторов новостей. Вот некоторые достойные упоминания, которые вы можете проверить.
Как создать сайт новостного агрегатора с помощью WordPress
Сайты новостных агрегаторов чрезвычайно полезны, и есть так много ниш, которые полностью не используются. Создав веб-сайт новостного агрегатора, обслуживающего эти ниши, вы можете легко зарабатывать деньги в Интернете, продавая подписки, спонсорство и рекламу.
Самое приятное то, что вы будете курировать контент, а не создавать свой собственный оригинальный контент. Вы сможете предложить пользователям очень полезную информацию из самых популярных источников.
Давайте посмотрим, как шаг за шагом легко создать свой собственный сайт новостного агрегатора.
Шаг 1. Настройка сайта новостного агрегатора
Вы можете создать сайт новостного агрегатора, используя других разработчиков сайтов или написав свой собственный код. Оба варианта довольно сложны для начинающих пользователей, не имеющих навыков программирования.
Самый простой способ сделать это с помощью WordPress.
Существует два типа веб-сайтов WordPress: WordPress.com и WordPress.org. Вам понадобится WordPress.org, потому что он дает вам полную свободу и гибкость из коробки.
Чтобы узнать больше, ознакомьтесь с нашим руководством о различиях между WordPress.com и WordPress.org.
Чтобы начать с WordPress.org, вам понадобится учетная запись веб-хостинга и доменное имя.
Обычно доменное имя стоит $ 14,99 / год, а тарифный план WordPress — $ 7,99 / месяц. И теперь, поскольку все сайты нуждаются в SSL, вы можете добавить к этой сумме дополнительно 69,99 долл. США в год. Это довольно много денег.
К счастью, Bluehost согласился предложить нашим пользователям скидку на хостинг с бесплатным доменным именем + бесплатный SSL-сертификат. В принципе, вы сможете начать работу всего за 2,75 доллара в месяц.
Просто зайдите на сайт Bluehost, чтобы завершить покупку, а затем перейдите к нашему руководству о том, как создать сайт WordPress для пошаговых инструкций по установке.
Шаг 2: Установите и активируйте плагин WP RSS Aggregator
После того, как вы настроили свой веб-сайт WordPress, следующий шаг — установить и активировать плагин WP RSS Aggregator. Для получения более подробной информации, смотрите наше пошаговое руководство о том, как установить плагин в WordPress.
WP RSS Aggregator — лучший плагин для WordPress, который превращает веб-сайт WordPress в агрегатор контента. Это позволяет вам импортировать, объединять и отображать RSS-каналы на вашем сайте WordPress без какой-либо кодировки.
После активации посетите RSS-агрегатор »Настройки из панели инструментов, чтобы настроить параметры плагина.
Настройки по умолчанию подойдут для большинства веб-сайтов, однако вам все равно необходимо просмотреть и изменить их при необходимости.
Шаг 3. Добавление источников каналов для импорта элементов каналов
Теперь ваш сайт готов начать показ новостных лент. Вам просто нужно добавить источники, которые вы хотите отобразить на вашем сайте.
WP RSS Aggregator может получать и отображать контент с любого веб-сайта, на котором есть RSS-канал. Большинство сайтов новостей и блогов имеют RSS-канал.
Сначала перейдите к RSS-агрегатор »Источники страницу с панели инструментов, а затем нажмите кнопку Добавить новый.
После этого вы можете добавить свой источник новостей. Введите имя веб-сайта источника канала, например, WPBeginner.
Далее необходимо ввести URL источника канала. В большинстве случаев вы можете просто ввести URL-адрес веб-сайта.
Вы можете щелкнуть ссылку «Проверить фид» под полем URL, чтобы проверить правильность RSS-канала.
Если ссылка действительна, вы можете опубликовать свой источник новостей.
После этого плагин сразу начнет импортировать элементы фида (зависит от интервала обработки фида).
Вы можете увидеть импортированные фиды, перейдя в RSS-агрегатор »Ленты новостей,
После этого повторите процесс, чтобы добавить дополнительные источники каналов на свой веб-сайт.
Шаг 4. Опубликуйте свой контент-агрегатор в прямом эфире
Теперь, когда у вас есть импортированные элементы фидов, вы можете публиковать свои агрегированные статьи в прямом эфире на своем веб-сайте.
Создайте новую страницу или пост, чтобы опубликовать ваш фид контента. Затем вам нужно будет щелкнуть значок «Добавить новый блок» и выбрать блок «Агрегатор WP RSS» в разделе «Виджеты».
После этого плагин автоматически загрузит ваш фид WordPress.
Теперь вы можете опубликовать свою страницу и просматривать ваш фид контента в реальном времени. Вот как это выглядело на вашем демо-сайте.
Шаг 5. Добавление дополнительных функций в ваш агрегатор контента WordPress
WP RSS Aggregator позволяет добавлять больше функций в ваш агрегатор контента WordPress с его премиум-аддонами. Вы можете просмотреть доступные дополнения, перейдя в RSS-агрегатор »Дополнительные функции с вашей приборной панели.
Используя эти дополнения, вы можете импортировать элементы фида в виде постов WordPress и создать веб-сайт новостного агрегатора с гораздо большим количеством функций. Дополнение Feed to Post позволяет вам добавить эту функциональность, делая каждый элемент ленты отдельным независимым контентом.
Вы также можете отображать миниатюры постов и выдержки с лентами новостей. Чтобы добавить эту функцию, вам нужно использовать дополнение Excerpts & Thumbnails.
Подробное руководство по расширенным функциям плагина см. В нашем полном руководстве по извлечению каналов в WordPress с использованием WP RSS Aggregator.
Мы надеемся, что эта статья помогла вам узнать о лучших новостных сайтах и о том, как создать свой собственный в WordPress. Если вы являетесь издателем контента, вы также можете ознакомиться с нашим руководством по оптимизации вашего канала RSS. Это поможет вам получить больше трафика с сайтов-агрегаторов новостей, отображающих ваш канал.
Если вам понравилась эта статья, пожалуйста, подпишитесь на наш канал YouTube для видеоуроков WordPress. Вы также можете найти нас на щебет и фейсбук.
Источник