Wednesday, August 13, 2014

18 основных инструментов семейства Hadoop

Количество новых инструментов вокруг Hadoop стремительно растет и следить за всеми новинками в данном направлении достаточно сложно. Популярный портал, посвященный анализу данных, KDnuggets в своей статье публикует список из 18 основных инструментов семейства Hadoop.

Hadoop является важной частью многих проектов, связанных с анализом данных. Новые технологии, основанные на Hadoop, появляются постоянно и уследить за ними достаточно непросто. Вот список из 18 основных инструментов:

  • Apache Hadoop - основной сайт продукта.
  • Apache Amari - продукт для мониторинга Hadoop-кластера.
  • HDFS (Hadoop Distributed File System) - базовый фреймворк для распределения данных по кластеру на котором работает Hadoop.
  • Apache HBase - база данных табличного типа, построенная поверх Hadoop
  • Apache Hive - хранилище данных, построенное поверх Hadoop, из которого можно получать данные посредством SQL-подобного языка.
  • Apache Sqoop - инструмент для обмена данными между Hadoop и другими хранилищами данных.
  • Apache Pig - платформа для распараллеленного выполнения кода над данными, которые хранятся в Hadoop.
  • Zookeeper - инструмент для управления конфигурацией и синхронизации между кластерами.
  • NoSQL - базы данных построенные на принципах, отличающиеся от подходов в традиционных SQL-системах. Популярные NoSQL базы данных: Cassandra, Riak и MongoDB.
  • Apache Mahout - библиотека машинного обучения, работающая поверх данных, хранящихся в Hadoop.
  • Apache Lucene/Apache Solr - инструмент для индексации текстовых данных, хранящихся в Hadoop.
  • Apache Avro - система сериализации данных.
  • Oozie - менеджер рабочих процессов (Workflow) для семейства продуктов Hadoop.
  • GIS Tools - набор инструментов для работы с географической информацией.
  • Apache Flume - система для сбора данных логирования.
  • SQL поверх Hadoop - вот некторые популярные решения: Apache Hive, Cloudera Impala, Presto (Facebook), Shark, Apache Drill, EMC/Pivotal HAWQ, BigSQL от IBM, Apache Phoenix (для HBase), Apache Tajo.
  • Облачные решения - набор управляемых серверов и служб, которые избавляют вас от проблем, с которыми вы можете столкнуться, когда используется свою собственную инфраструктуру.
  • Apache Spark - новый еще более быстрый способ выполнять алгоритмы над данными, которые хранятся в Hadoop.

Каждая из приведенных технологий добавляет новый инструмент в ваш арсенал инструментов по анализу данных и может значительно упросить выполнение необходимой для успешного достижения цели работы. Еще более подробную информацию можно увидеть в презентации с сайта NetworkWorld.

No comments:

Post a Comment