Friday, October 24, 2014

Использование Apache Spark для работы с данными

Apache Spark - высокопроизводительное средство обработки данных, хранящихся в кластере Hadoop. По сравнению с предоставленным в Hadoop механизмом MapReduce, Spark обеспечивает в 100 раз большую производительность при обработке данных в памяти и 10 раз при размещении данных на дисках. Движение может выполняться на узлах кластера Hadoop как с помощью Hadoop YARN, так и в уединенном режиме. Поддерживается обработка данных в хранилищах HDFS, HBase, Cassandra, Hive и любом формате введения Hadoop (InputFormat). Spark может использоваться как в типовых сценариях обработки данных, похожих на MapReduce, так и для реализации специфических методов, таких как потоковая обработка, SQL, интерактивные и аналитические запросы, решения задач машинного обучения и работа с графами. Программы для обработки данных могут создаваться на языках Scala, Java и Python. Spark после пребывания в инкубаторе стал первичным проектом Apache Software Foundation с февраля 2014 года. Из компаний, которые используют Spark, отмечаются Alibaba, Cloudera, Databricks, IBM, Intel и Yahoo.

Хочу напомнить, что на недавней встрече, посвященной Apache Cassandra был отличный доклад от Артёма Алиева из DataStax про использование Apache Spark совместно с Cassandra: Материалы со встречи "Moscow Cassandra Meetup at Yandex" .

В данном посте представлен набор видеоматериалов, которые посвящены Apache Spark.

Spark in the Hadoop Ecosystem – Eric Baldeschwieler, CTO Hortonworks



Beyond Hadoop MapReduce: Interactive Analytic Insights Using Spark

ClearStory Data’s Sharmila Mulligan and Stephanie McReynolds discuss the applications of interactive big data technologies



Parallel Programming with Spark (Part 1 & 2) – Matei Zaharia, Founder of Spark

Part 1: A brief intro to Scala and exploring data in the Spark Shell. Part 2: Writing standalone Spark programs using Scala or Java.



Strata 2014: Matei Zaharia, “How Companies are Using Spark, and Where the Edge in Big Data Will Be”



Spark Summit 2013 – The State of Spark, and Where We’re Going Next – Matei Zaharia (Founder of Spark)



Источники

No comments:

Post a Comment