Apache Spark (Tutorial 2) : RDD Transformation and Action Examples

Tutorial 1 : Java 8 + Maven 3 + Eclipse 

Tutorial 2 : RDD Transformation and Action Examples current-tutorial-icon-50 

Tutorial 3 : Spark Function and Java 8 Function in a Use Case 

Apache Spark Basic Notions

  • Resilient Distributed Datasets (RDD) : Immutable Collections of objects Distributed across a cluster.
  • Transformation : Lazy operators that create new RDDs.
  • Actions : lunch a computation and return a value or write data to disk.
  • Lambda expressions : A new features of Java 8 that let you pass a functionality as a method argument.

RDD Transformations

moneda_de_oro Map, Filter and FlatMap

Map : map(f : T ⇒ U) : JavaRDD<T> n     ⇒      JavaRDD<U> n
Filter : filter(f : T ⇒ Bool) : JavaRDD<T> n     ⇒     JavaRDD<T> m≤n
FlatMap : flatMap(f : T ⇒ List<U>) : JavaRDD<T> n      ⇒     JavaRDD<U> m≥n

moneda_de_oro ReduceByKey and GroupByKey

ReduceByKey : reduceByKey(f : (V,V) ⇒ V) : JavaPairRDD<K,V> n     ⇒      JavaPairRDD<K,V> m≤n
GroupByKey : groupByKey() : JavaPairRDD<K,V> n     ⇒      JavaPairRDD< K , Iterable<V> > m≤n

moneda_de_oro Join

Join : join() : ( JavaPairRDD<K,V> n1 , JavaPairRDD<K,W> n2     ) ⇒      JavaPairRDD<K,Tuple2<V,W>> m

moneda_de_oro CoGroup

CoGroup : CoGroup() : ( JavaPairRDD<K,V> n1 , JavaPairRDD<K,W> n2     ) ⇒      JavaPairRDD< K , Tuple2<Iterable<V>,Iterable<W>> > m

moneda_de_oro Union

Union : union() : ( JavaRDD<T> n1 , JavaRDD<T> n2     ) ⇒      JavaRDD<T> n1+n2

 


Actions

moneda_de_oro Collect

 

moneda_de_oro Count

 

 moneda_de_oro Reduce

 

moneda_de_oro Take