package com.test;

import java.util.ArrayList;
import java.util.List;
import java.util.Map; import org.apache.spark.Partitioner;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.Optional;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction; import scala.Tuple2; /**
* KeyValue数据类型的Transformation算子
* @author FengZhen
*
*/
public class SparkKeyValue{ public static void main(String[] args){
//SparkConf conf = new SparkConf().setAppName(SparkKeyValue.class.getName()).setMaster("local[2]");
SparkConf conf = new SparkConf().setAppName(SparkKeyValue.class.getName());
JavaSparkContext sc = new JavaSparkContext(conf);
// 数据
JavaRDD<String> ds = sc.textFile("hdfs://bjqt/data/labeldata/datalabel.csv");
/**
* 获取身份证:姓名
*/
JavaPairRDD<String, String> pairRDD = ds.mapToPair(new PairFunction<String, String, String>() {
@Override
public Tuple2<String, String> call(String t) throws Exception {
String line = t.replace("‘", "");
String[] lines = line.split(",");
return new Tuple2<String, String>(lines[1], lines[0]);
}
}); Map<String, String> pairMap = pairRDD.collectAsMap();
System.out.println("pairMap=" + pairMap);
/**
*一、输入分区与输出分区一对一
*15、mapValues算子
*/
/**
* 15、mapValues算子
* mapValues :针对(Key, Value)型数据中的 Value 进行 Map 操作,而不对 Key 进行处理。
* 获取身份证号:姓氏
*/
JavaPairRDD<String, String> firstNameRDD = pairRDD.mapValues(new Function<String, String>() {
@Override
public String call(String v1) throws Exception {
return v1.substring(0, 1);
}
});
Map<String, String> firstNameMap = firstNameRDD.collectAsMap();
System.out.println("firstNameMap=" + firstNameMap); /**
* 二、对单个RDD或两个RDD聚集
    单个RDD聚集
     16、combineByKey算子
     17、reduceByKey算子
     18、partitionBy算子
   两个RDD聚集
     19、Cogroup算子
*/
/**
* 16、combineByKey算子
* 下面代码为 combineByKey 函数的定义:
  combineByKey[C](createCombiner:(V) C,
  mergeValue:(C, V) C,
  mergeCombiners:(C, C) C,
  partitioner:Partitioner,
  mapSideCombine:Boolean=true,
  serializer:Serializer=null):RDD[(K,C)]
说明:
createCombiner: V => C, C 不存在的情况下,比如通过 V 创建 seq C。
mergeValue: (C, V) => C,当 C 已经存在的情况下,需要 merge,比如把 item V
加到 seq C 中,或者叠加。
mergeCombiners: (C, C) => C,合并两个 C。
partitioner: Partitioner, Shuff le 时需要的 Partitioner。
mapSideCombine : Boolean = true,为了减小传输量,很多 combine 可以在 map
端先做,比如叠加,可以先在一个 partition 中把所有相同的 key 的 value 叠加,
再 shuffle。
serializerClass: String = null,传输需要序列化,用户可以自定义序列化类:
例如,相当于将元素为 (Int, Int) 的 RDD 转变为了 (Int, Seq[Int]) 类型元素的 RDD createCombiner: V => C ,这个函数把当前的值作为参数,此时我们可以对其做些附加操作(类型转换)并把它返回 (这一步类似于初始化操作)
mergeValue: (C, V) => C,该函数把元素V合并到之前的元素C(createCombiner)上 (这个操作在每个分区内进行)
mergeCombiners: (C, C) => C,该函数把2个元素C合并 (这个操作在不同分区间进行) 获取相同姓氏的身份证号集合
*/
JavaPairRDD<String, String> namePairRDD = firstNameRDD.mapToPair(new PairFunction<Tuple2<String,String>, String, String>() {
@Override
public Tuple2<String, String> call(Tuple2<String, String> t)
throws Exception {
return new Tuple2<String, String>(t._2, t._1);
}
});
Map<String, String> namePairMap = namePairRDD.collectAsMap();
System.out.println("namePairMap="+namePairMap); JavaPairRDD<String, List<String>> combineByKeyRDD = namePairRDD.combineByKey(new Function<String, List<String>>() {
@Override
public List<String> call(String v1) throws Exception {
List<String> list = new ArrayList<String>();
list.add(v1);
return list;
}
}, new Function2<List<String>, String, List<String>>(){
@Override
public List<String> call(List<String> v1, String v2) throws Exception {
v1.add(v2);
return v1;
}
}, new Function2<List<String>, List<String>, List<String>>() {
@Override
public List<String> call(List<String> v1, List<String> v2)
throws Exception {
List<String> list = new ArrayList<String>();
list.addAll(v1);
list.addAll(v2);
return list;
}
});
Map<String, List<String>> combineByKeyMap = combineByKeyRDD.collectAsMap();
System.out.println("combineByKeyMap="+combineByKeyMap); /**
* 17、reduceByKey算子
* reduceByKey 是比 combineByKey 更简单的一种情况,只是两个值合并成一个值,( Int, Int V)to (Int, Int C),比如叠加。所以 createCombiner reduceBykey 很简单,就是直接返回 v,而 mergeValue和 mergeCombiners 逻辑是相同的,没有区别。
函数实现:
def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)]
= {
combineByKey[V]((v: V) => v, func, func, partitioner)
}
计算每个姓氏对应的人数
*/
JavaPairRDD<String, Integer> firstNameCountPairRDD = namePairRDD.mapToPair(new PairFunction<Tuple2<String,String>, String, Integer>() {
@Override
public Tuple2<String, Integer> call(Tuple2<String, String> t)
throws Exception {
return new Tuple2<String, Integer>(t._1, 1);
}
});
JavaPairRDD<String, Integer> reduceByKeyRDD = firstNameCountPairRDD.reduceByKey(new Function2<Integer, Integer, Integer>() {
@Override
public Integer call(Integer v1, Integer v2) throws Exception {
return v1+v2;
}
});
Map<String, Integer> reduceByKeyMap = reduceByKeyRDD.collectAsMap();
System.out.println("reduceByKeyMap="+reduceByKeyMap); /**
* 18、partitionBy算子(按key分)
* partitionBy函数对RDD进行分区操作。
   函数定义如下。
   partitionBy(partitioner:Partitioner)
   如果原有RDD的分区器和现有分区器(partitioner)一致,则不重分区,如果不一致,则相当于根据分区器生成一个新的ShuffledRDD。
*/
JavaPairRDD<String, String> idNamePairRDD = namePairRDD.mapToPair(new PairFunction<Tuple2<String,String>, String, String>() {
@Override
public Tuple2<String, String> call(Tuple2<String, String> t)
throws Exception {
return new Tuple2<String, String>(t._2, t._1);
}
});
//男女分区
JavaPairRDD<String, String> partitionRDD = idNamePairRDD.partitionBy(new Partitioner() {
//分区数量
@Override
public int numPartitions() {
return 2;
}
//根据分区规则指定分区
@Override
public int getPartition(Object arg0) {
String idCard = (String)arg0;
char genderSign = idCard.charAt(idCard.length()-2);
String genderStr = String.valueOf(genderSign);
Integer genderInt = Integer.parseInt(genderStr);
if (genderInt%2 == 0) {
return 0;
} else {
return 1;
}
}
});
Map<String, String> partitionMap = partitionRDD.collectAsMap();
System.out.println("partitionMap="+partitionMap); /**
* 两个RDD聚集
* 19、Cogroup算子
* cogroup函数将两个RDD进行协同划分,cogroup函数的定义如下。
  cogroup[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (Iterable[V], Iterable[W]))]
  对在两个RDD中的Key-Value类型的元素,每个RDD相同Key的元素分别聚合为一个集合,并且返回两个RDD中对应Key的元素集合的迭代器。
  (K, (Iterable[V], Iterable[W]))
  其中,Key和Value,Value是两个RDD下相同Key的两个数据集合的迭代器所构成的元组。
*/ List<Tuple2<Integer, String>> DBName= new ArrayList<Tuple2<Integer,String>>();
DBName.add(new Tuple2<Integer, String>(1,"Spark"));
DBName.add(new Tuple2<Integer, String>(2,"Hadoop"));
DBName.add(new Tuple2<Integer, String>(3,"Kylin"));
DBName.add(new Tuple2<Integer, String>(4,"Flink"));
DBName.add(new Tuple2<Integer, String>(6,"Sqoop")); List<Tuple2<Integer, String>> numType = new ArrayList<Tuple2<Integer,String>>();
numType.add(new Tuple2<Integer, String>(1,"String"));
numType.add(new Tuple2<Integer, String>(2,"int"));
numType.add(new Tuple2<Integer, String>(3,"byte"));
numType.add(new Tuple2<Integer, String>(4,"bollean"));
numType.add(new Tuple2<Integer, String>(5,"float"));
numType.add(new Tuple2<Integer, String>(1,"34"));
numType.add(new Tuple2<Integer, String>(1,"45"));
numType.add(new Tuple2<Integer, String>(2,"47"));
numType.add(new Tuple2<Integer, String>(3,"75"));
numType.add(new Tuple2<Integer, String>(4,"95"));
numType.add(new Tuple2<Integer, String>(5,"16"));
numType.add(new Tuple2<Integer, String>(1,"85")); JavaPairRDD<Integer, String> DBNameRDD = sc.parallelizePairs(DBName);
JavaPairRDD<Integer, String> numTypeRDD = sc.parallelizePairs(numType); JavaPairRDD<Integer, Tuple2<Iterable<String>, Iterable<String>>> coGroupRDD = DBNameRDD.cogroup(numTypeRDD);
Map<Integer, Tuple2<Iterable<String>, Iterable<String>>> coGroupMap = coGroupRDD.collectAsMap();
System.out.println("coGroupMap="+coGroupMap); /**
* 三、连接
    20、join算子
    21、leftOutJoin和 rightOutJoin算子
*/
/**
* 20、join算子
* join 对两个需要连接的 RDD 进行 cogroup函数操作,将相同 key 的数据能够放到一个分区,
* 在 cogroup 操作之后形成的新 RDD 对每个key 下的元素进行笛卡尔积的操作,返回的结果再展平,
* 对应 key 下的所有元组形成一个集合。最后返回 RDD[(K, (V, W))]。
* 下 面 代 码 为 join 的 函 数 实 现, 本 质 是通 过 cogroup 算 子 先 进 行 协 同 划 分, 再 通 过flatMapValues 将合并的数据打散。
* this.cogroup(other,partitioner).f latMapValues{case(vs,ws) => for(v<-vs;w<-ws)yield(v,w) }
*/
JavaPairRDD<Integer, Tuple2<String, String>> joinRDD = DBNameRDD.join(numTypeRDD);
Map<Integer, Tuple2<String, String>> joinMap = joinRDD.collectAsMap();
System.out.println("joinMap="+joinMap); /**
* 21、leftOutJoin和 rightOutJoin算子
* LeftOutJoin(左外连接)和RightOutJoin(右外连接)相当于在join的基础上先判断一侧的RDD元素是否为空,
* 如果为空,则填充为空。 如果不为空,则将数据进行连接运算,并返回结果。
下面代码是leftOutJoin的实现。
if (ws.isEmpty) {
vs.map(v => (v, None))
} else {
for (v <- vs; w <- ws) yield (v, Some(w))
}
*/
JavaPairRDD<Integer, Tuple2<String, Optional<String>>> leftOuterJoinRDD = DBNameRDD.leftOuterJoin(numTypeRDD);
Map<Integer, Tuple2<String, Optional<String>>> leftOuterJoinMap = leftOuterJoinRDD.collectAsMap();
System.out.println("leftOuterJoinMap="+leftOuterJoinMap); JavaPairRDD<Integer, Tuple2<Optional<String>, String>> rightOuterJoinRDD = DBNameRDD.rightOuterJoin(numTypeRDD);
Map<Integer, Tuple2<Optional<String>, String>> rightOuterJoinMap = rightOuterJoinRDD.collectAsMap();
System.out.println("rightOuterJoinMap="+rightOuterJoinMap); /**
* Action算子
  一、无输出
    22、foreach算子
  二、HDFS
    23、saveAsTextFile算子
    24、saveAsObjectFile算子
  三、Scala集合和数据类型
    25、collect算子
    26、collectAsMap算子
    27、reduceByKeyLocally算子
    28、lookup算子
    29、count算子
    30、top算子
    31、reduce算子
    32、fold算子
    33、aggregate算子
*/ /**
* Action算子
* 本质上在 Action 算子中通过 SparkContext 进行了提交作业的 runJob 操作,触发了RDD DAG 的执行。
例如, Action 算子 collect 函数的代码如下
// Return an array that contains all of the elements in this RDD.
def collect(): Array[T] = {
//提交 Job
val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray)
Array.concat(results: _*)
}
*/
/**
* 无输出
* 22、foreach算子
* foreach 对 RDD 中的每个元素都应用 f 函数操作,不返回 RDD 和 Array, 而是返回Uint
*/
ds.foreach(new VoidFunction<String>() {
@Override
public void call(String t) throws Exception {
System.out.println(t);
}
}); /**
* 二、HDFS
    23、saveAsTextFile算子
    24、saveAsObjectFile算子
*/
/**
* 23、saveAsTextFile算子
* 函数将数据输出,存储到 HDFS 的指定目录。
下面为 saveAsTextFile 函数的内部实现,其内部
通过调用 saveAsHadoopFile 进行实现:
this.map(x => (NullWritable.get(), new Text(x.toString))).saveAsHadoopFile[TextOutputFormat[NullWritable, Text]](path)
将 RDD 中的每个元素映射转变为 (null, x.toString),然后再将其写入 HDFS。
*/
//firstNameRDD.saveAsTextFile("hdfs://bjqt/data/testSaveAsText"); /**
* 24、saveAsObjectFile算子
* saveAsObjectFile将分区中的每10个元素组成一个Array,然后将这个Array序列化,
* 映射为(Null,BytesWritable(Y))的元素,写入HDFS为SequenceFile的格式。
  下面代码为函数内部实现。
  map(x=>(NullWritable.get(),new BytesWritable(Utils.serialize(x))))
*/
//firstNameRDD.saveAsObjectFile("hdfs://bjqt/data/testSaveAsObject"); /**
* 三、Scala集合和数据类型
    25、collect算子
    26、collectAsMap算子
    27、reduceByKeyLocally算子
    28、lookup算子
    29、count算子
    30、top算子
    31、reduce算子
    32、fold算子
    33、aggregate算子
*/ /**
* 25、collect算子
* collect 相当于 toArray, toArray 已经过时不推荐使用, collect 将分布式的 RDD 返回为一个单机的 scala Array 数组。
* 在这个数组上运用 scala 的函数式操作。
*/
/**
* 26、collectAsMap算子
* collectAsMap对(K,V)型的RDD数据返回一个单机HashMap。 对于重复K的RDD元素,后面的元素覆盖前面的元素。
*/
/**
* 27、reduceByKeyLocally算子
* 实现的是先reduce再collectAsMap的功能,先对RDD的整体进行reduce操作,然后再收集所有结果返回为一个HashMap。
*/
Map<String, Integer> reduceByKeyLocallyMap = firstNameCountPairRDD.reduceByKeyLocally(new Function2<Integer, Integer, Integer>() {
@Override
public Integer call(Integer v1, Integer v2) throws Exception {
return v1+v2;
}
});
System.out.println("reduceByKeyLocallyMap="+reduceByKeyLocallyMap); /**
* 28、lookup算子
* 下面代码为lookup的声明。
lookup(key:K):Seq[V]
Lookup函数对(Key,Value)型的RDD操作,返回指定Key对应的元素形成的Seq。
这个函数处理优化的部分在于,如果这个RDD包含分区器,则只会对应处理K所在的分区,
然后返回由(K,V)形成的Seq。 如果RDD不包含分区器,则需要对全RDD元素进行暴力扫描处理,搜索指定K对应的元素。
*/
List<String> lookupList = firstNameRDD.lookup("441283198412125733");
System.out.println("lookupList="+lookupList); /**
* 29、count算子
* count 返回整个 RDD 的元素个数。
  内部函数实现为:
  defcount():Long=sc.runJob(this,Utils.getIteratorSize_).sum
*/
long count = ds.count();
System.out.println("count="+count); /**
* 30、top算子
* top可返回最大的k个元素。 函数定义如下。
top(num:Int)(implicit ord:Ordering[T]):Array[T]
相近函数说明如下。
·top返回最大的k个元素。
·take返回最小的k个元素。
·takeOrdered返回最小的k个元素,并且在返回的数组中保持元素的顺序。
·first相当于top(1)返回整个RDD中的前k个元素,可以定义排序的方式Ordering[T]。
返回的是一个含前k个元素的数组。
*/
// List<Tuple2<String, String>> topList = firstNameRDD.top(2, new Comparator<Tuple2<String,String>>() {
// @Override
// public int compare(Tuple2<String, String> o1, Tuple2<String, String> o2) {
// return o1._1.compareTo(o2._1);
// }
// });
// System.out.println("topList="+topList);
List<Tuple2<String, String>> takeList = firstNameRDD.take(2);
System.out.println("takeList="+takeList);
// List<Tuple2<Integer, String>> takeOrderedList = DBNameRDD.takeOrdered(2, new Comparator<Tuple2<Integer,String>>() {
//
// @Override
// public int compare(Tuple2<Integer, String> o1,
// Tuple2<Integer, String> o2) {
// return o1._1 > o2._1?0:1;
// }
// });
// System.out.println("takeOrderedList="+takeOrderedList);
Tuple2<String, String> first = firstNameRDD.first();
System.out.println("first="+first); /**
* 31、reduce算子
* reduce函数相当于对RDD中的元素进行reduceLeft函数的操作。 函数实现如下。
  Some(iter.reduceLeft(cleanF))
  reduceLeft先对两个元素<K,V>进行reduce函数操作,然后将结果和迭代器取出的下一个元素<k,V>进行reduce函数操作,
直到迭代器遍历完所有元素,得到最后结果。在RDD中,先对每个分区中的所有元素<K,V>的集合分别进行reduceLeft。
每个分区形成的结果相当于一个元素<K,V>,再对这个结果集合进行reduceleft操作。
  例如:用户自定义函数如下。
  f:(A,B)=>(A._1+”@”+B._1,A._2+B._2)
*/
Tuple2<String, String> reduceTuple2 = firstNameRDD.reduce(new Function2<Tuple2<String,String>, Tuple2<String,String>, Tuple2<String,String>>() {
@Override
public Tuple2<String, String> call(Tuple2<String, String> v1,
Tuple2<String, String> v2) throws Exception {
return new Tuple2<String, String>(v1._1+v2._1, v1._2+v2._2);
}
});
System.out.println("reduceTuple2="+reduceTuple2); /**
* 32、fold算子
* fold和reduce的原理相同,但是与reduce不同,相当于每个reduce时,迭代器取的第一个元素是zeroValue。
* fold((”V0@”,2))( (A,B)=>(A._1+”@”+B._1,A._2+B._2))
*/
Tuple2<String, String> foldTuple2 = firstNameRDD.fold(new Tuple2<String, String>("", ""), new Function2<Tuple2<String,String>, Tuple2<String,String>, Tuple2<String,String>>() {
@Override
public Tuple2<String, String> call(Tuple2<String, String> v1,
Tuple2<String, String> v2) throws Exception {
return new Tuple2<String, String>(v1._1+v2._1, v1._2+v2._2);
}
});
System.out.println("foldTuple2="+foldTuple2); /**
* 33、aggregate算子
* aggregate先对每个分区的所有元素进行aggregate操作,再对分区的结果进行fold操作。
  aggreagate与fold和reduce的不同之处在于,aggregate相当于采用归并的方式进行数据聚集,这种聚集是并行化的。
而在fold和reduce函数的运算过程中,每个分区中需要进行串行处理,每个分区串行计算完结果,
结果再按之前的方式进行聚集,并返回最终聚集结果。
  函数的定义如下。
aggregate[B](z: B)(seqop: (B,A) => B,combop: (B,B) => B): B
广播(broadcast)变量:其广泛用于广播Map Side Join中的小表,以及广播大变量等场景。
这些数据集合在单节点内存能够容纳,不需要像RDD那样在节点之间打散存储。
Spark运行时把广播变量数据发到各个节点,并保存下来,后续计算可以复用。
相比Hadoo的distributed cache,广播的内容可以跨作业共享。
Broadcast的底层实现采用了BT机制。
*/
String aggregateString = firstNameRDD.aggregate("", new Function2<String, Tuple2<String, String>, String>() {
@Override
public String call(String v1, Tuple2<String, String> v2) throws Exception {
System.out.println("v1="+v1+"--v2="+v2._1+">"+v2._2);
return v1+"="+v2._1;
}
}, new Function2<String, String, String>() {
@Override
public String call(String v1, String v2) throws Exception {
System.out.println("<<v1="+v1+"--v2="+v2);
return v1+"-"+v2;
}
});
System.out.println("aggregateString="+aggregateString); sc.close();
}
}

  

05-11 18:02