600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > spark常用RDD算子 汇总(java和scala版本)

spark常用RDD算子 汇总(java和scala版本)

时间:2023-03-04 13:54:45

相关推荐

spark常用RDD算子 汇总(java和scala版本)

github:/zhaikaishun/spark_tutorial

spark RDD的算子挺多,有时候如何灵活的使用,该如何用一下子想不起来,这一段时间将spark的算子如何使用的例子给记录了下来,下面是spark RDD 的一些常用算子的使用

这些算子包括有java的,也有scala的语言,由于精力有限,暂时没有python的,以后有空再加上吧

spark RDD算子(一) parallelize,makeRDD,textFile

spark RDD算子(二) filter,map ,flatMap

spark RDD算子(三) distinct,union,intersection,subtract,cartesian

spark RDD算子(四)之创建键值对RDD mapToPair flatMapToPair

spark RDD算子(五)之键值对聚合操作 combineByKey

spark RDD算子(六)之键值对聚合操作reduceByKey,foldByKey,排序操作sortByKey

spark RDD算子(七)之键值对分组操作 groupByKey,cogroup

spark RDD算子(八)之键值对关联操作 subtractByKey, join, rightOuterJoin, leftOuterJoin

spark RDD算子(九)之基本的Action操作 first, take, collect, count, countByValue, reduce, aggregate, fold,top

spark RDD算子(十)之PairRDD的Action操作countByKey, collectAsMap

spark RDD算子(十一)之RDD Action 保存操作saveAsTextFile,saveAsSequenceFile,saveAsObjectFile,saveAsHadoopFile 等

spark RDD算子(十二)之RDD 分区操作上mapPartitions, mapPartitionsWithIndex

spark RDD算子(十三)之RDD 分区 HashPartitioner,RangePartitioner,自定义分区

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。