0. DataFrame 的成员函数及操作
DataFrame 需要有属性列名,比如某df
有两个属性列,user
/artist
;df.agg(min("user"), max("user"), min("artist"), max("artist")).show()
1. RDD to DataFrame
某 RDD 每一行均有两个元素组成:rdd.toDF("user", "artist")
2. Dataset
sparkSession.createDataset()3. 注意
/questions/38664972/why-is-unable-to-find-encoder-for-type-stored-in-a-dataset-when-creating-a-dat
Dataset 还是 DataFrame 都需要其所存储数据类型的 Encoders,对于一般类型,有许多预定义 Encoders 可用,但需要显示地从 SparkSession.implicits 中进行引入,
val sparkSession: SparkSession = SparkSession.builder.appName("").master(”local“).getOrCreate()import sparkSession.implicits._val dataset = sparkSession.createDataset(..)