在Spark版本1.2.0中,可以将subtract与2 SchemRDD一起使用,以仅得到与第一个不同的内容

val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)
onlyNewData包含todaySchemRDD中不存在yesterdaySchemaRDD的行。

如何在Spark版本1.3.0中使用DataFrames来实现?

最佳答案

根据api docs,执行以下操作:

dataFrame1.except(dataFrame2)

将返回一个新的DataFrame,其中包含dataFrame1中的行,但不包含dataframe2中的行。

09-19 05:52