В Spark версии 1.2.0 можно использовать subtract с 2 SchemRDD, чтобы в итоге получить только один контент из первого
val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)
onlyNewData содержит строки в todaySchemRDD, которые не существуют в yesterdaySchemaRDD.
Как это можно достичь с помощью DataFrames в Spark версии 1.3.0?