Предположим, что df1
и df2
являются двумя DataFrame
в Apache Spark, вычисленными с использованием двух разных механизмов, например Spark SQL и API Scala/Java/Python.
Существует ли идиоматический способ определить, являются ли два кадра данных эквивалентными (равными, изоморфными), где эквивалентность определяется данными (имена столбцов и значения столбцов для каждой строки) идентичны, кроме упорядочения строк и столбцов
Мотивация вопроса заключается в том, что часто существует множество способов вычисления большого результата данных, каждый из которых имеет свои собственные компромиссы. По мере изучения этих компромиссов важно поддерживать правильность и, следовательно, необходимо проверить эквивалентность/равенство в значимом наборе тестовых данных.