Я использую два ноутбука Jupyter, чтобы делать разные вещи в анализе. В моем ноутбуке Scala я пишу некоторые мои очищенные данные в паркет:
partitionedDF.select("noStopWords","lowerText","prediction").write.save("swift2d://xxxx.keystone/commentClusters.parquet")
Затем я перехожу к своей записной книжке Python для чтения в данных:
df = spark.read.load("swift2d://xxxx.keystone/commentClusters.parquet")
и я получаю следующую ошибку:
AnalysisException: u'Unable to infer schema for ParquetFormat at swift2d://RedditTextAnalysis.keystone/commentClusters.parquet. It must be specified manually;'
Я просмотрел документацию по искровым разрядам, и я не думаю, что мне нужно будет указать схему. Кто-нибудь сталкивался с чем-то подобным? Должен ли я делать что-то еще, когда я сохраняю/загружаю? Данные приземляются в хранилище объектов.
изменить: Я пою искру 2.0 как в чтениях, так и в записи.
edit2: Это было сделано в проекте "Опыт в области данных".