Можно ли преобразовать фреймворк Pandas в RDD?
if isinstance(data2, pd.DataFrame):
print 'is Dataframe'
else:
print 'is NOT Dataframe'
- это Dataframe
Вот результат при попытке использовать .rdd
dataRDD = data2.rdd
print dataRDD
AttributeError Traceback (most recent call last)
<ipython-input-56-7a9188b07317> in <module>()
----> 1 dataRDD = data2.rdd
2 print dataRDD
/usr/lib64/python2.7/site-packages/pandas/core/generic.pyc in __getattr__(self, name)
2148 return self[name]
2149 raise AttributeError("'%s' object has no attribute '%s'" %
-> 2150 (type(self).__name__, name))
2151
2152 def __setattr__(self, name, value):
AttributeError: 'DataFrame' object has no attribute 'rdd'
Я хотел бы использовать Pandas Dataframe, а не sqlContext для сборки, поскольку я не уверен, что все функции в Pandas DF доступны в Spark. Если это невозможно, есть ли кто-нибудь, кто может предоставить пример использования Spark DF