Я искал какое-то время, если есть какой-либо способ использования класса Scala
в Pyspark
, и я не нашел никакой документации или руководства по этому вопросу.
Скажем, я создаю простой класс в Scala
, который использует некоторые библиотеки apache-spark
, что-то вроде:
class SimpleClass(sqlContext: SQLContext, df: DataFrame, column: String) {
def exe(): DataFrame = {
import sqlContext.implicits._
df.select(col(column))
}
}
- Можно ли использовать этот класс в
Pyspark
? - Это слишком сложно?
- Должен ли я создать файл
.py
? - Есть ли какой-нибудь справочник, который показывает, как это сделать?
Кстати, я также посмотрел код spark
, и я чувствовал себя немного потерянным, и я не мог воспроизвести их функциональность для своей собственной цели.