Предположим, что я делаю что-то вроде:
val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true"))
df.printSchema()
root
|-- year: string (nullable = true)
|-- make: string (nullable = true)
|-- model: string (nullable = true)
|-- comment: string (nullable = true)
|-- blank: string (nullable = true)
df.show()
year make model comment blank
2012 Tesla S No comment
1997 Ford E350 Go get one now th...
но я действительно хотел year
как Int
(и, возможно, преобразовать некоторые другие столбцы).
Лучшее, что я мог придумать, -
df.withColumn("year2", 'year.cast("Int")).select('year2 as 'year, 'make, 'model, 'comment, 'blank)
org.apache.spark.sql.DataFrame = [year: int, make: string, model: string, comment: string, blank: string]
который немного запутан.
Я родом из R, и я привык писать, например.
df2 <- df %>%
mutate(year = year %>% as.integer,
make = make %>% toupper)
Скорее всего, я что-то пропустил, так как в искрах / scala... должен быть лучший способ сделать это...