Я пытаюсь прочитать CSV файл в кадре данных. Я знаю, какой должна быть схема моего информационного кадра, так как я знаю свой CSV файл. Также я использую пакет spark csv для чтения файла. Я пытаюсь указать схему, как показано ниже.
val pagecount = sqlContext.read.format("csv")
.option("delimiter"," ").option("quote","")
.option("schema","project: string ,article: string ,requests: integer ,bytes_served: long")
.load("dbfs:/databricks-datasets/wikipedia-datasets/data-001/pagecounts/sample/pagecounts-20151124-170000")
Но когда я проверяю схему созданного фрейма данных, он, кажется, взял свою собственную схему. Я делаю что-то не так? как заставить искру подобрать схему, о которой я упоминал?
> pagecount.printSchema
root
|-- _c0: string (nullable = true)
|-- _c1: string (nullable = true)
|-- _c2: string (nullable = true)
|-- _c3: string (nullable = true)