Я хотел бы создать JSON из Spark v.1.6 (используя scala) dataframe. Я знаю, что существует простое решение df.toJSON
.
Однако моя проблема выглядит несколько иначе. Рассмотрим, например, фреймворк данных со следующими столбцами:
| A | B | C1 | C2 | C3 |
-------------------------------------------
| 1 | test | ab | 22 | TRUE |
| 2 | mytest | gh | 17 | FALSE |
Я хотел бы иметь в конце фреймворк с
| A | B | C |
----------------------------------------------------------------
| 1 | test | { "c1" : "ab", "c2" : 22, "c3" : TRUE } |
| 2 | mytest | { "c1" : "gh", "c2" : 17, "c3" : FALSE } |
где C - JSON, содержащий C1
, C2
, C3
. К сожалению, во время компиляции я не знаю, как выглядит dataframe (за исключением столбцов A
и B
, которые всегда "исправлены" ).
В связи с тем, почему мне это нужно: я использую Protobuf для отправки результатов. К сожалению, у моего DataFrame иногда больше столбцов, чем ожидалось, и я все равно отправлял их через Protobuf, но я не хочу указывать все столбцы в определении.
Как я могу это достичь?