Я хочу отфильтровать DataFrame Pyspark с SQL-подобным предложением IN
, как в
sc = SparkContext()
sqlc = SQLContext(sc)
df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')
где a
- это набор (1, 2, 3)
. Я получаю эту ошибку:
java.lang.RuntimeException: [1.67] failure: `` ('' ожидаемый, но идентификатор найденный
который в основном говорит, что он ожидал чего-то вроде "(1, 2, 3)" вместо a. Проблема в том, что я не могу вручную записывать значения в a, как извлеченные из другого задания.
Как я буду фильтровать в этом случае?