Эквивалент искры IF, тогда ELSE

Я видел этот вопрос раньше, и я взял уроки из этого. Однако я не уверен, почему я получаю сообщение об ошибке, когда чувствую, что он должен работать.

Я хочу создать новый столбец существующего Spark DataFrame по некоторым правилам. Вот что я написал. iris_spark - это кадр данных с категориальной переменной iris_spark с тремя различными категориями.

from pyspark.sql import functions as F

iris_spark_df = iris_spark.withColumn(
    "Class", 
   F.when(iris_spark.iris_class == 'Iris-setosa', 0, F.when(iris_spark.iris_class == 'Iris-versicolor',1)).otherwise(2))

Выдает следующую ошибку.

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-157-21818c7dc060> in <module>()
----> 1 iris_spark_df=iris_spark.withColumn("Class",F.when(iris_spark.iris_class=='Iris-setosa',0,F.when(iris_spark.iris_class=='Iris-versicolor',1)))

TypeError: when() takes exactly 2 arguments (3 given)


---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-157-21818c7dc060> in <module>()
----> 1 iris_spark_df=iris_spark.withColumn("Class",F.when(iris_spark.iris_class=='Iris-setosa',0,F.when(iris_spark.iris_class=='Iris-versicolor',1)))

TypeError: when() takes exactly 2 arguments (3 given)

Любая идея, почему?

Ответ 1

Правильная структура:

(when(col("iris_class") == 'Iris-setosa', 0)
.when(col("iris_class") == 'Iris-versicolor', 1)
.otherwise(2))

что эквивалентно

CASE 
    WHEN (iris_class = 'Iris-setosa') THEN 0
    WHEN (iris_class = 'Iris-versicolor') THEN 1 
    ELSE 2
END

или

(when(col("iris_class") == 'Iris-setosa', 0)
    .otherwise(when(col("iris_class") == 'Iris-versicolor', 1)
        .otherwise(2)))

что эквивалентно:

CASE WHEN (iris_class = 'Iris-setosa') THEN 0 
     ELSE CASE WHEN (iris_class = 'Iris-versicolor') THEN 1 
               ELSE 2 
          END 
END

с общим синтаксисом:

when(condition, value).when(...)

или

when(condition, value).otherwise(...)

Вероятно, вы перепутали вещи с улей IF условно:

IF(condition, if-true, if-false)

который может использоваться только в сыром SQL с поддержкой Hive.

Ответ 2

Существуют разные способы достижения "если-то-еще".

  1. Использование когда функции в DataFrame API. Вы можете указать список условий, когда, а также можете указать, какое значение вам нужно. Вы также можете использовать это выражение во вложенной форме.

  2. функция expr. Используя функцию "expr", вы можете передать выражение SQL в expr. Пример PFB. Здесь мы создаем новый столбец "квартал" на основе столбца месяца.

cond = """case when month > 9 then 'Q4'
            else case when month > 6 then 'Q3'
                else case when month > 3 then 'Q2'
                    else case when month > 0 then 'Q1'
                        end
                    end
                end
            end as quarter"""

newdf = df.withColumn("quarter", expr(cond))
  1. функция selectExpr. Мы также можем использовать вариант функции select, который может принимать выражение SQL. Пример PFB.
    cond = """case when month > 9 then 'Q4'
                else case when month > 6 then 'Q3'
                    else case when month > 3 then 'Q2'
                        else case when month > 0 then 'Q1'
                            end
                        end
                    end
                end as quarter"""

    newdf = df.selectExpr("*", cond)

Ответ 3

Условное утверждение в Spark

  • Использование, когда в противном случае'на DataFrame
  • Использование "случая, когда" на DataFrame
  • Использование операторов & amp; и || operator

import org.apache.spark.sql.functions.{when, _}
import spark.sqlContext.implicits._

val spark: SparkSession = SparkSession.builder().master("local[1]").appName("SparkByExamples.com").getOrCreate()

val data = List(("James ","","Smith","36636","M",60000),
        ("Michael ","Rose","","40288","M",70000),
        ("Robert ","","Williams","42114","",400000),
        ("Maria ","Anne","Jones","39192","F",500000),
        ("Jen","Mary","Brown","","F",0))

val cols = Seq("first_name","middle_name","last_name","dob","gender","salary")
val df = spark.createDataFrame(data).toDF(cols:_*)

1. Использование 'когда иначе' в DataFrame

Замените значение пола новым значением

val df1 = df.withColumn("new_gender", when(col("gender") === "M","Male")
      .when(col("gender") === "F","Female")
      .otherwise("Unknown"))

val df2 = df.select(col("*"), when(col("gender") === "M","Male")
      .when(col("gender") === "F","Female")
      .otherwise("Unknown").alias("new_gender"))

2. Использование 'case when' в DataFrame

val df3 = df.withColumn("new_gender",
  expr("case when gender = 'M' then 'Male' " +
                   "when gender = 'F' then 'Female' " +
                   "else 'Unknown' end"))

В качестве альтернативы,

val df4 = df.select(col("*"),
      expr("case when gender = 'M' then 'Male' " +
                       "when gender = 'F' then 'Female' " +
                       "else 'Unknown' end").alias("new_gender"))

3. Использование && и || оператор

val dataDF = Seq(
      (66, "a", "4"), (67, "a", "0"), (70, "b", "4"), (71, "d", "4"
      )).toDF("id", "code", "amt")
dataDF.withColumn("new_column",
       when(col("code") === "a" || col("code") === "d", "A")
      .when(col("code") === "b" && col("amt") === "4", "B")
      .otherwise("A1"))
      .show()

Выход:

+---+----+---+----------+
| id|code|amt|new_column|
+---+----+---+----------+
| 66|   a|  4|         A|
| 67|   a|  0|         A|
| 70|   b|  4|         B|
| 71|   d|  4|         A|
+---+----+---+----------+

Ответ 4

Вы можете использовать это: if(exp1, exp2, exp3) внутри spark.sql() где exp1 - условие, и если true, дайте мне exp2, иначе дайте мне exp3.

теперь забавная вещь с вложенным if-else есть. вам нужно пройти каждый опыт внутри

brackets {"()"}
else it will raise error.

пример:

if((1>2), (if (2>3), True, False), (False))