Я использую monotonically_increasing_id(), чтобы присвоить номер строки pyspark dataframe, используя синтаксис ниже:
df1 = df1.withColumn("idx", monotonically_increasing_id())
Теперь df1 имеет 26 572 528 записей. Поэтому я ожидал значения idx от 0 до 2672,727.
Но когда я выбираю max (idx), его значение странно огромно: 335 008 054 165.
Что происходит с этой функцией? можно ли использовать эту функцию для слияния с другим набором данных, имеющим аналогичное количество записей?
У меня есть около 300 фреймов данных, которые я хочу объединить в единый блок данных. Таким образом, один фрейм данных содержит идентификаторы, а другие содержат разные записи, соответствующие им по ряду строк