Преобразовать список кортежей для сопоставления (и иметь дело с дублирующимся ключом?)

Я думал о хорошем способе конвертировать список кортежей с дублирующимся ключом [("a","b"),("c","d"),("a","f")] в карту ("a" -> ["b", "f"], "c" -> ["d"]). Обычно (в python) я создавал бы пустую карту и петлю над списком и проверял бы дубликат ключа. Но я ищу что-то более scala -ий и умное решение здесь.

btw, фактический тип значения ключа, который я использую здесь, (Int, Node), и я хочу превратиться в карту (Int -> NodeSeq)

Ответ 1

Группируйте, а затем выполните проект:

scala> val x = List("a" -> "b", "c" -> "d", "a" -> "f")
//x: List[(java.lang.String, java.lang.String)] = List((a,b), (c,d), (a,f))
scala> x.groupBy(_._1).map { case (k,v) => (k,v.map(_._2))}
//res1: scala.collection.immutable.Map[java.lang.String,List[java.lang.String]] = Map(c -> List(d), a -> List(b, f))

Более масштабируемый способ использования fold, таким образом, как там (пропустите шаг map f).

Ответ 2

Для гуглеров, которые не ожидают дублирования или отлично с политика дублирования по умолчанию:

List("a" -> "b", "c" -> "d").toMap
// Result: Map(a -> b, c -> d)

Начиная с версии 2.12, политика по умолчанию гласит:

Повторяющиеся ключи будут перезаписаны более поздними ключами: если это неупорядоченная коллекция, ключ которой находится в результирующей карте, это undefined.

Ответ 3

Здесь другая альтернатива:

x.groupBy(_._1).mapValues(_.map(_._2))

Ответ 4

Для гуглеров, которые заботятся о дубликатах:

implicit class Pairs[A, B](p: List[(A, B)]) {
  def toMultiMap: Map[A, List[B]] = p.groupBy(_._1).mapValues(_.map(_._2))
}

> List("a" -> "b", "a" -> "c", "d" -> "e").toMultiMap
> Map("a" -> List("b", "c"), "d" -> List("e"))

Ответ 5

Вот более Scala идиоматический способ преобразования списка кортежей в дубликаты ключей карты. Вы хотите использовать сгиб.

val x = List("a" -> "b", "c" -> "d", "a" -> "f")

x.foldLeft(Map.empty[String, Seq[String]]) { case (acc, (k, v)) =>
  acc.updated(k, acc.getOrElse(k, Seq.empty[String]) ++ Seq(v))
}

res0: scala.collection.immutable.Map[String,Seq[String]] = Map(a -> List(b, f), c -> List(d))

Ответ 6

Вы можете попробовать это

scala> val b = new Array[Int](3)
// b: Array[Int] = Array(0, 0, 0)
scala> val c = b.map(x => (x -> x * 2))
// c: Array[(Int, Int)] = Array((1,2), (2,4), (3,6))
scala> val d = Map(c : _*)
// d: scala.collection.immutable.Map[Int,Int] = Map(1 -> 2, 2 -> 4, 3 -> 6)

Ответ 7

Ниже вы можете найти несколько решений. (GroupBy, FoldLeft, Aggregate, Spark)

val list: List[(String, String)] = List(("a","b"),("c","d"),("a","f"))

Вариант GroupBy

list.groupBy(_._1).map(v => (v._1, v._2.map(_._2)))

Сдвиг левой вариации

list.foldLeft[Map[String, List[String]]](Map())((acc, value) => {
  acc.get(value._1).fold(acc ++ Map(value._1 -> List(value._2))){ v =>
    acc ++ Map(value._1 -> (value._2 :: v))
  }
})

Агрегатная вариация - аналогично слою слева

list.aggregate[Map[String, List[String]]](Map())(
  (acc, value) => acc.get(value._1).fold(acc ++ Map(value._1 -> 
    List(value._2))){ v =>
     acc ++ Map(value._1 -> (value._2 :: v))
  },
  (l, r) => l ++ r
)

Изменение искры - для больших наборов данных (преобразование в RDD и к обычной карте из RDD)

import org.apache.spark.rdd._
import org.apache.spark.{SparkContext, SparkConf}

val conf: SparkConf = new 
SparkConf().setAppName("Spark").setMaster("local")
val sc: SparkContext = new SparkContext (conf)

// This gives you a rdd of the same result
val rdd: RDD[(String, List[String])] = sc.parallelize(list).combineByKey(
   (value: String) => List(value),
   (acc: List[String], value) => value :: acc,
   (accLeft: List[String], accRight: List[String]) => accLeft ::: accRight
)

// To convert this RDD back to a Map[(String, List[String])] you can do the following
rdd.collect().toMap