Spark

简述Spark的map和flatmap的区别？

参考答案：

Spark的map和flatMap操作都是对RDD（弹性分布式数据集）中的每个元素进行转换的转换操作，但它们之间有一些关键的区别。

map操作：

map操作会对RDD中的每个元素应用一个函数，并返回一个新的RDD，其元素是原始RDD元素应用该函数后的结果。重要的是，map会保留输入RDD中的元素个数。如果原始RDD中的元素是列表或集合，那么map操作的结果仍然会是一个包含列表或集合的RDD。

例如：

val rdd = sc.parallelize(List(1, 2, 3))
val mappedRDD = rdd.map(x => (x, x*x))
// mappedRDD: RDD[(Int, Int)] = ParallelCollectionRDD[2] at map at <console>:27
mappedRDD.collect()
// res0: Array[(Int, Int)] = Array((1,1), (2,4), (3,9))

在这个例子中，我们对每个整数应用了一个函数，返回了一个新的元组，结果RDD仍然有3个元素。 2. flatMap操作：

flatMap也是将函数应用到RDD的每个元素上，但与map不同的是，flatMap会先将函数应用到每个元素上，然后将结果“压平”成一个单一的RDD。如果原始RDD中的元素是列表或集合，那么flatMap会将这些列表或集合的元素“展平”到新的RDD中。

例如：

val rdd = sc.parallelize(List(1, 2, 3))
val flatMappedRDD = rdd.flatMap(x => (1 to x).toList)
// flatMappedRDD: RDD[Int] = MapPartitionsRDD[3] at flatMap at <console>:27
flatMappedRDD.collect()
// res1: Array[Int] = Array(1, 1, 2, 1, 2, 3)

在这个例子中，我们对每个整数应用了一个函数，该函数返回一个列表。然后，flatMap将这些列表“展平”成一个单一的RDD，其中包含了所有这些列表的元素。因此，结果RDD有6个元素，而不是3个。

总的来说，map和flatMap的主要区别在于它们如何处理原始RDD中的集合类型元素。map会保留这些集合，而flatMap则会将它们“展平”到新的RDD中。