scala下划线参数不作为命名参数，在spark map中减少-Java 学习之路

我在火花映射函数中使用下划线参数或命名参数时看到了一些区别 .

看看这段代码（在spark-shell中执行）：

var ds = Seq(1,2,3).toDS()
ds.map(t => Array("something", "" + t)).collect // works cool
ds.map(Array("funk", "" + _)).collect // doesn't work

我得到的非工作线的例外是：

错误：无法找到存储在数据集中的类型的编码器 . 导入spark.implicits支持原始类型（Int，String等）和产品类型（case类） . 在将来的版本中将添加对序列化其他类型的支持 .

1 回答

那是因为扩展：

ds.map(Array("funk", "" + _)).collect

不按你的想法工作 . 它扩展到：

ds.map(Array("funk", ((x: Any) => "" + x))).collect

数组创建中的 _ 扩展为函数 . 根据DataSet的文档，不支持函数 .

如果我们采取最小的重现：

val l = List(1,2,3)
val res = l.map(Array("42", "" + _))

并且看到typer扩展（ scalac -Xprint:typer ），你可以看到：

def main(args: Array[String]): Unit = {
  val l: List[Int] = scala.collection.immutable.List.apply[Int](1, 2, 3);
  val res: List[Object] = 
    l.map[Object, List[Object]]
    (scala.Predef.wrapRefArray[Object]
      (scala.Array.apply[Object]("42", ((x$1: Any) => "".+(x$1))

如果我们隔离特定的相关部分，我们可以看到：

(x$1: Any) => "".+(x$1)

是在数组创建中发生的扩展 .

回复于 2024-04-17T13:28:27+08:00

scala下划线参数不作为命名参数，在spark map中减少

1 回答

相关问题