我喜欢Spark数据集,因为它们在编译时给我分析错误和语法错误,并且允许我使用getter而不是硬编码的名称/数字 . 大多数计算都可以使用Dataset的高级API完成 . 例如,通过访问数据集类型对象而不是使用RDD行的数据字段来执行 agg, select, sum, avg, map, filter, or groupBy 操作要简单得多 .
但是,由于缺少连接操作,我读到我可以像这样进行连接
ds1.joinWith(ds2, ds1.toDF().col("key") === ds2.toDF().col("key"), "inner")
但这不是我想要的,因为我更喜欢通过case类接口来做,所以更像这样的东西
ds1.joinWith(ds2, ds1.key === ds2.key, "inner")
现在最好的选择似乎是在case类旁边创建一个对象,并给这个函数提供正确的列名作为String . 所以我会使用第一行代码但是放置一个函数而不是硬编码的列名 . 但那感觉不够优雅..
有人可以告诉我其他选项吗?目标是从实际的列名中抽象出来,最好通过case类的getter工作 .
我正在使用Spark 1.6.1和Scala 2.10
2 回答
观察
仅当连接条件基于相等运算符时,Spark SQL才能优化连接 . 这意味着我们可以分别考虑等量连接和非等量连接 .
Equijoin
通过将
Datasets
映射到(键,值)元组,基于键执行连接以及重新整形结果,可以以类型安全的方式实现Equijoin:非等值
可以使用关系代数运算符表示为R⋈θS=σθ(R×S)并直接转换为代码 .
Spark 2.0
启用
crossJoin
并使用joinWith
与简单相等的谓词:Spark 2.1
使用
crossJoin
方法:例子
注意事项
joinWith
应用程序的质量不同,并且需要进行昂贵的转换(与直接joinWith
可以对数据使用逻辑运算相比) .这类似于Spark 2.0 Dataset vs DataFrame中描述的行为 .
Datasets
提供了有趣的类型安全扩展(截至今天它仅支持Spark 2.0):Dataset
API在1.6中不稳定所以我觉得在那里使用它没有意义 .当然,这种设计和描述性名称不是必需的 . 您可以轻松地使用类型类隐式地将此方法添加到
Dataset
并且与内置签名没有冲突,因此两者都可以被称为joinWith
.另外,对于非类型安全的Spark API,另一个更大的问题是,当你加入两个
Datasets
时,它会给你一个DataFrame
. 然后你丢失原始两个数据集中的类型 .