当地火花和镶木地板文件-Java 学习之路

我有个别交易的交易信息（例如客户代码，产品，产品组，价格等）

我现在已将此分区为每年__月的镶木地板文件

在报告产品组等的聚合等时非常有效 .

但是，如果我想在几个月内检索特定客户的信息，这不是非常有效/快速 .

我尝试按year_month和customer_code进行分区，但之后有很多磁盘i / o，因为每个分区现在都是一个客户代码，其中包含一行数据 .

有没有办法提高性能，让我们说在一个分区中坚持10000个客户？或者如果镶木地板文件大小为64Mb或类似的话，请分区到下一组 .

根据Spark中的逻辑，它在镶木地板文件中具有每个属性的最大最大值，我期望性能提升，但我太新了火花/实木复合地以真正理解这是否是正确的思想以及技术上是否可行 . （当然我可以自己创建客户代码组并在查询中使用它，但我希望更自动的东西是可能的） .

谢谢，

G .

1 回答