首页 文章

Spark最佳方法查找Dataframe以提高性能

提问于
浏览
1

Dataframe A(数百万条记录)其中一列是create_date,modified_date

Dataframe B 500记录具有start_date和end_date

目前的做法:

Select a.*,b.* from a join b on a.create_date between start_date and end_date

上述工作需要半小时或更长时间才能运行 .

我怎样才能提高性能

spark job details

enter image description here

2 回答

相关问题