-
0 votesanswersviews
PySpark - 分区中覆盖的数据
我看到一种情况,当一个pyspark数据帧保存到具有多列分区的hive表时,它也会覆盖子分区中的数据 . 或者 - 可能是我假设它是一个子分区 . 我想将列'月'视为子分区 . 这样,当我将df2保存到同一个表时,我可以看到4条记录(在hive表中)而不是2条记录 . mode=append 会奏效 . 但是,如果年份和月份相同,我希望覆盖数据 . 保存pyspark数据帧时有没有办法做到这一点?... -
3 votesanswersviews
Spark结构化流写入流到Hive ORC分区外部表
我正在尝试使用Spark Structured Streaming - writeStream API来写入外部分区的Hive表 . CREATE EXTERNAL TABLE `XX`( `a` string, `b` string, `b` string, `happened` timestamp, `processed` timestamp, `d` string, `e` stri... -
1 votesanswersviews
从 HDFS 删除分区目录,它会反映在配置单元表中吗?
可以说我用年,月,日的分区列创建了一个配置单元表,如果我从 hdfs 中删除了该分区,那么结果是否会反映在配置单元表中 -
0 votesanswersviews
我可以将数据从一个配置单元分区移动到同一表的另一个分区吗
我的分区基于 year/month/date。在一周中使用 SimpleDateFormat 创建了错误的分区。使用日期格式 YYYY 将日期 2017-31-12 的数据移到 2018-31-12。 SimpleDateFormat sdf = new SimpleDateFormat("YYYY-MM-dd"); 因此,我想要将数据从同一表的分区 2018/12/31 移...