使用pyspark从.dat转换为镶木地板数据格式后,为什么行数不同?即使我多次在同一个文件上重复转换,我也会得到不同的结果(稍微多一点或略小于或等于原始行数)!

我正在使用我的Macbook pro 16 gb

.dat文件大小为16.5 GB

火花2.3.2彬hadoop2.7 .

我已经拥有了来自我的数据提供者的行数(4500万行) .

首先我读了.dat文件

2011_df = spark.read.text(filepath)

其次,我将它转换为镶木地板,这个过程大约需要两个小时 . 2011_df.write.option("compression","snappy").mode("overwrite").save("2011.parquet")

之后,我阅读了转换后的镶木地板文件

de_parq = spark.read.parquet(filepath)

最后,我用“count”来获取行号 .

de_parq.count()