使用pyspark从.dat转换为镶木地板数据格式后,为什么行数不同?即使我多次在同一个文件上重复转换,我也会得到不同的结果(稍微多一点或略小于或等于原始行数)!
我正在使用我的Macbook pro 16 gb
.dat文件大小为16.5 GB
火花2.3.2彬hadoop2.7 .
我已经拥有了来自我的数据提供者的行数(4500万行) .
首先我读了.dat文件
2011_df = spark.read.text(filepath)
其次,我将它转换为镶木地板,这个过程大约需要两个小时 . 2011_df.write.option("compression","snappy").mode("overwrite").save("2011.parquet")
之后,我阅读了转换后的镶木地板文件
de_parq = spark.read.parquet(filepath)
最后,我用“count”来获取行号 .
de_parq.count()