我正在使用以下声明阅读spark中的csv .
df = spark.read.csv('<CSV FILE>', header=True, inferSchema = True)
当我检查spark数据帧时,一些整数和双列存储为数据帧中的字符串列 . 但是,所有列都不是这种情况 .
我检查了特定列的值,所有值都是double类型,但仍然是spark推断为StringType .
由于我正在加载大约1000列的CSV文件,因此也无法明确指定架构 .
任何建议/帮助将受到高度赞赏 .
问候,
Neeraj
1 回答
考虑到模式不会改变中间表(浮动将保持浮动通过行) . 您可以编写一个小脚本来自动投射它们:
如果您认为第一行中没有足够的信息,则可以执行此操作