首页 文章

在PySpark DataFrame中转换为JSON时,不要丢弃具有空值的键

提问于
浏览
2

我正在从其他几个列创建一个DataFrame列,我希望将其存储为JSON序列化字符串 . 当序列化为JSON时,将删除具有空值的键 . 即使值为null,有没有办法保持键?

说明问题的示例程序:

from pyspark.sql import functions as F

df = sc.parallelize([
    (1, 10),
    (2, 20),
    (3, None),
    (4, 40),
]).toDF(['id', 'data'])
df.collect()
#[Row(id=1, data=10),
# Row(id=2, data=20),
# Row(id=3, data=None),
# Row(id=4, data=40)]

df_s = df.select(F.struct('data').alias('struct'))
df_s.collect()
#[Row(struct=Row(data=10)),
# Row(struct=Row(data=20)),
# Row(struct=Row(data=None)),
# Row(struct=Row(data=40))]

df_j = df.select(F.to_json(F.struct('data')).alias('json'))
df_j.collect()
#[Row(json=u'{"data":10}'),
# Row(json=u'{"data":20}'),
# Row(json=u'{}'), <= would like this to be u'{"data":null}'
# Row(json=u'{"data":40}')]

运行Spark 2.1.0

1 回答

  • 2

    找不到Spark特定的解决方案,所以只写了一个udf并使用了python json包:

    import json
    from pyspark.sql import types as T
    
    def to_json(data):
        return json.dumps({'data': data})
    
    to_json_udf = F.udf(to_json, T.StringType())
    
    df.select(to_json_udf('data').alias('json')).collect()
    # [Row(json=u'{"data": 10}'),
    #  Row(json=u'{"data": 20}'),
    #  Row(json=u'{"data": null}'),
    #  Row(json=u'{"data": 40}')]
    

相关问题