Context: 我有一个包含2列的 DataFrame
:word和vector . "vector"的列类型是 VectorUDT
.
一个例子:
word | vector
assert | [435,323,324,212...]
我希望得到这个:
word | v1 | v2 | v3 | v4 | v5 | v6 ......
assert | 435 | 5435| 698| 356|....
Question:
如何使用pyspark为每个维度拆分包含多个列中的向量的列?
提前致谢
1 回答
一种可能的方法是转换为RDD和从RDD转换:
另一种解决方案是创建UDF:
对于Scala等效,请参阅Spark Scala: How to convert Dataframe[vector] to DataFrame[f1:Double, ..., fn: Double)] .