从Apache Spark中的Avro文件中读取不受支持的联合类型组合-Java 学习之路

我正试图从读取csv平面文件切换到spark上的avro文件 . 以下https://github.com/databricks/spark-avro我使用：

import com.databricks.spark.avro._
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val df = sqlContext.read.avro("gs://logs.xyz.com/raw/2016/04/20/div1/div2/2016-04-20-08-28-35.UTC.blah-blah.avro")

得到

java.lang.UnsupportedOperationException: This mix of union types is not supported (see README): ArrayBuffer(STRING)

自述文件清楚地说明：

此库支持读取所有Avro类型，但复杂的联合类型除外 . 它使用以下从Avro类型到Spark SQL类型的映射：

当我尝试文本阅读相同的文件时，我可以看到架构

val df = sc.textFile("gs://logs.xyz.com/raw/2016/04/20/div1/div2/2016-04-20-08-28-35.UTC.blah-blah.avro")
df.take(2).foreach(println)

{“name”：“log_record”，“type”：“record”，“fields”：[{“name”：“request”，“type”：{“type”：“record”，“name”：“ request_data “ ”字段“：[{ ”名称“： ”日期时间“， ”类型“： ”串“}，{ ”名称“： ”IP“， ”类型“： ”串“}，{ ”名称“：”主机 “ ”类型“： ”串“}，{ ”名“： ”URI“， ”类型“： ”串“}，{ ”名“： ”REQUEST_URI“， ”类型“： ”串“}，{” name“：”referer“，”type“：”string“}，{”name“：”useragent“，”type“：”string“}]}} <-------完整回复的摘录------->

因为我对格式的控制很少，所以我的问题是 - is there a workaround someone tested and can recommend?

我用gc dataproc

MASTER = yarn-cluster spark-shell --num-executors 4 --executor-memory 4G --executor-cores 4 --packages com.databricks：spark-avro_2.10：2.0.1，com.databricks：spark- csv_2.11：1.3.0

任何帮助将不胜感激.....

1 回答

3

您将找不到适用于Spark SQL的任何解决方案 . Spark中的每一列都必须包含可以表示为单个DataType的值，因此复杂的联合类型无法用Spark Dataframe 表示 .

如果要读取此类数据，则应使用RDD API并将加载的数据转换为 DataFrame .

回复于 2024-05-12T17:48:31+08:00

从Apache Spark中的Avro文件中读取不受支持的联合类型组合

1 回答

相关问题