-
2 votesanswersviews
如何使用从镶木地板文件中读取的火花数据框的空格来删除/替换列名?
我正在处理的数据集在其列中有空格,我在尝试重命名spark数据帧列名时遇到了问题 . 尝试了stackoverflow中几乎所有可用的解决方案 . 似乎没什么用 . Note: The file must be a parquet file . df.printSchema 根|-- Type: string (nullable = true)|-- timestamp: string (nul... -
17 votesanswersviews
如何在Spark中读取嵌套集合
我有一张镶有 table 的镶木 table ,array <struct <col1,col2,.. colN >> 可以使用LATERAL VIEW语法在Hive中对此表运行查询 . 如何将此表读入RDD,更重要的是如何在Spark中过滤,映射等嵌套集合? 在Spark文档中找不到对此的任何引用 . 提前感谢您的任何信息! PS . 感觉可能有助于在 table 上... -
0 votesanswersviews
使用Pyspark SQL将数据帧存储到Hive表时,我遇到了问题
我试图查询存储在Hive中的表 . 以下是我的QL . 我想将结果存回现有的hive表中新的分区 . 我的最后一行代码是创建一个新表 . 在将输出作为文件写入时,它正在存储镶木地板文件,但我无法通过配置单元进行读取 . 你能帮忙吗? 我的目标表: CREATE EXTERNAL TABLE dq_reslt_detl_master(DQ_CHECK_ID字符串,PK_1字符串,PK_2 int,D... -
3 votesanswersviews
ORC文件上的Spark SQL不会返回正确的架构(列名称)
我有一个包含ORC文件的目录 . 我正在使用以下代码创建一个DataFrame var data = sqlContext.sql("SELECT * FROM orc.`/directory/containing/orc/files`"); 它返回此架构的数据框 [_col0: int, _col1: bigint] 预期架构在哪里 [scan_nbr: int, vis... -
2 votesanswersviews
在SparK SQL中创建表
我想在spark sql中创建表我正在使用scala ide我已经添加了来自maven的依赖项我尝试了这个它它给了我下面的错误 import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql._ object HiveFromSpark { def main(args: Array[String]) ... -
1 votesanswersviews
无法将数据框的内容插入到分区的拼花格式的hive表中
我正在尝试将数据框的内容插入到分区的镶木地板格式的hive表中 df.write.mode(SaveMode.Append).insertInto(myTable的) 使用hive.exec.dynamic.partition ='true'和hive.exec.dynamic.partition.mode ='nonstrict' . 我不断得到一个parquet.io.ParquetEncod... -
2 votesanswersviews
ALTER TABLE tbl PARTITION SET LOCATION期间的Spark SQL表锁
我们将Spark SQL 2.2.0与Hive Metastore一起使用(在HDInsight上) . 我们有外部表构建在Azure BLOB上存储的分区镶木地板文件上 . 数据将以镶木地板的形式发送到BLOB,我们对此没有影响 . 我们需要接受分区数据更新(也称为重述),对以下内容的影响最小: 对数据运行查询的下游系统(避免破解查询和长时间等待等) 数据更新过程(尽可能避免长时间等待和... -
1 votesanswersviews
Spark insertInto使用不同情况的分区列失败 . 蜂巢虫?
我正在测试使用PySpark的 insertInto() 方法将数据插入到现有表中 . 我遇到了一个问题,我认为这是一个已知错误的结果,我正在寻求确认 . 我也想知道是否有一个我不知道的解决方法 . 我使用的是Spark v2.2.1: 并且,如果要信任此命令,则Hive v2.1.1 此代码成功创建表并将数据插入其中: table_name = "default.insert_te... -
1 votesanswersviews
在创建或插入带有Spark分区的Hive表时,不允许操作
我正在使用Spark 2.2,我正在尝试基于数据框创建一个Hive表 . 我只能使用以下数据创建一个包含数据的新Hive表: result.write.mode(SaveMode.Overwrite).saveAsTable("db.resultTable") 当我尝试对分区执行相同操作时: result.write.mode(SaveMode.Overwrite).part... -
0 votesanswersviews
什么决定了阅读Parquet Hive表时Spark分区的数量?
我有一个存储在Parquet中的Hive表(未压缩,用于测试目的) . 该表基本上是使用以下查询创建的: CREATE TABLE myschema.table_uncompressed_parquet STORED AS PARQUET TBLPROPERTIES('parquet.compression'='UNCOMPRESSED') AS SELECT * FROM myschema.so... -
0 votesanswersviews
spark-hive - Upsert into动态分区hive表会引发错误 - 分区规范包含非分区列
我正在使用spark 2.2.1和hive2.1 . 我试图将多个分区覆盖到现有的分区蜂巢/镶木桌中 . 表是使用sparkSession创建的 . 我有一个带有分区P1和P2的'mytable'表 . 我在sparkSession对象上设置了以下内容: "hive.exec.dynamic.partition"=true "hive.exec.dynamic.par... -
5 votesanswersviews
Spark 1.6将函数应用于名称中带点的列/如何正确转义colName
要将函数应用于Spark中的列,常见的方法(唯一的方法是?)似乎是 df.withColumn(colName, myUdf(df.col(colName)) 很好,但我的名字中有圆点的列,要访问列,我需要用反引号“`”来转义名称 问题是:如果我使用该转义名称,.withColumn函数会创建一个带有转义名称的新列 df.printSchema root |-- raw.hourOfDay: l... -
4 votesanswersviews
按某些列值拆分Spark数据帧,然后独立于其他列旋转每个生成的数据帧
我正在尝试 split 根据一个(或多个)列的值和 rotate each resulting dataframe 独立于其余的数据帧 . 即,给定输入数据帧: val inputDF = Seq(("tom","20","a","street a","germany"),("jimmy&... -
1 votesanswersviews
使用句点访问列名称 - Spark SQL 1.3
我有一个DataFrame,其中的字段包含句点 . 当我尝试对它们使用select()时,Spark无法解决它们,可能是因为' . '用于访问嵌套字段 . 这是错误: enrichData.select(“google.com”)org.apache.spark.sql.AnalysisException:无法解析'google.com'给定的输入列google.com,yahoo.com,..... -
2 votesanswersviews
关于UDT的Spark SQL表达式
我有一个UDT(用户定义类型) . 我想在Spark SQL表达式中使用它,例如UDTName * 10.3 . 我的UDT不仅仅是一个简单的数字,它是一个复杂的类型,它有自己的 - / *重写函数 . 我无法用标准的scala类型实现我想要的逻辑 . 我尝试在Spark 1.6.0中的Spark SQL表达式中使用它并获得此结果: 由于数据类型不匹配,无法解析'(UDTName * 10.0... -
-1 votesanswersviews
Spark SQL单引号错误
我有一个DataFrame(Apache Spark 1.5) . 我想使用spark sql context添加新列以获取所有raw包含单引号的新列 . 我的代码: df.registerTempTable("tempdf"); df = df.sqlContext().sql("SELECT *, \" \\\" \" as quot... -
1 votesanswersviews
Spark SQL的哪一部分解析SQL语句并创建执行计划?
假设以下查询: select * from my_table Spark的哪一部分解析sql并创建执行计划? Spark SQL执行引擎是否有自己的sql解析器将其转换为自己的执行模型?这个怎么运作? 我得到一些异常,因为某些函数还没有支持它们,它是否意味着火花解析sql查询?彼此的执行引擎也做了吗? -
2 votesanswersviews
什么时候可以使用符号来表示spark sql中的列?
考虑 DataFrame 上的基本 groupBy 表达式: val groupDf = rsdf.groupBy("league","vendor").agg(mean('league),mean('vendor)) groupBy 部分很好:它使用字符串作为列名 . 但是 agg (/ mean )不是 - 因为这里显然不支持 Symbol . ... -
1 votesanswersviews
如何使用包含点/句点的列名创建spark数据帧?
我在列表中有数据,并希望将其转换为火花数据帧,其中一个列名称包含“ . ” 我编写了下面的代码,运行没有任何错误 . input_data = [('retail', '2017-01-03T13:21:00', 134), ('retail', '2017-01-03T13:21:00', 100)] rdd_schema = StructType([S... -
0 votesanswersviews
SPARK:数据框如果值中包含单引号和双引号,则选择表达式无法执行追加操作
我的场景解释如下: - (以下实验尝试使用Spark Shell) 我有一个数据框,其中包含客户ID和客户名称列 . 现在我想通过Spark UDF对其执行追加操作 . Example given below :- case class Customer(customerId: Int, customerName: String) val x = sc.parallelize(Array(Cus... -
0 votesanswersviews
如何使用导航架构组件创建BottomSheetDialogFragment?
我使用 BottomSheetDialogFragment 来显示一些自定义设置 . Requirement: 当我单击BottomSheetDialogFragment中的任何选项卡时,我替换片段并将其添加到backstack,以便当用户单击onBackPress或Up操作时,它应该返回BottomSheetDialogFragment的最后一个设置的片段 . I want to use Nav... -
0 votesanswersviews
如何查询spark sql中不存在的列[重复]
这个问题在这里已有答案: Evolving a schema with Spark DataFrame 2个答案 How do I detect if a Spark DataFrame has a column 5个答案 有没有办法在Spark SQL中查询不存在的列?我通过spark-streaming获得了JSON列表,然后,我想将这个jsons转换为临时表 . 所以我可以使用S... -
240 votesanswersviews
如何将集合转换为列表?
我正在使用Apache Collections库中的 TreeBidiMap . 我想对 doubles 的值进行排序 . 我的方法是使用以下方法检索 Collection 的值: Collection coll = themap.values(); 这自然很好 . Main Question: 我现在想知道如何转换/转换(不确定哪个是正确的) coll 到 List 所以它可以排序? 然后我... -
79 votesanswersviews
是否有收集到订单保留集的收集器?
Collectors.toSet() 不保留订单 . 我可以使用Lists代替,但我想指出结果集合不允许元素重复,这正是 Set 接口的用途 . -
1 votesanswersviews
FAB无法在Fragment中使用CollapsingToolbar正确显示
我有一个主Activity,其中包括CollapsingToolbar中的TabLayout . 我的一个标签是一个片段,右下角包含一个FAB . 问题是,当我转到此选项卡时,折叠工具栏完全打开并隐藏FAB . 我只能在折叠ToolBar时看到它 . 有没有办法来解决这个问题? 我知道我可以将FAB放在我的MainActivity中的CollapsingToolBar布局中,但我想/需要将它保留在... -
13 votesanswersviews
导航架构组件 - 对话框片段
是否可以使用带有DialogFragment的新导航架构组件?我是否必须创建自定义导航器? 我很乐意将它们与导航图中的新功能结合使用 . -
9 votesanswersviews
导航架构组件 - 活动
我一直在关注Navigation Architecture Component的文档,以了解这个新导航系统的工作原理 . 要从一个屏幕转到另一个屏幕,您需要一个实现 NavHost 接口的组件 . NavHost是一个空视图,当用户浏览您的应用程序时,目的地会被换入和换出 . 但是,似乎目前只有Fragments实现 NavHost Navigation Architecture Compo... -
6 votesanswersviews
返回到'Navigation Architecture Component'中的相同选项卡时,嵌套片段的状态将丢失
我正在探索上个月在Google I / O 2018中引入的“导航架构组件”概念 . 假设我有一个带有底部导航视图和'片段'的活动来托管所有片段: - <android.support.constraint.ConstraintLayout xmlns:tools="http://schemas.android.com/tools" android:id=... -
2 votesanswersviews
Android Jetpack Navigation如何处理Toolbar和BottomNavBar内容
我对导航组件如何适应应用程序行为感到困惑 . 在教程中看起来很漂亮和闪亮,你不会做太复杂的事情,但在实际的应用程序中实现时,事情似乎有所不同 . Before Navigation 在实现导航之前,我不得不手动运行片段事务 . 为了做到这一点,我的片段将实现一个接口 onFragmentAction ,它将 bundle 传递给主 Activity ,并在基于动作的活动中,将当前片段替换为另一个片... -
0 votesanswersviews
android - 如何使用底部应用栏实现导航
我有一个包含以下4种布局的项目: 我实际上有一个活动持有底部应用栏和NavHostFragment注入片段 . 主片段是主视图 . 有一个管理和设置片段,两者都是顶级视图,如主视图,但不相互依赖 . 可以通过单击导航抽屉中的项目来切换这3个片段 . 为简化起见,我正在尝试新的导航架构组件 . 现在我有一些设计问题: 我应该将底部应用栏移动到片段中,因为它们不相互依赖,而FAB按钮有另一个动作,...