-
7 votesanswersviews
Maven没有找到scala测试
我有一个scala测试类但是当我尝试使用Maven目标'test'运行时,测试没有运行 . 我收到Maven消息“没有要运行的测试” . 即使测试位于scala测试类中 . 我需要添加额外的配置吗? 这是我的包装设置: 以下是针对pom文件运行时Maven“测试”目标的输出: [INFO]扫描项目... [INFO] [INFO] -------------------------------... -
4 votesanswersviews
Slick 3 java.time.LocalDate映射
我使用的是Slick 3.1.0,需要保留java.time.LocalDate类型的字段 . 我有模特课: case class Position(companyName: String, title: String, startDate: Option[LocalDate], endDate: Option[LocalDate], positionId: Option[Int] = None)... -
0 votesanswersviews
Drools - 无法创建要加载到KieContainer的资源
我在Scala中使用以下代码块来创建一个KieContainer,我创建了一个新的KieSession: val kieSession = DroolsMgt.getKieSession(List("myFile.drl"), Boot.kieServices){ val kfs = kieServices.newKieFileSystem() for (file... -
0 votesanswersviews
在Scala中创建KieSession(Drools 6.1)
在Scala中创建新的Drools KieSession的“正确”方法是什么?我发现的资源主要是基于Java的,我已经适应了Scala并获得了某种类型(可行): def getKieSession(fileName: String): KieSession = { val kieServices = KieServices.Factory.get() val kfs = kieS... -
0 votesanswersviews
从主范围中检索Drools事实(Scala)
我'm currently inserting an object into Drools working memory and running rules on it (creating a new object rather than updating the old one since I'使用Scala immutables ...) . 根据我的理解,通常你会说像 update(myob... -
0 votesanswersviews
将文件从HDFS复制到本地目录以获取节点上的多个任务?
所以,基本上,我有一个只读文件(几个GB大,所以广播是没有选项),必须复制到节点上的本地文件夹,因为每个任务内部运行一个程序(通过使用python中的os.system或! scala中的运算符)从本地文件读取(无法从HDFS读取) . 但问题是,一个节点上将运行多个任务 . 如果该节点上尚未存在该文件,则应将其从HDFS复制到本地目录 . 但是我怎么能有一个任务从HDFS获取文件,而其他任务等待... -
36 votesanswersviews
Spark中的gzip支持
对于大数据项目,我打算使用spark,它具有一些很好的功能,如内存计算,用于重复的工作负载 . 它可以在本地文件上运行,也可以在HDFS上运行 . 但是,在官方文档中,我找不到任何关于如何处理gzip文件的提示 . 实际上,处理.gz文件而不是解压缩文件可能非常有效 . 有没有办法手动实现gzip压缩文件的读取或在读取.gz文件时已经自动解压缩? -
3 votesanswersviews
将多个文件并行处理为独立的RDD
我有一个场景,其中包括group by的一定数量的操作必须应用于许多小的(每个~300MB)文件 . 操作看起来像这样.. df.groupBy(....).agg(....) 现在要在多个文件上处理它,我可以使用通配符“/**/*.csv”,然而,它创建一个RDD并将其分区为操作 . 但是,看一下这些操作,如果文件是互斥的,那么它就是一个分组并涉及大量的shuffle,这是不必要的 . 我正在研... -
0 votesanswersviews
如何将ZIP CSV文件导入CaffeOnSpark?
我正在Apache Spark和CaffeOnSpark的帮助下编写图像分类AI . 基本上,我想实施深度学习 . 我决定使用NIH胸部X射线数据集 . 你可以看一下here . 我的问题是数据集是作为ZIP文件提供的,并且有一个带有标签和一些其他参数的CSV文件 . CaffeOnSpark有关于如何使用LMDB的示例,但我不能让它与ZIP文件一起运行 . 我的代码目前很空,因为它只读取CSV... -
0 votesanswersviews
运行jar时出错线程“main”中的异常java.lang.NoSuchMethodError scala.Predef $ . $ conforms()Lscala / Predef $$ less $ colon $ less;
<<<我使用了兼容的scala和spark版本>>>我使用(spark 2.0.0&scala 2.11.8)处理spark应用程序并且应用程序在intellij Idea环境中工作正常,我将应用程序解压缩为jar文件并尝试从jar文件运行spark应用程序,但在终端上引发此错误: Exception in thread "main" jav... -
1 votesanswersviews
使用Spark sc.textFile读取文件时如何捕获BlockMissingException?
当读取存储在HDFS上的文本文件时,如果我在使用sc.textFile读取这些文件时遇到BlockMissingException(或其他一些异常),我如何捕获错误并继续执行emptyRDD? 我可能遇到BlockMissingException的原因是,例如,文件是否存储在复制因子为1且数据节点关闭的HDFS上 . 请考虑以下最低示例代码: val myRDD: RDD[String] = ... -
0 votesanswersviews
无法设计拆分数据框的解决方案[重复]
这个问题在这里已有答案: How to split a dataframe into dataframes with same column values? 2个答案 本地目录包含由另一个应用程序生成的1000个日志文件(每天运行一次) . 使用Scala我可以选择最新的文件(在同一天生成的文件)并将它们移动到HDFS . 为此,我提出了以下代码: val spark = SparkSessi... -
2 votesanswersviews
在Scala / Spark中的HDFS上将文件从一个文件夹移动到另一个文件夹
我有两个路径,一个用于文件,一个用于文件夹 . 我想将文件移动到HDFS上的该文件夹中 . 我怎么能在Scala中做到这一点?我也在使用Spark 如果相同的代码也适用于Windows路径,就像在HDFS上读取/写入文件一样,但不是必需的 . 我尝试过以下方法: val fs = FileSystem.get(sc.hadoopConfiguration) fs.moveFromLocalFile... -
0 votesanswersviews
JSON作为kafka生成者消息发送并通过spark结构化流式传输-parquet消费
我想知道如何使用scala函数将jSON字符串作为消息发送到kafka主题,并使用spark结构化流中的使用readstream()消费,另存为镶木地板格式 . 目前使用以下代码,但镶木地板文件没有被创建 . 请帮助获取带有数据的镶木地板文件 . 这也作为函数实现,并且需要在集成测试中调用这两个函数 . 发送给Kafka主题的JSON消息 - object kafkaProducer extend... -
1 votesanswersviews
用钥匙将一个大的镶木地板文件分成多个镶木地板文件
我想将一个大的镶木地板文件拆分成HDFS中不同文件夹中的多个镶木地板文件,这样我就可以在其上构建分区表(无论Hive / Drill / Spark SQL) . 数据示例: +-----+------+ |model| num1| +-----+------+ | V80| 195.0| | V80| 750.0| | V80| 101.0| | V80| 0.0| | V80|... -
0 votesanswersviews
Scala和Spark,从字典创建数据帧
您能告诉我如何从以下代码创建数据框吗? val x =List(Map("col1"->"foo","col2"->"bar")) val RDD =sc.parallelize(x) 输入如上所示,即 RDD[Map[String, String]] 想要转换为数据帧,col1和col2作为列名,foo... -
0 votesanswersviews
是否有可能将apache点燃rdd转换为scala中的spark rdd
我是新来的apache点燃以及火花......任何人都可以通过示例帮助将点燃rdd转换为scala中的spark rdd . 更新----用例:我将收到一个hbase表的数据帧 . 我将执行一些逻辑来构建报告,将它保存到ignite rdd ...并且将为每个表更新相同的点火rdd . ..一旦所有表被执行,最终点燃rdd将转换为spark或java rdd,最后一条规则将在该rdd上执行...... -
99 votesanswersviews
如何打印RDD的内容?
我正在尝试将集合的内容打印到Spark控制台 . 我有一个类型: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] 我使用命令: scala> linesWithSessionId.map(line => println(line)) 但这是印刷的: res1:org.apache.spar... -
7 votesanswersviews
将RDD [org.apache.spark.sql.Row]转换为RDD [org.apache.spark.mllib.linalg.Vector]
我对Spark和Scala相对较新 . 我从以下数据帧开始(单个列由密集的双打矢量组成): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: org.apache.spark.sql.DataFrame = [features: vecto... -
5 votesanswersviews
在Spark / Scala中将RDD转换为Dataframe
RDD已以 Array[Array[String]] 格式创建,并具有以下值: Array[Array[String]] = Array(Array(4580056797, 0, 2015-07-29 10:38:42, 0, 1, 1), Array(4580056797, 0, 2015-07-29 10:38:42, 0, 1, 1), Array(4580056797, 0, 2015-0... -
-1 votesanswersviews
scala数据帧到RDD [array [String]]
如何转换具有多列的数据帧我可以获得RDD [org.apache.spark.sql.Row],但我需要一些我可以用于org.apache.spark.mllib.fpm.FPGrowth,ei RDD [Array] [String]]如何转换? df.head org.apache.spark.sql.Row = [blabla,128323,23843,11.23,blabla,null,n... -
2 votesanswersviews
如何将kafka流转换为spark RDD或Spark Dataframe
我尝试从Kafka加载数据,这是成功但我无法转换为spark RDD, val kafkaParams = Map("metadata.broker.list" -> "IP:6667,IP:6667") val offsetRanges = Array( OffsetRange("first_topic", 0... -
9 votesanswersviews
如何将RDD [Row]转换回DataFrame [duplicate]
这个问题在这里已有答案: How to convert rdd object to dataframe in spark 10个答案 我一直在玩转换RDD到DataFrames然后再回来 . 首先,我有一个名为dataPair的类型(Int,Int)的RDD . 然后我创建了一个带有列 Headers 的DataFrame对象: val dataFrame = dataPair.toDF(he... -
7 votesanswersviews
如何将 Map 的RDD转换为数据帧
我有 Map 的RDD,我想将其转换为数据帧这是RDD的输入格式 val mapRDD: RDD[Map[String, String]] = sc.parallelize(Seq( Map("empid" -> "12", "empName" -> "Rohan", "depId"... -
2 votesanswersviews
将RDD转换为Dataframe Spark
如何将具有以下结构的RDD转换为scala中的数据帧 org.apache.spark.rdd.RDD[(Long, org.apache.spark.mllib.linalg.Vector)] = MapPartitionsRDD[42] 这里RDD的每一行包含索引 Long 和向量 org.apache.spark.mllib.linalg.Vector . 我想将 org.apache.s... -
4 votesanswersviews
在Spark中将数据帧转换为json时,如何打印空值
我有一个从csv读取的数据帧 . CSV: name,age,pets Alice,23,dog Bob,30,dog Charlie,35, Reading this into a DataFrame called myData: +-------+---+----+ | name|age|pets| +-------+---+----+ | Alice| 23| dog| | B... -
19 votesanswersviews
如何使用Spark DataFrames查询JSON数据列?
我有一个Cassandra表,为简单起见,看起来像: key: text jsonData: text blobData: blob 我可以使用spark和spark-cassandra-connector为此创建一个基本数据框: val df = sqlContext.read .format("org.apache.spark.sql.cassandra") .o... -
0 votesanswersviews
如何将json字符串解析为dataframe中的字符串数组
我是Scala的新手,只花了3个小时试图找出如何将一个简单的json字符串解析为数据帧内的字符串数组 . 这是我的代码: import spark.implicits._ import org.apache.spark.sql.functions._ ... emailsDf.select(from_json($"emails", Array[String])).show() ... -
2 votesanswersviews
如何在camel-scala中构建从文件到websocket客户端的路由?
我需要从/ files目录下的文件中读取,然后在websocket客户端上显示该文件的内容 . 这就是我在MyRouteBuilder.scala中所做的事情: import org.apache.camel.component.websocket.WebsocketComponent import org.apache.camel.{LoggingLevel, CamelContext, Exc... -
13 votesanswersviews
将新数据附加到分区的镶木地板文件
我正在编写一个ETL过程,我需要读取每小时的日志文件,对数据进行分区并保存 . 我正在使用Spark(在Databricks中) . 日志文件是CSV,因此我阅读它们并应用模式,然后执行我的转换 . 我的问题是,如何将每小时的数据保存为镶木地板格式,但是附加到现有数据集?保存时,我需要按数据框中的4列进行分区 . 这是我的保存行: data .filter(validPartnerIds(...