Java 学习之路

1 votes

answers

views

Spark-R：如何将Cassandra Map 和数组列转换为新的DataFrame

使用DataStax cassandra连接器使用SparkR（spark-2.1.0） . 我有一个连接到Cassandra中的表的数据框 . cassandra表中的一些列是map和set类型 . 我需要对这些“集合”列执行各种过滤/聚合操作 . my_data_frame <-read.df( source = "org.apache.spark.sql.cassa...

apache-spark cassandra spark-dataframe sparkr spark-cassandra-connector
0 votes

answers

views

如何将日期字段存入同一年的不同4个桶中

我是Sparkr的新手 . 我有要求我在哪里有一个发行日期字段，其中包含日期格式为31/03/2015，即 . DD / MM / YYYY . 我需要从发布日期字段中获取数据，并在4个不同的季节显示它，如果日期是2015年1月1日到2015年3月31日之间，那么第1季如果日期是2015年4月1日到30/06之间2015年然后是Season2等等 . 这是我写的代码，但这有所有错误 . 能帮我解...

sparkr
0 votes

answers

views

如何在sparkR中的日期上生成过滤器功能

'u'是一个DataFrame，包含ID = 1,2,3 ..和time =“2010-01-01”，“2012-04-06”，.. ID和时间都有类型字符串 . 我将时间类型'转换为'日期' u$time <- cast(u[[2]], "Date") 我现在想第一次来到你身边 . first <- first(u$time) 我现在通过第一次增加150天来重...

sparkr
0 votes

answers

views

如何使用sparkR在不同的集群上进行并行计算？

我有一个在本地运行的R脚本：每个记录/行都被送入一个名为func的函数来执行一些计算 . 所以流程如下 . new <- lapply(old, func) 理想情况下，使用sparkR，我希望每个worker都具有函数func并对“old”的子集执行计算 . 在这种情况下，func非常简单，可以在本地计算（不需要此func的分布式版本） . 任何人都知道如何使用SparkR实现这一目标？...

r sparkr
1 votes

answers

views

在SparkR中应用带有正则表达式模式的withColumn函数：重新格式化DataFrame中的字符串列

Background/overview: 我试图将 gsub 函数应用于我已加载到Spark中的SparkR DataFrame的列，如下所示： dat <- read.df(sqlContext, "filepath", header='false', inferSchema='true') 我使用的是Spark 1.6.1，数据文件存储为镶木地板文件，然后将其作为S...

r apache-spark split gsub sparkr
1 votes

answers

views

SparkR Cartesian连接导致错误 - 尝试获取日期序列

有没有人成功地在sparkR DataFrame和从R data.frame转换的DataFrame之间进行笛卡尔连接？我有一个sparkR DataFrame（spark_df），我从一个外部来源引入 - 我道歉，我不知道如何提供一个可重现的例子，数据已经在spark中，但之前没有从R转换过 . 我创建了一个测试R数据框只有一个条目并将其转换为Spark数据框然后尝试加入： test_df =...

r join sequence sparkr cartesian
1 votes

answers

views

如何根据日期创建“星期几”列？

我有一个带有 POSIXct 数据列的Spark data.frame ，我想将其转换为另一列以显示星期几 . 我怎么能在SparkR这样做？我知道 R 我可以使用 weekdays() 或 lubridate 之类的其他软件包来做这个，但是这些函数和软件包不能直接应用于Spark data.frame ，除非我遗漏了什么 . 有人可以帮忙吗？

r sparkr
0 votes

answers

views

如何在SparkR中添加时区小时数？

我有一个Spark（1.6.3）Dataframe列日期“created_at”和偏移“utc_offset”： dt<-df$created_at head(df) created_at utc_offset 1 Sun Jul 31 22:25:01 +0000 2016 <NA> 2 Sun Jul 31 22:25:...

r sparkr
0 votes

answers

views

如何将“01MAR1978：00：00：00”字符串格式的日期转换为SparkR中的日期格式？

我有以下格式的日期： 08MAR1978：00：00：00 10FEB1973：00：00：00 15AUG1982：00：00：00 我想将它们转换为： 1978-03-08 1973-02-10 1982-09-15 我在SparkR中尝试了以下内容： period_uts <- unix_timestamp(all.new$DATE_OF_BIRTH, ...

r apache-spark sparkr
0 votes

answers

views

SparkR - 从日期字段中提取月份

我正在使用Databricks和SparkR，尝试从Date字段中提取月份，但在尝试使用函数month（）时不断收到以下错误： as.POSIXlt.default（x，tz = tz（x））出错：as.POSIXlt.default（x，tz = tz（x））出错：不知道如何将'x'转换为类“POSIXlt” 如果我使用dayofmonth（）它运行得很好，所以我不确定我做错了什么 . 以下是我...

date sparkr databricks
-1 votes

answers

views

如何将字符转换为R中的日期？

我有一个excel文件，其中日期格式如下 . 2015年1月1日至2020年3月3日我需要在Date中转换它 . 我尝试过很多转换技术 . 我每次都会得到NA .

r sparkr
6 votes

answers

views

无法从SparkR创建的DataFrame中检索数据

我有以下简单的 SparkR 程序，即创建 SparkR DataFrame 并从中检索/收集数据 . Sys.setenv(HADOOP_CONF_DIR = "/etc/hadoop/conf.cloudera.yarn") Sys.setenv(SPARK_HOME = "/home/user/Downloads/spark-1.6.1-bin-hadoop2....

r hadoop apache-spark hive sparkr

热门问题