首页 文章
  • 1 votes
     answers
     views

    Spark-R:如何将Cassandra Map 和数组列转换为新的DataFrame

    使用DataStax cassandra连接器使用SparkR(spark-2.1.0) . 我有一个连接到Cassandra中的表的数据框 . cassandra表中的一些列是map和set类型 . 我需要对这些“集合”列执行各种过滤/聚合操作 . my_data_frame <-read.df( source = "org.apache.spark.sql.cassa...
  • 0 votes
     answers
     views

    如何将日期字段存入同一年的不同4个桶中

    我是Sparkr的新手 . 我有要求我在哪里有一个发行日期字段,其中包含日期格式为31/03/2015,即 . DD / MM / YYYY . 我需要从发布日期字段中获取数据,并在4个不同的季节显示它,如果日期是2015年1月1日到2015年3月31日之间,那么第1季如果日期是2015年4月1日到30/06之间2015年然后是Season2等等 . 这是我写的代码,但这有所有错误 . 能帮我解...
  • 0 votes
     answers
     views

    如何在sparkR中的日期上生成过滤器功能

    'u'是一个DataFrame,包含ID = 1,2,3 ..和time =“2010-01-01”,“2012-04-06”,.. ID和时间都有类型字符串 . 我将时间类型'转换为'日期' u$time <- cast(u[[2]], "Date") 我现在想第一次来到你身边 . first <- first(u$time) 我现在通过第一次增加150天来重...
  • 0 votes
     answers
     views

    如何使用sparkR在不同的集群上进行并行计算?

    我有一个在本地运行的R脚本:每个记录/行都被送入一个名为func的函数来执行一些计算 . 所以流程如下 . new <- lapply(old, func) 理想情况下,使用sparkR,我希望每个worker都具有函数func并对“old”的子集执行计算 . 在这种情况下,func非常简单,可以在本地计算(不需要此func的分布式版本) . 任何人都知道如何使用SparkR实现这一目标?...
  • 1 votes
     answers
     views

    在SparkR中应用带有正则表达式模式的withColumn函数:重新格式化DataFrame中的字符串列

    Background/overview: 我试图将 gsub 函数应用于我已加载到Spark中的SparkR DataFrame的列,如下所示: dat <- read.df(sqlContext, "filepath", header='false', inferSchema='true') 我使用的是Spark 1.6.1,数据文件存储为镶木地板文件,然后将其作为S...
  • 1 votes
     answers
     views

    SparkR Cartesian连接导致错误 - 尝试获取日期序列

    有没有人成功地在sparkR DataFrame和从R data.frame转换的DataFrame之间进行笛卡尔连接? 我有一个sparkR DataFrame(spark_df),我从一个外部来源引入 - 我道歉,我不知道如何提供一个可重现的例子,数据已经在spark中,但之前没有从R转换过 . 我创建了一个测试R数据框只有一个条目并将其转换为Spark数据框然后尝试加入: test_df =...
  • 1 votes
     answers
     views

    如何根据日期创建“星期几”列?

    我有一个带有 POSIXct 数据列的Spark data.frame ,我想将其转换为另一列以显示星期几 . 我怎么能在SparkR这样做?我知道 R 我可以使用 weekdays() 或 lubridate 之类的其他软件包来做这个,但是这些函数和软件包不能直接应用于Spark data.frame ,除非我遗漏了什么 . 有人可以帮忙吗?
  • 0 votes
     answers
     views

    如何在SparkR中添加时区小时数?

    我有一个Spark(1.6.3)Dataframe列日期“created_at”和偏移“utc_offset”: dt<-df$created_at head(df) created_at utc_offset 1 Sun Jul 31 22:25:01 +0000 2016 <NA> 2 Sun Jul 31 22:25:...
  • 0 votes
     answers
     views

    如何将“01MAR1978:00:00:00”字符串格式的日期转换为SparkR中的日期格式?

    我有以下格式的日期: 08MAR1978:00:00:00 10FEB1973:00:00:00 15AUG1982:00:00:00 我想将它们转换为: 1978-03-08 1973-02-10 1982-09-15 我在SparkR中尝试了以下内容: period_uts <- unix_timestamp(all.new$DATE_OF_BIRTH, ...
  • 0 votes
     answers
     views

    SparkR - 从日期字段中提取月份

    我正在使用Databricks和SparkR,尝试从Date字段中提取月份,但在尝试使用函数month()时不断收到以下错误: as.POSIXlt.default(x,tz = tz(x))出错:as.POSIXlt.default(x,tz = tz(x))出错:不知道如何将'x'转换为类“POSIXlt” 如果我使用dayofmonth()它运行得很好,所以我不确定我做错了什么 . 以下是我...
  • -1 votes
     answers
     views

    如何将字符转换为R中的日期?

    我有一个excel文件,其中日期格式如下 . 2015年1月1日至2020年3月3日 我需要在Date中转换它 . 我尝试过很多转换技术 . 我每次都会得到NA .
  • 6 votes
     answers
     views

    无法从SparkR创建的DataFrame中检索数据

    我有以下简单的 SparkR 程序,即创建 SparkR DataFrame 并从中检索/收集数据 . Sys.setenv(HADOOP_CONF_DIR = "/etc/hadoop/conf.cloudera.yarn") Sys.setenv(SPARK_HOME = "/home/user/Downloads/spark-1.6.1-bin-hadoop2....

热门问题