-
1 votesanswersviews
R:在as.numeric之后的Nan . 使用stringr从字符串中提取数字,但它显示Nan . dplyr,sparklyr,pipe
我开始使用sparklyr处理大尺寸数据,所以我只需要使用管道 . 但是在操纵数据框架的过程中,我遇到了麻烦 > csj %>% head() # Source: lazy query [?? x 8] # Database: spark_connection `_c0` reviewerID asin helpful length_of_review overal... -
1 votesanswersviews
基于列数据类型对spark数据帧(在sparklyr中)进行子集化的最佳方法是什么
我正在将一堆列转换为虚拟变量 . 我想从数据框中删除原始分类变量 . 我正在努力弄清楚如何在闪闪发光中做到这一点 . 它在dplyr中很简单,但dplyr功能在sparklyr中不起作用 . 例如: 首先创建一个spark数据帧: ###create dummy data to figure out how model matrix formulas work in sparklyr v1 <... -
2 votesanswersviews
Sparklyr在spark数据帧中填充NA / NULL
我想将火花数据帧中的NA / NULL分配给它最近的邻居 . 我来自R背景,所以我使用sparklyr,但无法找到一种方法来做到这一点 . 这是一个示例代码: set.seed(1) example <- data.frame (ID = 1:10, Cat = letters[1:5], Numb = sample(c(NA, NA... -
1 votesanswersviews
将spark数据帧转换为sparklyR表“tbl_spark”
我正在尝试将spark数据帧 org.apache.spark.sql.DataFrame 转换为sparklyr表 tbl_spark . 我尝试使用 sdf_register ,但失败并出现以下错误 . 在这里,df是spark数据帧 . sdf_register(df, name = "my_tbl") 错误是, Error: org.apache.spark.sql... -
1 votesanswersviews
通过sparklyr替换spark数据帧中的'\\'或'\\\\'失败
我尝试替换spark数据帧中的反斜杠 . 我写了一个与R数据帧配合得很好的功能 . 我将它插入 spark_apply 并且它不起作用: rm(back_slash_replace_func) back_slash_replace_func <- function(x) { cbind.data.frame( lapply( x, fun... -
0 votesanswersviews
如何使用sparklyr删除Spark DataFrame?
我使用下面创建了一个名为“iris”的Spark数据帧 library(sparklyr) library(dplyr) sc <- spark_connect(master = "local") iris_tbl <- copy_to(sc, iris) 现在我想删除Spark数据帧“iris”(不是R中的数据帧)我该怎么做? -
1 votesanswersviews
DSE Spark和RStudio Sparklyr集成
我正在尝试将我的RStudio服务器连接到我的DSE Analytics集群 . 设置: CentOS 7 openjdk-1.8 RStudio Server v1.0.136(最新版本的sparklyr by >devtools::install_github("rstudio/sparklyr") ) DSE 5.0(火花1.6.2) 群集中的... -
2 votesanswersviews
在R中拟合Spark ML逻辑回归时的ArrayIndexOutOfBoundsException
我正在尝试使用 sparklyr::ml_logistic_regression 来拟合逻辑回归模型 . 我的训练数据集包含42,457行和785列;响应是 label 列中的0/1整数,所有剩余列都是0/1整数特征 . 我的源数据位于R数据框( df )中,我可以使用 glm(label ~ ., data = df, family = binomial) 在基础R中成功地拟合模型 . 不幸的是... -
5 votesanswersviews
如何在sparklyr中训练ML模型并在另一个数据帧上预测新值?
请考虑以下示例 dtrain <- data_frame(text = c("Chinese Beijing Chinese", "Chinese Chinese Shanghai", "Chinese Macao"... -
0 votesanswersviews
从sparklyr和/或pyspark连接到mysql [重复]
这个问题在这里已有答案: How to use JDBC source to write and read data in (Py)Spark? 3个答案 我想连接到本地托管的mysql数据库 . 我尝试了两个系统--R和Python . 这是我的设置.profile的屏幕截图 和.bash_profile 这是我做的: 试图将pyspark连接到本地mysql,我得到错误见下文(pys... -
0 votesanswersviews
Sparklyr错误:'na.omit'调用没有丢弃任何行
当我尝试将ml_decision_tree或ml_logistic_regresion与Sparklyr包一起使用时,我收到以下错误 . 我在cloudera集群上使用spark2.1.0 . > No rows dropped by 'na.omit' call. Error in > stop(simpleError(sprintf(fmt, ...), if (call.) &... -
0 votesanswersviews
sparklyr数据帧:用NA替换NULL单元 - 如何将gsub和regex用于spark DF?
如何将 gsub 和 regex 用于spark数据帧?此运行示例适用于经典DF . ## function to replace empty cell by NA empty_as_na <- function(x){ if("factor" %in% class(x)) x <- as.character(x) ifelse(as.character(x...