-
2 votesanswersviews
使用SQlcontext在spark中加载我的csv时出错
enter image description here sparkDF = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('PR_DATA_35.csv') ERROR_ ------------------------------------------------ ------... -
2 votesanswersviews
从数据桶到雪花的连接
使用databricks笔记本,我可以使用'scala'从databricks连接到'snowflake'并使用'scala'将内容写入雪花表但是使用'python'无效 我在databricks中创建了两个库,这有助于在数据库和雪花之间 Build 连接 . “snowflake-jdbc-3.6.8”和“spark-snowflake_2.11-2.4.4-spark_2.2” . 这里的最... -
1 votesanswersviews
Windows(Spyder):如何使用pyspark读取csv文件
我使用以下代码使用pyspark读取csv文件 import os import sys os.environ["SPARK_HOME"] = "D:\ProgramFiles\spark-2.1.0-bin-hadoop2.7" os.environ["PYLIB"] = os.environ["SPARK_HOME&quo... -
0 votesanswersviews
Spark com.databricks.spark.csv无法使用node-snappy加载snappy压缩文件
我在S3上有一些使用snappy压缩算法压缩的csv文件(使用 node-snappy 包) . 我喜欢使用 com.databricks.spark.csv 在spark中处理这些文件,但我一直收到无效的文件输入错误 . 码: file_df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', i... -
0 votesanswersviews
对于Hive的日期和时间戳数据类型,Spark csv数据验证失败
蜂巢表架构: c_date date c_timestamp timestamp 这是文本表 蜂巢表数据: hive> select * from all_datetime_types; OK 0001-01-01 0001-01-01 00:00:0... -
1 votesanswersviews
Azure Data Lake Store作为Databricks中的EXTERNAL TABLE
如何在Azure Databricks中创建从Azure Data Lake Store读取的EXTERNAL TABLE?如果有可能的话,我在文档中看到了问题 . 我在Azure Data Lake Store的特定文件夹中有一组CSV文件,我想在Azure Databricks中创建一个指向CSV文件的CREATE EXTERNAL TABLE . -
0 votesanswersviews
SparkR - 从日期字段中提取月份
我正在使用Databricks和SparkR,尝试从Date字段中提取月份,但在尝试使用函数month()时不断收到以下错误: as.POSIXlt.default(x,tz = tz(x))出错:as.POSIXlt.default(x,tz = tz(x))出错:不知道如何将'x'转换为类“POSIXlt” 如果我使用dayofmonth()它运行得很好,所以我不确定我做错了什么 . 以下是我... -
-1 votesanswersviews
Databricks是否为给定的群集和数据集提供了推荐的火花参数?
我刚刚创建了一个7节点火花簇,每个工作站有8GB内存和4个内核 . 它不是一个庞大的集群,但是对于一个简单的terasort只有10GB的数据而无法使用 "GC overhead limit exceeded" . 我想知道如何确定spark群集的这些基本参数,以便在数据大小增加时作业不会失败 . 个执行者数量 个分区数 并行性 执行者核心 执行者记忆 ... -
1 votesanswersviews
获取[Amazon](500150)在Spark / Redshift特定查询中由对等方重置连接
我在集群模式下使用databricks spark-redshift 2.0.1在emr上运行spark 2.0.0并且我的工作可以正常使用一些简单的redshift查询 val easyQueryWorks = s""" |select |s.session_id, s.user_id, |e.ex_id, e.pre_id ...