Java 学习之路

2 votes

answers

views

使用SQlcontext在spark中加载我的csv时出错

enter image description here sparkDF = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('PR_DATA_35.csv') ERROR_ ------------------------------------------------ ------...

python amazon-web-services apache-spark pyspark databricks
2 votes

answers

views

从数据桶到雪花的连接

使用databricks笔记本，我可以使用'scala'从databricks连接到'snowflake'并使用'scala'将内容写入雪花表但是使用'python'无效我在databricks中创建了两个库，这有助于在数据库和雪花之间 Build 连接 . “snowflake-jdbc-3.6.8”和“spark-snowflake_2.11-2.4.4-spark_2.2” . 这里的最...

jdbc databricks snowflake-datawarehouse
1 votes

answers

views

Windows（Spyder）：如何使用pyspark读取csv文件

我使用以下代码使用pyspark读取csv文件 import os import sys os.environ["SPARK_HOME"] = "D:\ProgramFiles\spark-2.1.0-bin-hadoop2.7" os.environ["PYLIB"] = os.environ["SPARK_HOME&quo...

apache-spark pyspark databricks
0 votes

answers

views

Spark com.databricks.spark.csv无法使用node-snappy加载snappy压缩文件

我在S3上有一些使用snappy压缩算法压缩的csv文件（使用 node-snappy 包） . 我喜欢使用 com.databricks.spark.csv 在spark中处理这些文件，但我一直收到无效的文件输入错误 . 码： file_df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', i...

apache-spark pyspark snappy databricks apache-spark-2.0
0 votes

answers

views

对于Hive的日期和时间戳数据类型，Spark csv数据验证失败

蜂巢表架构： c_date date c_timestamp timestamp 这是文本表蜂巢表数据： hive> select * from all_datetime_types; OK 0001-01-01 0001-01-01 00:00:0...

csv apache-spark hive apache-spark-sql databricks
1 votes

answers

views

Azure Data Lake Store作为Databricks中的EXTERNAL TABLE

如何在Azure Databricks中创建从Azure Data Lake Store读取的EXTERNAL TABLE？如果有可能的话，我在文档中看到了问题 . 我在Azure Data Lake Store的特定文件夹中有一组CSV文件，我想在Azure Databricks中创建一个指向CSV文件的CREATE EXTERNAL TABLE .

azure azure-storage azure-data-lake databricks
0 votes

answers

views

SparkR - 从日期字段中提取月份

我正在使用Databricks和SparkR，尝试从Date字段中提取月份，但在尝试使用函数month（）时不断收到以下错误： as.POSIXlt.default（x，tz = tz（x））出错：as.POSIXlt.default（x，tz = tz（x））出错：不知道如何将'x'转换为类“POSIXlt” 如果我使用dayofmonth（）它运行得很好，所以我不确定我做错了什么 . 以下是我...

date sparkr databricks
-1 votes

answers

views

Databricks是否为给定的群集和数据集提供了推荐的火花参数？

我刚刚创建了一个7节点火花簇，每个工作站有8GB内存和4个内核 . 它不是一个庞大的集群，但是对于一个简单的terasort只有10GB的数据而无法使用 "GC overhead limit exceeded" . 我想知道如何确定spark群集的这些基本参数，以便在数据大小增加时作业不会失败 . 个执行者数量个分区数并行性执行者核心执行者记忆 ...

hadoop apache-spark apache-spark-sql databricks bigdata
1 votes

answers

views

获取[Amazon]（500150）在Spark / Redshift特定查询中由对等方重置连接

我在集群模式下使用databricks spark-redshift 2.0.1在emr上运行spark 2.0.0并且我的工作可以正常使用一些简单的redshift查询 val easyQueryWorks = s""" |select |s.session_id, s.user_id, |e.ex_id, e.pre_id ...

apache-spark amazon-redshift databricks

热门问题