-
0 votesanswersviews
使用spark cassandra连接器在多个群集列上运行范围查询时出错:
以下是cassandra表模式: CREATE TABLE my_table(年份文本,月份文本,日期文本,小时int,min int,sec int,PRIMARY KEY((年,月,日),小时,分钟,秒)) 如果我使用cassandra cql运行以下查询,它可以工作: SELECT * FROM my_table WHERE year ='2017' and month ='01' an... -
7 votesanswersviews
无法部署本地Spark作业,工作程序因EndPointAssociationError而失败
我下载了Spark 1.1.0,并使用"sbt assembly"构建它 . 我试图运行示例Spark-Cassandra project: import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.SparkContext._ import com.datastax.spark.conn... -
1 votesanswersviews
sbt包在火花投掷下面的错误
我已经尝试在spark中构建packge.It正在抛出错误 . 命令:sbt包 [warn] :::::::::::::::::::::::::::::::::::::::::::::: [warn] :: FAILED DOWNLOADS :: [warn] :: ^ see resolution messages for details ... -
1 votesanswersviews
尝试使用spark-cassandra-connector将Cassandra行映射到案例对象时,无法找到此类型错误的RowReaderFactory
我试图得到一个简单的例子,使用Apache Spark 1.1.1,Cassandra 2.0.11和spark-cassandra-connector(v1.1.0)将行从Cassandra映射到scala案例类 . 我已经在spark-cassandra-connector github页面,planetcassandra.org,datastax上查看了文档,并且一般都在搜索;但没有发现其他... -
0 votesanswersviews
intellij想法与scala错误:import org.apache.spark . {SparkContext,SparkConf}
我正在使用带有scala集成的intelli j idea(如eclipse),我创建了一个scala sbt项目,我使用spark 1.4.0和scala 2.11.6,我收到错误:import org.apache.spark . {SparkContext,SparkConf } 文件buid.sbt包含以下代码: name:=“简单” 版本:=“1.0” scalaVersion:=“2.... -
5 votesanswersviews
Apache Spark:启动SparkContext类时,ERROR本地类不兼容
嗨我在Spark网站上运行的例子http://spark.apache.org/docs/1.2.0/quick-start.html#self-contained-applications spark版本:spark-1.4.0 sbt版本:0.13.8 我运行命令"sbt run"并收到错误“ java.io.InvalidClassException: org.apach... -
8 votesanswersviews
如何使用多节点Cassandra集群设置Spark?
首先,我使用DSE Cassandra not . 我正在构建这个并使用Microsoft Azure来托管服务器 . 我有一个2节点的Cassandra集群,我已经设法在单个节点上设置Spark,但我找不到任何关于在多节点集群上设置它的在线资源 . 这不是how to setup spark Cassandra multi node cluster?的重复 要在单个节点上进行设置,我已经按照... -
2 votesanswersviews
在PyCharm IDE中添加spark-csv包
我已经成功地在python独立模式下加载了spark-csv库 $ --packages com.databricks:spark-csv_2.10:1.4.0 Running the above command 运行上述命令时,它会在此位置创建两个文件夹(jar和缓存) C:\Users\Mahima\.ivy2 里面有两个文件夹 . 其中一个包含这些jar文件 - org.apache.... -
5 votesanswersviews
运行Spark hello world代码时sbt出错?
运行spark hello world程序时出现以下错误 . [info] Updating {file:/C:/Users/user1/IdeaProjects/sqlServer/}sqlserver... [info] Resolving org.apache.spark#spark-core_2.12;2.1.1 ... [warn] module not found: org.apac... -
1 votesanswersviews
pyspark mongoDB连接器问题
我在spark-2.1.0-bin-hadoop2.7,Scala 2.11.8和python3.5上 . 对于spark-mongo连接器,我正在使用"mongo-spark-connector_2.11-2.0.0.jar"来自http://repo1.maven.org/maven2/org/mongodb/spark/mongo-spark-connector_2.11... -
0 votesanswersviews
下载Scala和Spark API文档?
Seth的评论下面列出了maven repo中的URL,似乎既正确又通用 . 遵循逻辑,我还发现了火花文档: http://repo1.maven.org/maven2/org/apache/spark/spark-core_2.10/2.2.1/spark-core_2.10-2.2.1-javadoc.jar 这意味着实际上我的问题得到了解答,但由于赛斯没有给出“答案”,我无法将其标记为这样 ... -
0 votesanswersviews
Spark - 如何使用flatMap中的选择性字段创建 Map
我在flatMap中有8个字段(field1,field2,...,field8),我想在运行时创建一个map对象 . 我想创建一个包含动态键和值元素的 Map . 例如 . 我有关键元素,如field1,field2,field3和value元素,如field6,field7 . 以下代码段完美无缺 . val myMap = myFlatMap.map(line1 => line1 m... -
0 votesanswersviews
可以对Cassandra中连续不同字段的连续更新导致不一致吗?
假设你的表有一个字段(列)作为主(分区)键(比如说它的名字是“id”),其余的字段列是“常规”(没有聚类) - 让我们称之为“ field1“,”field2“,field3”,“field4”等 . 系统中当前存在的逻辑可能会为同一行生成2个单独的更新命令 . 例如: UPDATE table SET field1='value1' WHERE id='key'; UPDATE table SE... -
0 votesanswersviews
Google Spreadsheets API批量插入
如何使用API向Google Spreadsheets批量插入大数据? 我在api中找到了批处理请求,但是: 不支持插入和删除,因为单元格Feed不能用于插入或删除单元格 . (https://developers.google.com/google-apps/spreadsheets/) -
0 votesanswersviews
如何在Spark中为kmeans映射MongoDB数据?
我想在Spark中对MongoDB提供的数据运行k-means . 我有一个针对flatfile的工作示例: sc = SparkContext(appName="KMeansExample") # SparkContext data = sc.textFile("/home/mhoeller/kmeans_data.txt") parsedData = ... -
0 votesanswersviews
火花和cassandra的性能调整
我努力调整火花和 Cassandra . 我在cassandra中有1000万个数据,我正在使用spark-cassandra-connector执行像火花/直线读取操作 . 但需要15-20分钟 . 我有4个节点的cassandra和3个节点的火花 . 这是我的cassandra和spark配置 . Cassandra : listen_address: 192.168.xx.xx rpc... -
2 votesanswersviews
使用火花连接器提高Cassandra的读取性能 - 不仅仅是GC调整
我在这里写一些关于如何使用spark-cassandra连接器提高分析工作中的读取性能的建议 . 我面临的是一些超时问题,同时在几个分区键上执行大量读取 . 在cassandra日志中,这样的超时类似于: WARN [ScheduledTasks:1] 2017-12-06 04:31:49,752 MonitoringTask.java:150 - 32 operations timed ou... -
0 votesanswersviews
Parquet Exception:parquet.format.converter.ParquetMetadataConverter中的java.lang.NullPointerException
我正在尝试使用Spark阅读镶木地板文件 . Spark版本是1.3.0 . 当我尝试阅读时,我得到以下异常 . 任何帮助都非常感谢 . CDH版本:5.4.3 在parquet.format.converter.ParquetMetadataConverter.readParquetMetadata的parquet.format.converter.ParquetMetadataConver... -
0 votesanswersviews
Spark 2.0无法读取cassandra 2.1.13 table-java.lang.NoClassDefFoundError:scala / collection / GenTraversableOnce $ class
spark 2.0与(datastax)cassandra 2.1.13兼容吗?我在我的本地mac上安装了spark 2.1.0,并且还安装了scala 2.11.x.我试图从安装了datastax 4.8.6的服务器读取cassandra表(spark 1.4和cassandra 2.1.13) 我在spark shell上运行以下代码 spark-shell import org.apach... -
9 votesanswersviews
验证Cassandra节点同步的方法
我有一个3节点的Cassandra集群,复制因子为2.因为其中一个节点已被新节点替换 . 我使用“nodetool repair”来修复所有键空间 . 但不知道如何验证所有键空间是否已同步 . 之前,刚发现这篇文章会有所帮助,但有点儿 . Cassandra Data Replication problem 有没有办法在Cassandra中验证复制因子> 1的键空间? 非常感谢 . 斯蒂芬... -
0 votesanswersviews
Scala Spark Cassandra表更新
Scala版本:2.11 Spark:2.2 是否可以编写Scala脚本或Spark脚本来将数据从一个cassandra表更新为Other . 我对这些世界还很陌生 . 我要找的是表A更新时必须更新表B.表B具有表A的子集的数据 . 例 Table A - Sno , Name, Gender, Address, Rank. Table B - Sno, Name, Rank. 使用Spark... -
0 votesanswersviews
Cassandra多数据中心,WAN打嗝和复制弹性
我有两个DC . 我的Cassandra戒指横跨两个DC . 我使用复制因子= 3的本地仲裁 . 我在DC1中写了一个本地法定人数 . 数据被写入DC1中的多个节点 . 对于传播到DC2的相同写入,只有一个副本从DC1中的协调器节点发送到DC2中的协调器节点,以优化WAN上的流量(从我在Cassandra文档中读到的内容) 想象一下,有一个几秒钟的打嗝 . 有关复制弹性的问题: 当Wan链接再... -
1 votesanswersviews
在cassandra复制键?
谁能告诉我如何检查cassandra中复制不足的密钥? 我知道如何检查密钥空间的复制因子和“nodetool修复”进行修复,但我无法找到我的集群中正在复制哪些密钥 . 谢谢 . -
4 votesanswersviews
复制因子3但所有权总计仅为100%而不是300%
我在一组Solaris服务器上遇到一些Cassandra集群的奇怪问题 . 每个群集有3个服务器,其复制因子设置为3 . [admin@unknown] describe resolve; WARNING: CQL3 tables are intentionally omitted from 'describe' output. See https://issues.apache.org/jir... -
1 votesanswersviews
当16个节点中的1个节点关闭时,cassandra中的身份验证失败
我有一个运行的Cassandra集群: Cassandra 2.0.11.83 | DSE 4.6.0 | CQL规范3.1.1 |节俭协议19.39.0 该集群有18个节点,分为3个数据中心,每个数据中心6个 . 我的system_auth键空间定义了以下复制: 复制= {'class':'NetworkTopologyStrategy','DC1':'4','DC2':'4','DC3':'4... -
1 votesanswersviews
Cassandra跨群集的不同复制因子
是否可以在同一群集的不同节点上具有不同的复制设置? (所有DC具有相同的键空间/表,但具有不同的复制设置) 我们希望DC1和DC2在不同的地理位置收集传感器数据,并将这些数据发送到DC3 . 因此DC3包含来自DC1 DC2的所有数据 . 但是,DC1和DC2不应包含彼此的数据(仅包含本地客户端写入的数据) . 这可以通过在DC上使用不同的密钥空间复制设置在Cassandra中实现吗? 在DC... -
1 votesanswersviews
单个cassandra节点上的NetworkTopologyStrategy
我曾经使用NetworkTopologyStrategy在cassandra中创建了一个键空间,下次使用SimpleStrategy时使用以下语法: Keyspace definition: CREATE KEYSPACE cw WITH REPLICATION = { 'class' : 'NetworkTopologyStrategy', 'datacenter16' : 1 }; CREA... -
12 votesanswersviews
Cassandra:Nodetool在Owns中显示“?”
我想知道为什么nodetools不知道我的节点对ring handeld的百分比... 我创建了这个键空间 CREATE KEYSPACE mykeyspace with replication = {'class':'SimpleStrategy','replication_factor':'3'} AND durable_writes = true; 有人有线索吗? -
1 votesanswersviews
无法在密钥空间中找到足够的流式范围源
我必须在其他地区添加新的Cassandra Datacenter . 现在问题是以前的Datacenter是2.2.9版本,我在新数据中心创建的新节点是2.2.11 . 在nodetool上,新数据中心的所有新节点都会因错误而失败 无法在键空间中找到足够的流量范围源 . 甚至这个错误也导致了系统密钥空间,如system,system_traces,system_distributed) . 这... -
2 votesanswersviews
添加新数据中心时,系统模式的Cassandra复制
Cassandra 的官方说,那: 配置密钥空间并创建新数据中心:使用ALTER KEYSPACE将NetworkTopologyStrategy用于以下密钥空间:所有用户创建的系统:system_distributed和system_traces system_auth和dse_security,请参阅配置system_auth和dse_security密钥空间复制 . 多个数据中心群集需要此...