-
13 votesanswersviews
比较Cassandra的CQL与Spark / Shark查询与Hive / Hadoop(DSE版本)
我想听听您对CQL和内存查询引擎Spark / Shark使用的想法和经验 . 据我所知,CQL处理器在每个节点上的Cassandra JVM中运行 . 与Cassandra集群连接的Shark / Spark查询处理器在一个独立的集群中运行 . 此外,Datastax拥有Cassandra的DSE版本,允许部署Hadoop / Hive . 问题是在哪个用例中我们会选择一个特定的解决方案而不是另... -
1 votesanswersviews
有人可以解释一下:“Spark SQL支持与Hive不同的用例 . ”
我指的是以下链接:Hive Support for Spark 它说 : “Spark SQL支持与Hive不同的用例 . ” 我不确定为什么会这样 . 这是否意味着作为Hive用户我不能通过Spark SQL使用Spark执行引擎? 一些问题: Spark SQL使用Hive Query解析器 . 因此,它将理想地支持所有Hive功能 . 它会使用Hive Metastore吗? ... -
2 votesanswersviews
有没有人在Cassandra上成功运行Apache Spark&Shark
我正在尝试配置一个5节点cassandra集群来运行Spark / Shark来测试一些Hive查询 . 我安装了Spark,Scala,Shark并根据Amplab [在集群上运行Shark] https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster进行配置 . 我能够进入Shark CLI,当我尝试从我的一个Cassandr... -
1 votesanswersviews
Scala Spark / Shark:如何访问Hortonworks中现有的Hive表?
我正在尝试找到关于这个主题的方法的一些文档/描述,请帮忙 . 我从Hortonworks安装了Hadoop 2.2.0,并安装了一些我需要查询的现有Hive表 . Hive SQL在单个节点和集群上工作极其缓慢且不合理地慢 . 我希望Shark能更快地工作 . 从Spark / Shark文档中我无法弄清楚如何使Shark与现有的Hive表一起工作 . 任何想法如何实现这一目标?谢谢! -
1 votesanswersviews
在DSE上配置Spark / Shark时出错
,我已经安装好了1)scala-2.10.3 2)spark-1.0.0用以下变量改变spark-env.sh export SCALA_HOME=$HOME/scala-2.10.3 export SPARK_WORKER_MEMORY=16g 我可以看到Spark大师 . 3)shark-0.9.1-bin-hadoop1 Changed shark-env.sh with below v... -
0 votesanswersviews
使用Shark查询Cassandra需要花费太多时间
我已经设置了两(2)个节点Cassandra集群并尝试使用shark执行查询 . 但查询大约需要10分钟 . 但查询工作正常 . (我用Cloudera为我安装软件) Time taken: 421.189 seconds shark> 我试图通过在/opt/shark/shark/conf/shark-env.sh中更改一些参数(增加:SPARK_MEM和SHARK_MASTER_ME... -
0 votesanswersviews
与Amplab鲨鱼火花上的蜂巢内部错误
请......需要帮助 . 我已经按照步骤构建spark和shark来查询来自hdfs / cassandra的数据 . 我在hdfs上有一个cassandra集群,可以成功查看数据库 . 但是无法运行select语句 shark> select * from calls_flow limit 1; FAILED:Hive内部错误:java.lang.RuntimeException(jav... -
2 votesanswersviews
Datastax DSE Cassandra,Spark,Shark,Standalone Programm
我使用Datastax Enterprise 4.5 . 我希望我的配置正确,我就像在datastax网站上解释的那样 . 我可以使用Windows服务写入Cassandra数据库,这可以工作,但我无法使用where函数查询Spark . 我用“./dse cassandra -k -t”(在/ bin文件夹中)启动Cassandra节点(只有一个用于测试目的),因此hadoop和spark都在运...