首页 文章
  • 6 votes
     answers
     views

    处理复杂事件

    我有一系列离散事件进入我的系统,我需要根据每个事件的内容应用规则 . 此外,我想对这些流事件应用复杂的事件处理 . 约束1.这些规则由用户提供,并将动态更改 . 2.每当应用规则时,我都不想重新启动系统 . 3. HA 4.只有成熟的开源解决方案 可能的方法.. 1.在风暴螺栓内运行Esper CEP2.在暴风螺栓内部运行流氓 这会执行单事件规则处理以及复杂事件吗?规则更改是否需要我的风暴...
  • 19 votes
     answers
     views

    RDD分区和切片之间有什么区别?

    Spark Programming Guide提到切片作为RDD的特征(并行集合或Hadoop数据集 . )("Spark will run one task for each slice of the cluster.")但是在RDD持久性部分下,使用了分区的概念而没有引入 . 此外,RDD docs仅提及没有提及切片的分区,而SparkContext docs提到用于创建R...
  • 7 votes
     answers
     views

    Apache Spark(MLLib)用于实时分析

    我有一些与使用Apache Spark进行实时分析相关的问题 . 提交Spark应用程序时,存储在Cassandra数据库中的数据将通过机器学习算法(支持向量机)加载和处理 . 在新数据到达时,通过Spark的流式传输扩展,它们将保留在数据库中,重新训练现有数据集并执行SVM算法 . 此过程的输出也存储在数据库中 . Apache Spark 's MLLib provides impleme...
  • 2 votes
     answers
     views

    Apache Spark - 更多分区,性能更低

    我一直在EC2上运行Apache Spark程序,我的结果表明,通过将数据划分为每个核心推荐的2-3个分区比使用(看似)默认分区2要慢得多 . 在没有分区的情况下完成纳秒: u1 - 650472112996 u2 - 654525970891 u3 - 498530412012 u4 - 568162162934 u5 - 659015135256 总分区数为2,我使用 sparkContex...
  • 3 votes
     answers
     views

    Apache Spark RDD sortByKey算法和时间复杂度

    Apache Spark RDD sortByKey的Big-O时间复杂度是多少? 我正在尝试根据特定订单将行号分配给RDD . 假设我有一个{K,V}对RDD,我希望按键执行订单 myRDD.sortByKey(true).zipWithIndex 这个操作的时间复杂度是多少? 而且幕后发生了什么?泡泡排序?我希望不是!我的数据集非常大并且跨分区运行,所以我很好奇sortByKey函数是否是最...
  • 14 votes
     answers
     views

    将数据导入Spark时如何设置分区/节点数

    Problem: 我想使用以下方法将数据从S3导入Spark EMR: data = sqlContext.read.json("s3n://.....") 有没有办法可以设置Spark用来加载和处理数据的节点数量?这是我处理数据的示例: data.registerTempTable("table") SqlData = sqlContext.sql(&q...
  • 1 votes
     answers
     views

    如何计算spark中的分区数和并发任务数

    我有一个使用Spark 1.0.1的4个节点(每个节点有16个核心)的集群 . 我有一个RDD,我已经重新分区,因此它有200个分区(希望增加并行性) . 当我在这个RDD上进行转换(例如过滤器)时,我似乎无法在一个时间点获得超过64个任务(我的4个节点上的核心总数) . 按任务,我的意思是Application Spark UI下显示的任务数 . 我尝试将spark.default.parall...
  • 2 votes
     answers
     views

    具有hadoop的并行机器学习(推荐)算法

    我正在研究推荐算法: Matrix Factorization using a stochastic gradient as optimizer. 我想并行化我的算法 . 我找到了这篇文章Parallelized Stochastic Descent Gradient . 他们给出了算法(p3): Algorithm 3 SimuParallelSGD(Examples {c1, . . . cm...
  • 0 votes
     answers
     views

    Spark MLlib并行性背后的一般原则

    我想知道用于机器学习的并行算法(MLlib)所遵循的一般原则 . 它们本质上更快,因为Spark在多个节点上分发训练数据?如果是,我想所有节点共享同一组参数对吗?并且他们必须定期合并(例如:总结)中间计算(例如:渐变),我错了吗? 其次,假设我想用一组模型拟合我的数据(例如:10) . 在这个特定的环境中,在10台机器上独立运行我的旧机器学习程序,而不是必须编写复杂的代码(至少对我来说!)在Spa...
  • 4 votes
     answers
     views

    如何在Spark群集中分配任务?

    所以我有一个输入,包括数据集和几个ML算法(带参数调整)使用scikit-learn . 我已经尝试了很多关于如何尽可能高效地执行此操作的尝试,但是在这个时刻我仍然没有适当的基础设施来评估我的结果 . 但是,我在这方面缺乏一些背景知识,我需要帮助才能解决问题 . 基本上我想知道如何以尽可能多地利用所有可用资源的方式分配任务,以及实际上隐含地执行什么(例如通过Spark)以及什么不是 . 这是我的情...
  • 0 votes
     answers
     views

    Apache Spark:多机器学习算法的并行化

    有没有办法在Spark中并行化多个ML算法 . 我的用例是这样的:A)并行运行多机器学习算法(Naive Bayes,ANN,Random Forest等) . 1)使用10倍交叉验证验证每个算法B)将步骤A)的输出馈送到第二层机器学习算法中 . 我的问题是:我们可以在步骤A并行运行多个机器学习算法吗?我们可以并行进行交叉验证吗?比如,并行运行10次Naive Bayes训练? 我无法找到任何方...
  • 1 votes
     answers
     views

    单节点中的Spark性能

    我试图将一些示例Python - Scikit脚本执行到单个节点中的Spark(我的桌面 - Mac - 8 GB) . 这是我的配置spark-env.sh文件 . SPARK_MASTER_HOST='IP' SPARK_WORKER_INSTANCES=3 SPARK_WORKER_CORES=2 我开始我的奴隶 ./sbin/start-slave.sh spark://IP ...
  • 0 votes
     answers
     views

    使用spark RDD在机器学习任务中进行交叉验证

    我是spark和hadoop的新手,但是我想使用spark来进行并行计算以进行k-fold交叉验证的机器学习任务 . 问题形成如下: 我想使用pyspark和mllib包训练多个机器学习分类器并使用k-Fold交叉验证 . 说5个CV分类器 . 在培训中:对于CV,每个折叠我有10个.csv文件 . 我想使用RDD进行分发,以便将它们分发到不同的分区,并且我可以为每个折叠和每个分类器并行运行ml....
  • 2 votes
     answers
     views

    spark-ec2无法停止运行集群

    使用命令 spark-ec2 ,我在AWS-EC2上的虚拟私有 Cloud (vpc)中创建了名为"ruofan-large-cluster"的集群 . 该集群包含一个主节点和两个从节点,并且它运行良好 . 现在我想暂停群集一段时间,然后重新启动它 . 但是,当我键入bash命令时,如下所示: $ ./spark-ec2 --region=us-east-1 stop ruof...
  • 2 votes
     answers
     views

    Spark Docker - 无法访问资源管理器的Web UI - Mac PC

    无法访问资源管理器web ui - Spark docker容器 - Mac PC 这些是我做的步骤: docker pull sequenceiq / spark:1.6.0 docker run -it -p 8088:8088 -p 8042:8042 -p 4040:4040 -h sandbox sequenceiq / spark:1.6.0 bash 我用这个测试:(运行很好)...
  • 16 votes
     answers
     views

    为什么Spark任务需要很长时间才能在本地找到块?

    RDD具有512个大小相同的分区,并且在512个执行程序中100%缓存在内存中 . 我有一个带有512个任务的filter-map-collect作业 . 有时这项工作在亚秒级完成 . 在其他情况下,50%的任务完成亚秒级,45%的任务需要10秒,5%的任务需要20秒 . 以下是执行程序的日志,其中任务耗时20秒: 15/12/16 09:44:37 INFO executor.CoarseGra...
  • 4 votes
     answers
     views

    Apache Spark Kinesis Integration:已连接,但未收到任何记录

    tldr; 无法使用Kinesis Spark Streaming集成,因为它不接收任何数据 . 设置了测试流,nodejs app每秒发送1条简单记录 . 标准Spark 1.5.2集群设置了主节点和工作节点(4个核心),其中包含docker-compose,环境中的AWS凭据 spark-streaming-kinesis-asl-assembly_2.10-1.5.2.jar 已...
  • -1 votes
     answers
     views

    编译后执行Spark scala程序

    我在命令行上编译了Spark scala程序 . 但现在我想执行它 . 我不想使用Maven或sbt . 程序 . 我用这个命令来执行 scala -cp ".:sparkDIrector/jars/*" wordcount 但我收到此错误 java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Ob...
  • 1 votes
     answers
     views

    如何使用SPARK在HDFS中编写大数据(大约800 GB)作为hive orc表?

    我在最近3-4个月和最近工作在 Spark Project . 我正在使用巨大的历史文件(800 GB)和一个小的增量文件(3 GB)进行一些计算 . 计算使用 hqlContext & dataframe 很快发生火花,但是当我试图写的计算结果与 orc 格式的 hive table 其中将包含近20十亿的记录有近800 GB的数据大小花费过多时间(超过2小时,最后失败) . 我的群集详细信息...
  • 2 votes
     answers
     views

    Spark Map 创建需要很长时间

    如下所示, 步骤1:使用groupBy对呼叫进行分组 //Now group the calls by the s_msisdn for call type 1 //grouped: org.apache.spark.rdd.RDD[(String, Iterable[(String, (Array[String], String))])] val groupedCallsToProcess =...
  • 0 votes
     answers
     views

    Spark Job需要很长时间

    我正在编写一个spark / scala ETL作业,它执行一些数据操作,从mongo db和redshift读取数据,连接,映射然后保存到s3 . 使用数据帧和数据集使用spark api(select,UDF)完成所有转换 . 数据不是很大,总行数约为1M,而且主要是select语句和udf . 出于某种原因,这项工作需要大约一个小时才能运行(每个 Worker 的EMR,1个主机和11个核心...
  • 0 votes
     answers
     views

    记录Spark中编写的自定义代码

    我们正在为Apache Spark编写Scala代码,并在cloudera 5.5中以Yarn模式(Yarn Client Mode)运行该过程 . Spark版本是1.5 我需要记录此代码,并希望在Spark的特定目录中移动日志,而不是火花日志中的噪声 我们使用普通的log4j . 暂时没有时间记录特征 . 我已经像这样更改了$ 中的默认log4j文件 # Set everything to ...
  • 1 votes
     answers
     views

    来自非主类的调试,警告和信息消息在spark执行程序日志记录中不可见

    我们尝试了各种解决方案,包括更改log4j.properties文件,通过--file将文件复制到执行程序,然后告诉他们将其用作通过--conf传递给spark的arg,并尝试更新配置EMR集群本身 . 来自系统的警告消息在执行程序日志中可见 . 来自主类的警告消息是可见的,但来自任何其他类的消息都没有通过以太网,我们不确定问题是什么 . 日志记录级别很好,如Spark生成的消息所示,但其他类消息...
  • 8 votes
     answers
     views

    Spark与Cassandra输入/输出

    想象一下以下场景:Spark应用程序(Java实现)正在使用Cassandra数据库加载,转换为RDD并处理数据 . 该应用程序还从数据库中蒸出新数据,这些数据也由自定义接收器处理 . 流处理的输出存储在数据库中 . 该实现使用Spring Data Cassandra与数据库集成 . CassandraConfig: @Configuration @ComponentScan(basePacka...
  • 1 votes
     answers
     views

    带有textFileStream的Python Spark Streaming示例不起作用 . 为什么?

    我使用spark 1.3.1和Python 2.7 这是我第一次使用Spark Streaming . 我尝试使用spark streaming从文件中读取数据的代码示例 . 这是示例的链接:https://github.com/apache/spark/blob/master/examples/src/main/python/streaming/hdfs_wordcount.py 我的代码如下:...
  • 1 votes
     answers
     views

    为什么HashPartioner需要在Sparkful流示例中的StatefulNetworkWordCount中?

    我的问题是关于StatefulNetworkWordCount示例: https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/streaming/StatefulNetworkWordCount.scala Q1)stateDstream RDD由驱动程序或工作节点维...
  • 0 votes
     answers
     views

    “nc -lk 9999”在VM中没有显示火花流的输出

    我按照https://spark.apache.org/docs/1.2.0/streaming-programming-guide.html进行火花流动 . 我运行了github中给出的程序 network_wordcount.py . 开始 Worker 和主人 . 然后在一个终端上执行 nc -lk 9999 ,在另一个终端 ./network_wordcount.py localhost...
  • 4 votes
     answers
     views

    Apache Spark:为什么reduceByKey转换会执行DAG?

    我面临一个奇怪的问题 . 据我所知,Spark中的操作DAG仅在执行操作时执行 . 但是,我可以看到reduceByKey()opertation(是一个转换)开始执行DAG . 重现步骤 . 尝试下面的代码 SparkConf conf =new SparkConf().setMaster("local").setAppName("Test"); Jav...
  • 0 votes
     answers
     views

    Spark结构化流 - python - org.apache.kafka.common.TopicPartition;类对反序列化无效

    我正在尝试执行以下spark spark示例代码 . https://github.com/apache/spark/blob/master/examples/src/main/python/sql/streaming/structured_kafka_wordcount.py 我在Spark版本2.0.2的AWS EMR集群上运行它 . 以下依赖项将添加到spark提交中 . spark-...
  • 2 votes
     answers
     views

    通过Spark Streaming从Kafka代理中的主题的特定分区读取数据

    我是Spark的新人,因为提出这样的问题而道歉 . 我有一个用例,我想在Spark Streaming的帮助下从主题的特定分区读取数据 . 我正在使用 Spark Java API 做所有的事情 . 我创建了一个名为test的主题,其中包含复制因子2和5个分区 . 希望在Spark流式传输Kafka集成指南的帮助下,我能够完成诸如创建JavaStreamingContext对象,创建到Kafka代...

热门问题