首页 文章
  • 3 votes
     answers
     views

    R和大数据分析[关闭]

    我正在寻找关于使用R来分析大数据的一些建议 - 即,遇到TB的数据 . 通常我认为最好预处理数据并仅加载用户执行分析所需的信息 . 但是,如果需要聚合来自大型数据集(例如,200 GB)的信息,我认为首先,将数据存储在列数据库而不是面向行的DBMS中会更有效 . 其次,对于CPU密集型数据分析,使用RHadoop / RHIPE获得一些分布式计算功能可能是值得的 . 此外,如果有多个企业用户,那么...
  • 1 votes
     answers
     views

    BigData分析选择技术堆栈

    我想编写一个能够生成报告并通过监视来自大型 生产环境 系统的数据进行交互式数据分析(类似OLAP)的应用程序 . (我知道,未来会有一些有问题的权衡决定,但让我们暂时搁置它们 . )我确定了基本技术堆栈的以下可能性: Hadoop:用于分布式文件系统和MapReduce框架 数据库:HBase或Cassandra启用随机读取 分析:Hive或Pig进行高级分析 根据我的研究,我倾...
  • -1 votes
     answers
     views

    如何为“大数据”分析项目设置架构?

    我和我的一个朋友在我们的高年级,很快就会开始一个高级项目 . 我们有想法为它做一个数据分析和数据可视化项目 . 我们的项目涉及读取每2分钟更新一次的CSV文件,解析该数据,然后将其存储在数据库中 . 存储该数据后,我们希望对其进行一些分析并提供一个API,通过该API我们可以访问该数据以便以某种方式进行可视化 . 我们的最终目标是构建一个Android应用程序,以用户友好的格式显示CSV中的一些原...
  • 380 votes
     answers
     views

    Elasticsearch查询返回所有记录

    我在Elasticsearch中有一个小型数据库,出于测试目的,我希望将所有记录拉回来 . 我试图使用表单的URL ... http://localhost:9200/foo/_search?pretty=true&q={'matchAll':{''}} 有人可以给我你用来完成这个的URL吗?
  • 1 votes
     answers
     views

    在Flink流中使用静态DataSet丰富DataStream

    我正在编写一个Flink流程序,我需要使用一些静态数据集(信息库,IB)来丰富用户事件的DataStream . 例如假设我们有一个静态的买家数据集,我们有一个传入的事件点击流,对于每个我们想要添加一个布尔标志的事件,表明该事件的实施者是否是买家 . 实现此目标的理想方法是按用户ID对传入流进行分区,让用户ID再次对DataSet中的买方设置可用,然后在流中查找此DataSet中的每个事件 . 由...
  • 1 votes
     answers
     views

    如何使用Flume将数据实时写入HDFS?

    我正在使用Flume将传感器数据存储在HDFS中 . 一旦通过MQTT接收数据 . 订阅者将数据以JSON格式发布到Flume HTTP侦听器 . 它目前工作正常,但问题是水槽不写入HDFS文件,直到我停止它(或文件的大小达到128MB) . 我正在使用Hive在读取时应用模式 . 不幸的是,生成的hive表只包含1个条目 . 这是正常的,因为Flume没有将新的数据写入文件(由Hive加载) ....
  • 0 votes
     answers
     views

    在vespa中的同一容器上部署多个应用程序包

    我从git clone https://github.com/vespa-engine/sample-apps.git下载了样本vespa应用程序 . 我创建了像 basic-search 这样的应用程序,我将其命名为 location . 现在我想使用以下步骤在同一容器上部署两个应用程序: 部署 basic-search 应用程序: sudo docker run --detach --nam...
  • 3 votes
     answers
     views

    由于内存不足,Spark Join失败

    我的群集:9个奴隶,每个100GB内存和320GB硬盘 . 每个主机有16个核心 . 我在每个主机上启动了15个spark Actuator ,因此每个 Actuator 的可用内存为6GB . 我的appliation: val rdd1 = sc.textFile("a big file in S3. about 200GB" with 14M rows) val rdd2...
  • 0 votes
     answers
     views

    如何从Java客户端向多个HBASE表写入数据?

    我有一个java进程尝试将数据写入两个MaprDB-Json表(MaprDB是Hbase的MAPR版本),如下面的代码所示我有两个json对象想要将每个发布到不同的Mapr-DB Json表中 . 您能否建议如何在同一个Java客户端应用程序中初始化两个maprDB-Json / Hbase连接?我的代码如下 . Json1 = {“姓名”:“斯里兰卡”,“地址”:“纽约”} Json 2 = {...
  • 1 votes
     answers
     views

    HIVE因不工作而逃脱'\\'

    我在S3中有一个数据集 123, "some random, text", "", "", 236 我在这个数据集上构建了一个外部表: CREATE EXTERNAL TABLE db1.myData( field1 bigint, field2 string, field3 string, fiel...
  • 2 votes
     answers
     views

    在matlab中存储和处理大数据

    我想做马尔可夫链蒙特卡罗模拟 . 因此,我需要存储生成的状态 . 问题是我想运行我的程序一段时间并生成很多状态,但MATLAB向我显示'OUT OF MEMORY'错误 . 因为我不需要一直知道我的状态的完整历史(我只需要前面的状态来生成下一个状态)我认为我可以在每10000次迭代步骤之后存储我生成的状态并且只保留最后一个 . 然后在最后我想做一些计算,例如像均值,方差和绘制生成数据的直方图,并最...
  • 0 votes
     answers
     views

    启动Zookeeper和Kafka Servers文件是意外的

    我是 Kafka 的初学者 1 / I下载了Kafka的1.0.0版本 2 /我更改了bith server.properties和zookeeper.properties中的数据目录位置属性 \ config \ server.properties \ config \ zookeeper.properties 3 /当我尝试启动Zookeeper和Kafka服务器时出错 " File...
  • 0 votes
     answers
     views

    为什么我无法在此Hadoop 1.2.1安装中启动NameNode?

    我是Apache Hadoop的绝对新手,我正在关注Udemy的视频课程 . 该课程基于 Hadoop 1.2.1 ,这是一个太旧的版本?最好是根据更新版本的另一门课程开始我的学习,还是可以的? 所以我在 Ubuntu 12.04 系统上安装了 Hadoop 1.2.1 ,我在 pseudo distribution mode 中配置了它 . 根据教程我使用以下配置文件中的以下设置: 1) con...
  • 7 votes
     answers
     views

    Apache Spark ALS建议方法

    尝试使用Spark MLLib的ALS构建推荐系统 . 目前,我们正在尝试每天为所有用户预建建议 . 我们使用简单的隐式反馈和ALS . 问题是,我们有20M用户和30M产品,并且要调用主要的predict()方法,我们需要为用户和产品进行笛卡尔连接,这太大了,并且可能需要几天才能生成连接 . 有没有办法避免笛卡尔联合使流程更快? 目前我们有8个带64Gb RAM的节点,我认为它应该足够用于数据 ...
  • 0 votes
     answers
     views

    加入对大型数据集的操作

    如何在具有100k行的两个数据帧中应用内部联接操作? . 我有8 GB的计算机RAM并使用Dask但仍然我的计算机被挂起 . 什么是正确的解决方案? import pandas as pd import numpy as np import dask.dataframe as dd import time pool=...
  • 1 votes
     answers
     views

    千兆字节文件的文本编辑器[重复]

    可能重复:文本编辑器打开大(巨大,巨大,大)文本文件 我看到text editor to open big text files但该问题涉及兆字节大小的文件 . 我使用7GB的csv文件,发现甚至vim和gedit需要很长时间才能打开 . 您使用什么文本编辑器来处理千兆字节大小的文件? 感谢我能得到的任何建议 .
  • 4 votes
     answers
     views

    HDFS作为cloudera quickstart docker中的音量

    我对hadoop和docker都很新 . 我一直在努力扩展cloudera / quickstart docker image docker文件,并希望安装目录表单主机并将其映射到hdfs位置,以便提高性能并且数据在本地持久存在 . 当我用 -v /localdir:/someDir 装载音量时一切正常,但这不是我的目标 . 但当我做 -v /localdir:/var/lib/hadoop-hd...
  • 2 votes
     answers
     views

    启动spark上下文时出错 - 没有注册输出操作,因此无需执行任何操作

    我试图打开一个火花流并听一个Kafka主题 - 并做一些基本的逻辑 . 我按照教程进行了简单的单词计数 . 执行以下代码时,我不断收到相同的错误 16/03/29 11:21:40 ERROR StreamingContext: Error starting the context, marking it as stopped java.lang.IllegalArgumentException:...
  • 0 votes
     answers
     views

    Sklearn的模型在Python中使用很少的数据需要花费太多时间

    我一直在使用sklearn的模型(SVM,Logistic回归,MLP,......)直到昨天我没有任何问题,但我不知道为什么,目前当我尝试适合模型时,这需要夸大其词多少时间 . 例如,对于具有6个特征的551个样本,尝试使用多项式内核拟合支持向量机并改变参数: C = 1.00度= 1.00 Coef = 0.000 Gamma = 0.25 15.124秒 . C = 1.00度= 1...
  • 0 votes
     answers
     views

    SAP HANA Vora Tools的SQL编辑器无法与HANA连接

    我尝试从SAP HANA Vora Tools的SQL编辑器中显示SAP HANA表,如下所示: show tables using com.sap.spark.hana options ( host "192.168.88.200", instance "00", port "30215", user "SYSTEM&qu...
  • 1 votes
     answers
     views

    Sqoop语法错误,意外的标识符

    我正在尝试使用sqoop将MySQL表加载到hbase . 我正在使用以下命令,但它显示意外的tIdentifier错误 . 请帮忙 . sqoop import --connect jdbc:mysql:// localhost / manideep --username root --password cloudera --table sample --hbase-table H_LOAN ...
  • 0 votes
     answers
     views

    弹性搜索索引映射更新

    我使用的是ES-2.4.0索引json:{ "_id": 1, "name": "Longsword", "description": "The Longsword can be wielded in one or two hands", "category": "Sh...
  • 0 votes
     answers
     views

    如何在pyspark数据帧中返回Null值的行?

    我试图从pyspark数据帧获取具有空值的行 . 在pandas中,我可以在数据帧上使用isnull()来实现这一点 df = df[df.isnull().any(axis=1)] 但是在PySpark的情况下,当我在命令下运行它时会显示Attributeerror: df.filter(df.isNull()) AttributeError:'DataFrame'对象没有属性'isNull...
  • 2 votes
     answers
     views

    Cassandra one或节点无法访问

    当我在下面的节点上运行命令时,我在一个DC中有4个或5个节点: bin / nodetool describecluster 群集信息:名称:xxx Snitch:org.apache.cassandra.locator.DynamicEndpointSnitch分区程序:org.apache.cassandra.dht.Murmur3Partitioner架构版本:b339c963-f74f-3...
  • 0 votes
     answers
     views

    3节点Cassandra集群中的负载和模式不一致

    我有一个3节点单数据中心Cassandra集群,由节点 A (10.0.0.1), B (10.0.0.2)和 C (10.0.0.3)组成 . 重要配置包括: GossipingPropertyFileSnitch(dc = dc1,rack = rack1) 种子节点: A (参见章节:已采取的步骤) NetworkTopologyStrategy 复制因子:3 问题: 运...
  • 1 votes
     answers
     views

    dplyr left_join与类似的字符串列相似但不完全相同(pmatch或str_detect)

    我最近发布了:dplyr, lapply, or Map to identify information from one data.frame and place it into another 我的主要问题涉及使用dplyr / lapply将两个data.frames组合成一列字符串 . 字符串是名字,但在两个data.frames中并不总是完全相同 . 恩 . 我希望df1中的'Jon'与...
  • 3 votes
     answers
     views

    Cassandra如何存储物化视图的数据

    我想知道物化视图的磁盘空间成本是多少? 如果我有一个包含10个字段的基表,则主键为f1,f2,f3 . 我从中创建了一个物化视图,其中包括所有10个字段,主键是f4,f1,f2,f3 . 物化视图需要多少磁盘空间? 几乎与基表相同的磁盘? 或者物化视图仅将磁盘用作其主键f4,f1,f2,f3 . 我认为这是第一种情况 . - 因为物化视图是作为普通的Cassandra表实现的 .
  • 0 votes
     answers
     views

    BigData / Hadoop项目的典型流程?

    我最近开始学习像SQOOP,Hive,Pig这样的BigData技术,并发现有多种替代方法(如SQOOP,HiveQL等)可用于解决给定问题 . 我对技术/工具的选择感到有点困惑 . 如果您在大多数情况下采用任何典型的Microsoft BI项目流程 SSIS(处理原始数据) - > SSAS(创建OLAP DB) - > SSRS(生成报告) . 类似于此,BigData / Had...
  • 41 votes
     answers
     views

    如何开始大数据分析[关闭]

    我一直是R的长期用户,最近开始使用Python . 使用传统的RDBMS系统进行数据仓库,使用R / Python进行数字运算,我觉得现在需要掌握大数据分析 . 我想知道如何开始大数据处理 . - 如何从Map / Reduce和Hadoop的使用开始简单 如何利用我在R和Python方面的技能开始进行大数据分析 . 以Python Disco项目为例 . 使用RHIPE包并查找玩具数据...
  • 2 votes
     answers
     views

    清理/操作大数据的解决方案(目前使用Stata)

    我目前正在使用10%的非常大的数据集样本(10个变量,超过300米行),当以完整数据集的.dta格式存储时,数据量超过200 GB . 在具有~50G RAM和多个内核的UNIX服务器上使用Stata-MP时,Stata能够在合理的时间内为10%样本处理egen,崩溃,合并等操作 . 但是,现在我想继续分析整个样本 . 即使我使用具有足够RAM来容纳数据集的机器,简单地生成变量也需要很长时间 . ...

热门问题