首页 文章
  • 0 votes
     answers
     views

    加入对大型数据集的操作

    如何在具有100k行的两个数据帧中应用内部联接操作? . 我有8 GB的计算机RAM并使用Dask但仍然我的计算机被挂起 . 什么是正确的解决方案? import pandas as pd import numpy as np import dask.dataframe as dd import time pool=...
  • 1 votes
     answers
     views

    dplyr left_join与类似的字符串列相似但不完全相同(pmatch或str_detect)

    我最近发布了:dplyr, lapply, or Map to identify information from one data.frame and place it into another 我的主要问题涉及使用dplyr / lapply将两个data.frames组合成一列字符串 . 字符串是名字,但在两个data.frames中并不总是完全相同 . 恩 . 我希望df1中的'Jon'与...
  • 3 votes
     answers
     views

    Cassandra如何存储物化视图的数据

    我想知道物化视图的磁盘空间成本是多少? 如果我有一个包含10个字段的基表,则主键为f1,f2,f3 . 我从中创建了一个物化视图,其中包括所有10个字段,主键是f4,f1,f2,f3 . 物化视图需要多少磁盘空间? 几乎与基表相同的磁盘? 或者物化视图仅将磁盘用作其主键f4,f1,f2,f3 . 我认为这是第一种情况 . - 因为物化视图是作为普通的Cassandra表实现的 .
  • 1 votes
     answers
     views

    千兆字节文件的文本编辑器[重复]

    可能重复:文本编辑器打开大(巨大,巨大,大)文本文件 我看到text editor to open big text files但该问题涉及兆字节大小的文件 . 我使用7GB的csv文件,发现甚至vim和gedit需要很长时间才能打开 . 您使用什么文本编辑器来处理千兆字节大小的文件? 感谢我能得到的任何建议 .
  • 4 votes
     answers
     views

    HDFS作为cloudera quickstart docker中的音量

    我对hadoop和docker都很新 . 我一直在努力扩展cloudera / quickstart docker image docker文件,并希望安装目录表单主机并将其映射到hdfs位置,以便提高性能并且数据在本地持久存在 . 当我用 -v /localdir:/someDir 装载音量时一切正常,但这不是我的目标 . 但当我做 -v /localdir:/var/lib/hadoop-hd...
  • 0 votes
     answers
     views

    将文件从HDFS复制到本地目录以获取节点上的多个任务?

    所以,基本上,我有一个只读文件(几个GB大,所以广播是没有选项),必须复制到节点上的本地文件夹,因为每个任务内部运行一个程序(通过使用python中的os.system或! scala中的运算符)从本地文件读取(无法从HDFS读取) . 但问题是,一个节点上将运行多个任务 . 如果该节点上尚未存在该文件,则应将其从HDFS复制到本地目录 . 但是我怎么能有一个任务从HDFS获取文件,而其他任务等待...
  • 0 votes
     answers
     views

    BigData / Hadoop项目的典型流程?

    我最近开始学习像SQOOP,Hive,Pig这样的BigData技术,并发现有多种替代方法(如SQOOP,HiveQL等)可用于解决给定问题 . 我对技术/工具的选择感到有点困惑 . 如果您在大多数情况下采用任何典型的Microsoft BI项目流程 SSIS(处理原始数据) - > SSAS(创建OLAP DB) - > SSRS(生成报告) . 类似于此,BigData / Had...
  • 41 votes
     answers
     views

    如何开始大数据分析[关闭]

    我一直是R的长期用户,最近开始使用Python . 使用传统的RDBMS系统进行数据仓库,使用R / Python进行数字运算,我觉得现在需要掌握大数据分析 . 我想知道如何开始大数据处理 . - 如何从Map / Reduce和Hadoop的使用开始简单 如何利用我在R和Python方面的技能开始进行大数据分析 . 以Python Disco项目为例 . 使用RHIPE包并查找玩具数据...
  • 2 votes
     answers
     views

    清理/操作大数据的解决方案(目前使用Stata)

    我目前正在使用10%的非常大的数据集样本(10个变量,超过300米行),当以完整数据集的.dta格式存储时,数据量超过200 GB . 在具有~50G RAM和多个内核的UNIX服务器上使用Stata-MP时,Stata能够在合理的时间内为10%样本处理egen,崩溃,合并等操作 . 但是,现在我想继续分析整个样本 . 即使我使用具有足够RAM来容纳数据集的机器,简单地生成变量也需要很长时间 . ...
  • 0 votes
     answers
     views

    在大数据中查找缺失值

    我有许多需要分析的表格 . 目前,数据正在被清理,因为它有很多缺失值 . 在某些情况下,只有一个值丢失,而在其他大约200行 . Question 如何找到应该在行中插入的值? My Approach 图的简单线性外推 . 查找值的平均值并将其插入所有缺失值 . 如果缺少200个值,则取最后100个值和接下来100个值的平均值 . 虽然我可以想到上述所有方法,但我不确定它的效率或方...
  • 0 votes
     answers
     views

    使用笔记本jupter处理大数据

    我的计算机硬盘中有一个大约10 GB的数据集,我必须进行欺诈分析,开发用于检测欺诈活动的模型 . 您可以成像,数据非常不 balancer . 我使用8GB内存的macBookPro . 我在python中使用jupter notebook编辑器 . 我的问题是1,数据集对于计算机而言太大了,因为计算机太慢而有时堆栈而我必须启动它 . 2,作为我对该领域和编辑的新手,是否有任何更简单的方法,以...
  • 2 votes
     answers
     views

    nosql中的Bigdata分析

    我正在尝试将包含数百万次点击(几年点击历史记录)的postgres数据库迁移到性能更高的系统 . 我们当前在postgres上运行的分析查询将永远完成,并且会降低整个数据库的性能 . 我一直在调查可能的解决方案,我决定仔细研究两个选项: HBase with Hadoop(mapreduce) Cassandra与Spark 我之前在使用NoSQL,但从未将它用于分析目的 . 起初,我...
  • 0 votes
     answers
     views

    如何存储大数据?

    假设我们有一个聚合了20 000个用户的Web服务,并且每个用户都链接到包含任何内容的300个唯一用户数据实体 . 这是关于如何设计能够存储上述数据的示例关系数据库的天真方法: 为用户创建表 . 为用户数据创建表 . 因此,用户数据表包含6 000 000行 . 查询具有数百万行的表格很慢,特别是因为我们必须处理分层数据并执行一些与 SELECT * FROM userdata 不同的...
  • 2 votes
     answers
     views

    数据分析方法[关闭]

    我正在寻找一个报告工具 . 数据驻留在~6GB的postgresql数据库中 . 该应用程序是一个在线商店/目录应用程序,具有项目和订单 . 利益相关者正在请求一项功能,允许他们搜索项目并计算过去两年中所有这些订单的计数 . 某些行包含数量和度量单位,这将需要每行的数量和UoM的乘积 . 未来还可能需要其他报告功能 . 我没有深入研究编程的数据分析方面 . 我喜欢Clojure,所以我很高兴找到一...
  • -1 votes
     answers
     views

    rdbms和大数据进入数据集市?

    我的另一端有一个RDBMS(SQL Server / Oracle)和一个Hadoop数据库 . 主键“客户”在两个数据存储中都很常见 . 几个问题: 是否可以拥有一个可以从RDBMS和Big数据中提取数据并生成报告的数据集市?什么是工具示例? datamart本身是否需要是RDBMS存储,还是内存中的某些内容? 在这种环境中运行数据分析的最佳方式是什么? 数据可视化怎么样? ...
  • 0 votes
     answers
     views

    关于迁移到大数据的疑虑

    我对hadoop有些怀疑 在cloudera发布的一个视频中,一位指导员告诉我,在hadoop中有HDFS . 每个文件都将存储为一组卡盘或块 . 每个块将在不同的机器中复制三次,以最大限度地减少故障点 . 每个映射器将处理单个hdfs块 . 从这些逻辑中我发现,如果我有一个服务器有大约100 peta字节的日志,这些日志不像hdfs那样存储在传统的文件系统中 . 主要疑问1.现在,如果我想使...
  • -2 votes
     answers
     views

    Apache项目和大数据世界

    我是一名经验丰富的LAMP开发人员,在php,nginx,haproxy,redis,mongodb和aws服务方面拥有不错的经验 . 每当大数据需求出现在桌面上时,我都会使用aws web服务,并且最近开始阅读有关希望自己使用该技术而不是使用托管服务进行大数据处理,流处理等的大数据 . 然而,与学习LAMP不同,并且由于用例的性质,很难为新手找到好的资源 . 特别适用于没有使用Java生态系统的...
  • 1 votes
     answers
     views

    最佳实践:如何通过更改“schema”/“columns”来处理数据记录

    这是一个最佳实践问题 . 我们的设置是一个hadoop集群,在hdfs中存储(日志)数据 . 我们以csv格式获取数据,每天一个文件 . 只要文件的“模式”(尤其是列数)不会更改,就可以在hadoop中对这些文件运行MR作业 . 但是,我们面临的问题是,我们要分析的日志记录最终会发生变化,因为可能会添加或删除列 . 我想知道你们中的一些人是否愿意分享你们在这些情况下的最佳实践 . 我们现在想到的最...
  • -3 votes
     answers
     views

    这种情况是一个大数据项目吗?

    我参与了一个有两个阶段的项目,我想知道这是一个大数据项目(我是这个领域的新手) 在第一阶段我有这种情况: 我必须收集大量的数据 我需要存储它们 我需要构建一个向用户显示数据的Web应用程序 在第二阶段,我需要分析存储的数据并构建报告并对它们进行一些分析 关于数据量的一些例子;在一天内,我可能需要收集和存储约86.400.000记录 现在我正在考虑这种架构: 为数据提供一些异步技...
  • 1 votes
     answers
     views

    大数据去哪里以及如何存储?

    我正在努力掌握大数据,主要是如何管理大数据 . 我熟悉传统的数据管理和数据生命周期;例如 . : 收集结构化数据(例如网络表格) 数据存储在数据库服务器上的RDBMS中的表中 数据已清理,然后ETL进入数据仓库 使用OLAP多维数据集和各种其他BI工具/技术分析数据 然而,在大数据的情况下,我对第2点和第3点的等效版本感到困惑,主要是因为我不确定每个大数据“解决方案”是否总是涉...
  • 0 votes
     answers
     views

    使用HBase时,Spark Streaming在群集模式下失败

    我有一个使用HBase连接的Spark Streaming应用程序(1.6) . 如果我使用 --deploy-mode client 提交应用程序,一切正常,但如果我使用 cluster 模式,应用程序将失败并返回以下错误: WARN ipc.RpcClientImpl:连接到服务器时遇到异常:javax.security.sasl.SaslException:GSS启动失败[由GSS异常引起...
  • 1 votes
     answers
     views

    MATLAB中求解非线性方程组的最快方法

    假设我们有三个方程式: eq1 = x1 + (x1 - x2) * t - X == 0; eq2 = z1 + (z1 - z2) * t - Z == 0; eq3 = ((X-x1)/a)^2 + ((Z-z1)/b)^2 - 1 == 0; 六个已知变量是: a = 42 ; b = 12 ; x1 = 316190; z1 = 2...
  • 0 votes
     answers
     views

    节点管理器在几个momentes之后停止运行

    得到以下错误 ERROR org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl:意外的错误起始NodeStatusUpdater org.apache.hadoop.yarn.exceptions.YarnRuntimeException:收到关机信号从ResourceManager中,节点管理器的注册失败,从Resourc...
  • 5 votes
     answers
     views

    Hadoop Nodemanager和Resourcemanager无法启动

    我试图在Ubuntu 13.10 64位上设置最新的Hadoop 2.2单节点集群 . 操作系统是一个全新的安装,我尝试使用java-6 64位和java-7 64位 . 在执行了this之后的步骤以及失败之后,从this链接,我无法使用以下命令启动 nodemanager 和 resourcemanager : sbin/yarn-daemon.sh start nodemanager sudo...
  • 0 votes
     answers
     views

    C#Map使用“{”减少失败响应状态代码不表示成功:403(禁止) . “}有时401:需要凭据

    在 mscorlib.dll 中发生 System.AggregateException 类型的未处理异常 内部异常: {"Response status code does not indicate success: 403 (Forbidden)."} 有时会得到: {"Response status code does not indicate success:...
  • 0 votes
     answers
     views

    使用CqlStorageHandler进行Hive和Cassandra集成

    我引用了这个git项目,用于使用hive table集成cassandra数据 . 我将相应的cassandra jar复制到hive lib文件夹中 . 但是在对cassandra运行查询时,我收到以下错误 . 请帮我解决 . https://github.com/milliondreams/hive/tree/cas-support-cql/cassandra-handler hive>...
  • 0 votes
     answers
     views

    无法使用mysql metastore启动配置单元

    当我使用带有德比Metastore的蜂巢时,它工作正常 . 我想使用mysql metastore,所以我按照这个链接{https://dzone.com/articles/how-configure-mysql-metastore} . 现在当我通过在终端上键入“hive”命令启动配置单元时,我收到很多错误,即 {线程“main”中的异常java.lang.RuntimeException:j...
  • 48 votes
     answers
     views

    Apache Spark vs Akka

    你能否告诉我Apache Spark和AKKA之间的区别,我知道这两个框架都意味着编程分布式和并行计算,但我没有看到它们之间的链接或区别 . 此外,我想得到适合他们每个人的用例 .
  • 12 votes
     answers
     views

    Apache Drill vs Spark

    我对Apache Spark和Spark-SQL有一些了解 . 最近我已经阅读Fast Hadoop Analytics (Cloudera Impala vs Spark/Shark vs Apache Drill)但这个话题对我来说仍然不清楚 .
  • 0 votes
     answers
     views

    如何在Redis中使用多个主从架构

    我使用Redis作为内存数据存储 . 在Redis中可以借助Master-Slave架构在多个节点上复制相同的数据 . 我使用redisson作为这个架构的java客户端,它工作正常 . 但是,如何配置多个主从配置,以便在两个节点上进行密钥分片,同一客户端能够获取数据存在于哪个节点的数据 .

热门问题