如何开始大数据分析[关闭]-Java 学习之路

我一直是R的长期用户，最近开始使用Python . 使用传统的RDBMS系统进行数据仓库，使用R / Python进行数字运算，我觉得现在需要掌握大数据分析 .

我想知道如何开始大数据处理 . - 如何从Map / Reduce和Hadoop的使用开始简单

如何利用我在R和Python方面的技能开始进行大数据分析 . 以Python Disco项目为例 .
使用RHIPE包并查找玩具数据集和问题区域 .
找到正确的信息，以便我决定是否需要从RDBMS类型数据库迁移到NoSQL

总而言之，我想知道如何从小规模开始，逐步 Build 我在大数据分析中的技能和专业知识 .

感谢您的建议和意见 . 我为此查询的通用性质道歉，但我希望获得有关此主题的更多观点 .

苛刻

2 回答

29

以Python Disco项目为例 .

好 . 玩那个 .

使用RHIPE包并查找玩具数据集和问题区域 .

精细 . 也玩这个 .

不要冒汗找到“大”数据集 . 即使是小数据集也存在非常有趣的问题 . 实际上，任何数据集都是起点 .

我曾经 Build 了一个小型星型模式来分析组织的6000万美元预算 . 源数据在电子表格中，基本上是不可理解的 . 所以我将它卸载到星型模式中并用Python编写了几个分析程序来创建相关数字的简化报告 .

找到正确的信息，以便我决定是否需要从RDBMS类型数据库迁移到NoSQL

这很简单 .

首先，获取一本关于数据仓库的书（Ralph Kimball的数据仓库工具包） .

其次，仔细研究“星际模式” - 特别是Kimball解释的所有变体和特殊情况（深入）

第三，实现以下内容：SQL用于更新和事务 .

在进行“分析”处理（大或小）时，几乎没有任何更新 . SQL（以及相关的规范化）不再重要 .

Kimball的观点（以及其他人的观点）是大多数数据仓库都不在SQL中，而是在简单的平面文件中 . 数据集市（用于临时，切片和骰子分析）可以位于关系数据库中，以允许使用SQL轻松，灵活地处理 .

所以“决定”是微不足道的 . 如果它是事务性的（“OLTP”），则它必须位于Relational或OO DB中 . 如果是分析（“OLAP”），它除了切片和骰子分析外不需要SQL;即使这样，DB也会根据需要从官方文件中加载 .

回复于 2024-04-25T20:32:57+08:00
1

您可以考虑的一件事是DMelt（http://jwork.org/dmelt/）数据分析程序 . 一个值得注意的特性是它有数百个使用Python语言的例子和一些书籍 . 我使用它的原因是它在我的Windows 10上运行（因为它使用Java VM），而且它具有非常好的2D / 3D图形，可以导出为矢量图形格式 .

回复于 2024-04-25T20:32:57+08:00

如何开始大数据分析[关闭]

2 回答

相关问题