我正在寻找关于使用R来分析大数据的一些建议 - 即,遇到TB的数据 .

通常我认为最好预处理数据并仅加载用户执行分析所需的信息 . 但是,如果需要聚合来自大型数据集(例如,200 GB)的信息,我认为首先,将数据存储在列数据库而不是面向行的DBMS中会更有效 . 其次,对于CPU密集型数据分析,使用RHadoop / RHIPE获得一些分布式计算功能可能是值得的 . 此外,如果有多个企业用户,那么实施这些的最佳方式是什么......(比如同时处理大型数据集的10位研究人员)

我在网上找到了一些资源,比如R索引,mmap包,可以在R中进行高效的计算,但是希望从那些在企业级实际工作并实现这些资源的人那里得到一些反馈 .

提前感谢您的建议,

问候 .