首页 文章

[关闭]运行统计分析的数据集

提问于
浏览
38

我可以在互联网上运行哪些数据集进行统计分析?

17 回答

  • 0

    datasets 包包含在基础R中 . 运行此命令可查看完整列表:

    library(help="datasets")
    

    除此之外,还有许多可以提取数据的软件包,以及许多其他包含重要数据的软件包 . 其中,您可能想要查看HistData包,其中"provides a collection of small data sets that are interesting and important in the history of statistics and data visualization" .

    对于财务数据,the quantmod package提供了一个通用界面,用于从谷歌,雅虎,FRED和其他人那里提取时间序列数据:

    library(quantmod)
    getSymbols("YHOO",src="google") # from google finance 
    getSymbols("GOOG",src="yahoo") # from yahoo finance 
    getSymbols("DEXUSJP",src="FRED") # FX rates from FRED
    

    FRED(the Federal Reserve of St. Louis)确实是自由经济数据的地雷 .

    许多R软件包捆绑了特定于其目标的数据 . 因此,如果您对遗传学,多级模型等感兴趣,相关的包将经常具有该分析的规范示例 . 此外,书籍包通常附带重现所有示例所需的数据 .

    以下是相关包的一些示例:

    • alr3:包括伴随应用线性回归的数据(http://www.stat.umn.edu/alr

    • arm:包含来自Gelman的"Data Analysis Using Regression and Multilevel/Hierarchical Models"的一些数据(其余数据和代码在the book's website上)

    • BaM:包含来自"Bayesian Methods: A Social and Behavioral Sciences Approach"的数据

    • BayesDA:包括来自Gelman的数据"Bayesian Data Analysis"

    • cat:包括用于分析变量数据集的数据

    • cimis:从加利福尼亚州灌溉管理信息系统CIMIS检索数据

    • cshapes:包括GIS数据边界和数据

    • ecdat:计量经济学的数据集

    • ElemStatLearn:包含来自"The Elements of Statistical Learning, Data Mining, Inference, and Prediction"的数据

    • emdbook:来自"Ecological Models and Data"的数据

    • Fahrmeir:书中的数据"Multivariate Statistical Modelling Based on Generalized Linear Models"
      对于Rmetrics,

    • fEcoFin:"Economic and Financial Data Sets"

    • fds:功能数据集

    • fma:来自"Forecasting: methods and applications"的数据集

    • gamair:"Generalized Additive Models: An Introduction with R"的数据

    • geomapdata:地形和地质测绘数据

    • nutshell:包含"R in a Nutshell"书中的所有数据

    • nytR:通过纽约时报API提供对国会投票数据的访问

    • openintro:书中的数据

    • primer:包含"A Primer of Ecology with R"的数据

    • qtlbook:包含R / qtl书籍的数据

    • RGraphics:包含来自"R Graphics"书籍的数据

    • Read.isi:获取旧的世界生育率调查数据

  • 2

    这是一个包含书籍和论文的农业数据集的R包 . 示例分析包括:agridat

  • 4

    网上广泛的选择 . 例如,这是一个庞大的sports databases目录(所有数据都免费提供,至少这是我的经验) . 在该目录中是databaseBaseball.com,其中包含了自1915年以来曾经玩过职业棒球的每位球员的complete datasets .

    StatLib是另一个优秀的资源 - 非常方便 . 这个单独的web page列出了超过一百个数据库的4-5行摘要,所有数据库都可以通过单击每个数据集摘要开头的'Table'链接以平面文件形式提供 .

    R的基本分布预先打包了大量不同的数据集(在R 2.10中为122) . 要获取它们的列表(以及单行描述):

    data(package="datasets")
    

    同样,大多数软件包都带有几个数据集(有时甚至更多) . 你可以用同样的方式看到它们:

    data(package="latticeExtra")
    data(package="vcd")
    

    这些数据集是包装手册和给定包装的插图中提到的数据集,用于说明包装功能 .

    一些包含大量数据集的R包(同样易于扫描,因此您可以选择对您感兴趣的内容):AER,DAAG和vcd .

    我发现R的另一个令人印象深刻的是它的I / O.假设您想通过yahoo finance API获取一些非常具体的财务数据 . 让我们说从2001年到2009年每个月关闭标准普尔500指数的开盘价和收盘价,只需这样做:

    tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
        "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv"))
    

    在这一行代码中,R获取了tick数据,将其整形为数据帧并将其绑定到'tick_data' all . (这里有一个方便的cheat sheet w /用于构建URL的Yahoo Finance API符号,如上所述)

  • 1

    你考虑过Stack Overflow Data Dumps吗?

    您已经熟悉数据所代表的内容,即它所跟踪的业务逻辑

  • 3

    http://www.data.gov.uk/data

    最近由Tim Berners-Lee设立

    显然是基于英国的数据,但这应该不重要 . 涵盖从废弃汽车到学校缺勤到农产品价格指数的所有内容

  • 1

    寻找经济数据的良好开端始终是以下三个地址:

    可以在以下位置找到有关开发经济学家的数据集链接的精彩摘要:

    Edit:

    世界银行上周决定开放许多以前非免费的数据集,并在其修订后的主页上在线发布 . 新的互联网外观看起来也很不错 .

  • 5

    http://www.data.gov/可能有你可以使用的东西 .

    在他们的原始数据目录中,您可以设置数据标准并查找内容你在找http://www.data.gov/catalog/raw

  • 2

    The R Book's companion website中可以找到268 small text files"The R Book" 的工作示例) .

  • 45

    你可以看一下this post on FlowingData

  • 3

    另一个好网站是UN Data .

    经济和社会事务部(DESA)的联合国统计司(UNSD)为全球用户社区推出了一项新的基于互联网的数据服务 . 它通过单一入口点(http://data.un.org/)使联合国统计数据库易于用户访问 . 用户现在可以搜索和下载联合国系统的各种统计资源 .

  • 3

    Weka和其他数据分析软件包理解over 800 datasets in ARFF format的集合,收集在TunedIT.org Repository中 .

  • 3

    请参阅Hadley Wickham为Data Expo of the ASA Statistical Computing and Statistical Graphics部分设置的数据竞赛 . 比赛结束了,the data仍然存在 .

  • 5

    UC Irvine Machine Learning Repository目前有190个数据集 .

    UCI机器学习库是机器学习社区用于机器学习算法的实证分析的数据库,领域理论和数据生成器的集合 .

  • 1

    我在你的其他问题上看到你显然对数据可视化很感兴趣 . 然后看一下many eyes项目(表单IBM)和示例data sets .

  • 1

    与data.gov类似,但以欧洲为中心的是欧盟统计局

    http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database

    Wildebeests所述,也有一个中国统计部门

    http://www.stats.gov.cn/english/statisticaldata/monthlydata/index.htm

    然后有一些“社交数据服务”提供数据集的下载,如旋转,许多眼睛,时间,ckan,infochimps ..

  • 3

    粮农组织向数据库提供数据,其中包含按国家区分的各种与水有关的指标 .

    例如,海军海洋学门户网站提供了Fraction of the Moon Illuminated .

    博客"curving normality"有a list of interesting data sources .

  • 6

相关问题