除此之外,还有许多可以提取数据的软件包,以及许多其他包含重要数据的软件包 . 其中,您可能想要查看HistData包,其中"provides a collection of small data sets that are interesting and important in the history of statistics and data visualization" .
library(quantmod)
getSymbols("YHOO",src="google") # from google finance
getSymbols("GOOG",src="yahoo") # from yahoo finance
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED
17 回答
datasets
包包含在基础R中 . 运行此命令可查看完整列表:除此之外,还有许多可以提取数据的软件包,以及许多其他包含重要数据的软件包 . 其中,您可能想要查看HistData包,其中"provides a collection of small data sets that are interesting and important in the history of statistics and data visualization" .
对于财务数据,the quantmod package提供了一个通用界面,用于从谷歌,雅虎,FRED和其他人那里提取时间序列数据:
FRED(the Federal Reserve of St. Louis)确实是自由经济数据的地雷 .
许多R软件包捆绑了特定于其目标的数据 . 因此,如果您对遗传学,多级模型等感兴趣,相关的包将经常具有该分析的规范示例 . 此外,书籍包通常附带重现所有示例所需的数据 .
以下是相关包的一些示例:
alr3:包括伴随应用线性回归的数据(http://www.stat.umn.edu/alr)
arm:包含来自Gelman的"Data Analysis Using Regression and Multilevel/Hierarchical Models"的一些数据(其余数据和代码在the book's website上)
BaM:包含来自"Bayesian Methods: A Social and Behavioral Sciences Approach"的数据
BayesDA:包括来自Gelman的数据"Bayesian Data Analysis"
cat:包括用于分析变量数据集的数据
cimis:从加利福尼亚州灌溉管理信息系统CIMIS检索数据
cshapes:包括GIS数据边界和数据
ecdat:计量经济学的数据集
ElemStatLearn:包含来自"The Elements of Statistical Learning, Data Mining, Inference, and Prediction"的数据
emdbook:来自"Ecological Models and Data"的数据
Fahrmeir:书中的数据"Multivariate Statistical Modelling Based on Generalized Linear Models"
对于Rmetrics,
fEcoFin:"Economic and Financial Data Sets"
fds:功能数据集
fma:来自"Forecasting: methods and applications"的数据集
gamair:"Generalized Additive Models: An Introduction with R"的数据
geomapdata:地形和地质测绘数据
nutshell:包含"R in a Nutshell"书中的所有数据
nytR:通过纽约时报API提供对国会投票数据的访问
openintro:书中的数据
primer:包含"A Primer of Ecology with R"的数据
qtlbook:包含R / qtl书籍的数据
RGraphics:包含来自"R Graphics"书籍的数据
Read.isi:获取旧的世界生育率调查数据
这是一个包含书籍和论文的农业数据集的R包 . 示例分析包括:agridat
网上广泛的选择 . 例如,这是一个庞大的sports databases目录(所有数据都免费提供,至少这是我的经验) . 在该目录中是databaseBaseball.com,其中包含了自1915年以来曾经玩过职业棒球的每位球员的complete datasets .
StatLib是另一个优秀的资源 - 非常方便 . 这个单独的web page列出了超过一百个数据库的4-5行摘要,所有数据库都可以通过单击每个数据集摘要开头的'Table'链接以平面文件形式提供 .
R的基本分布预先打包了大量不同的数据集(在R 2.10中为122) . 要获取它们的列表(以及单行描述):
同样,大多数软件包都带有几个数据集(有时甚至更多) . 你可以用同样的方式看到它们:
这些数据集是包装手册和给定包装的插图中提到的数据集,用于说明包装功能 .
一些包含大量数据集的R包(同样易于扫描,因此您可以选择对您感兴趣的内容):AER,DAAG和vcd .
我发现R的另一个令人印象深刻的是它的I / O.假设您想通过yahoo finance API获取一些非常具体的财务数据 . 让我们说从2001年到2009年每个月关闭标准普尔500指数的开盘价和收盘价,只需这样做:
在这一行代码中,R获取了tick数据,将其整形为数据帧并将其绑定到'tick_data' all . (这里有一个方便的cheat sheet w /用于构建URL的Yahoo Finance API符号,如上所述)
你考虑过Stack Overflow Data Dumps吗?
您已经熟悉数据所代表的内容,即它所跟踪的业务逻辑
http://www.data.gov.uk/data
最近由Tim Berners-Lee设立
显然是基于英国的数据,但这应该不重要 . 涵盖从废弃汽车到学校缺勤到农产品价格指数的所有内容
寻找经济数据的良好开端始终是以下三个地址:
World Bank - Research Datasets
IMF - Data and Statistics
National Bureau of Economic Research
可以在以下位置找到有关开发经济学家的数据集链接的精彩摘要:
Edit:
世界银行上周决定开放许多以前非免费的数据集,并在其修订后的主页上在线发布 . 新的互联网外观看起来也很不错 .
http://www.data.gov/可能有你可以使用的东西 .
在他们的原始数据目录中,您可以设置数据标准并查找内容你在找http://www.data.gov/catalog/raw
在The R Book's companion website中可以找到268 small text files(
"The R Book"
的工作示例) .你可以看一下this post on FlowingData
另一个好网站是UN Data .
Weka和其他数据分析软件包理解over 800 datasets in ARFF format的集合,收集在TunedIT.org Repository中 .
请参阅Hadley Wickham为Data Expo of the ASA Statistical Computing and Statistical Graphics部分设置的数据竞赛 . 比赛结束了,the data仍然存在 .
UC Irvine Machine Learning Repository目前有190个数据集 .
我在你的其他问题上看到你显然对数据可视化很感兴趣 . 然后看一下many eyes项目(表单IBM)和示例data sets .
与data.gov类似,但以欧洲为中心的是欧盟统计局
http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database
如Wildebeests所述,也有一个中国统计部门
http://www.stats.gov.cn/english/statisticaldata/monthlydata/index.htm
然后有一些“社交数据服务”提供数据集的下载,如旋转,许多眼睛,时间,ckan,infochimps ..
粮农组织向数据库提供数据,其中包含按国家区分的各种与水有关的指标 .
例如,海军海洋学门户网站提供了Fraction of the Moon Illuminated .
博客"curving normality"有a list of interesting data sources .
Another collection of datasets .