我试图从以下url http://live.reuters.com/Event/rss.aspx?id=70335的RSS提要中提取数据 . 基本上我想使用这篇文章中概述的代码提取每篇文章的 Headers 和日期:Parse RSS feed using XML packagin R
代码本身就是
library(XML)
library(RCurl)
###Extracting Data from Reuters
xml.url <- "http://live.reuters.com/Event/rss.aspx?id=70335"
script <- getURL(xml.url)
doc <- xmlParse(script)
titles <- xpathSApply(doc,'//item/title',xmlValue)
pubdates <- xpathSApply(doc,'//item/pubDate',xmlValue)
reuters<-cbind(titles, pubdates)
reuters_data<-data.frame(reuters)
#Exporting as a csv
write.csv(reuters_data, file = "reuters_post.csv")
代码几乎完全符合我的要求 . 但是,我遇到的问题是它只提取前45个帖子 . 我知道有近1000个帖子 . 这与rss.aspx格式有关吗?是否有一个解决方法,以便我可以获得RSS提要中的所有帖子,而不仅仅是前45个?任何帮助都将非常感谢,因为我是数据抓取的新手 .
谢谢,托马斯
1 回答
它解决了RSS / Atom提要的问题,它不允许检索历史信息,请参阅How Do I Fetch All Old Items on an RSS Feed?
但是,我们可以使用非官方的Google Reader API GoogleReaderAPI Wiki .