我想从Google表格中的亚马逊产品页面获取产品 Headers .
我已经搜索并尝试了不同的方法并想出了这个
= ImportXML(“https://www.amazon.com/dp/B01MSR8J29 "," // * [@ id = 'productTitle']”)
我想获得冠军:陆军旗帜衬衫:成为兄弟军队的TShirt
但我得到错误,导入的内容是空的 .
我想从Google表格中的亚马逊产品页面获取产品 Headers .
我已经搜索并尝试了不同的方法并想出了这个
= ImportXML(“https://www.amazon.com/dp/B01MSR8J29 "," // * [@ id = 'productTitle']”)
我想获得冠军:陆军旗帜衬衫:成为兄弟军队的TShirt
但我得到错误,导入的内容是空的 .
2 回答
你可以只使用
//title
xpath和一个简单的regexreplace来删除标准Amazon.com:
部分:如果你还想删除其余的面包屑,例如
: Clothing
只需将其修改为使用OR
符号,其中正则表达式是|
,如下所示:大部分HTML不是't valid XML, in particular Amazon'页面都不是有效的XML . 所以,
importXML
失败了 .您可以通过custom function使用Apps脚本,如下所示(删除"amazon"之前的空格,这是为了防止SO重写URL):
如果在脚本编辑器中输入自定义功能,则返回“Army Flag Shirt:成为Brothers Army TShirt”:
这里,第一行获取页面的来源;然后正则表达式提取项目 Headers .
您会找到类似的帖子here,包括此活动是否符合亚马逊的服务条款的问题 .