这是HTML代码:
<span class="milestone">Announcement:</span>
" 2 April 2000 "
<br>
<span class="milestone">Ground Breaking:</span>
" 23 February 2002
<br>
etc.
在网页上,我可以看到:
Announcement: 2000年4月2日
Ground Breaking: 2002年2月23日
但我无法弄清楚如何使用Python 's BeautifulSoup. I can see the date information when using Chrome' s "inspect element,"获取日期,但我无法弄清楚抓取它所需的HTML元素 . 是否存在使用
的细微差别使得刮擦变得更加困难?我不确定接下来要探索什么选项 .
1 回答
使用
BeautifulSoup
这是相对简单的 - 想法是按类和文本找到"milestone"元素,然后使用.next_sibling到达下一个兄弟:打印: