【发布时间】:2012-02-14 03:42:44
【问题描述】:
我在网站上
http://www.baseball-reference.com/players/event_hr.cgi?id=bondsba01&t=b
并尝试从表中抓取数据。当我从一个条目中拉出 xpath 时,说投手 “Terry Mulholland,”我检索到这个:
pitchers = site.xpath("/html/body/div[2]/div[2]/div[6]/table/tbody/tr/td[3]/table/tbody/tr[2]/td/a)
当我尝试在打印机中为投手打印 pitcher[0].text 时,我得到的是 [] 而不是 text,知道为什么吗?
【问题讨论】:
-
html 不是 xml。使用 BeautifulSoup 解析 html。
-
FUD。 lxml 适合解析 HTML,xpath 适合 HTML dom 导航。
标签: python xpath screen-scraping lxml