【发布时间】:2016-08-04 20:37:13
【问题描述】:
这个问题可能非常具体。我正在尝试从公司的维基百科页面中提取员工人数,例如https://en.wikipedia.org/wiki/3M。
我尝试使用 Wikipedia python API 和一些正则表达式查询。但是,我找不到任何可靠的东西可以概括任何公司(不考虑例外情况)。
此外,由于表格行没有 id 或类,我无法直接访问该值。以下为出处:
<tr>
<th scope="row" style="padding-right:0.5em;">
<div style="padding:0.1em 0;line-height:1.2em;">Number of employees</div>
</th>
<td style="line-height:1.35em;">89,800 (2015)<sup id="cite_ref-FY_1-5" class="reference"><a href="#cite_note-FY-1">[1]</a></sup></td>
</tr>
所以,即使我有表格的 id - infobox vcard,所以我无法找到使用 beautifulSoup 抓取这些信息的方法。
有没有办法提取这些信息?它显示在页面开头右侧的汇总表中。
【问题讨论】:
-
您应该发布自己解决问题的尝试。如果它总是与行名相同的表,你不能从 html 中提取它吗?
-
更新了帖子。谢谢!
-
也许不是最好的方法,但仍然:遍历所有
并在每个 的 innerHTML 中查找“员工人数”。然后解析innerHTML得到你想要的数据。
标签: python regex web-scraping wikipedia