IMDb HTML 提取 - 用美丽的汤答案

【问题标题】：IMDb HTML Extraction - With Beautiful SoupIMDb HTML 提取 - 用美丽的汤
【发布时间】：2015-10-21 12:58:58
【问题描述】：

使用 Beautiful Soup4，我试图获取一些似乎没有被标记的文本。（我可能错了，我对 HTML 不太会）

我需要从页面的 IMDb 代码中提取几个值；特定电影的预算价值和最新的全球总价值。代码的长度因电影而异，因此如果有一种方法使用 Beautiful Soup4 来提取这些值，而不管行号如何，那将非常有帮助。这是代码：

<div id="tn15content">
<h5>Budget</h5>
$165,000,000 (estimated)<br/>
<br/>

来自本页源代码：IMDb Box Office page for Interstellar

我需要提取 '$165,000,000' 以便我可以存储它等等。

Gross 代码更加混乱：

<h5>Gross</h5>
$188,020,017 (USA) (<a href="/date/03-19/">19 March</a> <a href="/year/2015/">2015</a>)<br/>$187,991,439 (USA) (<a href="/date/03-15/">15 March</a> <a href="/year/2015/">2015</a>)<br/>$187,930,551 (USA) (<a href="/date/03-14/">14 March</a> <a href="/year/2015/">2015</a>)<br/>$187,918,949 (USA) (<a href="/date/03-11/">11 March</a> <a href="/year/2015/">2015</a>)<br/>$187,888,097 (USA) (<a href="/date/03-08/">8 March</a> <a href="/year/2015/">2015</a>)<br/>

我需要的是最新的（全球数据进一步通过大量代码，由于此处的间距，我决定省略。

我知道这里解决了一个类似的问题，但是我无法让解决方案正常工作，也无法评论要求用户提供答案以帮助我的特定解决方案，因为我是该网站的新手。我打算尝试让 IMDbPY 工作，但我不知道如何让它与 WinPython 一起安装。

【问题讨论】：

标签： python html imdb imdbpy

【解决方案1】：

使用正则表达式

\$([0-9,]+) \(USA\)

\$([0-9,]+) \(Worldwide\)

http://pythex.org/

【讨论】：