【问题标题】:IMDb HTML Extraction - With Beautiful SoupIMDb HTML 提取 - 用美丽的汤
【发布时间】:2015-10-21 12:58:58
【问题描述】:

使用 Beautiful Soup4,我试图获取一些似乎没有被标记的文本。 (我可能错了,我对 HTML 不太会)

我需要从页面的 IMDb 代码中提取几个值;特定电影的预算价值和最新的全球总价值。代码的长度因电影而异,因此如果有一种方法使用 Beautiful Soup4 来提取这些值,而不管行号如何,那将非常有帮助。 这是代码:

<div id="tn15content">
<h5>Budget</h5>
$165,000,000 (estimated)<br/>
<br/>

来自本页源代码:IMDb Box Office page for Interstellar

我需要提取 '$165,000,000' 以便我可以存储它等等。

Gross 代码更加混乱:

<h5>Gross</h5>
$188,020,017 (USA) (<a href="/date/03-19/">19 March</a> <a href="/year/2015/">2015</a>)<br/>$187,991,439 (USA) (<a href="/date/03-15/">15 March</a> <a href="/year/2015/">2015</a>)<br/>$187,930,551 (USA) (<a href="/date/03-14/">14 March</a> <a href="/year/2015/">2015</a>)<br/>$187,918,949 (USA) (<a href="/date/03-11/">11 March</a> <a href="/year/2015/">2015</a>)<br/>$187,888,097 (USA) (<a href="/date/03-08/">8 March</a> <a href="/year/2015/">2015</a>)<br/>

我需要的是最新的(全球数据进一步通过大量代码,由于此处的间距,我决定省略。

我知道这里解决了一个类似的问题,但是我无法让解决方案正常工作,也无法评论要求用户提供答案以帮助我的特定解决方案,因为我是该网站的新手。 我打算尝试让 IMDbPY 工作,但我不知道如何让它与 WinPython 一起安装。

【问题讨论】:

    标签: python html imdb imdbpy


    【解决方案1】:

    使用正则表达式

    \$([0-9,]+) \(USA\)
    
    \$([0-9,]+) \(Worldwide\)
    

    http://pythex.org/

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-09-11
      • 2020-01-19
      • 2021-04-03
      • 2012-12-19
      • 1970-01-01
      • 1970-01-01
      • 2015-05-08
      • 2018-09-13
      相关资源
      最近更新 更多