【问题标题】:Read html file using Pandas, Python使用 Pandas、Python 读取 html 文件
【发布时间】:2018-02-03 06:42:38
【问题描述】:

我喜欢阅读pandas中的.html文件,请看下面的htm源代码。

<html>
<head>
<title>Output File</title>
</head>
<body>
<pre>
<span style='color:black'>-----------------------------------------------------------------------------------------------------------------------------------</span>
<span style='color:black'>| Study Case: Case A_Lines                                                                         | Annex:                  / 1  |</span>
<span style='color:black'>-----------------------------------------------------------------------------------------------------------------------------------</span>
<span style='color:black'>| System Summary                                                                                                                  |</span>
<span style='color:black'>-----------------------------------------------------------------------------------------------------------------------------------</span>
<span style='color:black'>| System Average Interruption Frequency Index          :  SAIFI  =    0.373016 1/Ca                                               |</span>
<span style='color:black'>| Customer Average Interruption Frequency Index        :  CAIFI  =    0.373016 1/Ca                                               |</span>
<span style='color:black'>-----------------------------------------------------------------------------------------------------------------------------------</span>
<span style='color:black'></span>
</pre>
</body>
</html>

我试图阅读的最相关的信息是索引和值表,例如,

SAIFI 0.373016 1/Ca

我曾尝试直接阅读带有多个选项的内容,但失败了。

df = pd.read_html(path, match='=')

请帮忙!

【问题讨论】:

    标签: python html pandas


    【解决方案1】:

    我尝试使用pandas,但它返回了错误。你可以试试BeautifulSoap吗?:

    In [20]: from bs4 import BeautifulSoup
    In [21]: f = BeautifulSoup(open("file.html"))
    In [22]: f.findAll("span")[5].text.split()[-3]
    Out[22]: u'0.373016'
    

    当然你可以改进我用来识别价值的方式。

    谢谢

    【讨论】:

    • 不客气,如果你满意请采纳答案:)
    猜你喜欢
    • 2022-09-23
    • 2018-01-25
    • 2014-09-23
    • 2018-06-11
    • 1970-01-01
    • 2013-06-08
    • 2017-10-03
    • 1970-01-01
    相关资源
    最近更新 更多