【问题标题】:Extract javascript variable value from html document with python使用python从html文档中提取javascript变量值
【发布时间】:2011-12-07 14:06:40
【问题描述】:

我需要解析一个包含带有 json 对象的 javascript 代码的 HTML 文档。

类似这样的:

<html>
   <head>
   </head>
<body>
    <script type="text/javascript">
        myJSONObject = {"name": "steve", "city": "new york"}
    </script>

   <p>Hello World.</p>
</body>
</html>

如何使用 python 提取 myJSONObject 值?

【问题讨论】:

  • 你能先把你的.js文件解压出来吗?
  • 没有。我只有 html 文件和里面的 javascript 代码。

标签: javascript python json


【解决方案1】:

您可以使用lxml解析HTML,然后提取JSON:

>>> import lxml.etree,json
>>> s = '''<html><body><script type="text/javascript">
             myJSONObject = {"name": "steve", "city": "new york"}
           </script></body></html>'''
>>> js = lxml.etree.HTML(s).find('.//body/script').text
>>> jsonCode = js.partition('=')[2].strip()
>>> json.loads(jsonCode)
{u'city': u'new york', u'name': u'steve'}

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-03-02
    • 2017-10-18
    • 1970-01-01
    • 2020-09-19
    • 1970-01-01
    相关资源
    最近更新 更多