【问题标题】:Get Info From Script Tag (WebScrape) [duplicate]从脚本标签(WebScrape)获取信息 [重复]
【发布时间】:2019-07-27 12:10:39
【问题描述】:
#Python Code
from bs4 import BeautifulSoup
import urllib3

url ='https://www. SomeData .com'
req = urllib3.PoolManager()
res = req.request('GET', url)
soup = BeautifulSoup(res.data, 'html.parser')
res = soup.find_all('script')
print(res)

然后我得到了这样的东西:

Results below:
[
  <script>
        AAA.trackData.taxonomy = {
              a:"a",
              b:"b",
              c:"c2,
              ...} ;
</script>
</script>, <script async="" src="https://someData.com/js/detail.0a6eca28.js"></script>
]

如何将其转换为 json 格式以处理标签内的数据。

【问题讨论】:

  • 你想要的输出是什么?

标签: python html beautifulsoup


【解决方案1】:

请检查这是否有帮助。

script = soup.find('script', text=re.compile('AAA\.trackData\.taxonomy'))
json_text = re.search(r'^\s*AAA\.trackData\.taxonomy\s*=\s*({.*?})\s*;\s*$',
                      script.string, flags=re.DOTALL | re.MULTILINE).group(1)
data = json.loads(json_text)

【讨论】:

    猜你喜欢
    • 2016-07-24
    • 2012-10-21
    • 1970-01-01
    • 1970-01-01
    • 2017-03-26
    • 1970-01-01
    • 1970-01-01
    • 2017-04-24
    • 2011-10-19
    相关资源
    最近更新 更多