【问题标题】:Web scraping the console of a web page using python使用 python 抓取网页的控制台
【发布时间】:2022-01-23 11:40:39
【问题描述】:

我有这段代码,它可以抓取某个网站并打印出它在该网页上找到的内容。

我对此很陌生,我怎样才能只从控制台收集数据,就像图片中看到的那样。

inspect console

这是目前的代码,感谢您的帮助

import requests

url = 'url goes here'
r = requests.get(url)
print(r.text)

【问题讨论】:

  • 据我所知,您无法直接从控制台获取数据,但无论您想在控制台中做什么(在 JavaScript 中),您也可以在 Python 中执行。如果我误解了您的问题,请纠正我。

标签: python web-scraping


【解决方案1】:

这里有一些收集输出的方法:

  1. 如果数据非常小且格式正确,例如每个 URL 仅 1 行,您可以复制控制台打印的输出。

  2. 如果数据很大,我假设这是你的情况,你可以将输出写入文件。

    import requests
    
    url = 'url goes here'

    r = requests.get(url)
    
    print(r.text)  
    
    with open('/path/to/file.txt', 'w', encoding='utf-8') as f:
    
        f.write('r.text')
  1. 如果您有数千个 URL,并且需要写入数千个文件,只需为每个 url 添加一个 for 循环并将输出写入不同的文件。

上面的例子是使用txt文件,你也可以将输出写入.xml文件或.html文件,任何更方便你重复使用的格式,如docx、excel、csv、json等.

【讨论】:

  • 数据集很小,因为你刚才说的只有一行,所以我认为你的第一个选择是要走的路,虽然我不太确定该怎么做。对不起,我这没有任何意义
  • 您帖子中的图片是浏览器控制台,我以为您的意思是IDE控制台输出。你可以试试这个使用硒:stackoverflow.com/questions/20907180/…
猜你喜欢
  • 1970-01-01
  • 2013-04-29
  • 1970-01-01
  • 2016-12-25
  • 2021-12-17
  • 2014-08-16
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多