使用 python 抓取网页的控制台答案

【问题标题】：Web scraping the console of a web page using python使用 python 抓取网页的控制台
【发布时间】：2022-01-23 11:40:39
【问题描述】：

我有这段代码，它可以抓取某个网站并打印出它在该网页上找到的内容。

我对此很陌生，我怎样才能只从控制台收集数据，就像图片中看到的那样。

inspect console

这是目前的代码，感谢您的帮助

import requests

url = 'url goes here'
r = requests.get(url)
print(r.text)

【问题讨论】：

据我所知，您无法直接从控制台获取数据，但无论您想在控制台中做什么（在 JavaScript 中），您也可以在 Python 中执行。如果我误解了您的问题，请纠正我。

标签： python web-scraping

【解决方案1】：

这里有一些收集输出的方法：

如果数据非常小且格式正确，例如每个 URL 仅 1 行，您可以复制控制台打印的输出。
如果数据很大，我假设这是你的情况，你可以将输出写入文件。

    import requests
    
    url = 'url goes here'

    r = requests.get(url)
    
    print(r.text)  
    
    with open('/path/to/file.txt', 'w', encoding='utf-8') as f:
    
        f.write('r.text')

如果您有数千个 URL，并且需要写入数千个文件，只需为每个 url 添加一个 for 循环并将输出写入不同的文件。

上面的例子是使用txt文件，你也可以将输出写入.xml文件或.html文件，任何更方便你重复使用的格式，如docx、excel、csv、json等.

【讨论】：

数据集很小，因为你刚才说的只有一行，所以我认为你的第一个选择是要走的路，虽然我不太确定该怎么做。对不起，我这没有任何意义
您帖子中的图片是浏览器控制台，我以为您的意思是IDE控制台输出。你可以试试这个使用硒：stackoverflow.com/questions/20907180/…