【问题标题】:Scraping a html text document抓取 html 文本文档
【发布时间】:2018-12-26 23:10:22
【问题描述】:

我需要对特定网站进行网页抓取,但它不允许网页抓取(403 错误)。我正在考虑复制我需要的网站的 html 数据并将其放入 txt 文档中,在那里我可以像网页一样抓取它。这是可能的还是有更好的方法来解决这个问题?

【问题讨论】:

  • 您确定您可以访问该网站吗?请尝试从浏览器中查看
  • 为了将来参考,您应该包含有关您搜索过的内容和/或您已经尝试过的内容的信息。

标签: python html web-scraping


【解决方案1】:

如果你有 linux/unix,你可以使用 wget/curl 来下载网页。这会将 html 源代码复制到根目录中的文件中。例如,您可以使用

wget https://stackoverflow.com/questions/51412042/scraping-a-html-text-document 

获取此网页的源代码。

要处理这个并删除一些标签,您可以使用 vim/nano 将以下内容复制到一个新文件中,然后使用 ./script.sh filename 运行它(在执行 chmod +x 文件名之后)。您还可以添加其他 sed 命令以摆脱其他标签。

cat $1 |
sed "s/<html>//g" |
sed "s/</html>//g" |
sed "s/<head>//g" |
sed "s/</head>//g" |

【讨论】:

    猜你喜欢
    • 2010-09-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-21
    • 1970-01-01
    • 2018-05-03
    相关资源
    最近更新 更多