抓取 html 文本文档

【问题标题】：Scraping a html text document抓取 html 文本文档
【发布时间】：2018-12-26 23:10:22
【问题描述】：

我需要对特定网站进行网页抓取，但它不允许网页抓取（403 错误）。我正在考虑复制我需要的网站的 html 数据并将其放入 txt 文档中，在那里我可以像网页一样抓取它。这是可能的还是有更好的方法来解决这个问题？

【问题讨论】：

【解决方案1】：

如果你有 linux/unix，你可以使用 wget/curl 来下载网页。这会将 html 源代码复制到根目录中的文件中。例如，您可以使用

wget https://stackoverflow.com/questions/51412042/scraping-a-html-text-document

获取此网页的源代码。

要处理这个并删除一些标签，您可以使用 vim/nano 将以下内容复制到一个新文件中，然后使用 ./script.sh filename 运行它（在执行 chmod +x 文件名之后）。您还可以添加其他 sed 命令以摆脱其他标签。

cat $1 |
sed "s/<html>//g" |
sed "s/</html>//g" |
sed "s/<head>//g" |
sed "s/</head>//g" |

【讨论】：