【问题标题】:PHP - how to remove all tags (HTML JS PHP CSS JQUERY) from a web pagePHP - 如何从网页中删除所有标签(HTML JS PHP CSS JQUERY)
【发布时间】:2015-06-05 10:47:36
【问题描述】:

我只想拥有网页的内容。假设我想从这个 url 获取 example 的内容,但是在这个页面上有 HTML JS 和其他标签,我想将它们全部删除。 我目前拥有的是这个

$raw_text = file_get_contents( 'http://www.booking.com/reviews/es/hotel/royal.html?aid=304142;sid=56e38d55a38ec2df6fe4622827e89675;dcid=1' );
$rm_html = strip_tags($raw_text);

如何删除所有类型的标签,只保留当前页面中的文本?

【问题讨论】:

  • 页面的“内容”到底是什么意思?
  • strip_tags 不起作用?
  • @arkascha 我只想要其中的文本,以便稍后处理
  • @Jeremy Thille 仅删除 HTML 标签。它仍然在其中获取 js
  • 不熟悉PHP,但是可以使用正则表达式来获取标签内的所有内容吗?

标签: javascript php jquery html css


【解决方案1】:

最简单的方法不是自己通过php实现,而是使用已经完成的东西,例如lynx文本浏览器:

lynx --dump http://some.example.org/page.html

这会将页面上的所有文本转储到标准输出,您可以在其中应用进一步的处理过滤器。当然,您也可以使用 shell 方法将输出通过管道传输到文件或其他任何内容中。如果您愿意,也可以在 php 中调用它,只要安装了该实用程序(或类似的东西,如 links)。

【讨论】:

  • 如果我要运行它的计算机没有它怎么办?
  • 好吧,那么您必须按照建议安装它或使用替代方案。如果这不可能,那么显然你不能使用这种方法。
猜你喜欢
  • 2019-11-29
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-02-17
  • 2013-08-19
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多