【问题标题】:how to scrape web page data without losing tags如何在不丢失标签的情况下抓取网页数据
【发布时间】:2023-03-25 10:55:01
【问题描述】:

我正在尝试使用 php 和 dom xpath 抓取网络数据。当我将 $node->nodeValue 存储到我的数据库中时,或者即使我尝试回显它,所有像 <p><br> 这样的标签都丢失了。所以我把所有的paras连接起来。如何解决这个问题

【问题讨论】:

    标签: php dom serialization innerhtml


    【解决方案1】:

    如果你有一个节点,并且你需要它的所有内容,你可以使用这个函数:

    function innerHTML(DOMNode $node)
    {
      $doc = new DOMDocument();
      foreach ($node->childNodes as $child) {
        $doc->appendChild($doc->importNode($child, true));
      }
      return $doc->saveHTML();
    }
    

    【讨论】:

    • 2 多个小时的搜索,这是扭转潮流的帖子。
    【解决方案2】:

    如果您正在浏览 DOM,很可能不再有可查看的标签。标签现在是 DOM 中的节点——标签中包含的原始内容是您可以以“字符串形式”访问的所有内容。当然,您可以使用节点信息来重建标签,但它们不会是原始标签(例如,您将不得不选择 <BR><br> - 您将不知道该站点最初有哪个) .如果您想从一开始就获得原始标签,请获取您所做的 GET/POST 返回的原始字节流;不要将其解析为 DOM 树。

    【讨论】:

      猜你喜欢
      • 2019-10-27
      • 2019-01-19
      • 2017-04-07
      • 1970-01-01
      • 2020-09-30
      • 2018-07-15
      • 2018-10-26
      • 2021-09-03
      • 1970-01-01
      相关资源
      最近更新 更多