【发布时间】:2016-01-25 17:22:51
【问题描述】:
我尝试了以下方法,但它不能正常工作,它给了我各种标签,还有没有样式属性的标签。
- 使用 curl() 加载网站
- 将 html 正文从 curl 添加到名为:
$bodyhtml的变量中 - 使用 preg_match_all 查找页面上的所有样式属性,但未按预期工作。
我的 preg_match_all:
preg_mathc_all = preg_match_all('/(<[^>]+) style=".*?"/i', $bodyhtml, $matches);
获取样式属性值的最佳方法是什么,如果可能的话,在文档中找到它的行是什么?
【问题讨论】:
-
简单。不要使用正则表达式。 DOM 的存在是有原因的,就是这样......
-
与其使用正则表达式,为什么不使用
DOMDocument也可能使用DOMXPath来做到这一点——可能更简单 -
谢谢你会这样看。你知道如何通过 DOM 获取文档中元素的行吗?有没有可能。 ?
-
没有,afaik,一个内置函数可以直接做到这一点,但它应该很容易完成
标签: php css attributes web-crawler