【发布时间】:2025-07-08 18:10:01
【问题描述】:
我正在编写一个应用程序来获取 html 页面的标题、body 标签下的一些文本和图像。 这有点像 facebook 的分享内容。我可以得到一个正则表达式来做到这一点。感谢您的协助。
【问题讨论】:
我正在编写一个应用程序来获取 html 页面的标题、body 标签下的一些文本和图像。 这有点像 facebook 的分享内容。我可以得到一个正则表达式来做到这一点。感谢您的协助。
【问题讨论】:
像<title>(.*?)</title> 这样的正则表达式将为您提供标题的内容。
这 。*?部分用于以非贪婪的方式匹配任何字符(以防页面中有另一个标题结束标记)。
【讨论】:
您可能应该使用 HTML 解析器而不是正则表达式。例如,请参阅Simple HTML DOM。
您的任务的正则表达式将很难维护,并且很容易在相关页面的任何更改时中断,更不用说您无法考虑 HTML cmets。
【讨论】:
我刚刚创造了这个表达式,它获取标签内的文本(节点值),没有实际的标签本身。
(?<=\"\>)(.*?)(?=\<\/)
您可以在此处使用 PHP 看到它:http://codepad.viper-7.com/AUTcv3
【讨论】: