【发布时间】:2012-02-09 06:42:52
【问题描述】:
我想知道是否有更好的方法从网页中提取信息,而不是解析 HTML 以获取我正在搜索的内容。即:从“imdb.com”中提取电影评分
我目前正在使用 IndyHttp 组件来获取页面,并且我正在使用 strUtils 来解析文本,但内容有限。
【问题讨论】:
-
网页不一定是有效的 XHTML 文档,并且 Javascript 可以更改 DOM,所以我认为您应该从嵌入式 Web 浏览器(如 TWebBrowser 或 Chromium Embedded)探索 DOM。
-
依赖 DOM 和 TWebBrowser 应该是最后的手段,因为它会很慢并且容易出错。如果要抓取的数据来自 JavaScript,可以直接从 JavaScript 抓取。如果它填充了某种形式的 Ajax,则可以直接编写并获取 Ajax URL。无论浏览器做什么,都可以手动模拟。
标签: delphi parsing html-content-extraction information-extraction