【问题标题】:How can I smartly extract information from an HTML page?如何巧妙地从 HTML 页面中提取信息?
【发布时间】:2013-05-18 16:04:24
【问题描述】:

我正在构建一些可以或多或少从任意网站提取关键信息的东西。例如,如果我爬取了一个麦当劳页面,并想以编程方式计算出麦当劳的开店和关店时间,那么有什么智能方法可以做到这一点?

一般情况下,也许我也想知道麦当劳有没有卖鸡翅,或者麦当劳的地址。

我的想法是,我将为 timewingsaddress 提供一个特定案例,并为这 3 个案例中的每一个案例提供唯一的代码。

但我不确定如何解决这个问题。我已经抓取了网站并将 HTML 和相关信息解析为 JSON。我目前的方法是找到title标签并检查title标签是否包含addresslocation等关键字。如果title包含key words,那么我将查看当前页面并识别类似于地址的内容块,例如城市或国家/地区的内容或包含 StStreet 字样的内容。

我想知道是否有更好的方法来查找关键数据,并寻找更好的起点或提出一些想法等等。或者即使有很好的文章可以阅读这方面的内容也很棒。

如果不清楚,请告诉我。

感谢您的帮助。

【问题讨论】:

    标签: parsing search full-text-search machine-learning nlp


    【解决方案1】:

    为了解析这样的 HTML 页面,您必须了解它们的结构。这个问题没有通用的解决方案。每个网页都需要自己的解决方案。但是,一个好的方法是确保 HTML 代码也是有效的 XML,然后在已知位置 use XPath to access elements。甚至对于标准 HTML(它并不总是有效的 xml),甚至可能有类似 XPath 的解决方案。通过这种方式,您可以为每个页面定义一组 XPath,如果它们存在,它们会为您提供特定元素。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2014-11-23
      • 1970-01-01
      • 2019-01-15
      • 1970-01-01
      • 1970-01-01
      • 2018-08-03
      • 2019-03-24
      相关资源
      最近更新 更多