【问题标题】:Generic Article Extraction from web pages从网页中提取通用文章
【发布时间】:2010-11-11 08:58:06
【问题描述】:

我将开始我的文章提取工作。

我将要做的任务是提取发布在不同网页上的酒店评论(例如 1.http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html、2.http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html

我需要在 Java 中完成这项任务,而过去几个月我只是在使用 Java..

我的问题来了。

  1. 是否有可能以通用方式从不同网页中单独提取评论。

  2. 如果有任何 API 支持 Java 中的任务,请告诉我。

  3. 另外,请告诉我您的想法/来源,这将有助于我完成上述任务。

更新

如果网络上有任何相关示例,请发布相同的示例,因为这可能很有用。

【问题讨论】:

    标签: java extraction html-content-extraction


    【解决方案1】:

    您可能需要像 TagSoupNekoHTML 这样的 Java 屏幕抓取实用程序。 JSoup也很受欢迎。

    但是,在从第三方网站(如 tripadvisor)提取数据时,您还需要考虑更大的法律问题。他们的政策允许吗?

    【讨论】:

    • 感谢您的实用建议。关于合法权益,我会与我的管理层讨论!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-01-13
    • 2020-05-17
    相关资源
    最近更新 更多