【问题标题】:Extracting HTML Data from A Blogspot blog from a Android phone从 Android 手机的 Blogspot 博客中提取 HTML 数据
【发布时间】:2011-02-26 22:34:19
【问题描述】:

我环顾四周,找不到任何有用的东西。这是我想做的:

  1. 从a中提取第一个帖子
  2. Blogspot 博客在屏幕上显示

我需要一些可以从 html 页面中的特定标签和 id 中提取数据的东西。我还需要它与 Dalvik 格式兼容,因为对于某些库,它说转换失败并且我的应用程序不起作用。如果也能直截了当就好了。

有什么建议吗?

【问题讨论】:

    标签: java android html extract dalvik


    【解决方案1】:

    使用 HttpClient 检索页面。使用任何the preponderance of Java HTML parsers 提取您的帖子。如果你找到一个你喜欢的库,并且你得到一个“转换失败”的错误,获取源代码而不是 JAR 并将源代码添加到你的项目中——你会得到具体的编译错误,然后你可以确定它们是否可以修复。

    【讨论】:

      【解决方案2】:

      如果您只需要文本,我强烈建议您尝试一下

      http://www.alchemyapi.com/api/text/

      您可以使用他们的 Android SDK。效果很棒!我也用它来提取文本。

      【讨论】:

        【解决方案3】:

        使用 Jsoup 可以通过文件、字符串和 url 解析 html 数据。 它还提取带有标签和类的数据 http://jsoup.org/cookbook/

        【讨论】:

        • 欢迎来到*。这个线程问题很旧,并且已经回答了。最好不要复活旧线程,除非响应添加了与以前的答案显着不同的新内容。