【问题标题】:web crawl the app information from Android market网页从安卓市场抓取应用信息
【发布时间】:2012-10-17 02:10:21
【问题描述】:

我想得到一个Android应用信息的数据集,包括应用名称、包名称、版本、请求的权限等。

官方的 Android 应用市场是 Google Play。市场上有数以百万计的应用程序。我想从中获取至少数万条应用信息,并将其存储到 csv 文件中。例如,这是一个应用程序的链接: https://play.google.com/store/apps/details?id=de.ralphsapps.snorecontrol

  • 问题是如何获取应用程序的url列表?
  • 如何解析网页信息?

有没有适合这种工作的好的网络爬虫?或者有没有脚本语言,比如python,有这样的爬取功能?

谢谢。

【问题讨论】:

  • 试试api。如果它不能满足您的需求,也许可以贡献一个补丁?
  • 非常感谢。您的信息很有用!
  • @babysnow 遇到了同样的问题。你是怎么克服的?

标签: android web web-crawler


【解决方案1】:

Google Play Store 有自己的格式来显示 HTML 中的信息对象。 为所有这些编写您自己的 HTML 解析器,以获取您需要的信息。

最好在JSoup.org 使用 JSoup 来完成这项工作,

或作为解析器参考我在JSoup 上的示例教程: Parsing HTML using JSoup

【讨论】:

  • 抓取每个分类索引页的所有url
  • 我发现 Python 也有 HTMLParser。我有点喜欢 Python,因为脚本更容易编写。 Java 库似乎需要更多努力。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-03-04
  • 1970-01-01
  • 2018-07-07
  • 2016-08-28
相关资源
最近更新 更多