【问题标题】:Collecting data from website without API [closed]从没有 API 的网站收集数据 [关闭]
【发布时间】:2012-07-01 07:46:54
【问题描述】:

我希望构建一个网络应用程序来改善用户在印度预订火车票的体验。由于购买它的费用很高,因此无法获得该 API。我见过许多通过他们的应用程序提供火车等详细信息的应用程序。


我的问题是他们如何从网站上抓取数据。一般而言,我如何才能合法地在任何网站上向用户显示数据(我不想要付款和没有 API 就不可能的东西)人们如何收集此类数据? 有什么工具/方法?


如果问题很幼稚,请耐心等待。我对这些东西很陌生。

【问题讨论】:

  • API 并非不可能获得。他们为此付费,这就是他们抓取数据的方式。
  • 这不仅仅是费用。获取 API 有很多要求,我敢肯定有一些应用程序不符合条件。而且他们不是订票,只是显示我们可以在网站上看到的信息。
  • 你需要什么数据,网站是什么?问题太笼统了。
  • @Arvin 我很清楚。该网站是印度铁路网站。数据是任何用户在与火车相关的网站上可用的一般数据。例如:两个车站之间的火车,座位的可用性等

标签: web-services api web-applications web-scraping


【解决方案1】:

他们可以使用多种编程语言中的任何一种来获取火车时刻表信息,尽管这很可能使用普通的 PHP 和任何好的网络服务器主机来完成。例如,所有印度火车时刻表都可以在 indianrail.gov 网站上找到。

发送一个专门构建的 URL 到 ..

http://www.indianrail.gov.in/cgi_bin/inet_trnnum_cgi.cgi?lccp_trnname=1123

使用 POST 方法发送表单数据应该会为您提供火车号 1123 的所有详细信息,然后只需将结果整理到数据库中即可。

更新:装备精良的网站会检查用户代理和入站请求的引用者。

修正:indianrail.gov 网站正在更改为 http://www.trainenquiry.com/ -> 将不得不再看看

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2012-01-22
    • 1970-01-01
    • 2013-03-02
    • 1970-01-01
    • 1970-01-01
    • 2021-03-12
    • 2011-03-27
    • 2015-12-14
    相关资源
    最近更新 更多