【发布时间】:2013-11-05 05:24:50
【问题描述】:
我的任务是创建一个网络抓取软件,但我什至不知道从哪里开始。任何帮助都将不胜感激,即使只是告诉我这些数据是如何组织的,或者网站正在使用什么“类型”的数据布局都会有所帮助,因为我可以用谷歌搜索那个词。
基本上,我需要从这个网站中提取“谐波值”。具体来说,我需要第二个链接上显示的 9 个数字。这些数字不会传递给 HTML,它们似乎每隔几秒钟就会自动更新一次。我需要能够在它们更新时实时提取这些值。即使这是不可能的,我仍然需要证明进行这种网络抓取是不可能的。我没有为任何后端提供任何 API,也不知道他们的站点如何接收数据。
总的来说,任何帮助都将不胜感激,即使它只是一些简单的搜索词,可以让我找到正确的方向。我目前在网络抓取/数据挖掘方面一无所知/
【问题讨论】:
-
“这些数字没有传递给 HTML..”——抱歉,但可以证明不是真的。 “查看源代码”显示实际数字,即使在我的 iPad 上也是如此。您“只”需要找到它们,它们周围有很多 绒毛。如果您想“实时”抓取它们,您可以使用
curl或其他 wget 实用程序发布频繁请求以加载 html,然后寻找包含代码以提取数字。 -
我建议在网络上搜索“网络抓取”以及您希望/感觉最舒适的编程语言的名称,然后从那里开始尝试。如果那么您无法弄清楚,在此处发布具体问题可能会得到更好的答案。
标签: html parsing screen-scraping data-mining