【发布时间】:2011-03-05 21:25:42
【问题描述】:
我认为这是一个真正的挑战!
我为我当地的足球联赛 www.rdyfl.co.uk 编写了一个网站,并包含来自 F.A 的全职系统的 javascript 代码 sn-ps,我们在该系统中生成我们的赛程,在表格中链接赛程最近的结果等.
对于我想添加到网站的另一个功能,我需要为每个年龄组和部门抓取“即将到来的比赛”,但是当我检查来源时,我遇到了两个问题。
fixtures 内容是由 javascript 生成的,因此我需要查看生成的源代码,而不仅仅是源代码。
当我使用 Firefox 查看生成的源代码时,团队名称实际上是进一步的 javascript 链接,而不是名称本身。
我基本上想以某种方式定期下载固定装置,然后写入 mysql 数据库?
我已经询问了 F.A.,他们没有更多可用的选项来访问数据?
以前从未编写过抓取代码,谁能指出一个简单的解决方案,或者有人喜欢这个挑战吗?
【问题讨论】:
-
在页面加载时使用 Firebug 或 Dragonfly 检查网络流量。其中一个请求将是 HTML-AJAX 加载或被拉入的 JSON 数据。找出它是什么,数据是如何表示的,并复制用于提取数据的逻辑。 (好问题,但其他方面的答案太不具体了。)
标签: php javascript scrape