【发布时间】:2012-02-10 17:23:24
【问题描述】:
我用python编写代码,对html、mysql、javascript或其他数据库类型语言知之甚少。
我正在使用 pythons urllib 模块来检索网络源代码,我想知道是否有一种方法可以识别网页是否具有动态内容。我的意思是动态内容,任何自主更改不是源自用户输入的源代码。例如,如果该网页上的广告每 10 分钟更改一次。即使我两次加载页面并比较源代码,它也不会发现页面实际上是动态的。我很想知道我是否可以在源代码中寻找任何“关键字”来识别网页正在使用动态内容。
谢谢
更新:
我不声称对 javascript 有任何了解,但我在一个我知道是动态的页面中发现了以下代码,但通常不会显示它:
document.write('<script language="JavaScript" src="http://ad.doubleclick.net...
document.write能否成为识别动态页面的好关键字
【问题讨论】:
-
广告通常是Adobe Flash,即使内容发生变化,它们的URL也是一样的。
-
如果你定义的“动态”意味着“有脚本”然后在文档中寻找脚本元素...否则,从动态的定义重新开始
-
我试图通过举例来定义动态。任何暗示自主更改源代码的关键字
-
您的示例会将任何带有广告的网站归类为“动态”。您的工作定义与大多数 Web 开发人员截然不同。
标签: javascript python mysql html dynamic