【问题标题】:Identify a webpage has dynamic content识别网页具有动态内容
【发布时间】:2012-02-10 17:23:24
【问题描述】:

我用python编写代码,对html、mysql、javascript或其他数据库类型语言知之甚少。

我正在使用 pythons urllib 模块来检索网络源代码,我想知道是否有一种方法可以识别网页是否具有动态内容。我的意思是动态内容,任何自主更改不是源自用户输入的源代码。例如,如果该网页上的广告每 10 分钟更改一次。即使我两次加载页面并比较源代码,它也不会发现页面实际上是动态的。我很想知道我是否可以在源代码中寻找任何“关键字”来识别网页正在使用动态内容。

谢谢

更新:

我不声称对 javascript 有任何了解,但我在一个我知道是动态的页面中发现了以下代码,但通常不会显示它:

document.write('<script language="JavaScript" src="http://ad.doubleclick.net...

document.write 能否成为识别动态页面的好关键字

【问题讨论】:

  • 广告通常是Adobe Flash,即使内容发生变化,它们的URL也是一样的。
  • 如果你定义的“动态”意味着“有脚本”然后在文档中寻找脚本元素...否则,从动态的定义重新开始
  • 我试图通过举例来定义动态。任何暗示自主更改源代码的关键字
  • 您的示例会将任何带有广告的网站归类为“动态”。您的工作定义与大多数 Web 开发人员截然不同。

标签: javascript python mysql html dynamic


【解决方案1】:

这是一件非常困难的事情。基本上你会寻找 ajax 请求,看看它会把你带到哪里。如果要解析动态内容,则必须使用 javascript 解释器或类似加载类型的浏览器。我看不到其他解决方案。

祝你好运。

【讨论】:

    猜你喜欢
    • 2014-05-08
    • 2010-11-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-09-16
    • 1970-01-01
    • 1970-01-01
    • 2011-06-08
    相关资源
    最近更新 更多