【问题标题】:Watch a web page for changes观看网页以了解更改
【发布时间】:2009-09-29 19:33:01
【问题描述】:

我用谷歌搜索并找不到任何可以将网页与以前版本进行比较的方法。

在这种情况下,我要查看的页面是link text。有些服务可以观看页面,但我想在自己的服务器上进行设置。

我已将其设置为 wiki,因此任何人都可以添加到代码中。这是我的想法

  1. 检查是否存在以前版本的文件。如果为 false 则下载页面
  2. 如果页面存在,请比较以找出差异并通过电子邮件发送新内容以及新旧版本的日期。

此脚本将通过 cron 每晚或通过浏览器按需调用(后者不是优先级)

听起来很简单,也许我只是没找对地方。

【问题讨论】:

  • 有几件事可能会让您指出正确的方向:diffbot.com 和一个厚应用程序changedetect.com 后者确实允许您生成差异电子邮件。不确定这是否是完整的解决方案,但是
  • 我注册了这两项服务,我们将看看它们的效果如何。但同样,如果有一个简单的脚本可以放在网络服务器上并通过 cron 进行调度,那就更好了。

标签: comparison diff get watch


【解决方案1】:

也许像这样一个简单的 sh 脚本,包含 wget、diff 和测试?

#!/bin/sh

WWWURI="http://foo.bar/testfile.html"
LOCALCOPY="testfile.html"
TMPFILE="tmpfile"
WEBFILE="changed.html"

MAILADDRESS="$(whoami)"
SUBJECT_NEWFILE="$LOCALCOPY is new"
BODY_NEWFILE="first version of $LOCALCOPY loaded"
SUBJECT_CHANGEDFILE="$LOCALCOPY updated"
SUBJECT_NOTCHANGED="$LOCALCOPY not updated"
BODY_CHANGEDFILE="new version of $LOCALCOPY"

# test for old file
if [ -e "$LOCALCOPY" ]
then
    mv "$LOCALCOPY" "$LOCALCOPY.bak"
    wget "$WWWURI" -O"$LOCALCOPY" -o/dev/null
    diff "$LOCALCOPY" "$LOCALCOPY.bak" > $TMPFILE

# test for update
    if [ -s "$TMPFILE" ]
    then
        echo "$SUBJECT_CHANGEDFILE"
        ( echo "$BODY_CHANGEDFILE" ; cat "$TMPFILE" ) | tee "$WEBFILE" | mail -s "$SUBJECT_CHANGEDFILE" "$MAILADDRESS"
    else
        echo "$SUBJECT_NOTCHANGED"
    fi
else
    wget "$WWWURI" -O"$LOCALCOPY" -o/dev/null
    echo "$BODY_NEWFILE"
    echo "$BODY_NEWFILE" | tee "$WEBFILE" | mail -s "$SUBJECT_NEWFILE" "$MAILADDRESS"
fi
[ -e "$TMPFILE" ] && rm "$TMPFILE"

更新:通过 tee、少量拼写和删除 $TMPFILE

【讨论】:

  • 很棒的脚本,我已经在我的网络服务器上设置了,很快就会返回结果
  • 脚本就像一个魅力,但我仍然相信理想的解决方案是一种通过浏览器提供访问的网络语言
  • tee-Pipe 会将差异写入文件(然后通过管道将其发送到邮件)。对于更复杂的版本,您可能想要切换到 PHP 或类似的东西 :)
【解决方案2】:

您可以查看This SO posting 以获得一些想法以及有关检测网页“真实”更改(具有波动的广告块和其他“噪音”)的挑战的信息

【讨论】:

  • 有效帖子,但我不希望找到指纹,因为在这种情况下,它是一个每周都会发生微小变化的站点。所以即使变化很小,仍然很高兴看到它。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-11-25
  • 2020-08-21
  • 1970-01-01
  • 2012-10-10
  • 2015-03-16
  • 1970-01-01
相关资源
最近更新 更多