【发布时间】:2014-10-12 17:26:53
【问题描述】:
我正在尝试仅从该网页中提取到达时间。我在 OSX 10.9.5 的终端上运行它
http://www.flyokc.com/Arrivals.aspx
我只隔离了标签
curl 'www.flyokc.com/arrivals.aspx' | grep 'labelTime'
但是,我的 RegEx 很糟糕,所以我还没有想出只是从这些标签中获取时间。对我如何做到这一点的想法?
最后,我想按一天中的时间对它们进行分组,并按小时显示到达人数,按降序排列
【问题讨论】:
-
你的意思是
curl 'www.flyokc.com/arrivals.aspx' | grep -oP 'labelTime">\K[^<>]*'? -
它不喜欢那种 curl 'www.flyokc.com/arrivals.aspx' | grep -oP 'labelTime">\K[^]*' 0 用法:grep [-abcDEFGHhIiJLlmnOoPqRSsUVvwxZ] [-A num] [-B num] [-C[num]] [-e 模式] [-f 文件] [--binary-files=value] [--color=when] [--context[=num]] [--directories=action] [--label] [--line-buffered] [--null] [模式] [文件 ...] 5 310k 5 17079 0 0 33998 0 0:00:09 --:--:-- 0:00:09 33954 curl: (23) 书写体失败 (0 != 1448)
-
尝试使用 xmllint 来解析 html/xml。