【问题标题】:how to extract data from a link如何从链接中提取数据
【发布时间】:2014-10-23 23:39:04
【问题描述】:
我有一个网页源,我想从页面上的链接中提取数字。名字/姓氏嵌入在链接中。
我设法解析页面中的所有链接,首先保存代码,然后使用 cat 和 grep
我得到的结果是
<a href="/apartments/rent/city-firstLastname.html">
cat webpage | grep apartments | \
while read line; do
echo ${line%.html}
done
如何从我的 while 循环中提取和回显名字和姓氏。我猜我的变量操作丢失了一些东西
谢谢
【问题讨论】:
标签:
bash
parsing
variables
【解决方案1】:
echo ${line} | sed 's/.*rent\/.*\-//' | sed 's/\.html.*//'
将为每个<a… 行提供firstLastname,但您需要提供更多数据才能进一步了解。
grep、sed 等从不用于解析 HTML 文件。在您的下一个项目中尝试pup。
【解决方案2】:
这将只回显名字部分,如果您删除剪切,您可以保留 .html。也不是说这是一个重要因素,但 cut 会比 sed 快得多,因为它不那么复杂。
猫网页 | egrep -oi '[a-z]+.html"' | cut -d. -f1