如何从链接中提取数据答案

【问题标题】：how to extract data from a link如何从链接中提取数据
【发布时间】：2014-10-23 23:39:04
【问题描述】：

我有一个网页源，我想从页面上的链接中提取数字。名字/姓氏嵌入在链接中。我设法解析页面中的所有链接，首先保存代码，然后使用 cat 和 grep 我得到的结果是

<a href="/apartments/rent/city-firstLastname.html">

cat webpage | grep apartments | \
while read line; do
echo ${line%.html}
done

如何从我的 while 循环中提取和回显名字和姓氏。我猜我的变量操作丢失了一些东西谢谢

【问题讨论】：

【解决方案1】：

echo ${line} | sed 's/.*rent\/.*\-//' | sed 's/\.html.*//'

将为每个<a… 行提供firstLastname，但您需要提供更多数据才能进一步了解。

grep、sed 等从不用于解析 HTML 文件。在您的下一个项目中尝试pup。

【讨论】：

【解决方案2】：

这将只回显名字部分，如果您删除剪切，您可以保留 .html。也不是说这是一个重要因素，但 cut 会比 sed 快得多，因为它不那么复杂。

猫网页 | egrep -oi '[a-z]+.html"' | cut -d. -f1

【讨论】：