【问题标题】:how to extract data from a link如何从链接中提取数据
【发布时间】:2014-10-23 23:39:04
【问题描述】:

我有一个网页源,我想从页面上的链接中提取数字。名字/姓氏嵌入在链接中。 我设法解析页面中的所有链接,首先保存代码,然后使用 cat 和 grep 我得到的结果是

<a href="/apartments/rent/city-firstLastname.html">

cat webpage | grep apartments | \
while read line; do
echo ${line%.html}
done

如何从我的 while 循环中提取和回显名字和姓氏。我猜我的变量操作丢失了一些东西 谢谢

【问题讨论】:

    标签: bash parsing variables


    【解决方案1】:
    echo ${line} | sed 's/.*rent\/.*\-//' | sed 's/\.html.*//'
    

    将为每个&lt;a… 行提供firstLastname,但您需要提供更多数据才能进一步了解。

    grepsed从不用于解析 HTML 文件。在您的下一个项目中尝试pup

    【讨论】:

      【解决方案2】:

      这将只回显名字部分,如果您删除剪切,您可以保留 .html。也不是说这是一个重要因素,但 cut 会比 sed 快得多,因为它不那么复杂。

      猫网页 | egrep -oi '[a-z]+.html"' | cut -d. -f1

      【讨论】:

        猜你喜欢
        • 2021-09-23
        • 2023-03-28
        • 2019-07-10
        • 2020-06-13
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2015-10-29
        相关资源
        最近更新 更多