【问题标题】:Extracting H1 title from list of web pages从网页列表中提取 H1 标题
【发布时间】:2014-01-24 15:26:27
【问题描述】:

我有一长串 URL,我想从每个 URL 中添加标题并将其保存到 Microsoft Excel 文件中。

我试图四处寻找执行此操作的代码,但找不到。我正在为 Firefox 使用 iMacros。

【问题讨论】:

    标签: macros imacros


    【解决方案1】:

    我建议在 Excel VBA 本身中使用 Internet Explorer 对象和 MSHTML 对象库,这可能会使用 3rd 方应用程序。

    【讨论】:

    • 我确信这可以通过 iMacros 轻松完成。不幸的是,我目前没有尝试其他方法的奢侈。
    • 提取元素细节涉及循环,所以我建议您选择该方法。
    • 对此了解不够,但我之前曾使用 iMacros 成功完成类似任务
    【解决方案2】:

    您首先需要文件中的 URL 列表(每行一个 URL)。我们称它为 listOfUrls.csv(另存为 Excel 或仅使用纯文本文件)。您将该文件放在 iMacros/Datasources 文件夹中。

    然后是宏本身:

    SET !DATASOURCE listOfUrls.csv
    SET !DATASOURCE_COLUMNS 1
    SET !LOOP 1
    SET !DATASOURCE_LINE {{!LOOP}}
    TAB T=1
    URL GOTO={{!COL1}}
    TAG POS=1 TYPE=TITLE ATTR=* EXTRACT=TXT
    SAVEAS TYPE=EXTRACT FOLDER=* FILE=openThisInExcel.csv
    

    现在您必须将宏作为循环播放(查找“播放(循环)”)。播放次数与您在列表中的 URL 一样多(在“Max:”中设置)。然后宏将带您到每个 URL 并获取标题并将其保存到 openThisInExcel.csv。就是这样。

    您可能还希望将 URL 保留在结果 CSV 中(这样您就知道哪个标题对应于哪个 URL)。在最后一行或该行之前的行之前添加以下内容(取决于您想要的列顺序):

    ADD !EXTRACT {{!URLCURRENT}}
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-09-21
      • 2021-04-29
      • 2012-12-28
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多