【发布时间】:2020-02-25 04:29:50
【问题描述】:
我正在尝试从https://en.wikipedia.org/wiki/List_of_hedge_funds 抓取网址
具体来说,我正在尝试使用 Apify 来抓取该页面并从 HTML 中存在的锚标记返回 URL 列表。在我的控制台中,我希望在名为myValue 的属性中看到存在于目标页面上的一个或多个锚标记的href 属性的值。我还希望在名为title 的属性中看到页面标题。相反,我只看到以下URL 属性及其值。
我的 Apify 演员使用 Puppeteer 平台。所以我使用的是pageFunctionsimilar to the way Puppeteer uses it。
下面是我运行 Apify UI 之前的屏幕截图。
页面功能function pageFunction( context ) {
// called on every page the crawler visits, use it to extract data from it
var $ = context.jQuery;
var result = {
title: $('.wikitable').text,
myValue: $('a[href]').text,
};
return result;
}
我做错了什么?
【问题讨论】:
-
你试过这个吗? apify/web-scraper
标签: javascript web-scraping screen-scraping puppeteer apify