【发布时间】:2016-09-10 11:35:52
【问题描述】:
我目前正在尝试使用 Powershell 从特定站点抓取链接页面。已经敲定了当前代码的变体,但基本相同。
我正在尝试获取搜索 google 搜索结果的 URL。我添加了下面的屏幕截图来解释我希望抓住什么。
到目前为止,我有以下代码将文本转换为成功的搜索并且按预期工作。但是当使用 Invoke-WebRequest 调用时,我没有得到任何有意义的结果。当使用带有链接的浏览器时,它会成功运行
function Get-GoogleSEQueryString
{
param([string[]] $Query)
Add-Type -AssemblyName System.Web # To get UrlEncode()
$QueryString = ($Query | %{ [Web.HttpUtility]::UrlEncode($_)}) -join '+'
# Return the query string
$QueryString
}
$SearchString = "Requiem for an American Dream"
$QueryString = Get-GoogleSEQueryString $SearchString
$url = "http://www.google.com.au/?gfe_rd=cr&ei=ZuzTV_v6B7Du8weC8qsY#q="+$QueryString+"+site:IMDB.com"
#(Invoke-WebRequest -Uri $url).links | Where-Object {$_.href -like "http*"}
$t = Invoke-WebRequest -uri $url
$t.AllElements | Where {$_.innerhtml -like '*=*'} |Sort { $_.InnerHtml.Length } | Out-GridView
有人可以帮忙解决这个问题吗?
【问题讨论】:
-
你实际上没有说问题是什么? 但是当使用 Invoke-WebRequest 调用时.....
-
Google 页面是动态填充的,因此响应中不包含任何有用的信息,您需要使用 InternetExplorer.Application,这样做的示例很多。或者使用 API 切换到不同的搜索引擎。
-
你可能想看看微软认知服务microsoft.com/cognitive-services/en-us/apis
-
或者你也可以像 Fiddler 一样检查实际的请求序列并在 PoSh 中重现它/所有的标头、UA 等/
标签: powershell scrape web-content