【问题标题】:Code is returning the 0 Result instead of First search Link代码返回 0 结果而不是第一个搜索链接
【发布时间】:2021-12-01 20:13:39
【问题描述】:

我一直在使用下面的代码,它除了 0 results 之外什么都不返回,而它应该将第一个搜索结果粘贴到 B 列中。

任何帮助和解决方案将不胜感激,为什么代码不起作用。

A 列中的数据

3P Pty Limited
BakPhysio
BD Rowa
BHC's Can View
Blooms The Chemist
5Odyassist Health And Wellness
Care Pharmaceuticals

代码

Sub XMLHTTP_Count()
    Dim url As String, lastRow As Long
    Dim XMLHTTP As Object, html As Object
    Dim start_time As Date
    Dim end_time As Date

    lastRow = Range("A" & Rows.Count).End(xlUp).row

    Dim cookie As String
    Dim result_cookie As String

    start_time = Time
    Debug.Print "start_time:" & start_time

    For i = 2 To lastRow

        url = "https://www.google.co.in/search?q=" & Cells(i, 1) & "&rnd=" & WorksheetFunction.RandBetween(1, 10000)

        Set XMLHTTP = CreateObject("MSXML2.XMLHTTP")
        XMLHTTP.Open "GET", url, False
        XMLHTTP.setRequestHeader "Content-Type", "text/xml"
        XMLHTTP.setRequestHeader "User-Agent", "Mozilla/5.0 (Windows NT 6.1; rv:25.0) Gecko/20100101 Firefox/25.0"
        XMLHTTP.send

        Set html = CreateObject("htmlfile")
        html.body.innerHTML = XMLHTTP.responseText

    If html.getElementById("resultStats") Is Nothing Then
        str_text = "0 Results"
    Else
        str_text = html.getElementById("resultStats").innerText
    End If
        Cells(i, 2) = str_text
        DoEvents
    Next

    end_time = Time
    Debug.Print "end_time:" & end_time

    Debug.Print "done" & "Time taken : " & DateDiff("n", start_time, end_time)
    MsgBox "done" & "Time taken : " & DateDiff("n", start_time, end_time)
End Sub

【问题讨论】:

  • 确保您在 * 中提供的代码可以编译。这很重要。
  • 这可能是一个重复的问题,看看这个answer 并擅长于您的需要。你不能真正使用 xmlhttp 来获取谷歌搜索结果。
  • 我已经尝试过这段代码,然后它才打开Internet Explorer 中的第一个值搜索结果并且什么都不做。窗口保持打开状态,当我关闭Internet Explorer 窗口时,错误出现在imgur.com/OSBHIjP 线上Do While TypeName(.document.getElementById("res")) = "Null":@Raymond Wu

标签: excel vba web-scraping


【解决方案1】:
  1. Google 不仅仅是一个普通的网站,它还具有很好的保护功能,可以防止不必要的网络抓取。
  2. 尽可能多地调试,看看html.body.innerHTML 返回什么。
  3. 如果你做过,你就会明白第 1 点的原因。

看看下面的代码。它打印html.body.innerHTML 的数据并将其写入第三列。此外,它还为您提供来自 google 的响应的 html.body.innerhtml 中的第一个 <LI>

Sub XmlHttpCount()
    
    Dim xmlHttp As Object
    Dim html As Object
    Dim i As Long
    Dim someText As String
    Dim url As String
    
    For i = 1 To 7
        url = "https://google.co.in/search?q=" & Cells(i, 1)

        Set xmlHttp = CreateObject("MSXML2.ServerXMLHTTP.6.0")
        xmlHttp.Open "GET", url, False
        xmlHttp.setRequestHeader "Content-Type", "text/xml"
        xmlHttp.setRequestHeader "User-Agent", "Mozilla/5.0 (Windows NT 6.1; rv:25.0) Gecko/20100101 Firefox/25.0"
        xmlHttp.send

        Set html = CreateObject("htmlfile")
        html.body.innerhtml = xmlHttp.responseText
        
        Debug.Print html.body.innerhtml
        Cells(i, 3) = html.body.innerhtml
        
        
    If html.GetElementsByTagName("LI") Is Nothing Then
        someText = "0 Results"
    Else
        someText = html.GetElementsByTagName("LI")(0).InnerText
    End If
        Cells(i, 2) = someText
    Next
    
    Debug.Print "END"
    
End Sub

如果你想做一些真正有效的事情,然后尝试包含浏览器对象并在尝试下一个循环之前等待几秒钟,谷歌可能会做出更好的响应。

【讨论】:

  • 感谢您回答@Vityata,您对它的定义非常好。但我想要的是这里imgur.com/LPA6UqA 我只想要column B 中的第一个搜索结果Link 我从一个星期以来一直在苦苦挣扎,但无法使其正确。如果您也可以为此创建解决方案,我将不胜感激。我只是 VBA 的初学者,不是进行这些更改的专家。我将非常感谢您的帮助。 @Vityata
最近更新 更多