【发布时间】:2014-09-19 03:25:35
【问题描述】:
我想从 Google 图片搜索中收集图片。但是,我经常收到错误通知。
例如,URL https://www.google.com/search?q=banana&hl=en&gws_rd=ssl&tbm=isch 在我的浏览器中很好,但在 web 收获中它报告说:对实体“gws_rd”的引用必须以 ';' 结尾分隔符。
我猜 '&' 是 webharvest 中的一个特殊字符,但我找不到有关它的信息。你能弄清楚为什么吗?
这是代码:
<var-def name="search" overwrite="false">banana</var-def>
<var-def name="url"><template>http://images.google.com/images?q=${search}&hl=en</template></var-def>
<var-def name="xml">
<html-to-xml>
<http url="${url}"/>
</html-to-xml>
</var-def>
<var-def name="largeImgUrl">
<xpath expression="//*[@id='irc_cc']/div[4]/div[1]/div/div[2]/div[1]/a/img">
<var name="xml"/>
</xpath>
</var-def>
【问题讨论】:
-
您是否尝试将 & 符号更改为 & ?
-
谢谢,但你的意思是把网址改成google.com.hk/…?它可以工作,但是我在 web-harvest 中获得的 html 与我浏览器中的不同。
标签: web web-scraping google-crawlers webharvest