【发布时间】:2014-05-20 10:18:24
【问题描述】:
我正在浏览一个网站,其网页的网址是尼泊尔语,即非英文字体。我如何为任何蜘蛛提供 start_urls (我为此目的使用了scrapy)?有什么编码技术吗?从浏览器直接复制粘贴网址有机会吗?
更新: 而且我需要进一步解析我在某些网页上获得的链接。当然,这些链接也是非英语的。 谢谢...
【问题讨论】:
-
哪个版本的 Python?您是否真的尝试过复制和粘贴网址?
-
2.7 版。是的,我尝试过复制粘贴,但它似乎不起作用。但我不确定。我也更新了我的问题。谢谢
-
URL 以 UTF8 编码,例如参见 Url decode UTF-8 in Python。您的尼泊尔语网址也不例外。
-
对我来说,几乎总是@MartijnPieters。 :-) 谢谢。我会调查的。
-
现在在将获得的链接分配给 item['link'] 时,我得到以下信息: 'Request' object does not support item assignment 与非英语网址有什么关系吗? @jonrsharpe
标签: python url encoding scrapy screen-scraping