【发布时间】:2011-11-30 20:25:39
【问题描述】:
我正在使用:Module: Request -- Simplified HTTP request method 抓取带有重音字符 á é ó ú ê ã 等的网页。
我已经尝试过encoding: utf-8,但没有成功。我仍然在结果中得到这个 ��� 个字符。
request.get({
uri: url,
encoding: 'utf-8'
// ...
有什么配置可以解决吗?
我不知道这是否是一个问题,但我filled one for this module。还没有答案。 :/
【问题讨论】:
-
嗯,网页是用什么编码写的? utf8?异物?
-
我在问题中回答了你 (github.com/mikeal/request/issues/118#issuecomment-2965894)。我不知道为什么,但我使用“二进制”进行编码并且它有效。
-
对我来说也是如此,只需添加
encoding: binary效果很好 -
@renatoargh,在该网站更改编码之前它会很好用。之后它会突然破裂。请改用 iconv,并根据内容类型进行适当的解码,除非您正在做一次性工作并且不在乎。
-
@alex 我去看看!这是一项重要的工作,谢谢
标签: node.js request web-scraping