【发布时间】:2014-12-22 04:49:19
【问题描述】:
我在处理字符编码时遇到了困难。我正在尝试抓取以下网址:
http://www.google.com/movies?near=Montreal&date=0
我的代码如下所示:
var http = require('http');
var url = require('url');
var Iconv = require('iconv').Iconv;
var location = 'montreal';
var googleMovies = url.parse("http://www.google.com/movies?near=" + location);
var req = http.request(googleMovies, function(response) {
var str = '';
response.on('data', function(chunk) {
str += chunk;
});
response.on('end', function() {
var iconv = new Iconv('latin1', 'UTF-8');
str = iconv.convert(str).toString();
console.log(str);
});
});
req.end()
我第一次尝试不使用:
var iconv = new Iconv('latin1', 'UTF-8');
str = iconv.convert(str).toString();
但这导致了 � 字符。
我已经测试了本页上面列出的源代码:
http://nlp.fi.muni.cz/projects/chared/
它似乎将其检测为 latin1,但情况可能是错误的。
【问题讨论】:
标签: node.js character-encoding