【发布时间】:2012-02-03 12:53:08
【问题描述】:
我的任务是使用 Java 从 url 中检索 html 字符串。
我知道如何使用 HttpUrlConnection 和 InputStream 来获取字符串。
但是,我有一些页面的编码问题。
如果某些页面有不同的编码(例如,GB2312),而不是 UTF8,我得到的字符串只是任意字符或问号。
谁能告诉我如何解决这个问题?
谢谢
以下是我从 url 下载 html 的代码。
private String downloadHtml(String urlString) {
URL url = null;
InputStream inStr = null;
StringBuffer buffer = new StringBuffer();
try {
url = new URL(urlString);
HttpURLConnection conn = (HttpURLConnection) url.openConnection(); // Cast shouldn't fail
HttpURLConnection.setFollowRedirects(true);
// allow both GZip and Deflate (ZLib) encodings
//conn.setRequestProperty("Accept-Encoding", "gzip, deflate");
String encoding = conn.getContentEncoding();
inStr = null;
// create the appropriate stream wrapper based on
// the encoding type
if (encoding != null && encoding.equalsIgnoreCase("gzip")) {
inStr = new GZIPInputStream(conn.getInputStream());
} else if (encoding != null && encoding.equalsIgnoreCase("deflate")) {
inStr = new InflaterInputStream(conn.getInputStream(),
new Inflater(true));
} else {
inStr = conn.getInputStream();
}
int ptr = 0;
InputStreamReader inStrReader = new InputStreamReader(inStr, Charset.forName("GB2312"));
while ((ptr = inStrReader.read()) != -1) {
buffer.append((char)ptr);
}
inStrReader.close();
conn.disconnect();
}
catch(Exception e) {
e.printStackTrace();
}
finally {
if (inStr != null)
try {
inStr.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
return buffer.toString();
}
【问题讨论】:
标签: java html string encoding httpurlconnection