【发布时间】:2015-01-14 15:32:39
【问题描述】:
我有一个在不同网站上运行的网络爬虫(本例为中文)。
现在,当我检索数据并将其显示在我的网站上时,汉字最终都变成了垃圾。好吧,我阅读了有关字符编码的信息,我发现 UTF-8 通常是最好的编码。
现在问题是当我使用 UTF-8 时 - 从 WEBSITE-1 抓取的数据显示正确,但 WEBSITE-2 却没有。
对于 WEBSITE-2,字符编码 gb18030 工作正常。
我的问题是,有没有办法知道网站的字符编码,以便我可以构建通用解决方案?我的意思是我可以在知道使用什么字符编码的本地网站上呈现一个页面。这样我就可以在后端编码,而不必在前端真正担心打开页面需要什么编码。
我现在有两页,一页是 UTF-8 汉字,一页是 GB18030 汉字。
【问题讨论】:
-
你需要检测页面的编码是什么,在 HTML5 规范中有一个算法
标签: c# asp.net utf-8 globalization gbk