【发布时间】:2012-09-17 21:18:48
【问题描述】:
我正在从这个website 中提取数据。我确实为我的 xml 使用了 UTF-8,与网站的字符集相同,所以我真的不明白为什么数据编码不正确。
例如,从this page 我得到Astrit Ajdarević 而不是Astrit Ajdarević,以及Standard Liège 而不是Standard Liège 等等......
详情:如何提取?
好吧,我正在使用WebHarvest 将 html 页面在解析之前转换为有效的 xml。
因此,对于上面的示例,我使用//div[2]/div[1]/div[2]/div[2]/div[2]/table/tbody/tr[1]/td[2]/text() 获取Astrit Ajdarević 和//*[@id="site"]//div[contains(./div/h2, 'Spieler')]//tbody/tr[2]/td[position()=3] 获取Standard Liège...
我希望这能回答你的问题:)
解决方案:
<html-to-xml>
<http url="${link}" charset="utf-8"/>
</html-to-xml>
感谢 mactwixs
【问题讨论】:
-
您的问题缺少重要的细节。你如何进行?
-
我添加了一些细节。我希望它有助于澄清问题...
-
您如何看待 Astrit AjdareviÄ ?观众能理解哪些字符
-
我使用带有给定 xpath 的脚本来获取我的数据并将其存储在 xml 中...当我打开我的 xml(使用 sublime 或 gedit)时,我看到
Astrit AjdareviÄ&#135;!
标签: xml encoding utf-8 xquery non-ascii-characters