【问题标题】:What are these mystery characters这些神秘人物是什么
【发布时间】:2015-11-23 17:15:21
【问题描述】:

这可能不是一个编程问题,但我在 Google 上找不到任何答案。

我目前有一些文本挖掘任务并进行数据清理。 我经常遇到一些不可读的神秘字符。

这些字符是:&#x003b2&#x00025 等等。

所有这些都以特定的模式开始,因此我相信它们代表了一些 Excel 不可读的编码。

有什么方法可以转换它们吗?我需要知道这些字符的确切含义才能知道是否应该删除它们。

【问题讨论】:

  • 我认为这是一种编码。数据挖掘任务和Excel有什么关系?有点不清楚你想做什么。
  • 我用谷歌搜索了这些代码,谷歌告诉我它们是什么......?你试过用谷歌搜索代码吗?

标签: java text character-encoding mining


【解决方案1】:

这些可能是 Unicode 字符,以十六进制格式编写为 HTML 实体。

【讨论】:

  • 我不确定 Unicode,但是百分号和 beta 字符在我的数据中非常有意义,因为这些字符总是在一些数字之后。
【解决方案2】:

它们看起来像格式化的十六进制值(如果您使用字符,则可能是 unicode)。 您可能知道它们为 0x003B20x00025,或许多其他方式。

【讨论】: