【问题标题】:Unrecognizable character in C++C ++中无法识别的字符
【发布时间】:2014-03-24 15:12:54
【问题描述】:

我正在编写一个应用程序,将 .txt 文件转换为词袋以进行文本挖掘。但是,即使我的应用程序过滤了非字母字符,我也会不断收到非字母字符(如 ¾ 和 =):

我的向量通过一个循环,该循环擦除以字符开头的字符串,该字符的 ASCII 值不是 [65,90](从 A 到 Z)。这些字符也通过了 isalpha 测试。这些字符似乎无法与字母字符区分开来。

我不知道如何从我的字符串向量中动态删除这些奇怪的字符串。我需要帮助。

我的代码,因为它对于论坛帖子来说很长。

我的这部分代码未能摆脱以非字母字符开头的字符串:

for (unsigned int i=0; i<token24.size();i++){ 
string temp = token24[i]; 
char c = temp[0];
 if(c>90||c<65){ 
token24.erase(token24.begin()+i);
 i--;
 } 
}

我也试过条件

 (c>'Z'||c<'A')

【问题讨论】:

  • 您至少需要包含相关的代码部分;查看您的代码未正确处理的文本示例也将有所帮助。
  • 您应该展示一些真实的代码并解释您的程序的逻辑,例如用于读取文件的编码是什么以及如何检测到它。
  • 我的这部分代码无法摆脱以非字母字符开头的字符串: for (unsigned int i=0; i90||c
  • 请将代码放在您的帖子中,而不是在评论中。

标签: c++ string parsing char ascii


【解决方案1】:

像您这样的程序中最重要的部分是处理 .txt 文件的内容。这样的文件可以是 Unicode 文本,然后又可以使用 UTF-8 进行编码。那么,单字节只能是字符的一部分,而不是字符本身。您确定以正确的方式加载(并可能解码)文件吗?

另外,你不认为小写字母也是有效的字母字符吗?

【讨论】:

  • 我提取的文本文件是来自 4chan 的帖子,是我通过网站的 API 自动提取的。我已将所有内容都转换为大写,因为我对单词出现的频率感兴趣。我对字符代码了解不多,但我必须学习它才能解决这个问题。
【解决方案2】:

您总是可以用空格替换字符串,但这只是处理特定字符的特定情况,而不是更大的问题。

在我们看到代码之前,我认为我们无法为您做任何事情。

【讨论】:

  • 这并不是真正的答案;正如您所指出的,还没有足够的信息来回答它。这应该作为评论发布。
  • @JoshuaTaylor,并非我们所有人都有代表级别。评论。我确实提供了至少部分解决方案。
  • 哦,没看代表水平……嗯,坚持住,你很快就会达到 50 代表(建议编辑是到达那里的快速方法,如果你在快点)。
  • 没问题,约书亚。感谢您的提示。
猜你喜欢
  • 2013-04-29
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-06-25
  • 1970-01-01
  • 1970-01-01
  • 2015-10-03
  • 1970-01-01
相关资源
最近更新 更多