从 Boost::Tokenizer 中删除重复项？答案

【问题标题】：Removing duplicates from Boost::Tokenizer?从 Boost::Tokenizer 中删除重复项？
【发布时间】：2012-11-23 12:06:50
【问题描述】：

我正在尝试拆分一个逗号分隔的字符串，然后对每个令牌执行一些操作，但忽略重复项，等等。大致如下：

int main(int, char**)
{
   string text = "token, test   string";

  char_separator<char> sep(", ");
  tokenizer< char_separator<char> > tokens(text, sep);
  // remove duplicates from tokens?
  BOOST_FOREACH (const string& t, tokens) {
    cout << t << "." << endl;
  }
}

有没有办法在 boost::tokenizer 上做到这一点？

我知道我可以使用 boost::split 和 std::unique 来解决这个问题，但我想知道是否也有办法使用分词器来解决这个问题。

【问题讨论】：

std::unique 仅适用于排序范围，您的输入是否始终排序？（如果没有，您是否有兴趣过滤所有重复项，或者只过滤彼此相同的相邻元素）
我很确定答案是否定的——tokenizer 不会跟踪以前的 token，所以它无法知道当前的 token 是新的还是重复以前的。跨度>
@Mankarse：你说得对，我在 boost::split 案例中对 std::sort 进行了额外调用。

标签： c++ boost boost-tokenizer

【解决方案1】：

boost.tokenizer 可以做很多很酷的事情，但它不能做到这一点，答案确实是“不”。

如果您只想删除相邻的重复项，boost.range 可以帮助使其看起来更简洁：

#include <iostream>
#include <string>
#include <boost/range/adaptor/uniqued.hpp>
#include <boost/foreach.hpp>
#include <boost/tokenizer.hpp>

using namespace boost;
using namespace boost::adaptors;
int main()
{
    std::string text = "token, test   string test, test   test";

    char_separator<char> sep(", ");
    tokenizer< char_separator<char> > tokens(text, sep);
    BOOST_FOREACH (const std::string& t, tokens | uniqued ) {
        std::cout << t << "." << '\n';
    }
}

打印出来：

token.
test.
string.
test.

为了仅对全局唯一令牌执行某些操作，您需要以一种或另一种方式存储状态。最简单的解决方案可能是中间集：

char_separator<char> sep(", ");
tokenizer< char_separator<char> > tokens(text, sep);
std::set<std::string> unique_tokens(tokens.begin(), tokens.end());
BOOST_FOREACH (const std::string& t, unique_tokens) {
        std::cout << t << "." << '\n';
}

【讨论】：