同步 push_back 和 std::thread答案

【问题标题】：Synchronise push_back and std::thread同步 push_back 和 std::thread
【发布时间】：2015-03-09 08:57:23
【问题描述】：

我的代码

void build(std::vector<RKD <DivisionSpace> >& roots, ...) {
  try {
    // using a local lock_guard to lock mtx guarantees unlocking on destruction / exception:
    std::lock_guard<std::mutex> lck (mtx);
    roots.push_back(RKD<DivisionSpace>(...));
  }
  catch (const std::bad_alloc&) {
    std::cout << "[exception caught when constructing tree]\n";
    return;
  }
}

现在，实际的工作应该是串行的，而不是并行的。

RKD 的构造函数可以与RKD 的其他构造函数并行运行。但是，将对象推回std::Vector 是一个临界区，对吧？

我要构建的对象的数量是已知的。实际上，它将在 [2, 16] 范围内。理论上它可以是任何正数。

另外，我对它们插入容器的顺序不感兴趣。

所以我可以这样做：

RKD tree = RKD(...);
mutex_lock(...);
roots.push_back(tree);

但是这意味着复制，不是吗？

我应该怎么做才能让我的代码并行？

因为this 的回答，我决定使用锁（而不仅仅是互斥锁）。

【问题讨论】：

您正在更新共享资源（您的 std::vector）。它们不是线程安全的。强制锁定。根据RKD::RKD 的复杂性，您还可以从锁定部分外部的RKD rkd = RKD(...); 和锁定部分内部的roots.emplace_back(std::move(rkd)) 中挤出一些性能，但前提是您的类已充分编码以利用移动语义（值得研究如果RKD::RKD 真的像您所说的那样昂贵）。
我并没有真正回答这个问题。真正的并行只有在无锁容器的情况下才是合理的（并且只有当你认真确认这个锁是一个问题时才值得研究，因为它不是一个微不足道的主题并且非常容易出错）。我只是提到了这样一个事实，即如果您将对象设置为对移动友好（顺便说一句，请确保您的 move-ctor 是 noexcept），您可以避免执行 copy-ctor。
如果你从一开始就知道你需要多少个 RKD，RKD 可以简单地构造并且它的构造没有副作用，你可以提前分配向量，然后运行就地构造甚至复制到指定的内存位置 - 对向量元素的并行访问不需要锁定，只有在调整大小的情况下才需要锁定（或者如果您从多个线程写入同一内存）
也许说的很明显，但是如果构造一个 RKD 比较快，而且数量比较少，那么多线程解决方案会因为线程创建/加入和锁定的开销而变慢如果您决定需要锁定。如果多线程在您的情况下有意义，并且 sizeof(RKD) 相对于缓存行较小，则考虑让每个线程构造向量的顺序元素，而不是将它们交错放置以避免错误共享en.wikipedia.org/wiki/False_sharing。
@G.Samaras 是的，5gon12eder 的答案特别显示了一个交错的解决方案，并指出由于缓存失效（不使用术语错误共享）而不是最佳的，然后显示了一个顺序分区的解决方案......我有第一眼就错过了答案。您的代码是否会从并行构造中受益的问题仍有待您回答。会更快吗？有关系吗？额外的复杂性是否合理？只有你能回答这个问题。如果不出意外，这是一个很好的学习机会，而且有很多话要说。

标签： c++ multithreading c++11 vector synchronization

【解决方案1】：

Tomasz Lewowski 在他的评论中提出并且我已经扩展的建议非常简单，并且基于以下观察：std::vector 上的 push_back 可能需要重新分配后备存储并复制 (或者，最好是移动）元素。这构成了需要同步的关键部分。

对于下一个示例，假设我们想要一个向量填充前 12 个素数，但我们不关心它们的顺序。（我刚刚在这里对数字进行了硬编码，但假设它们是通过一些昂贵的计算获得的，这些计算可以并行进行。）在以下场景中存在危险的竞争条件。

std::vector<int> numbers {};  // an empty vector

// thread A             // thread B             // thread C

numbers.push_back( 2);  numbers.push_back(11);  numbers.push_back(23);
numbers.push_back( 3);  numbers.push_back(13);  numbers.push_back(27);
numbers.push_back( 5);  numbers.push_back(17);  numbers.push_back(29);
numbers.push_back( 7);  numbers.push_back(19);  numbers.push_back(31);

push_back 还有另一个问题。如果两个线程同时调用它，它们都将尝试在同一索引处构造一个对象，这可能会带来灾难性的后果。因此，在分叉线程之前，reserve(n) 无法解决问题。

但是，由于您事先知道元素的数量，您可以简单地将它们分配到 std::vector 内的特定位置，而无需更改其大小。如果不更改大小，则没有临界区。因此，以下场景中不存在比赛。

std::vector<int> numbers(12);  // 12 elements initialized with 0

// thread A          // thread B          // thread C

numbers[ 0] =  2;    numbers[ 1] =  3;    numbers[ 2] =  5;
numbers[ 3] =  7;    numbers[ 4] = 11;    numbers[ 5] = 13;
numbers[ 6] = 17;    numbers[ 7] = 19;    numbers[ 8] = 23;
numbers[ 9] = 29;    numbers[10] = 31;    numbers[11] = 37;

当然，如果两个线程都尝试写入相同索引，那么竞争将再次出现。幸运的是，在实践中防止这种情况并不困难。如果你的向量有 n 个元素并且你有 p 个线程，线程 i 只写入元素 [i n / p, (i + 1) n / p)。请注意，仅当 j mod p = i 因为它会导致更少的缓存失效。所以上面例子中的访问模式是次优的，最好是这样。

std::vector<int> numbers(12);  // 12 elements initialized with 0

// thread A          // thread B          // thread C

numbers[ 0] =  2;    numbers[ 4] = 11;    numbers[ 8] = 23;
numbers[ 1] =  3;    numbers[ 5] = 13;    numbers[ 9] = 29;
numbers[ 2] =  5;    numbers[ 6] = 17;    numbers[10] = 31;
numbers[ 3] =  7;    numbers[ 7] = 19;    numbers[11] = 37;

到目前为止一切顺利。但是如果你没有std::vector<int> 而是std::vector<Foo> 怎么办？如果Foo没有默认构造函数，那么

std::vector<Foo> numbers(10);

将无效。即使它有一个，创建许多昂贵的默认构造对象只是为了尽快重新分配它们而没有检索到值，这将是令人发指的。

当然，大多数设计良好的类都应该有一个非常便宜的默认构造函数。例如，std::string 默认构造为不需要内存分配的空字符串。一个好的实现会将默认构造字符串的成本降低到只是

std::memset(this, 0, sizeof(std::string));

如果编译器足够聪明，可以判断出我们正在分配和初始化整个 std::vector<std::string>(n)，它也许可以将其进一步优化为一次调用

std::calloc(n, sizeof(std::string));

因此，如果您有任何机会可以使Foo 成为廉价的默认构造和可分配，那么您就完成了。但是，如果这很困难，您可以通过将其移至堆来避免该问题。智能指针可以很便宜地默认构造，所以

std::vector<std::unique_ptr<Foo>> foos(n);

最终会减少到一个

std::calloc(n, sizeof(std::unique_ptr<Foo>));

没有你对Foo 做任何事情。当然，这种便利是以为每个元素动态分配内存为代价的。

std::vector<std::unique_ptr<Foo>> foos(n);

// thread A                    // thread B                           // thread C

foos[0].reset(new Foo {...});  foos[n / 3 + 0].reset(new Foo {...});  foos[2 * n / 3 + 0].reset(new Foo {...});
foos[1].reset(new Foo {...});  foos[n / 3 + 1].reset(new Foo {...});  foos[2 * n / 3 + 1].reset(new Foo {...});
foos[2].reset(new Foo {...});  foos[n / 3 + 2].reset(new Foo {...});  foos[2 * n / 3 + 2].reset(new Foo {...});
...                            ...                                    ...

这可能没有您想象的那么糟糕，因为虽然动态内存分配不是免费的，但 sizeof 和 std::unique_ptr 非常小，因此如果 sizeof(Foo) 很大，您将获得更紧凑向量的好处迭代速度更快。当然，这完全取决于您打算如何使用您的数据。

如果您事先不知道元素的确切数量，或者担心会弄乱索引，还有另一种方法可以做到这一点：让每个线程填充自己的向量并在最后合并它们。继续素数的例子，我们得到了这个。

std::vector<int> numbersA {};  // private store for thread A
std::vector<int> numbersB {};  // private store for thread B
std::vector<int> numbersC {};  // private store for thread C

// thread A              // thread B              // thread C

numbersA.push_back( 2);  numbersB.push_back(11);  numbersC.push_back(23);
numbersA.push_back( 3);  numbersB.push_back(13);  numbersC.push_back(27);
numbersA.push_back( 5);  numbersB.push_back(17);  numbersC.push_back(29);
numbersA.push_back( 7);  numbersB.push_back(21);  numbersC.push_back(31);

// Back on the main thread after A, B and C are joined:

std::vector<int> numbers(
    numbersA.size() + numbersB.size() + numbersC.size());
auto pos = numbers.begin();
pos = std::move(numbersA.begin(), numbersA.end(), pos);
pos = std::move(numbersB.begin(), numbersB.end(), pos);
pos = std::move(numbersC.begin(), numbersC.end(), pos);
assert(pos == numbers.end());

// Now dispose of numbersA, numbersB and numbersC as soon as possible
// in order to release their no longer needed memory.

（上面代码中使用的std::move是the one from the algorithms library。）

这种方法具有最理想的内存访问模式，因为numbersA、numbersB 和numbersC 正在写入完全独立分配的内存。当然，我们必须做额外的顺序工作来加入中间结果。请注意，效率在很大程度上取决于这样一个事实，即与查找/创建元素的成本相比，移动分配元素的成本可以忽略不计。至少如上所述，代码还假定您的类型具有廉价的默认构造函数。当然，如果您的类型不是这种情况，您可以再次使用智能指针。

我希望这为您提供了足够的想法来优化您的问题。

如果您以前从未使用过智能指针，请查看“RAII and smart pointers in C++” 并查看标准库的dynamic memory management library。上面显示的技术当然也适用于std::vector<Foo *>，但我们不再在现代 C++ 中使用像这样的资源拥有原始指针。

【讨论】：

不错的答案，肯定会赞成（达到限制）。与你的相比，你觉得 sehe 的答案怎么样？
嗯，它的级别更低，因此您更有可能将自己射到脚上，但它可能会给您带来一些额外的性能。无论如何，差异很小，因此您可以尝试更简单的std::vector 方法，如果它不符合您对性能的期望，请切换到原始内存。这样你不会做太多额外的工作，因为线程插入到哪个位置的逻辑不会改变。请务必衡量性能。
我明白了。关于索引的参数，p和n的值不一样？
这是您的决定，p = n 将是一个特例。正如所写，我刚刚使用 n 作为您想要创建的对象的数量，并使用 p 作为您想要用来执行此操作的线程数。所以选择从 1 到 n 的 p。这是您必须做出的工程决策。如果有疑问，可以使用 p = min(n, P) 其中 P 是您的 CPU 数量有 (std::thread::hardware_concurrency)，或者让用户通过选项选择它。
请注意 - 请注意什么是虚假共享，因为您可能会感到非常惊讶。仅仅因为从不同的线程分配给 vec[1] 和 vec[2] 是安全的，但这并不意味着这样做是有效的，或者没有发生锁定。想想两个内核如何写入同一个高速缓存行确保一致的结果......（我现在看到下面的答案中提到了这一点；对不起，噪音）

【解决方案2】：

问题似乎是您的构造器做了很多工作，这打破了关于构造和容器插入的各种库约定。

只需通过将插入与创建分离来修复它。

以下代码非常类似于@5gon12eder 建议的代码，只是它不会“强制”您更改对象位置。

在我的小演示中

我们使用一个真正未初始化的原始内存区域（这对于向量是不可能的，其中插入意味着初始化），所以而不是“规范”

std::array<RKD, 500> rkd_buffer; // OR
std::vector<RKD> rkd_buffer(500); // OR even
std::unique_ptr<RKD[]> rkd_buffer(new RKD[500]);

我们将使用自定义组合：

std::unique_ptr<RKD[N], decltype(&::free)> rkd_buffer(
    static_cast<RKD(*)[N]>(::malloc(sizeof(RKD) * N)),
    ::free
);

然后我们创建几个线程（示例中为 5 个）来构造所有元素。这些项目只是就地构造，它们各自的析构函数将在程序退出时调用
因此，在 rkd_buffer 超出范围之前所有项目都已完全初始化至关重要（join 确保了这一点）。
线程可以通过不同的方式同步：构造可以例如通过工作队列分派到线程池，其中条件变量、承诺、线程屏障（来自 boost）甚至只是原子共享计数器都可以用于协调。

所有这些选择本质上都与让构造并行运行的任务无关，所以我将把它留给你的想象（或其他 SO 答案）

Live On Coliru

struct RKD {
    RKD() { this_thread::sleep_for(chrono::milliseconds(rand() % 100)); } // expensive
};

int main() {
    static const int N         = 500;
    static const int ChunkSize = 100;
    std::unique_ptr<RKD[N], decltype(&::free)> rkd_buffer(static_cast<RKD(*)[N]>(::malloc(sizeof(RKD) * N)), ::free);

    vector<thread> group;
    for (int chunk = 0; chunk < N/ChunkSize; chunk += ChunkSize)
        group.emplace_back([&] { 
            for (int i=chunk * ChunkSize; i<(ChunkSize + chunk*ChunkSize); ++i)
                new (rkd_buffer.get() + i) RKD;
        });

    for (auto& t:group) if (t.joinable()) t.join();

    // we are responsible for destructing, since we also took responsibility for construction
    for (RKD& v : *rkd_buffer)
        v.~RKD();
}

您可以看到有 5 个线程划分 500 个构造。每个构造（平均）需要约 50 毫秒，因此总时间应为 100*50 毫秒 ~= 5 秒。这实际上正是发生的情况：

real    0m5.193s
user    0m0.004s
sys 0m0.000s

【讨论】：

您的回答（感谢您抽出宝贵时间撰写，我会尽可能地投票）是否与 amdn 在我的问题（最后一条评论）下作为评论发布的内容相关？另外，您能否解释一下我们在std::unique_ptr<RKD[N], dec... 中所做的事情？我还看到了 malloc 和 free，而不是 C++ 功能（实际上在后台调用了 C 功能..）。我可以复制代码，但我也想学习。我的意思是因为这个问题，我学习了移动语义、交换复制习语和更多的东西！我可以变得贪婪并学习一（或两）个更多吗？ :D
它正在创建一个具有唯一所有权语义和自定义删除器的智能指针。这在其他答案中有所说明。
不，我并没有特别提到虚假共享，尽管循环分块或调度是在考虑到这种性能问题的情况下完成的
@G.Samaras，我同意这种设计避免虚假分享并已投票。
@G.Samaras 确实我昨天忘记重新添加破坏了。现在解决了。 免责声明 此代码仅作为性能优化有意义。考虑重新组织您的代码，因为处理未初始化的缓冲区很容易出错。也许，改为使用std::vector<boost::optional<RKD> >。 优化前的配置文件！