当 .stream().parallel() 做同样的事情时，为什么 Collection.parallelStream() 存在？答案

【问题标题】：Why does Collection.parallelStream() exist when .stream().parallel() does the same thing?当 .stream().parallel() 做同样的事情时，为什么 Collection.parallelStream() 存在？
【发布时间】：2014-08-27 11:57:36
【问题描述】：

在 Java 8 中，Collection 接口扩展了两个返回 Stream<E> 的方法：stream()，它返回一个顺序流，parallelStream()，它返回一个可能并行的流。 Stream 本身也有一个 parallel() 方法，该方法返回一个等效的并行流（将当前流变为并行或创建一个新流）。

重复有明显的缺点：

令人困惑。一个问题问whether calling both parallelStream().parallel() is necessary to be sure the stream is parallel，因为 parallelStream() 可能会返回一个顺序流。如果无法保证，为什么parallelStream()存在？另一种方式也令人困惑——如果 parallelStream() 返回一个顺序流，可能是有原因的（例如，并行流是性能陷阱的固有顺序数据结构）； Stream.parallel() 应该为这样的流做什么？（parallel() 的规范不允许 UnsupportedOperationException。）
如果现有实现具有名称相似且返回类型不兼容的方法，则向接口添加方法可能会发生冲突。在 stream() 之外添加 parallelStream() 会使风险加倍，但收益甚微。（请注意，parallelStream() 曾一度被命名为 parallel()，但我不知道它是否被重命名以避免名称冲突或其他原因。）

为什么在调用 Collection.stream().parallel() 时存在 Collection.parallelStream() 做同样的事情？

【问题讨论】：

标签： java java-8 java-stream

【解决方案1】：

Collection.(parallelS|s)tream() 和 Stream 的 Javadocs 本身并没有回答这个问题，所以它在邮件列表中找到了理由。我浏览了 lambda-libs-spec-observers 档案，发现 one thread specifically about Collection.parallelStream() 和另一个线程涉及 java.util.Arrays should provide parallelStream() 是否匹配（或者实际上，是否应该删除它）。没有一劳永逸的结论，所以也许我错过了另一个列表中的某些内容，或者此事已在私下讨论中解决。（也许Brian Goetz，本次讨论的负责人之一，可以填补任何缺失的内容。）

参与者的观点很好，所以这个答案主要只是对相关引用的组织，在[括号]中进行了一些澄清，按重要性顺序排列（按照我的解释） .

parallelStream() 涵盖了一个非常常见的情况

Brian Goetz 在第一个线程中，解释了为什么 Collections.parallelStream() 足够有价值，即使在其他并行流工厂方法被删除后也可以保留：

我们确实没有每个[流工厂]都有明确的并行版本；我们做了最初，为了修剪 API 表面积，我们在从 API 中删除 20 多种方法的理论值得权衡 .intRange(...).parallel() 的表面恶心和性能成本。但是我们没有在 Collection 中做出这样的选择。

我们可以删除Collection.parallelStream()，也可以添加所有生成器的并行版本，否则我们无能为力保持原样。我认为所有的 API 设计都是合理的。

我有点喜欢现状，尽管它自相矛盾。代替有 2N 种流构造方法，我们有 N+1——但那额外的 1 涵盖了大量的案例，因为它被每个人继承收藏。所以我可以向自己证明为什么要使用额外的 1 方法是值得的，为什么接受不进一步的不一致是可以接受。

其他人不同意吗？ N+1 [Collections.parallelStream() only] 是这里的实际选择吗？或者我们应该去为了N 的纯度[依赖Stream.parallel()]？还是2N[所有工厂的并行版本]的便利性和一致性？或者是还有一些更好的 N+3 [Collections.parallelStream() 加上其他特殊情况]，对于其他一些特别选择的情况，我们要特别支持吗？

Brian Goetz在后面关于Arrays.parallelStream()的讨论中支持这个立场：

我还是很喜欢 Collection.parallelStream；它有巨大的可发现性优势，并提供相当大的 API 回报表面积——另一种方法，但在很多地方提供价值，因为 Collection 将是流源的一个非常常见的情况。

parallelStream() 性能更高

Brian Goetz:

直接版本 [parallelStream()] 性能更高，因为它需要更少的包装（到将流转换为并行流，您必须首先创建顺序流，然后将其状态的所有权转移到一个新的流。）

针对 Kevin Bourrillion 对效果是否显着的怀疑，Brian again：

取决于您计算的认真程度。道格计算单个物体并行操作途中的创建和虚拟调用，因为在你开始分叉之前，你站在 Amdahl 的错误一边法则——这是在你可以分叉之前发生的所有“串行分数” 任何工作，这将您的盈亏平衡门槛推得更远。所以得到快速并行操作的设置路径很有价值。

Doug Lea follows up，但对冲他的位置：

处理并行库支持的人需要一些态度调整这些事情。在即将成为典型的机器上，您浪费的每个周期设置并行性都会花费您说的 64 个周期。如果需要 64，你可能会有不同的反应创建对象以启动并行计算。

也就是说，我始终完全支持强制实施者为了更好的 API 而努力工作，只要 API 不排除有效的实施。所以如果杀 parallelStream 真的很重要，我们会想办法将stream().parallel() 转换为位翻转之类的。

确实，后面关于Arrays.parallelStream()takes notice of lower Stream.parallel() cost的讨论。

stream().parallel() 状态使未来复杂化

在讨论时，将流从顺序切换到并行并返回可能与其他流操作交错。 Brian Goetz, on behalf of Doug Lea，解释了为什么顺序/并行模式切换可能会使 Java 平台的未来开发变得复杂：

我会尽力解释原因：因为它（就像有状态的您也不喜欢的方法（排序，不同，限制）），请移步我们越来越远无法表达流管道传统数据并行结构的术语，这进一步限制了我们将它们直接映射到明天的计算基板的能力，无论是矢量处理器、FPGA、GPU 还是我们制作的任何东西。

Filter-map-reduce map[s] 非常干净地适用于各种并行计算基材； filter-parallel-map-sequential-sorted-limit-parallel-map-uniq-reduce 没有。

因此，这里的整个 API 设计体现了制作之间的许多紧张关系易于表达用户可能想要表达的事情，并且正在做以一种我们可以预见的方式以透明的成本快速实现模型。

此模式切换为removed after further discussion。在当前版本的库中，流管道是顺序的或并行的；最后一次致电sequential()/parallel() 获胜。除了回避状态问题之外，此更改还提高了使用 parallel() 从顺序流工厂设置并行管道的性能。

将parallelStream() 公开为一等公民可以提高程序员对库的认识，从而使他们编写出更好的代码

Brian Goetz again，作为对Tim Peierls's argument 的回应，Stream.parallel() 允许程序员在并行之前按顺序理解流：

我对这个顺序的价值有一点不同的看法直觉——我认为普遍的“顺序期望”是一个如果整个工作的最大挑战；人们一直带来他们不正确的顺序偏差，这导致他们做傻事诸如使用单元素数组作为“欺骗”“愚蠢”的一种方式编译器让他们捕获一个可变的本地，或使用 lambdas 映射将在计算（以非线程安全的方式），然后，当它指出他们在做什么，耸耸肩说“是的，但我没有做它是并行的。”

我们在设计上做了很多权衡来合并顺序和并行流。我相信，结果是一个干净的结果，并将增加图书馆在 10 多年内仍然有用的机会，但我没有特别喜欢鼓励人们认为这是一个顺序库，侧面钉有一些平行袋。

【讨论】：

我认为你发掘了大部分；不要低估可发现性的价值。我要补充一点，因为写了关于状态的评论，模型被极大地简化为整个管道是顺序或并行的，而最初可以来回切换。这反过来又降低了使用sequential() 或parallel() 调用设置管道的成本。
@JeffreyBosboom 现在的简单规则是：最后一次调用获胜，并控制整个管道的执行模式。
@MarkoTopolnik 流管道由源、零个或多个中间操作和终端操作组成。这是流执行的基本单元。
@MarkoTopolnik API 支持这两种解释并非偶然！这是为了最大限度地提高实施的灵活性。如果Stream 方法具有默认值，则默认实现将换行（这是我们改进Stream 以稍后添加方法的策略。）但真正的实现更像您的后一种解释，这样可以提高效率（例如，操作融合和其他乐趣。）您可以完全使用包装来实现Stream，但它会更慢。
@MarkoTopolnik 好的，很高兴知道！此外，您可能对它曾经以这种方式工作这一事实有偏见，然后我们切换了，并没有一个大派对来预示这种变化:)