如何在 PCA 双图上被动覆盖第二个代理？答案

【问题标题】：How to passively overlay a second proxy on a PCA biplot?如何在 PCA 双图上被动覆盖第二个代理？
【发布时间】：2017-01-21 03:39:56
【问题描述】：

我有来自同一个湖芯的 2 个代理（特别是植物大化石和有遗嘱变形虫）的古数据。我已经对两个代理的转换数据运行了 PCA。我希望在同一个双标图上被动地绘制一个代理而不是另一个代理，以调查一个代理如何影响另一个。

我熟悉如何在 R 中使用 vegan 和绘图、点、箭头和文本命令等构建双标图。我的问题是，如果我在另一个代理上绘制一个代理，除了确保缩放代理是否相同才能使最终情节准确？是否可以创建一个代理的双图并简单地覆盖第二组物种数据，如下所示？这就是所谓的“被动”覆盖吗？

# construct biplot for proxy1
plot(proxy1_pca, type = "n", scaling = 3)
text(proxy1_pca, display = "species", scaling =3)
points(proxy1_pca, display = "sites", scaling = 3)
ordipointlabel(proxy1_pca, display = "sites", , scaling = 3, cex = 0.7, add = TRUE)

# overlay proxy2
text(proxy2_pca, display="species", scaling = 3)

感谢任何 cmets。

【问题讨论】：

我不认为你真的可以同时使用大化石和遗嘱数据进行协调。我会进行单独的排序，然后进行 procrustes 分析或进行共同对应分析
感谢您的建议，不确定这是否可行或在统计上是否合理。协同对应分析听起来可能是一种选择，唯一的问题是两组在所有情况下都没有在完全相同的级别/深度上进行分析。这是否排除了共同对应分析？
@steve24 在技术上是的；该方法旨在从同一组样本中找到两个物种组之间的协方差模式。在您给出的示例中，如果样本并不总是同时存在的，那么您将混淆同时存在的协方差和滞后的协方差。它也会导致 procrustes 出现问题 - 两者都假设为两个代理测量同一组样本。如果您可以将子集设置为一组最好的通用级别，但如果您最终丢弃大量数据，则不能。两个代理中有多少比例的级别相同？
@RichardTelford 你可以这样做； Canoco 称它们为补充响应变量，在素食主义者中，我们有predict(object, type = "sp") 来获得新物种（变量）分数。但这些确实需要相同的样本集。考虑到代理 A 的最大变化方向，这基本上给出了（对于 PCA），我们将预测代理 B 的位置，因为代理 A 和代理 B 在公共样本集中的关系。这将是一种不对称的方法，在某种程度上将代理 A 视为比代理 B 更重要。Procrustes、cointeria 或 co-correspondence 分析会更好。

标签： r pca vegan

【解决方案1】：

假设我们在同一组样本上测量了两个代理，那么是的，这是可能的，是的，这是一个“被动”覆盖，尽管该术语通常用于指代被动样本。在被动覆盖中，我们使用任一

从“主动”集派生的物种分数集，用于将新的样本（即所谓的“被动”样本）定位到现有排序空间（通过加权和或加权平均值）在这些分数中，权重是新样本中物种的丰度），或
站点/样本分数集源自“活跃”集以定位新的物种，同样通过加权和或加权平均值。

由于您对代理感兴趣（这些是变量或物种），我们需要第 2 点的站点/样本分数。然后可以使用predict() 方法来完成一系列排序方法，type = "sp" .

在您的情况下，我们只有部分样本或可能没有样本的分数，这限制了这种方法的适用性。

其次，您将限制我们放置被动代理分数的方式，使其成为主动代理集中代理和站点之间关系的某种函数。理查德（在 cmets 中）提出了两种避免这种情况的方法

执行单独的排序，然后比较生成的配置之间的关联程度（通过 procrustes 轮换），或者，
通过协同对应分析执行单个排序，与您提到的 procrustes 或被动响应变量方法不同，该分析提取两个代理之间的协方差模式。

但在这两种情况下，都假设两个代理是在相同样本（位置、时间点）上测量的。正如我在评论中提到的，如果您在分析两个代理的样本中有部分或大部分重叠，您可以使用样本/级别的公共子集进行此分析。

对于 procrustes 方法，您可以手动执行单独的排序然后进行比较，您始终可以通过将这些样本视为被动来添加仅测量一个代理的样本（添加到该代理的排序）。 Procrustes 分析只能使用一组通用的样本/级别进行，但您可以将这些被动样本事后绘制到原始分析上。

您还可以将一个代理记录插值到与第一个相同的级别/深度，但这样做是不可取的，因为这样做会从插值系列中删除很多变化，因此 co-CA 或 procrustes 分析会由于插值代理序列中的噪声分量大大减少，因此是反保守的。

【讨论】：

感谢 Gavin 和 @Richard 的帮助。这一切听起来都不错。不幸的是，我已经检查过，植物和遗嘱处于交替水平，因为整个样本都用于大化石。如果我想使用上述任何方法，是否将一个代理记录插入与第一个代理记录相同的级别？我一直在使用沿着我的战略图绘制的 PCA 轴分数来查看变化的时间，但我希望更进一步，更稳健地观察哪些物种同时出现。我知道其他论文使用 BIOENV 来比较组，但我在水平方面也遇到了同样的问题。
@steve24 这不是一个一般人可以回答的问题 - 任何答案都取决于相邻样本之间存在多少时间差异以及这些差异是否具有生物学意义。对于一个共同出现的问题，没有使用相同的材料似乎有些可疑。
@steve24 您可以考虑将模型拟合到特定物种以比较推断的趋势，这可能是我会做的，但如果您有所有代理，您不能对所有物种都这样做大量（出于实际原因仅进行比较）或仅观察几次的那些物种。对于最丰富的分类群来说，这很好。正确/小心地执行此操作需要一些努力。
是的，理想情况下会喜欢相同的样品，但不幸的是使用二手材料的问题之一。可能不得不坚持更多的定性比较。这些方法对我的其他一些站点很有用，尽管级别匹配得更好。 210Pb 表明上季度约为 0.3-1.0 厘米/年，但向下的累积速度可能要慢得多。也许并排双图最适合定性比较？并避免水平问题。请原谅我对排序/统计的基本知识，不是严格讨论堆栈溢出，但感谢您的帮助。