计算每个单元格中给定字符的出现次数答案

【问题标题】：Count occurrences of given character per cell计算每个单元格中给定字符的出现次数
【发布时间】：2014-11-26 16:53:55
【问题描述】：

问题

例如，如果我想计算一列字符串中 Ns 的数量，我该如何在 Google 电子表格中以每个单元格为基础执行此操作（即一次指向一个单元格的公式，我可以拖累）？

背景

我必须为一个名为 TOMTOM** 的程序确定阈值 -min-overlap <integer>，该程序比较小 DNA 基序的 PWM *** 之间的相似性****，N 是任何线性的正则表达式字母 A、C、G 和 T 的组合。如果我能了解我的 DNA 基序的非 N 长度的分布情况，以帮助我了解 TOMTOM 的正确-min-overlap <integer> 值，那就太好了。

这里有一些真实的例子：

** TOMTOM 是一种用于将 DNA 基序与已知基序数据库进行比较的工具。请参阅here 了解更多信息。

*** PWM 代表位置权重矩阵：

According to Wiki：位置权重矩阵 (PWM)，也称为位置特定权重矩阵 (PSWM) 或位置特定评分矩阵 (PSSM)，是生物序列中基序（模式）的常用表示。李>
According to this paper，可以定义为：

位置权重矩阵 (PWM) 或类似 PWM 的模型被广泛用于代表蛋白质的 DNA 结合偏好（Stormo，2000）。在这些模型中，矩阵用于表示 TF 结合位点 (TFBS)，其中每个元素代表对整体绑定的贡献与相应位置的核苷酸的亲和力。一个与生俱来的传统PWM模型的假设是位置无关；那是，TFBS中不同核苷酸位置的贡献对整体结合亲和力的影响被认为是相加的。虽然这个近似是广泛有效的，然而，它不成立几种蛋白质 (Man & Stormo, 2001; Bulyk et al, 2002)。到改进定量建模，PWM 模型已扩展到包括附加参数，例如 k-mer 特征，以说明 TFBS 中的位置依赖性（Zhao et al, 2012; Mathelier & 瓦瑟曼，2013； Mordelet 等人，2013 年； Weirauch 等人，2013 年；莱利等人，2015）。核苷酸位置之间的相互依赖性具有结构起源。例如，堆叠相邻之间的交互碱基对形成局部三维 DNA 结构。 TF有偏好序列依赖的 DNA 构象，我们称之为 DNA 形状读数 (Rohs et al, 2009, 2010)。

或者，更现代地说：

基于此原理，另一种增强方法传统的 PWM 模型是包含 DNA 结构特征的。结合这些 DNA 形状的 TF-DNA 结合特异性模型功能达到与模型相当的性能水平结合高阶 k-mer 特征，同时需要大量更少的参数（Zhou et al, 2015）。我们以前揭示了 DNA 形状读数对基础成员的重要性 helix-loop-helix (bHLH) 和同源域 TF 家族 (Dror et al, 2014; 杨等人，2014；周等人，2015）。对于 Hox TF，我们还能够，确定 TFBS 中的哪些区域使用了 DNA 形状读数，展示了揭示机械见解的方法的力量进入 TF-DNA 识别（Abe 等人，2015 年）。这种能力是由于缺乏大规模高质量 TF-DNA 结合数据。随着最近大量的蛋白质-DNA结合的高通量测量，它现在可以剖析 DNA 形状读数对许多 TF 的作用家庭。

**** DNA 基序：wiki：在遗传学中，序列基序是一种广泛存在的核苷酸或氨基酸序列模式，具有或推测具有生物学意义。对于蛋白质来说，序列基序与结构基序是有区别的，结构基序是由氨基酸的三维排列形成的，可能不相邻。

【问题讨论】：

标签： google-sheets

【解决方案1】：

一次一个单元格的替代方案（公式要复制下来）：

=len(A2)-len(SUBSTITUTE(A2,"N",""))

【讨论】：

这也适用于 Arrayformula：=ArrayFormula(len(A2:A7)-len(SUBSTITUTE(A2:A7,"N","")))
对不起，我认为“整个范围”是指公式中使用的整个范围很明显？
@pnuts。谢谢，非常感谢！
=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", ""))) 更好，因为它更短，只提到一次范围，并为您提供更好的正则表达式灵活性

【解决方案2】：

我不知道这是否会有所帮助，但假设您在 A2:A6 范围内有这些字符串，然后您输入

=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", "")))

在 B2 中，应该输出整个范围的 N 个计数。

【讨论】：

哦..它使用正则表达式将非N个字符替换为空！
这个答案比len-len 更好，因为它更短，只提到了一次范围，并为您提供了更好的正则表达式灵活性。投票！

【解决方案3】：

=len(A2)-len(SUBSTITUTE(A2,"N",""))

这可行，但如果您想查找与特定模式匹配的所有数字，例如 3。那么：

=len(A2)-len(SUBSTITUTE(A2,"3",""))

是你需要的。

【讨论】：