【问题标题】:Count occurrences of given character per cell计算每个单元格中给定字符的出现次数
【发布时间】:2014-11-26 16:53:55
【问题描述】:

问题

例如,如果我想计算一列字符串中 Ns 的数量,我该如何在 Google 电子表格中以每个单元格为基础执行此操作(即一次指向一个单元格的公式,我可以拖累)?

背景

我必须为一个名为 TOMTOM** 的程序确定阈值 -min-overlap <integer>,该程序比较小 DNA 基序的 PWM *** 之间的相似性****,N 是任何线性的正则表达式字母 A、C、G 和 T 的组合。如果我能了解我的 DNA 基序的非 N 长度的分布情况,以帮助我了解 TOMTOM 的正确-min-overlap <integer> 值,那就太好了。

这里有一些真实的例子:

** TOMTOM 是一种用于将 DNA 基序与已知基序数据库进行比较的工具。请参阅here 了解更多信息。

*** PWM 代表位置权重矩阵:

  • According to Wiki:位置权重矩阵 (PWM),也称为位置特定权重矩阵 (PSWM) 或位置特定评分矩阵 (PSSM),是生物序列中基序(模式)的常用表示。李>
  • According to this paper,可以定义为:

位置权重矩阵 (PWM) 或类似 PWM 的模型被广泛用于 代表蛋白质的 DNA 结合偏好(Stormo,2000)。在这些 模型中,矩阵用于表示 TF 结合位点 (TFBS),其中 每个元素代表对整体绑定的贡献 与相应位置的核苷酸的亲和力。一个与生俱来的 传统PWM模型的假设是位置无关;那 是,TFBS中不同核苷酸位置的贡献 对整体结合亲和力的影响被认为是相加的。虽然 这个近似是广泛有效的,然而,它不成立 几种蛋白质 (Man & Stormo, 2001; Bulyk et al, 2002)。到 改进定量建模,PWM 模型已扩展到 包括附加参数,例如 k-mer 特征,以说明 TFBS 中的位置依赖性(Zhao et al, 2012; Mathelier & 瓦瑟曼,2013; Mordelet 等人,2013 年; Weirauch 等人,2013 年;莱利等 人,2015)。核苷酸位置之间的相互依赖性具有 结构起源。例如,堆叠相邻之间的交互 碱基对形成局部三维 DNA 结构。 TF有 偏好序列依赖的 DNA 构象,我们称之为 DNA 形状读数 (Rohs et al, 2009, 2010)。

或者,更现代地说:

基于此原理,另一种增强方法 传统的 PWM 模型是包含 DNA 结构特征的。 结合这些 DNA 形状的 TF-DNA 结合特异性模型 功能达到与模型相当的性能水平 结合高阶 k-mer 特征,同时需要大量 更少的参数(Zhou et al, 2015)。我们以前 揭示了 DNA 形状读数对基础成员的重要性 helix-loop-helix (bHLH) 和同源域 TF 家族 (Dror et al, 2014; 杨等人,2014;周等人,2015)。对于 Hox TF,我们还能够, 确定 TFBS 中的哪些区域使用了 DNA 形状读数, 展示了揭示机械见解的方法的力量 进入 TF-DNA 识别(Abe 等人,2015 年)。这种能力是 由于缺乏 大规模高质量 TF-DNA 结合数据。随着最近 大量的蛋白质-DNA结合的高通量测量,它 现在可以剖析 DNA 形状读数对许多 TF 的作用 家庭。

**** DNA 基序:wiki:在遗传学中,序列基序是一种广泛存在的核苷酸或氨基酸序列模式,具有或推测具有生物学意义。对于蛋白质来说,序列基序与结构基序是有区别的,结构基序是由氨基酸的三维排列形成的,可能不相邻。

【问题讨论】:

    标签: google-sheets


    【解决方案1】:

    一次一个单元格的替代方案(公式要复制下来):

    =len(A2)-len(SUBSTITUTE(A2,"N",""))
    

    【讨论】:

    • 这也适用于 Arrayformula:=ArrayFormula(len(A2:A7)-len(SUBSTITUTE(A2:A7,"N","")))
    • 对不起,我认为“整个范围”是指公式中使用的整个范围很明显?
    • @pnuts。谢谢,非常感谢!
    • =ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", ""))) 更好,因为它更短,只提到一次范围,并为您提供更好的正则表达式灵活性
    【解决方案2】:

    我不知道这是否会有所帮助,但假设您在 A2:A6 范围内有这些字符串,然后您输入

    =ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", "")))
    

    在 B2 中,应该输出整个范围的 N 个计数。

    【讨论】:

    • 哦..它使用正则表达式将非N个字符替换为空!
    • 这个答案比len-len 更好,因为它更短,只提到了一次范围,并为您提供了更好的正则表达式灵活性。投票!
    【解决方案3】:
    =len(A2)-len(SUBSTITUTE(A2,"N",""))
    

    这可行,但如果您想查找与特定模式匹配的所有数字,例如 3。那么:

    =len(A2)-len(SUBSTITUTE(A2,"3",""))
    

    是你需要的。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2014-09-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-10-15
      相关资源
      最近更新 更多