【发布时间】:2014-11-26 16:53:55
【问题描述】:
问题
例如,如果我想计算一列字符串中 Ns 的数量,我该如何在 Google 电子表格中以每个单元格为基础执行此操作(即一次指向一个单元格的公式,我可以拖累)?
背景
我必须为一个名为 TOMTOM** 的程序确定阈值 -min-overlap <integer>,该程序比较小 DNA 基序的 PWM *** 之间的相似性****,N 是任何线性的正则表达式字母 A、C、G 和 T 的组合。如果我能了解我的 DNA 基序的非 N 长度的分布情况,以帮助我了解 TOMTOM 的正确-min-overlap <integer> 值,那就太好了。
这里有一些真实的例子:
** TOMTOM 是一种用于将 DNA 基序与已知基序数据库进行比较的工具。请参阅here 了解更多信息。
*** PWM 代表位置权重矩阵:
- According to Wiki:位置权重矩阵 (PWM),也称为位置特定权重矩阵 (PSWM) 或位置特定评分矩阵 (PSSM),是生物序列中基序(模式)的常用表示。李>
- According to this paper,可以定义为:
位置权重矩阵 (PWM) 或类似 PWM 的模型被广泛用于 代表蛋白质的 DNA 结合偏好(Stormo,2000)。在这些 模型中,矩阵用于表示 TF 结合位点 (TFBS),其中 每个元素代表对整体绑定的贡献 与相应位置的核苷酸的亲和力。一个与生俱来的 传统PWM模型的假设是位置无关;那 是,TFBS中不同核苷酸位置的贡献 对整体结合亲和力的影响被认为是相加的。虽然 这个近似是广泛有效的,然而,它不成立 几种蛋白质 (Man & Stormo, 2001; Bulyk et al, 2002)。到 改进定量建模,PWM 模型已扩展到 包括附加参数,例如 k-mer 特征,以说明 TFBS 中的位置依赖性(Zhao et al, 2012; Mathelier & 瓦瑟曼,2013; Mordelet 等人,2013 年; Weirauch 等人,2013 年;莱利等 人,2015)。核苷酸位置之间的相互依赖性具有 结构起源。例如,堆叠相邻之间的交互 碱基对形成局部三维 DNA 结构。 TF有 偏好序列依赖的 DNA 构象,我们称之为 DNA 形状读数 (Rohs et al, 2009, 2010)。
或者,更现代地说:
基于此原理,另一种增强方法 传统的 PWM 模型是包含 DNA 结构特征的。 结合这些 DNA 形状的 TF-DNA 结合特异性模型 功能达到与模型相当的性能水平 结合高阶 k-mer 特征,同时需要大量 更少的参数(Zhou et al, 2015)。我们以前 揭示了 DNA 形状读数对基础成员的重要性 helix-loop-helix (bHLH) 和同源域 TF 家族 (Dror et al, 2014; 杨等人,2014;周等人,2015)。对于 Hox TF,我们还能够, 确定 TFBS 中的哪些区域使用了 DNA 形状读数, 展示了揭示机械见解的方法的力量 进入 TF-DNA 识别(Abe 等人,2015 年)。这种能力是 由于缺乏 大规模高质量 TF-DNA 结合数据。随着最近 大量的蛋白质-DNA结合的高通量测量,它 现在可以剖析 DNA 形状读数对许多 TF 的作用 家庭。
**** DNA 基序:wiki:在遗传学中,序列基序是一种广泛存在的核苷酸或氨基酸序列模式,具有或推测具有生物学意义。对于蛋白质来说,序列基序与结构基序是有区别的,结构基序是由氨基酸的三维排列形成的,可能不相邻。
【问题讨论】:
标签: google-sheets