【问题标题】:where do i download gene expression data?我在哪里下载基因表达数据?
【发布时间】:2012-03-23 04:19:25
【问题描述】:

我想下载由微阵列实验生成的基因表达数据。我对这个主题了解不多,但据我所知,行通常对应于基因,列对应于样本。理想情况下,我期望一个基因表达数据矩阵。

我一直在互联网上搜索,虽然看起来有很多地方可以下载这些数据,但当我真正下载数据时,我没有得到基因表达矩阵。有人可以告诉我是否有地方或如何以我期望的上述格式下载基因表达数据?

感谢任何帮助。

【问题讨论】:

  • 本题与编程无关。请在 BioStar biostar.stackexchange.com 询问
  • @gotgenes 谢谢!在发帖之前,我确实尝试过看看是否还有其他 stackexchange 频道。但现在我确定了!幸运的是,我现在得到了很好的回应和合适的网站。

标签: download bioinformatics genome


【解决方案1】:

如果您查看例如this entryGene Expression Omnibus 中,其中一种文件格式是“TXT”,并且在一些元数据之后包含您要求的矩阵。

【讨论】:

  • 对于那个 TXT 文件,是列(即 GSM339455、GSM339456、GSM339457 等)基因和行样本吗?
  • 我正在查看聚类分析。似乎 GSM 是样本,并且行确实对应于基因。你能解释一下命名约定吗?即为什么使用 GSM 作为列标题,然后使用 998_at 或 9890_at 作为行标识符?
  • GSM 编号是样本的登录 id(您可以在 GEO 中找到带有 id 的每个样本)。文件中列出的“系列平台 ID”是 GPL7144,如果您使用该 ID 查询 GEO,您将获得从行标识符到引用基因的各种其他方式的映射。
  • 你知道是否可以按维度查询吗?即我只对包含超过 20,000 个基因和 1,000 个样本的数据集感兴趣?
  • 您可以在ncbi.nlm.nih.gov/gds/limits 设置搜索限制,其中一个选项是样本编号,只需将其设置为 1000:1000000 之类的值。基因数量没有字段,但现代微阵列基因表达研究将有超过 2 万个基因,您可以通过平台限制具有足够覆盖率的平台。
【解决方案2】:

原则上,微阵列数据可以表示(请原谅双关语)作为矩阵,其中样本作为列,行作为基因。在实践中,为实验的原始数据导出这样的表示要复杂一些。如果您只是获得一个经过预处理的数据集,您几乎无法保证原始数据的处理方式可以与其他实验相媲美,或者基础原始数据的质量足够高。

您还需要高质量的元数据才能从数据矩阵中获得任何意义。样品的生物学条件和来源是什么?使用的特定阵列上的探针对应于哪些基因? (请注意,9890_at 是“probeset id”,特定序列设计的分子探针的唯一标识符,然后需要映射到基因,同一基因的不同探针不会给出完全相同的响应。)

因此,除了已处理的数据矩阵之外,公共微阵列数据库还提供大量附加信息。除了已经提到的GEO,我会推荐ArrayExpress,我认为它的搜索界面更好。

对于许多人来说,处理微阵列数据的首选工具是用于统计编程语言Rbioconductor 软件套件。

Bioconductor 提供 API 以从两个存储库下载原始数据以及随附的元数据,请参阅 GEO bioc packageArrayExpress bioc package

与大多数生物导体软件一样,这两个软件包都带有出色的“小插曲”,介绍了该软件: GEO bioc vignetteArrayexpress bioc vignette

这些小插曲还应该为您提供获取原始数据并从原始数据派生“Esets”(表达式集)的示例。此时,您可以访问 bioconductor Eset 对象中的基因表达矩阵,并且您有一个对象和 API 来查询必要的元数据。

请注意,有不同类型的微阵列。我建议从 Affymetrix 数组中的数据开始,因为它们可能具有最直接的分析 API。

【讨论】:

  • 感谢亚历克斯,这也很有帮助。我非常感谢您的回复。
猜你喜欢
  • 2018-08-24
  • 2015-03-21
  • 1970-01-01
  • 1970-01-01
  • 2012-08-30
  • 2019-05-08
  • 2021-12-27
  • 2016-05-30
  • 1970-01-01
相关资源
最近更新 更多