【问题标题】:Text in tables?表格中的文字?
【发布时间】:2025-12-10 22:35:01
【问题描述】:

我喜欢以“表格”的形式组织来自文献评论的大量信息(这些信息与产品比较不同,但用于科学研究),但我输入的信息通常可以包含文本的行或段落,并且在电子表格中变得笨拙.我听说 SQL 关系表经常用于此目的。对于数据分析,我使用 Python 或 R 从平面文本文件中解析数据并将其输入 SQLite。我应该只创建一个“标记”的文本文件并做同样的事情吗?我想知道人们使用什么界面来输入和查看这些文本繁重的表格?或者我想知道是否有其他软件可能适合此目的。

【问题讨论】:

    标签: python sql database datatable


    【解决方案1】:

    您存储和检索数据的方式取决于您打算如何使用它。

    文本文件存在可管理性问题。您无法真正处理包含成千上万个文件的目录树。搜索它们将是一场噩梦。如果您同时更新,您将不得不处理锁和许多其他问题。它们并不是真正用于存储您要挖掘的大量数据。

    关系数据库很好,但您必须将信息解析为有意义的位,将其分解为关系并将结果数据放入表中以使其有意义。将所有文本(经过一些预处理)转储到单个列中并不是很有用。我所说的结果是 SQL 数据库存储可以使用结构查询的“结构化”数据。

    您可能会考虑的另一个想法是使用文档数据库。那里有很多,虽然我没有个人经验,但我听过 CouchDB 上的演示文稿,它将信息存储为 JSON 文档。您使用可以根据某些条件排序的脚本挖掘数据,然后取回排序后的文档。如果您正在处理大量文本数据,那么这绝对值得一试。有消息称,这些引擎比关系引擎更具可扩展性。

    【讨论】:

    • +1 不错的答案。很多人认为 SQL 只是一个垃圾场(无意冒犯 OP),我很高兴你把“结构化”评论放进去。
    • 谢谢!我的目标是实际存储结构化数据——“数据”是我从文献中获得的文本块,结构是我根据我提取的信息类型规定的结构;唯一的问题是每个字段中的条目有时可能很大......
    • 听起来像是大量的文本数据。你打算如何处理它们?模式搜索?语言分析?
    • 不幸的是,不是模式搜索(尽管我精通模式搜索),因为我提取的信息是特定于内容的。对语言分析算法的投资也是不值得的,因为我每隔几周就会制作很多这样的表格,每次都需要不同的内容。我发现没有一种灵活的算法可以与人类大脑的熟练程度相匹配。所以...复制粘贴,或手动输入我的评估。
    • 啊,好吧。因此,您基本上想将其用作数据转储。如果您只是要保留大量这样的文本数据以及“分析”,并且不打算稍后挖掘它(例如All content with analysis == 'good'),您可以继续使用带有一些注释的普通旧文本文件在他们里面。