【问题标题】:How to convert a word document into a PostgreSQL table [closed]如何将 word 文档转换为 PostgreSQL 表 [关闭]
【发布时间】:2012-11-06 01:18:09
【问题描述】:

我有一个包含数据字典的 word 文档。

例如,一个名为 FUEL 的变量描述如下:

FUEL -- What type of fuel does it take?  
    1   Gas  
    2   Diesel  
    3   Hybrid  
    4   Flex fuel  
    7   OTHER, SPECIFY

我想将文档转换为 PostgreSQL 表。你有什么建议吗?

【问题讨论】:

  • 当然。但是您尝试过什么?
  • 文档中的示例内容?这些“数据字典”在文档中是如何构成的? 任何信息?
  • 感谢您更新一些信息。
  • 根据改进的问题标记为重新打开。

标签: postgresql ms-word etl


【解决方案1】:

一般来说,这类事情需要两个阶段:第一,使用文本处理工具和脚本或 Excel 之类的工具将数据处理成合理的表格格式。

一旦你有了表格格式,将数据输出为CSV(例如,在 Excel 中使用另存为)并在运行适当的CREATE TABLE 命令后使用COPY 命令或 psql 的\copy 将其加载到 PostgreSQL 中定义一个与 CSV 结构匹配的表结构。

编辑:鉴于更新的帖子,我想说您可能必须为此编写一个简单的解析器,除非文档包含内部结构化标记。将文档另存为纯文本。现在用 Perl 或 Python 之类的语言编写一个脚本,查找定义变量的标题,从该行中提取大写的变量名称和描述,然后读取编号选项,直到它用完并准备读取下一个变量。如果文档是统一结构的,这应该只需要几行代码和一些基本的正则表达式;你甚至可以在awk 中做到这一点。让脚本编写 CSV 以便稍后导入,或者使用数据库接口,如 DBD::Pg (Perl) 或 psycopg2 (Python) 直接存储数据。

如果您不了解任何脚本工具,则需要学习或非常擅长复制和粘贴。

【讨论】:

  • @user1663986 将反对票反转为赞成票;感谢您实际回应和解决问题。答案已更新。
  • @user1663986 想想看,像 Pentaho 这样的 ETL 工具有可能处理“数据字典”样式信息。我想它可能值得一看,尽管如果你能这样做的话,它可能比仅仅编写一个简单的脚本来完成它更复杂。格式看起来也很容易解析;查找没有前导空格作为键的行,然后读取带有空格缩进的以下行作为值并用制表符 (?) 拆分以提取序数。
猜你喜欢
  • 2011-03-02
  • 1970-01-01
  • 2010-10-19
  • 2011-04-27
  • 1970-01-01
  • 2010-09-14
  • 1970-01-01
  • 1970-01-01
  • 2019-04-21
相关资源
最近更新 更多