【问题标题】:Extract MS Word document chapters to SQL database records?将 MS Word 文档章节提取到 SQL 数据库记录?
【发布时间】:2015-02-26 06:58:15
【问题描述】:

我有一个 300 多页的 word 文档,其中包含数百个“章节”(由标题格式定义),目前按单词索引。每章包含中等数量的文本(通常少于一页),可能还有一个或两个相关的图形。我想将文档拆分为数据库记录,以便在 iPhone 程序中使用 - 每章都是由标题、id # 和内容字段组成的记录。我还没有决定是否希望图片成为单独的字段(可能只包含文件名),或者内容文本中的 HTML 或类似样式的链接。无论如何,最终结果将是我可以显示一个可搜索的标题表,用户可以单击该表来提取任何给定的条目。

我目前遇到的困难是从word文档到数据库。在保持图像关联的同时,如何最轻松地将文档按章节拆分为记录?我想在每章之间插入一些独特的字符,保存为文本格式,然后编写一个脚本来根据该字符将文档解析到数据库中,但我不确定我能否在这种情况下处理图形。其他选择?

【问题讨论】:

    标签: sql ms-word


    【解决方案1】:

    回答我自己的问题:

    给定一个格式相当简单的word文档

    1. 将其转换为 Open Office XML 文档

    2. 编写一个python脚本,使用xml.sax python模块将文档解析到数据库中。

    图像以 HTML 格式插入记录中,以使用 Web 界面显示。

    【讨论】:

    • 你可以接受你自己的答案,它会帮助有同样问题的人。
    猜你喜欢
    • 2013-12-01
    • 2018-02-23
    • 2012-01-29
    • 2010-12-21
    • 2014-02-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多