【发布时间】:2013-03-12 18:23:45
【问题描述】:
我想创建一个能够解析 doc/docx 文件的应用程序,该文件的结构如下所示:
par-000.01 - some content
par-000.21 - some content
par-000.31 - some content
par-001.32 - some content
内容可以是多行而不是规则的。我想要做的是将这些内容放入数据库中,我的意思是第一条记录 - par-000.01 放入 code 列,some content 放入文本列。
我不能手动执行此操作的原因是我有15 个文档,其中每个文档包含大约 10 页的段落,我想放入我的数据库中。
我找不到任何文章如何解析整个 doc 文件,所以我相信如果我编写正确的正则表达式是可能的。任何人都可以将我重定向到文章如何做我想做的事-我找不到任何适合我的东西可能我使用了错误的关键词..
【问题讨论】:
-
到目前为止你做了什么?
-
实际上我现在可以逐行加载文件并将其存储在字符串生成器中的变量中。但是这种使用正则表达式的方式并不是很有效。
-
如果您已经能够逐行阅读文档,为什么还需要正则表达式?只需找到分节符并保存即可?
-
15 个文档,每个文档 10 页。您遇到了哪些性能问题?
-
也许 Docx 库正是您要找的? docx.codeplex.com