【发布时间】:2011-07-24 09:17:20
【问题描述】:
我想在 MS Word 文档中获取用 Textbox 编写的信息。我正在使用 Apache POI 来解析 word 文档。
目前我正在遍历所有段落对象,但此段落列表不包含来自 TextBox 的信息,因此我在输出中缺少此信息。
例如
paragraph in plain text
**<some information in text box>**
one more paragraph in plain text
我要提取的内容:
<para>paragraph in plain text</para>
<text_box>some information in text box</text_box>
<para>one more paragraph in plain text</para>
我目前得到的:
纯文本段落
一个纯文本段落
有人知道如何使用 Apache POI 从文本框中提取信息吗?
【问题讨论】:
-
@plutext,从 doc 格式开始,但以后需要对 docx 和 rtf 做同样的事情。
-
您可以考虑使用 JODConverter + LibreOffice 将所有三种格式转换为 docx,然后使用 POI(或 docx4j)从 docx 中提取文本框内容。这样您就不必担心二进制格式或解析 rtf。
-
@plutext,非常感谢.. 我会研究 JODConverter。我希望它是免费的。
-
@Shekhar 您知道如何从 .docx 文档的文本框中提取文本吗?如果您这样做了,我们随时欢迎您分享该信息。 ;)
标签: ms-word document apache-poi