【发布时间】:2012-01-29 07:55:27
【问题描述】:
对于上述任务需要使用的各种技术,我感到非常不知所措。我已经搜索了堆栈溢出库存,但无法确定执行此操作的步骤的可靠检查列表。
我想大致了解将 Word 文档插入数据库时需要使用的步骤/工具。
我想过:
- 将 word 文件作为 FileStream 读取。
- 将其反序列化为 xml 对象(字 ml)。
- 不知何故(不确定如何)将单词 ml 插入到 sql server 的 xml 列中。
是否可以使用 XMLSerializer 对象读取单词 ml ?然后我将如何将其插入数据库?
编辑: 我实际上需要对存储的数据执行操作,例如使用 xpath 查找节点,因此我需要将其存储为 xml...
【问题讨论】:
-
您需要doc这个词的实际“图形”表示,还是只需要其中的文本?您可以根据自己的目标以不同的方式处理它。
-
您想让它在数据库中可搜索吗?如果没有,您最好将其保存为 blob - 二进制格式,以节省空间。如果要使其全文可搜索,则需要将其另存为文本。我不知道你为什么要 xml 序列化它
-
Word 文档是否需要存储为 XML 或 Word 2003 中的 .doc 格式?
-
即使您进行了编辑,我认为答案也不会发生太大变化。您仍然需要将字节读入缓冲区 - 因此将数据获取到可以运行 xpath 的位置的方式仍然相同。
标签: c# sql-server xmlserializer wordml