【发布时间】:2012-12-07 16:18:56
【问题描述】:
我正在使用 Word Interop 和 C# 来构建一个正在工作的程序,其中一个功能是计算字数。
现在这不能是字数,因为我需要模拟工作中使用的 CAT 工具的字数。
我发现的一个问题是 CAT 工具使用文本格式来拆分单词。这意味着如果我的单词 1st 带有 st 上标,单词将计入一个单词(因为两者之间没有任何区别),并且 CAT 工具会根据文本格式的变化计入 2 个单词。
问题是 CAT 工具会跟踪格式更改,并且该信息会破坏单词。
所以,我可以逐字逐句地检查所有可能性(字体、粗体、斜体等),但是处理多个文档,每个文档都有 1000 多个单词,这会非常慢。
有人知道更好的解决方案吗?
【问题讨论】:
-
您能否检查应用于文档的不同样式以及它们在哪里?
-
Word 的哪个版本 - doc 还是 docx?如果是docx,可以尝试解析xml。
-
Interop 似乎是我的最佳选择 - 知道更好的选择吗?
-
doc、docx 和 rtf - 可以是来自客户端的任何内容
-
关于如何检查样式的任何指针?找不到任何相关信息
标签: c# text formatting ms-word interop