【问题标题】:Importing/Copying and Pasting Word Document to HTML将 Word 文档导入/复制和粘贴到 HTML
【发布时间】:2014-10-23 21:33:32
【问题描述】:

我们需要导入或复制和粘贴 word 文档并将它们转换为 HTML 就绪数据。

这是我的想法:

  • file_get_contents收集文字
  • 应用函数nl2br

但是,它不考虑粗体和其他文本格式。

此外,还有一些我们不需要的 microsoft 字符。

将单词导入漂亮的 HTML 有什么好的策略?

【问题讨论】:

  • 在您的表单上使用 CKEditor 结帐。有一个 word 功能的粘贴。
  • 我同意贾斯汀的观点。甚至不要开始尝试自己清理它。底线是 word 绝不是 html。希望它是“美丽的”完全取决于开发人员在他们的单词解析中占了多少个陷阱。 word2cleanhtml 是您最好的选择。有了文字,一旦你认为你已经掌握了一切,他们要么改变他们的废话,要么有人上传另一个文件,其中包含 10 亿个其他无法预见的独特字符。

标签: php html ms-word


【解决方案1】:

我不会尝试自己解决所有这些问题。 word2cleanhtml.com 看起来会满足您的需求,并且可能很快就会提供 API。

但是,您似乎可以从命令行使用 Word 本身来为您转换文档。当然,这需要在您的 PHP 服务器上安装 MS Word。

shell_exec("C:/Program Files/Microsoft Office/Office12/WINWORD.EXE /msaveashtml C:/path/to/your.doc");

上面的代码使用this answer 中定义的宏来回答类似的问题。您需要从该答案中复制 saveashtml 宏并将其添加到 Word。

【讨论】:

  • 不是真的:Currently we don't offer API access to this service.
  • 我想我应该真正熟悉 API 页面:/
  • API 与否,OP 要求导入或复制粘贴,所以我仍然给予信用
  • 我同意复制/粘贴是题外话,但如果 OP 要求诸如“是否可能”之类的内容,或者在这种情况下尝试 nl2br 并意识到这不会削减它,这是可以接受的。虽然如果有人在这里提供完整的单词解析库会很棒,但更现实的是指向一个已经存在的服务,它至少可以为未来需要解析的读者提供一些东西,无论它是否是程序化的。
  • 已提供非复制/粘贴解决方案。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多