【发布时间】:2017-11-02 17:47:45
【问题描述】:
我有 .pst(outlook)文件,其中包含旧电子邮件和电子邮件联系人(大约 3980 个),我想将其导出为机器可读格式。
Outlook 2016 已经提供了将联系人导出到 .csv 文件的选项,但在执行导出操作后,可以看到该文件的结构不正确。 “备注”字段可能包含一条消息,其中可能包含多个换行符。这反过来又破坏了 .csv 格式,因为每个条目都应以第一个联系人字段的值开头(但在这些情况下,这些行表示所提到的“备注”字段的连续内容)。完成“备注”字段后,下一行通常包含条目的其余值。
csv 输出示例:
"Title","First Name",... <- header field values of the exported .csv
"","John","","Travolta","","ValueX","","","ValueY",,,"ValueZ",... <- start of the contact entry
www.link1.com <- start of the "Notes" field (same contact)
.................. <- "Notes" field continued (same contact)
www.link2.com <- "Notes" field continued (same contact)
................... <- "Notes" field continued (same contact)
"asd","asdas","asdasd","asdasd" <- rest of the contact fields (same contact)
"","Nicolas","Cage","","","ValueX","","","ValueY",,,"ValueZ",... <- 2nd contact (in one line)
我想修正导出文件的格式,因此“备注”字段不会跨越多行,并且每个联系人将在文件中表示为单行。
我想我有两个选择:
- 编写一个脚本 (python),它会遍历行并修复格式(我想避免这样做,因为脚本可能会忽略某些内容)。
- 找到一个用于解析 .pst 文件的 API,并尝试以合适的格式序列化联系人(通过指定如何手动序列化“Notes”字段)。
有谁知道,如果我忽略了某些东西,是否可以以更简单的方式解决?
亲切的问候。
编辑:我说的是this 问题。
【问题讨论】:
-
CSV 文件允许在单元格中使用换行符。尝试将其加载到 Excel 中,您应该会看到它正确显示。
-
我添加了一个指向 OP 的链接,在那里有人处理了同样的问题。