【问题标题】:Python Parsing - Multiple Emails in One Text FilePython 解析 - 一个文本文件中的多个电子邮件
【发布时间】:2011-09-02 05:28:26
【问题描述】:

我收到来自多个发件人的类似电子邮件,并使用下面的正则表达式mn 提取所需的字符串。那部分工作正常。

正则表达式o 但是让我感到困惑。我正在阅读的文本文件是 9 封电子邮件的组合,它们保存在一个文本文件中,并在 Python 中以字符串形式打开。原始发件人(正则表达式o)出现在文件中每条新消息的开头(9 次)

我想在找到每个 CUSIP 和 NAME 之后写入相同的原始发件人,直到匹配到不同的原始发件人。

我正在使用 xlwt3 和 wincom32。

来自文本文件的示例,其中包含非常标准的组合电子邮件:

--- Original Sender: TOM MADEUPNAME, SOME BANK, N. ---
----- Original Message -----
From: TOM MADEUPNAME (SOME BANK, N.)
To: BOB THISISMYEMAIL (XYZ INVESTMENTS, INC)
At:  8/31  8:53:25
**Offerings**

Mezz ReRemics
Cusip      Description       Original Current Cashflow Collat Offering
05531UAB6  BCAP 2009-RR5 1A2   18,745  18,745 Snr Sup  Fxd      45.000

Prime/Alt-A Fixed
Cusip      Description       Original Current Cashflow Collat Offering
059487AE8  BOAA 2006-6 CB5     25,940  14,350 Seq      Fxd      83.000
12544XAX3  CWHL 2007-9 A13     10,190  10,190 Ssnr Nas Fxd      92.500
17312XAJ3  CMSI 2007-4 1A9      2,871   2,741 Spr Snr  Fxd      86.000

--- Original Sender: JOE MADEUPNAME, EUROPEAN BANK SECURI ---
----- Original Message -----
From: JOE MADEUPNAME (EUROPEAN BANK SECURI)
To: BOB THISISMYEMAIL (XYZ INVESTMENTS, INC)
At:  8/31  8:20:16

8-31-2011 

Alt-A Fixed
Bond            O/F    C/F    Cpn  FICO CAL WALB  60+    Notes             Offer
CSMC 06-9 7A1   25.00  11.97  L+45  728  26  578  35.21  FLT,AS,0.0%       50-00
LXS 07-10H 2A1  68.26  34.01  L+16  744   6  125  33.98  SS,9.57%          42-00
CSMC 06-7 9A1   15.00   7.81  L+30  688   5  198  46.46  SS,0.0%           29-16

Prime Hybrid 
Bond            O/F     C/F   Cpn  FICO CAL WALB  60+    Notes             Offer
SARM 05-18 6A1  14.56   6.01  2.58  730  46  432  15.87  SEA,SS,5/1,12.3%  78-00

Alt-A Hybrid
Bond            O/F    C/F    Cpn  FICO CAL WALB  60+    Notes             Offer
ARMT 05-12 2A1  23.78  10.71  3.07  712  48  556  35.32  SS,5/1,4.9%       *SOLD

Option Arm
Bond                O/F    C/F   Cpn  FICO CAL WALB  60+    Notes          Offer
DBALT 07-OA4 1A1B  10.00   7.25  L+13  716  63  562  47.17  SS,OC,42.2%    64-16
--------------------------------------------------------------------------------------

更新 - 工作

count_cusip = 0
count_name = 0
count_sender = 0 
cur_sender = ''
for line in lines:

    o = re.search(r"Original Sender:\s\b\w+\s\w+", line)
    if o:
        count_sender += 1
        ws.write(count_sender,2,o.group(0))
        ws.write(count_sender,2,cur_sender)
        cur_sender = o.group(0)

    m = re.search('[0-9]{3}[a-zA-Z0-9]{6}', line)
    if m:
        count_cusip += 1
        ws.write(count_cusip,0,m.group(0))
        ws.write(count_cusip,2,cur_sender)

    n = re.search('[A-Z]{3,5}\s[0-9]{1,4}\D{1,3}\S{1,3}\s{1,2}\w+', line)
    if n:
        count_name += 1
        ws.write(count_name,1,n.group(0))
        ws.write(count_cusip,2,cur_sender)

        o = re.search(r"Original Sender:\s\b\w+\s\w+", line)
        if o:
            cur_sender = o.group(0)

        ws.write(count_name,2,cur_sender)

根据需要更新输出。

CUSIP   Bond Name           Original Sender
00442PAD2   ACE 2006-OP1 A2B        Original Sender: Nick Madeupname
12557YAE7   ARMT 05-12 2A1          Original Sender: Bobby Madeupname
39153VAT1   CSMC 06-9 7A1           Original Sender: Bobby Madeupname
05377RAE4   LXS 07-10H 2A1          Original Sender: Jane Madeupname
02005HAF0   CSMC 06-7 9A1           Original Sender: Jane Madeupname

【问题讨论】:

  • 什么是 ws.write()?您是在使用 xlwt 或其他方式写入电子表格吗?
  • 如果您可以发布一个您正在尝试处理的输入示例,这将有很大帮助。您应该更改电子邮件的名称、主题行和内容以保护隐私,但保持一般格式不变,以便我们可以看到您要解析的内容。
  • 上一个正则表达式中\b 的目的是什么?在我看来,您正在寻找冒号后面的一个空格字符,之后必须出现至少一个字母数字。根据定义,我认为这是一个单词边界。

标签: python regex xlwt


【解决方案1】:

您的问题并不完全清楚,因为您没有显示输出样本,但这里有一个有根据的猜测:

count_cusip = 0
count_name = 0
count_sender = 0 
cur_sender = ''
for line in lines:

    m = re.search('[0-9]{3}[a-zA-Z0-9]{6}', line)
    if m:
        count_cusip += 1
        ws.write(count_cusip,0,m.group(0))
        ws.write(count_cusip,2,cur_sender)

    n = re.search('[A-Z]{3,5}\s[0-9]{1,4}\D{1,3}\S{1,3}\s{1,2}\w+', line)
    if n:
        count_name += 1
        ws.write(count_name,1,n.group(0))
        ws.write(count_name,2,cur_sender)

    o = re.search(r"Original Sender:\s\b\w+\s\w+", line)
    if o:
        count_sender += 1
        cur_sender = o.group(0)

遇到时不要写原始发件人,您需要保存它并为每个 cusip 和名称写入当前值。

【讨论】:

  • 我发布了输出以提供帮助。似乎此代码会产生覆盖错误。回溯(最后一次调用):ws.write(count_sender,5,cur_sender) 文件“C:\Python31\lib\site-packages\xlwt3\worksheet.py”,第 961 行,写入 self.row(r)。 write(c, label, style) 文件“C:\Python31\lib\site-packages\xlwt3\row.py”,第 226 行,写入 StrCell(self.__idx, col, style_index, self.__parent_wb.add_str(label )) 文件“C:\Python31\lib\site-packages\xlwt3\row.py”,第 145 行,在 insert_cell 中引发异常(msg)异常:尝试覆盖单元格:sheetname='Bond List' rowx=1 colx= 5
  • 在不知道 ws.write 做什么以及您正在运行的上下文的情况下,不可能弄清楚您需要做什么。您清楚地显示的输出并不反映 ws.write 正在做什么。
  • ws.write 来自 xlwt 并写入 excel 中的单元格。 ws.write 的格式是(行、列、正则表达式匹配)。 for 循环逐行读取文本文件,regex m 的第一遍匹配字符串中的 cusip,并通过 ws.write(1,0,'929766LY7') 将其写入 excel,regex n 也匹配 bond_name 和通过 ws.write(1,1,'WBMCMT 2003-C8 A4') 将其放入 excel 中。我在帮忙吗?
  • @dadashek:好的,我更新了代码,将当前的原始发件人放在每行的第 3 列中。您的示例仍然没有任何意义:为什么 Original Sender 以 FAIRF 开头为空?
【解决方案2】:

您可以将格式更改为标准库中mailbox 模块可识别的格式。然后你可以让那个模块处理所有的解析。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-06-22
    • 2012-04-06
    • 2018-12-01
    • 1970-01-01
    • 2015-05-08
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多