【发布时间】:2017-08-01 16:21:35
【问题描述】:
我正在使用来自 kaggle 的安然电子邮件数据。 https://www.kaggle.com/wcukierski/enron-email-dataset 我正在阅读 emails.csv 文件。我正在使用 BeautifulSoup 来解析消息列。
import pandas as pd
train = pd.read_csv( "C:\Users\JAYASHREE\Documents\NLP\enron-email-dataset (1)\emails.csv")
from bs4 import BeautifulSoup
message=train["message"]
message[0]
soup = BeautifulSoup(message[0],"lxml")
message=soup.body.p
print message
beautifulsoup 解析的第一行输出如下输出
<p>Message-ID: <18782981.1075855378110.JavaMail.evans@thyme>
Date: Mon, 14 May 2001 16:39:00 -0700 (PDT)
From: phillip.allen@enron.com
To: tim.belden@enron.com
Subject:
Mime-Version: 1.0
Content-Type: text/plain; charset=us-ascii
Content-Transfer-Encoding: 7bit
X-From: Phillip K Allen
X-To: Tim Belden <tim belden="">
X-cc:
X-bcc:
X-Folder: \Phillip_Allen_Jan2002_1\Allen, Phillip K.\'Sent Mail
X-Origin: Allen-P
X-FileName: pallen (Non-Privileged).pst
Here is our forecast
</tim></p>
我只需要提取这一行 这是我们的预测
X-FileName 后面的行
如何解析文本并检索特定部分。
【问题讨论】:
-
我会使用正则表达式来提取感兴趣的部分。
标签: python beautifulsoup