【发布时间】:2021-01-05 18:59:49
【问题描述】:
我正在从事一个个人项目,我正在考虑使用 NLTK 和 Vader 进行情绪分析,以比较总统演讲。
我能够用漂亮的汤找到乔治华盛顿的一篇演讲,并设法将演讲放入列表中。但在那之后,我真的不确定走得更远的最佳方式。从文本文件中读取文件似乎很典型,但我有括号,其中包含列表,这使得它变得困难。我不确定是否应该将网络抓取的语音存储在一个文件中,或者只是从列表中工作。或者也许我应该已经将语音放入数据框中?我不太确定。
from bs4 import BeautifulSoup
import requests
import spacy
import pandas as pd
page_link = 'https://www.ourdocuments.gov/doc.php?flash=false&doc=11&page=transcript'
page_response = requests.get(page_link, timeout=5)
page_content = BeautifulSoup(page_response.content, "html.parser")
textContent = []
for i in range(0, 7):
paragraphs = page_content.find_all("p")[i].text
textContent.append(paragraphs)
toWrite = open('washington.txt', 'w')
line = textContent
toWrite.write(str(line))
toWrite.close()
任何帮助或指点将不胜感激。
【问题讨论】:
标签: list nlp nltk sentiment-analysis