【发布时间】:2020-06-24 22:12:24
【问题描述】:
所以我试图从我创建的字符串中获取 Python 中特定短语的计数。我已经能够列出特定的单个单词,但从来没有涉及两个短语的任何内容。我只是希望能够为每个项目创建一个包含两个单词的项目列表。
import pandas as pd
import numpy as np
import re
import collections
import plotly.express as px
df = pd.read_excel("Datasets/realDonaldTrumprecent2020.xlsx", sep='\t',
names=["Tweet_ID", "Date", "Text"])
df = pd.DataFrame(df)
df.head()
tweets = df["Text"]
raw_string = ''.join(tweets)
no_links = re.sub(r'http\S+', '', raw_string)
no_unicode = re.sub(r"\\[a-z][a-z]?[0-9]+", '', no_links)
no_special_characters = re.sub('[^A-Za-z ]+', '', no_unicode)
no_capital_letters = re.sub('[A-Z]+', lambda m: m.group(0).lower(), no_special_characters)
words_list = no_capital_letters.split(" ")
phrases = ['fake news', 'lamestream media', 'sleepy joe', 'radical left', 'rigged election']
我最初能够获得仅包含单个单词的列表,但我希望能够获得出现短语的实例列表。有没有办法做到这一点?
【问题讨论】:
标签: python python-3.x pandas list