【发布时间】:2021-11-27 01:36:33
【问题描述】:
我有一个以 csv 格式提供的推文列表。 但是当我阅读它们时,emojis unicode 已被转换为 str,我无法将它们翻译成他们的真实姓名(“waffle”或“heart”)。
def load_csv(csv_name):
path = os.getcwd()
df = pd.read_csv(path + "/" + csv_name, header=0, index_col=0, parse_dates=True, sep=",", encoding="utf-8")
return df
csv_name = "tweets_nikekaepernick.csv"
df = load_csv(csv_name)
text = df["tweet_full_text"].iloc[0]
text
Out[]: 'Hi <U+0001F602><U+0001F602><U+0001F480><U+0001F480><U+0001F480><U+0001F480>'
【问题讨论】:
-
如果我创建一个带有 UTF 表情符号的 .csv,就像你提到的那样,并使用
read_csv将其读入DataFrame,Python 会在访问其中的值时正确打印表情符号。如果您可以提供指向存在此问题的数据文件的链接,则可能会说明您看到此行为的原因。另外,您能否提及您正在使用的特定 Python 版本? -
可能您运行解释器的输出设备不支持 UTF-8 文本输出?你究竟是如何运行上述代码的?
-
嗨,我在 Jupyter Notebook 上运行它,使用 Python 3.8.8 [链接] (drive.google.com/file/d/1oldvYLOD1NpKSbrAKDwARe-LXpDiFIsi/…)
-
顺便说一句,
pd.read_csv(os.getcwd() + "/" + "filename", ...)是一种非常不方便和笨拙的说法pd.read_csv("filename", ...)。或许也可以看看What exactly is current working directory?
标签: python twitter encode emoji