【发布时间】:2017-07-05 14:50:03
【问题描述】:
我有一个数据框,其中有一列 _text,其中包含一篇文章的文本。我正在尝试获取数据框中每一行的文章长度。这是我的尝试:
from bs4 import BeautifulSoup
result_df['_text'] = [BeautifulSoup(text, "lxml").get_text() for text in result_df['_text']]
text_word_length = [len(str(x).split(" ")) for x in result_df['_text']]
很遗憾,我收到了这个错误:
---------------------------------------------------------------------------
UnicodeEncodeError Traceback (most recent call last)
<ipython-input-8-f6c8ab83a46f> in <module>()
----> 1 text_word_length = [len(str(x).split(" ")) for x in result_df['_text']]
UnicodeEncodeError: 'ascii' codec can't encode character u'\u2019' in position 231: ordinal not in range(128)
似乎我应该在某处指定“utf-8”,我只是不确定在哪里......
谢谢!
【问题讨论】:
-
尝试在脚本开头使用
# -*- coding: utf-8 -*-?我不知道它是否有效。 -
请发布您在问题中遇到的错误的完整追溯。
-
@mpf82 已更新!