【问题标题】:convert pandas dataframe to utf8将 pandas 数据帧转换为 utf8
【发布时间】:2017-02-25 13:47:13
【问题描述】:

如何将 pandas 数据帧转换为 unicode?​​p>

`messages=pandas.read_csv('data/SMSSpamCollection',sep='\t',quoting=csv.QUOTE_NONE,names=["label", "message"])
def split_into_tokens(message):
  message = unicode(message, 'utf8')  # convert bytes into proper unicode
  return TextBlob(message).words


messages.head().apply(split_into_tokens(messages))`

报错

Traceback (most recent call last):
File "minor.py", line 46, in <module>
messages.head().apply(split_into_tokens(messages))
File "minor.py", line 42, in split_into_tokens
message = unicode(message, 'utf8')  # convert bytes into proper unicode
TypeError: coercing to Unicode: need string or buffer, DataFrame found

【问题讨论】:

  • 尝试 messages.head().apply(split_into_tokens) 并运行并确保“应用”不适用于您需要传递的整个数据帧 df['column_name'].apply(some_function)
  • 然后我将其添加为答案

标签: python-3.x pandas


【解决方案1】:

【讨论】:

    【解决方案2】:

    修改代码

    messages.head().apply(split_into_tokens(messages))
    

    messages.head().apply(split_into_tokens)
    

    在使用“应用”时,不需要像在您的情况下那样传递参数,因为您的代码显示它正在传递一个数据帧,该数据帧在执行时会出错。

    【讨论】:

      猜你喜欢
      • 2017-02-04
      • 1970-01-01
      • 1970-01-01
      • 2021-11-16
      • 2016-09-27
      • 2021-09-15
      • 2020-07-24
      • 1970-01-01
      相关资源
      最近更新 更多