【问题标题】:How to iterate a pandas column to get POS Tags如何迭代 pandas 列以获取 POS 标签
【发布时间】:2018-04-08 13:33:51
【问题描述】:

我有一个带有德国评论的 Panda 数据框。我想获得 POS 标签,我找到了支持德语的模式库。

现在,我想迭代 Review 列,以获取所有 POS,但我收到以下错误(使用此代码):

如何迭代 pandas 列以获取 POS 标签

代码:

r['POSTags'] = parse(r['German_Reviews'].apply(split))

错误信息:

TypeError: expected string or buffer

我想要以下输出:

[(Das, DT), (Essen, NN), (war, VB), (lecker,..

有谁知道我如何使用模式库解决这个问题?

我的 DF 系列看起来像这样:

Rating | German_Reviews           | Device ...
----------------------------------------------
5.0    | Das Essen war lecker     | Mobile ...
1.0    | Die Pizza war grauenhaft | Desktop ...
4.0    | Das Restaurant war ok    | Mobile ...

【问题讨论】:

  • 你在数据框中的数据是什么样子的?
  • 我在我的帖子中添加了它
  • 什么是split

标签: python pandas pos-tagger


【解决方案1】:

也许这样的事情适合你的情况:

import pandas as pd

'''
Rating | German_Reviews           | Device
5.0    | Das Essen war lecker     | Mobile
1.0    | Die Pizza war grauenhaft | Desktop
4.0    | Das Restaurant war ok    | Mobile
'''

df = pd.read_clipboard(sep = '|')

df.columns = df.columns.str.strip()

com = ['DT', 'NN', 'VB', '...']

df.German_Reviews.str.split().apply(lambda x : list(zip(x, com)))

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-06-19
    • 1970-01-01
    • 2013-05-23
    • 1970-01-01
    相关资源
    最近更新 更多