【发布时间】:2017-05-08 12:28:39
【问题描述】:
在我看来,这是一个困难的问题。基本上,我试图根据部分字符串匹配和来自另一个数据帧的分类对一个数据帧中的列进行分类。还有一个复杂的问题是我不想覆盖现有的分类。
我想在以下水果数据框中创建分类:
description classification
a phrase about bananas NaN
a polemic on green apples NaN
sentence about kumquats NaN
paragraph about lemons NaN
a treatise on kiwi fruit NaN
a sentence on bananas NaN
a soliloquy on apples NaN
我正在使用分类数据框执行此操作,其形式为:
keyword classification
bananas vitamin K
green apples too sharp
kiwi fruit hairy
kumquats basically inedible
lemons G&T
apples nice
我想从分类数据帧中取出关键字,并在水果数据帧描述的描述中搜索它。如果找到,我想将分类数据框中的适当分类添加到水果数据框中。
它变得更加复杂。有时一个关键字包含在另一个关键字中(例如,“apples”也包含在“green apples”中)。为了解决这个问题,我将首先匹配短语,然后是单独的关键字(我将遍历已排序的关键字列表,以便短语排在第一位)。这意味着当我将分类写入水果数据帧时,我需要检查是否已经存在分类,如果有,我将保持它在适当的位置而不是覆盖它。
最终,我会得到这个:
description classification
a phrase about bananas vitamin K
a polemic on green apples too sharp
sentence about kumquats basically inedible
paragraph about lemons G&T
a treatise on kiwi fruit hairy
a sentence on bananas vitamin K
a soliloquy on apples nice
我可以很容易地做到这一点,虽然很混乱,但在程序上就足够了。如何以真正的 Pandas 方式做到这一点?
【问题讨论】: