【发布时间】:2016-09-29 21:05:06
【问题描述】:
我在 apache spark 中有 2 个数据帧。
df 1 有节目编号和描述...数据看起来像
show_no |描述
一个 |这是麦克
乙 |唐纳德来了
c |玛丽和乔治回家
d |玛丽和乔治来到镇上
第二个数据框有字符
字符
乔治
唐纳德
玛丽
米妮
我需要搜索节目描述以找出哪些节目具有哪些字符...
最终输出应该是这样的
字符 |显示特征
乔治 | c,d
唐纳德| b
玛丽 | c.d
米妮 |没有出现
这些数据集是人为的和简单的,但它表达了我正在尝试实现的搜索功能。我基本上需要使用来自另一个数据帧的值来搜索 1 个数据帧的文本。
这在 sql server 内部的 udf 中很容易做到,我基本上每次都会循环显示节目说明,并使用说明中的“包含”搜索返回节目编号。
我遇到的问题是我看不出使用数据框来做到这一点。
【问题讨论】:
标签: scala apache-spark dataframe rdd