【问题标题】:Search a dataframe using another dataframe or RDD使用另一个数据框或 RDD 搜索数据框
【发布时间】:2016-09-29 21:05:06
【问题描述】:

我在 apache spark 中有 2 个数据帧。

df 1 有节目编号和描述...数据看起来像

show_no |描述
一个 |这是麦克
乙 |唐纳德来了
c |玛丽和乔治回家
d |玛丽和乔治来到镇上

第二个数据框有字符

字符
乔治
唐纳德
玛丽
米妮

我需要搜索节目描述以找出哪些节目具有哪些字符...

最终输出应该是这样的

字符 |显示特征
乔治 | c,d
唐纳德| b
玛丽 | c.d
米妮 |没有出现

这些数据集是人为的和简单的,但它表达了我正在尝试实现的搜索功能。我基本上需要使用来自另一个数据帧的值来搜索 1 个数据帧的文本。

这在 sql server 内部的 udf 中很容易做到,我基本上每次都会循环显示节目说明,并使用说明中的“包含”搜索返回节目编号。

我遇到的问题是我看不出使用数据框来做到这一点。

【问题讨论】:

    标签: scala apache-spark dataframe rdd


    【解决方案1】:

    1) 我认为您应该进一步分解第一个数据集,以便将 show_no 映射到描述中的每个单词。 例如,第一行可以分解为

    show_no | descrip
    a | this
    a | is 
    a | mikey
    

    2) 如果需要,您可以从中过滤掉停用词。

    3)在此之后,您可以将其与“characters”连接以获得最终所需的输出。

    希望这会有所帮助。 阿米特

    【讨论】:

      猜你喜欢
      • 2022-11-27
      • 2017-12-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-01-31
      • 2021-10-31
      • 2023-03-17
      • 2021-10-29
      相关资源
      最近更新 更多