【问题标题】:Text semantic preprocessing文本语义预处理
【发布时间】:2020-06-01 22:16:22
【问题描述】:

假设我有一个车祸数据集。每起事故都有一个使用一组摄像机和其他传感器进行的文字描述。

假设现在我只有一个相机的数据(例如正面),我想删除所有与它无关的描述句子。我认为一个基本且简单的解决方案可能是使用布尔检索系统,该系统使用一组特定的关键字来删除不需要的句子,但我也不知道这是否是一个好主意,或者它是否可以工作;有人可以建议我吗?什么样的统计数据可能对研究这个问题有用?谢谢

【问题讨论】:

    标签: nlp statistics data-mining text-processing information-retrieval


    【解决方案1】:

    正则表达式可能是一种解决方案。 我创建了一个匹配单词“front”的正则表达式,不区分大小写,它搜索front,然后得到一个或多个匹配的整个句子。 结果可以从开始的空白处修剪一些。 (可能也可以通过一些微调来删除。)

    如果您需要“front”、“rear”、“side”、“right”、“left”或其他,您可以通过一些从列表中获取值的变量来交换单词。

    Regex Examplehttps://regex101.com/r/ZHU0kr/5

    【讨论】:

    • 是的,这就是我所说的布尔检索。不幸的是,这种方法在许多情况下都失败了,因为例如没有明确的匹配,或者因为您选择了一个模棱两可的词作为关键字并删除了一个正确的句子。
    猜你喜欢
    • 2019-06-28
    • 1970-01-01
    • 1970-01-01
    • 2011-03-22
    • 2023-04-05
    • 1970-01-01
    • 2015-10-07
    • 2018-02-10
    • 1970-01-01
    相关资源
    最近更新 更多