【问题标题】:How to handle URL links in text data while preprocessing data in NLP在 NLP 中预处理数据时如何处理文本数据中的 URL 链接
【发布时间】:2019-08-19 19:53:27
【问题描述】:

我有一个数据框,其中有一列包含 URL 链接。有人可以告诉我在 NLP 中预处理数据时如何处理这些链接吗? 例如,df 列看起来与此类似-

  likes      text 
   11        https://www.facebook.com
   12        https://www.facebook.com
   13        https://www.facebook.com
   14        Good morning
   15        How are.....you?

我们需要完全删除这些 URL 链接还是有其他方法来处理它们?

【问题讨论】:

  • 这完全取决于您的用例。
  • 我同意这取决于您的用例。我还会查看您有兴趣使用的任何包,看看删除 URL 是否是其预处理步骤的一部分。如果没有,该解决方案需要查看您关心的文本中是否嵌入了 URL,或者行是否包含文本或仅包含 URL

标签: python pandas dataframe nlp preprocessor


【解决方案1】:

过滤掉 URL,因为它们不是自然语言。 写这样一个谓词应该不会太难, 也许像str(word).startswith('http') 这样简单的东西就足够了。 或者使用正则表达式:

import re


url_re = re.compile(r'^https?://', re.IGNORECASE)


def is_url(word):
    return url_re.search(word) is not None


def keep_row(row):
    return not is_url(row['text'])


df = df[df.apply(keep_row, axis=1)]

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-11-17
    • 2018-02-01
    • 1970-01-01
    • 2019-07-23
    • 1970-01-01
    • 2017-12-08
    相关资源
    最近更新 更多