在 NLP 中预处理数据时如何处理文本数据中的 URL 链接答案

【问题标题】：How to handle URL links in text data while preprocessing data in NLP在 NLP 中预处理数据时如何处理文本数据中的 URL 链接
【发布时间】：2019-08-19 19:53:27
【问题描述】：

我有一个数据框，其中有一列包含 URL 链接。有人可以告诉我在 NLP 中预处理数据时如何处理这些链接吗？例如，df 列看起来与此类似-

  likes      text 
   11        https://www.facebook.com
   12        https://www.facebook.com
   13        https://www.facebook.com
   14        Good morning
   15        How are.....you?

我们需要完全删除这些 URL 链接还是有其他方法来处理它们？

【问题讨论】：

这完全取决于您的用例。
我同意这取决于您的用例。我还会查看您有兴趣使用的任何包，看看删除 URL 是否是其预处理步骤的一部分。如果没有，该解决方案需要查看您关心的文本中是否嵌入了 URL，或者行是否包含文本或仅包含 URL

标签： python pandas dataframe nlp preprocessor

【解决方案1】：

过滤掉 URL，因为它们不是自然语言。写这样一个谓词应该不会太难，也许像str(word).startswith('http') 这样简单的东西就足够了。或者使用正则表达式：

import re


url_re = re.compile(r'^https?://', re.IGNORECASE)


def is_url(word):
    return url_re.search(word) is not None


def keep_row(row):
    return not is_url(row['text'])


df = df[df.apply(keep_row, axis=1)]

【讨论】：