【发布时间】:2019-08-19 19:53:27
【问题描述】:
我有一个数据框,其中有一列包含 URL 链接。有人可以告诉我在 NLP 中预处理数据时如何处理这些链接吗? 例如,df 列看起来与此类似-
likes text
11 https://www.facebook.com
12 https://www.facebook.com
13 https://www.facebook.com
14 Good morning
15 How are.....you?
我们需要完全删除这些 URL 链接还是有其他方法来处理它们?
【问题讨论】:
-
这完全取决于您的用例。
-
我同意这取决于您的用例。我还会查看您有兴趣使用的任何包,看看删除 URL 是否是其预处理步骤的一部分。如果没有,该解决方案需要查看您关心的文本中是否嵌入了 URL,或者行是否包含文本或仅包含 URL
标签: python pandas dataframe nlp preprocessor