【发布时间】:2018-01-25 02:54:48
【问题描述】:
我有一个唯一 ID 的数据集和每个 ID 的一个句子。我想按单词分解句子并删除停用词以清理数据以进行进一步分析。
Example of dataset:
ID Sentence
1 The quick brown fox
2 Feel free to be
Breaking up sentence:
ID Word
1 The
1 quick
1 brown
1 fox
2 Feel
2 free
2 to
2 be
Removing the stopwords:
ID Word
1 quick
1 brown
1 fox
2 Feel
2 free
我已经在数据框中拥有 ID 和句子。什么是分解文本的合适功能,包括在每个单词之后删除标点符号(如果有的话),然后删除带有停用词的行。
【问题讨论】:
-
看看this question。我认为这可以帮助你。你需要学习如何使用
unnest_tokens()。 -
我已经尝试过该功能,但遇到了一些困难。以下是我面临的一些错误。错误:无法将 NULL 转换为 quosure,typeof(x) 中的错误:找不到对象“word”,check_input(x) 中的错误:输入必须是任意长度的字符向量或字符向量列表,每个长度为 1。
-
我刚刚给你留下了一个演示。我没有你的实际数据。所以我真的不能给你比我写的更多的东西。更改代码中的任何部分,看看你能做什么。
标签: r text-mining data-cleaning