【发布时间】:2022-01-03 23:06:24
【问题描述】:
我想从 Gutenberg r 项目包中获得的数据集中过滤掉特定的行。为此,我只想选择包含给定单词的行,但问题是我的所有行都有多个单词,因此使用 filter() 将不起作用。
例如:
这句话是:"The Little Vanities of Mrs. Whittaker: A Novel"。我想过滤掉所有包含“小说”这个词的行,但我不知道怎么做。
gutenberg_full_data <- left_join(gutenberg_works(language == "en"), gutenberg_metadata, by = "gutenberg_id")
gutenberg_full_data <- left_join(gutenberg_full_data, gutenberg_subjects)
gutenberg_full_data <- subset(gutenberg_full_data, select = -c(rights.x,has_text.x,language.y,gutenberg_bookshelf.x, gutenberg_bookshelf.y,rights.y, has_text.y,gutenberg_bookshelf.y, gutenberg_author_id.y, title.y, author.y))
gutenberg_full_data <- gutenberg_full_data[-which(is.na(gutenberg_full_data$author.x)),]
novels <- gutenberg_full_data %>% filter(subject == "Drama")
original_books <- gutenberg_download((novels), meta_fields = "title")
original_books
tidy_books <- original_books %>%
unnest_tokens(word, text)
这是我使用“gutenbergr”包获取数据框的代码。
【问题讨论】:
-
%>% filter(grepl("\\bnovel\\b", somesentence variable))?能否提供一些示例数据?