【问题标题】:Stripping line breaks in tweets via TwitteR通过 TwitteR 去除推文中的换行符
【发布时间】:2018-06-26 23:13:53
【问题描述】:

我需要帮助从使用 R 语言和 twitteR 包提取的推文中删除换行符。这是我一直在使用的代码:

library(twitteR)
library(ROAuth)

consumer_key =''
consumer_secret = ''
access_token = ''
access_secret = ''

setup_twitter_oauth(consumer_key, consumer_secret, access_token,access_secret)
extracted_tweets2 = searchTwitter("'testword'", n=100000, lang="pt", retryOnRateLimit=120, since="2017-11-15", until="2018-01-17")

df <- do.call("rbind", lapply(extracted_tweets2, as.data.frame))
write.table(df,file="tweets1.csv", sep=";")

它以 .csv 格式返回以下示例:

    1;Tweet text;rest of data
    2;Other tweet text;rest of data
    3;line 
separated 
tweet text;rest of data
    4;Other tweet text;rest of data

类似于this question,我想删除推文3中的换行符。

提前致谢!

【问题讨论】:

    标签: r twitter twitter-oauth


    【解决方案1】:

    假设您所指的换行符只是回车和换行符(即 \r\n),并且您想从 df$text 列中删除它们,那么,

    df <- do.call("rbind", lapply(extracted_tweets2, as.data.frame))
    df$text <- gsub("[\r\n]","", df$text)
    

    顺便说一句,twitteR 具有函数 twListToDF 可以巧妙地处理您正在使用 do.call 执行的操作。试试:

    df <- twListToDF(extracted_tweets2)
    

    【讨论】:

      猜你喜欢
      • 2014-08-17
      • 2016-04-15
      • 2013-09-17
      • 1970-01-01
      • 1970-01-01
      • 2014-11-12
      • 1970-01-01
      • 2012-07-05
      • 2018-02-12
      相关资源
      最近更新 更多