【发布时间】:2017-11-28 15:49:20
【问题描述】:
我正在尝试使用正则表达式标记推文。这里 tokens_re 和 emoticon_re 是 2 个正则表达式对象
def tokenize(s):
return tokens_re.findall(s)
def preprocess(s, lowercase=False):
tokens = tokenize(s)
if lowercase:
tokens = [token if emoticon_re.search(token) else token.lower() for token in tokens]
return tokens
with open('twitterdata.json', 'r') as f:
for line in f:
tweet = json.loads(line)
tokens = preprocess(tweet['text'])
s 在这里必须是字符串,但是tweet['text'] 怎么是字符串呢?
【问题讨论】:
-
为什么不是字符串?
-
json.loads()不返回字符串我不知道语法到底是什么`['text]' 做什么? -
它是一个索引操作符。
-
所以它返回对应于
json.loads()返回的dict中的键text? -
@kartikeykant18 是的。这就是字典的工作原理。
标签: python json string twitter