【发布时间】:2018-10-10 17:00:41
【问题描述】:
我有以下来自 MongoDB 的 bson 数据。我必须将代码转换为有效的 json 才能创建 PySpark DataFrame。
"\"{u'_raja': ObjectId('XXXXXX'),\\n u'ram': datetime.datetime(XXx,xx14, xx, xx, xxx),\\n u'createUserId': u'praja-policy',\\n u'raja': u'I5',\\n u'udatedTime': datetime.datetime(XXx, xx, xx, xx, xx, xx, xxxx),\\n u'lastupdatedid': u'raja_id',\\n u'plt': u'123r32'}\""
我已经编写了以下代码。
from bson import json_util
with open("/XXXXX6/bi/XXXXX/XXXXX3/v0/test/bson.json", "rb") as f:
bson = f.read()
data= bson.replace('u\'','') – removal of Unicode
data1 = data.replace('\n','') – removal of \n
json.dump(json_util.dumps(data), open("bson1.json", "w"))
使用 json.dump 为我提供了有效的 json,但格式为“\”。
如何提取 unicode 中的值?所以,我可以创建一个 PySpark DataFrame。
【问题讨论】:
-
如何删除 unicode u-character .using python2.7 .
-
你想提取u'string'里面的字符串吗?
-
@prazy 我想删除 unicode 字符并将我的 json 作为有效的 json 来创建数据框
-
为什么数据首先以这种格式存在?如果你控制了字符串的创建,你应该在那里解决问题
-
我感觉这是来自 mongoDB。
标签: python json dataframe pyspark bson