【发布时间】:2014-10-04 20:34:51
【问题描述】:
我正在使用 Pig 生成输出。我想将输出随机分配给 2 个组。 正如你们中的一些人所知,Pig 将 part-m-00000 或 part-r-00000 格式的文件输出到文件夹中。 我想遍历输出文件夹中的所有文件,并为每一行随机分配 0 或 1。
我有作业的代码部分:
with open('part-r-00000','r') as csvinput:
with open('output2.csv', 'w') as csvoutput:
writer = csv.writer(csvoutput, lineterminator='\n')
reader = csv.reader(csvinput)
all = []
for row in reader:
row.append(randint(0,1))
all.append(row)
for row in reader:
all.append(row)
writer.writerows(all)
这绝对有效。 我也有示例输入和输出:
Sample input:
0,1,2,1,4,3,3,4,1,1
2,3,4,1,0,0,1,2,1,1
0,2,3,1,0,2,3,1,1,1
Sample output:
0,1,2,1,4,3,3,4,1,1,0
2,3,4,1,0,0,1,2,1,1,0
0,2,3,1,0,2,3,1,1,1,1
但是,我需要找出文件夹中有多少文件,并添加另一个循环来遍历每个文件。 我该怎么做?
【问题讨论】:
标签: python loops file-io apache-pig