【发布时间】:2017-09-08 13:53:04
【问题描述】:
我想使用 Python 创建一个大型数据集(符合给定架构)。有没有一种很好的方法来指定模式(每个字段的数据类型和长度),并让 Python 为我创建大约 100,000 个观察值?有什么不错的工具吗?
我对 Python 很熟悉...因此想坚持使用它。如果有人使用 Bash 或任何其他方式,也请告诉我。
谢谢! 警察局。
【问题讨论】:
我想使用 Python 创建一个大型数据集(符合给定架构)。有没有一种很好的方法来指定模式(每个字段的数据类型和长度),并让 Python 为我创建大约 100,000 个观察值?有什么不错的工具吗?
我对 Python 很熟悉...因此想坚持使用它。如果有人使用 Bash 或任何其他方式,也请告诉我。
谢谢! 警察局。
【问题讨论】:
您可能应该查看fake-factory 包。
【讨论】:
请看这个:-
https://github.com/sanju51/Generate-large-Dataset-dynamically-in-Python
速度:- 100000 条记录在 5 秒内(10 列) 用法:- python generate_dataset.py -i Metadata.csv -f sample.csv -nrec 100000 -d ',' -hdr Y
【讨论】: