【发布时间】:2020-05-02 07:00:17
【问题描述】:
我一直在研究神经网络教程,目前正在尝试对新闻文章进行分类。问题是,我需要将我的文本分成训练和测试数据集,但我找不到这样做的方法。
例如,在我的示例网站中,文本命名如下:cv100.txt, cv203.txt, cv900.txt 等等。所以作者使用下面的代码将这些测试拆分成9:1。
if filename.startswith('cv9'): 和 if not filename.startswith('cv9'):
但是,对于我目前正在处理的其他任务,文本的文件名如下所列:0000Data, 0001Data, ..., 0299Data。
我需要做的是将0000Data 到0200Data 的文本作为训练数据集,将0200Data 到0299Data 作为测试数据集。
但我意识到这不适用于filename.startswith('') 方法。
总之,像cv000 ~ cv999这样的文件名可以被filename.startswith('cv9')分割成9:1,但是我想分割文件名比如
0000Data~0299Data 成 1:2。但是,我想不出一个聪明的方法来划分它们。
一定有什么好办法可以解决这个问题,但我想不出来,虽然我搜索了很多,想了很多。
【问题讨论】: