【发布时间】:2020-07-21 00:33:45
【问题描述】:
在荷兰国家摄影博物馆,我们遇到了一个我们自己无法解决的小进口问题。
该列表是来自藏书者的一种数据库,其中包含书籍信息,是在我的藏书者无法使用数据库程序的时代制作的。它有近7000本书在列表中。它将被打印以作为打印输出到图书市场,并决定这本书是否已经为收藏家所拥有。对于人类来说,它的格式是很清楚的,但是由于它的不一致,我们很难将它转换为表格(然后我们可以将其导入库数据库)。
-笑脸标志是新纪录的开始, 黑色标志说,是的,我有 白色标志说,不,还没有(想法是用笔可以在印刷品上着色) 徽标当然可以更改为我们以后可以过滤的任何字母组合。
第一个字段是标题,(有时)在第一列的第二行和/或更多行中继续
第一行右边是出版年份
有些字段通常前面有一个字段名:
- 国际标准书号
- Trefwood(是关键字)
- 使用。 (是出版商)
- Tekst(是作者)
- 红色。 (是编辑)
-然后我们有参与摄影师的名字,这使得格式相当混乱。通常摄影师在第二列和第三列。它可以是从一位摄影师到最多 30 个左右的名字,并且它们的格式与书中使用的一致(因此有时使用全名,有时仅使用字母)。
但是,
我们经常在第一列也有摄影师。然后它们位于标题(或 Tekst 字段内容)和 ISBN 之间。
幸运的是,收集器使用了 [. ] 作为分隔符。您将如何在 OpenRefine 中进行操作?最好我想首先拆分记录并将它们组合在一起,然后开始为每个内容制作列,前面有一个字段名。把第二列和第三列放在最后的很多字段中,称为摄影师1,直到摄影师XX。然后手动清理第一列的烂摊子。这是要走的路吗?并且在这里有更多经验的人,请您解释一下我们的工作方式,让我们先手。
【问题讨论】:
-
您好,欢迎来到 StackOverflow;你能发布一个简短的数据样本吗?我认为如果不启动 Open Refine 并加载一些数据,没有人能够在他/她的脑海中解决这样的问题。 ;)
-
对不起,我试过了,但不知道怎么做。我确实附上了一张图片,但知道这还不够。抱歉,我对此很陌生。
-
您可以尝试将您的示例放在 Google 电子表格之类的东西上,然后通过编辑您的问题来添加链接。
-
谢谢您,Ettore Rizza,我已尝试将示例添加到 Google 文档中。不幸的是,我还没有把它做成电子表格,excel文件的格式是一场噩梦。最好的!
标签: text openrefine