【问题标题】:Openrefine: cross cluster two datasetOpenrefine:跨集群两个数据集
【发布时间】:2015-07-23 23:51:41
【问题描述】:

我有两个包含标题和其他信息的数据集,但在数据集 A 中我有标题,在数据集 B 中我有标题和 URL。
我必须将 URL 从数据集 B 放入数据集 A。有些标题在 A 和 B 中相同,有些则不同,有些则略有不同(问题来了)。

所以我需要同时合并和聚类那些相似的。我知道我可以与 DBpedia 协调,但我需要的是在两个数据集之间“协调”。 有没有可能?

谢谢。

【问题讨论】:

    标签: cluster-analysis openrefine


    【解决方案1】:

    您可以使用reconcile-csv 应用程序(它不是OpenRefine 的插件,而是运行本地对帐API 服务器的独立程序)。

    将数据集 B 导出为 csv,第一行作为列名,然后启动 reconcile-csv,使用 URL 作为 id 列和 名称作为搜索列:

    java -Xmx2g -jar reconcile-csv-0.1.2.jar <CSV-File> <Search Column> <ID Column>

    然后打开数据集A并添加http://localhost:8000/reconcile作为对账服务。协调后,每个已协调单元格的cell.recon.match.id 将包含 URL。

    【讨论】:

    • afaik reconcile-csv 只是让你从数据集 B 导入 id。然后你需要使用 cell.cross 函数来实际导入 URL
    • @magdmartin 我建议使用 URL 作为 id,如果 url 是唯一的。
    • 非常感谢您的回答!抱歉这么晚才回复你。我用 reconcile-csv 做了一些尝试,但是由于经验不足,我在理解它的工作原理时遇到了一些问题。我现在就试试你的指示,谢谢!
    猜你喜欢
    • 1970-01-01
    • 2013-04-03
    • 2017-09-24
    • 2021-09-14
    • 1970-01-01
    • 1970-01-01
    • 2020-05-24
    • 1970-01-01
    • 2016-12-25
    相关资源
    最近更新 更多