【发布时间】:2015-12-12 07:33:19
【问题描述】:
我有一个“.txt”文件,其中包含大量法律文本,但我只想提取日期以进行进一步分析和绘制图形。这是一个例子(抱歉是葡萄牙语):
“AR - 4024-03.2010.5.00.0000(2)”“ACORDAM os Ministros da Egrégia Subseção II Especializada em Dissídios Individuais do Tribunal Superior do Trabalho, por unanimidade, não conhecer do recurso ordinário, por incabível。 巴西利亚,2011 年 2 月 24 日。菲尔马多 assinatura digital (MP 2.200-2/2001) Alberto Luiz Bresciani de Fontan 佩雷拉部长关系者佛罗里达州。加工编号 TST-AR-4024-03.2010.5.00.0000 Firmado por assinatura 数字 em 26/05/2011 pelo sistema AssineJus da Justiça do Trabalho,符合 MP 2.200-2/2001, que instituiu a Infra-Estrutura de Chaves Públicas Brasileira。”
那个文件有很多这样的东西,但我只想提取突出显示的部分并将它们放在一个单独的向量中。我一直在尝试匹配,grep 没有任何效果。也许是因为我是 R 新手。
【问题讨论】:
-
当您说“grep 没有任何工作”时...您尝试过什么?另外,你是如何将这个文件读入 R 的?
-
您需要仔细考虑日期在字符串中的位置、它们的各种模式和排列,并根据您的应用程序定制您的正则表达式。如果您需要有关编写某些代码的建议,请提供更多日期格式示例。
标签: regex r text-mining