【问题标题】:regex extraction of data正则表达式提取数据
【发布时间】:2014-09-01 06:09:52
【问题描述】:

我有一百个不同顶级域(.com、.se、.uk、.cz 等)的 Whois 文件。每个都有不同的格式。我的主要任务是提取注册商、注册人、到期日期、更新日期等信息。下面的代码适用于 com.网。组织和信息。我正在使用 Java SE 6。

   Admin contact: "\\bAdmin\\sEmail:\\s*\\w+\\-*\\w*\\.*\\w*@\\w+(\\.\\w+)+"
   Technical contact: "\\bTech\\sEmail:\\s*\\w+\\-*\\w*\\.*\\w*@\\w+(\\.\\w+)+"
   Whois Registrant: "\\bRegistrant\\sName:\\s*\\w+\\-*\\.*\\w+\\s*\\w*"
   Registrar: "\\bRegistrar:\\w+\\.*\\w*"
   Registered on Date: "\\bCreation\\sDate:\\s*\\d+-\\d+-\\d+T\\d+:\\d+:\\d+Z"
   Expiry Date: "\\bExpiry\\sDate:\\s*\\d+-\\d+-\\d+T\\d+:\\d+:\\d+Z"
   Updated Date: "\\bUpdated\\sDate:\\s*\\d+-\\d+-\\d+T\\d+:\\d+:\\d+Z"
   Name Servers: "\\bName\\sServer:\\s*\\w+\\d*\\.*\\w*\\-*\\w*(\\.\\w+)+"
   Registrant Status: "\\bDomain\\sStatus:\\s*\\w+"

如何为其他 TLD 的上述各点添加备选方案。例如 : 我想要名称服务器:

"\\bName\\sServer:\\s*\\w+\\d*\\.*\\w*\\-*\\w*(\\.\\w+)+" 
OR 
alternative pattern 
OR 
alternative Pattern

可行吗?如果没有,还有其他方法吗?

【问题讨论】:

  • 没有。谢谢。会尝试回来。

标签: java regex whois


【解决方案1】:

替代模式可以与| 运算符连接:

"\\bName\\sServer:\\s*\\w+\\d*\\.*\\w*\\-*\\w*(\\.\\w+)+|alternative pattern|alternative Pattern"

(如果这不是您需要的,那么您的问题应该重新表述。)

【讨论】:

    猜你喜欢
    • 2019-05-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-12-05
    • 2011-04-21
    • 2013-04-04
    • 2015-02-24
    相关资源
    最近更新 更多