【问题标题】:How to grab regex matches in RapidMiner?如何在 RapidMiner 中获取正则表达式匹配?
【发布时间】:2014-01-19 22:14:07
【问题描述】:

我尝试使用Tokenize来搜索带有端口号的IP地址

但显然它使用正则表达式来定义标记分隔符,即它返回文本 BETWEEN ip 地址。是否可以自己检索地址?

更新

我有一个大的文本日志文件作为输入。它有行,行包含一些关于 IP 地址的消息。我想将所有地址归为一组。

RapidMiner 可以吗?

【问题讨论】:

    标签: regex tokenize rapidminer


    【解决方案1】:

    如果您希望示例集包含名称等于 IP 地址和可选端口的属性,您可以尝试以下操作。

    将文档传递给Process Documents 操作员。

    在此使用 Tokenize 和以下正则表达式。

    [^0-9.:]

    紧接着,使用Filter Token (by Content) 运算符和条件contains match 和以下正则表达式。

    \d+\.{1}\d+\.{1}\d+\.{1}\d+:*\d*

    【讨论】:

    • 我有一个文件。是“文件”吗?请解释一下您的方法是如何工作的?
    • Process Documents运算符中,将Vector Creation参数设置为Term Occurrences。这将计算属性在单个文档中出现的次数。
    • 有关信息,Keep Document Parts 运算符允许在标记化之前保留感兴趣的内容。
    猜你喜欢
    • 2012-08-07
    • 1970-01-01
    • 1970-01-01
    • 2018-10-05
    • 1970-01-01
    • 2012-07-24
    • 1970-01-01
    • 1970-01-01
    • 2015-05-05
    相关资源
    最近更新 更多