如何在 RapidMiner 中获取正则表达式匹配？

【问题标题】：How to grab regex matches in RapidMiner?如何在 RapidMiner 中获取正则表达式匹配？
【发布时间】：2014-01-19 22:14:07
【问题描述】：

我尝试使用Tokenize来搜索带有端口号的IP地址

但显然它使用正则表达式来定义标记分隔符，即它返回文本 BETWEEN ip 地址。是否可以自己检索地址？

更新

我有一个大的文本日志文件作为输入。它有行，行包含一些关于 IP 地址的消息。我想将所有地址归为一组。

RapidMiner 可以吗？

【问题讨论】：

【解决方案1】：

如果您希望示例集包含名称等于 IP 地址和可选端口的属性，您可以尝试以下操作。

将文档传递给Process Documents 操作员。

在此使用 Tokenize 和以下正则表达式。

[^0-9.:]

紧接着，使用Filter Token (by Content) 运算符和条件contains match 和以下正则表达式。

\d+\.{1}\d+\.{1}\d+\.{1}\d+:*\d*

【讨论】：

我有一个文件。是“文件”吗？请解释一下您的方法是如何工作的？
在Process Documents运算符中，将Vector Creation参数设置为Term Occurrences。这将计算属性在单个文档中出现的次数。
有关信息，Keep Document Parts 运算符允许在标记化之前保留感兴趣的内容。