【发布时间】:2014-01-19 22:14:07
【问题描述】:
我尝试使用Tokenize来搜索带有端口号的IP地址
但显然它使用正则表达式来定义标记分隔符,即它返回文本 BETWEEN ip 地址。是否可以自己检索地址?
更新
我有一个大的文本日志文件作为输入。它有行,行包含一些关于 IP 地址的消息。我想将所有地址归为一组。
RapidMiner 可以吗?
【问题讨论】:
标签: regex tokenize rapidminer
我尝试使用Tokenize来搜索带有端口号的IP地址
但显然它使用正则表达式来定义标记分隔符,即它返回文本 BETWEEN ip 地址。是否可以自己检索地址?
更新
我有一个大的文本日志文件作为输入。它有行,行包含一些关于 IP 地址的消息。我想将所有地址归为一组。
RapidMiner 可以吗?
【问题讨论】:
标签: regex tokenize rapidminer
如果您希望示例集包含名称等于 IP 地址和可选端口的属性,您可以尝试以下操作。
将文档传递给Process Documents 操作员。
在此使用 Tokenize 和以下正则表达式。
[^0-9.:]
紧接着,使用Filter Token (by Content) 运算符和条件contains match 和以下正则表达式。
\d+\.{1}\d+\.{1}\d+\.{1}\d+:*\d*
【讨论】:
Process Documents运算符中,将Vector Creation参数设置为Term Occurrences。这将计算属性在单个文档中出现的次数。
Keep Document Parts 运算符允许在标记化之前保留感兴趣的内容。