【问题标题】:Extract content from local HTML file with RapidMiner使用 RapidMiner 从本地 HTML 文件中提取内容
【发布时间】:2017-02-22 17:59:33
【问题描述】:

我从 5 小时开始尝试从本地保存的 html 文档中检索特定内容。主要是我想收集“全球”和“3,041,070”的值。

<div itemprop="url" class="rankingItem-underTitle">
<a class="rankingItem-subTitle is-link" data-analytics-category="Internal Link" data-analytics-label="Global Rank/Worldwide" href="/top-websites" itemprop="significantLink">Worldwide</a></div>
<div class="rankingItem-rank js-editable">
<span class="rankingItem-value js-countable" data-value="3,041,070">#3,041,070</span>

我真的不知道我必须选择哪些运算符才能让一切正常运行。

【问题讨论】:

    标签: html web-scraping rapidminer


    【解决方案1】:

    我想通了。结合正则表达式,我让它工作了。enter image description here

    【讨论】:

      【解决方案2】:

      首先从扩展安装文本挖掘模型运行这个简单的例子。您将获得这两个值。

      <?xml version="1.0" encoding="UTF-8"?><process version="7.3.001">
        <operator activated="true" class="text:extract_information" compatibility="7.3.000" expanded="true" height="68" name="Extract Information" width="90" x="313" y="85">
          <parameter key="query_type" value="Regular Expression"/>
          <list key="string_machting_queries"/>
          <parameter key="attribute_type" value="Nominal"/>
          <list key="regular_expression_queries">
            <parameter key="Type" value="itemprop=&quot;significantLink&quot;&gt;(.*)&lt;/a&gt;&lt;/div&gt;"/>
            <parameter key="Value" value="&quot;&gt;#(.*)&lt;/span&gt;"/>
          </list>
          <list key="regular_region_queries">
            <parameter key="ValueType" value="itemprop=&quot;significantLink&quot;&gt;.&lt;/a&gt;&lt;/div&gt;"/>
            <parameter key="Value" value="data-value=&quot;.&quot;&gt;"/>
          </list>
          <list key="xpath_queries"/>
          <list key="namespaces"/>
          <parameter key="ignore_CDATA" value="true"/>
          <parameter key="assume_html" value="true"/>
          <list key="index_queries"/>
          <list key="jsonpath_queries"/>
        </operator>
      </process>
      

      【讨论】:

        猜你喜欢
        • 2017-02-22
        • 2014-01-26
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2017-12-20
        • 2016-09-09
        • 1970-01-01
        相关资源
        最近更新 更多