【问题标题】:how to save web-harvest data to database如何将网络收获数据保存到数据库
【发布时间】:2013-05-02 14:32:17
【问题描述】:

我正在使用 web-harvest 工具抓取数据,我正在获取所需的数据,即产品的名称和价格。

这是我的配置文件。

<include path="functions.xml"/>

<!-- collects all tables for individual products -->
<var-def name="products">    
    <call name="download-multipage-list">
        <call-param name="pageUrl">http://www.amazon.de/s/ref=nb_sb_noss?__mk_de_DE=AMAZON&amp;url=search-alias%3Daps&amp;field-keywords=AT300-103%20TEGRA%203%201GB</call-param>
        <call-param name="nextXPath">//a[@class="pagnNext"]/@href</call-param>
        <call-param name="itemXPath">//div[@class="fstRow prod"]</call-param>
        <call-param name="maxloops">10</call-param>
    </call>
</var-def>

<!-- iterates over all collected products and extract desired data -->            
<file action="write" path="reports/catalog.xml" charset="UTF-8">
    <![CDATA[ <catalog> ]]>
    <loop item="item" index="i">
        <list><var name="products"/></list>
        <body>
            <xquery>
                <xq-param name="item" type="node()"><var name="item"/></xq-param>
                <xq-expression><![CDATA[
                        declare variable $item as node() external;

                        let $name := data($item//*[@class='lrg bold'])
                        let $price := data($item//*[@class='bld lrg red'])
                            return
                                <product>
                                    <name>{normalize-space($name)}</name>
                                    <price>{normalize-space($price)}</price>
                                </product>
                ]]></xq-expression>
            </xquery>
        </body>
    </loop>
    <![CDATA[ </catalog> ]]>
</file>

现在我正在尝试将此名称和价格信息移动到包含名称和价格两列的 mysql 数据库表中。我得到了我们必须使用数据库标签的信息。但没有获得如何使用它的信息。

能否请您帮助我如何在我的配置文件中进行配置。

提前致谢。

  • 萨希提

【问题讨论】:

标签: java web-scraping webharvest


【解决方案1】:

请浏览 web-harvest.sourceforge.net/manual.php#database 并尝试按照给定的方式实施。

【讨论】:

    猜你喜欢
    • 2011-11-20
    • 1970-01-01
    • 2011-04-20
    • 1970-01-01
    • 2014-02-17
    • 2020-12-12
    • 1970-01-01
    • 2019-11-22
    • 2019-10-31
    相关资源
    最近更新 更多