【发布时间】:2011-10-21 11:26:08
【问题描述】:
以下问题适用于任何编程语言
我正在开发一个程序,该程序提供网页源代码作为输入将提取某种特定类型的数据。
假设我提供了以下页面源作为程序的输入:
<table>
<tr>
<td id="a" class="product-name">Product A</td>
<td id="1" class="product-price">$100</td>
</tr>
<tr>
<td id="b" class="product-name">Product B</td>
<td id="2" class="product-price">$200</td>
</tr>
<tr>
<td id="c" class="product-name">Product C</td>
<td id="3" class="product-price">$300</td>
</tr>
</table
在此网页上,提到了产品及其售价。网页是这样的:
Product A: $100
Product B: $200
Product C: $300
我想使用此页面源将此数据复制到数据库。由于修复标签和类中提到了产品名称及其价格(如<td> 或<div> 等),我如何以编程方式提取这些数据?是否有任何好的算法/代码/库可以从页面源中提取此类数据?
我认为这可以通过在 Javascript 中使用 getElementByID 来完成。但我不确定。或者可以使用XML?如何?还有其他好的方法/算法吗?
注意:我是在自己的网站上这样做的。我已经有一个旧网站,我想使用新网站中的所有数据。再次手动输入所有数据是一项艰巨的任务。所以我想从我的旧数据中复制数据。任何编程语言都适合我。
【问题讨论】:
标签: java php javascript html xml