【发布时间】:2011-09-15 10:22:50
【问题描述】:
我必须从现有网站上获取一些产品数据以放入数据库。数据都是 HTML 表格格式,型号是唯一的,但是每个产品可以有任意数量的不同属性(所以我需要解析的表格都有不同的列和标题)。
<table>
<tr>
<td>Model No.</td>
<td>Weight</td>
<td>Colour</td>
<td>Etc..</td>
</tr>
<tr>
<td>8572</td>
<td>12 Kg</td>
<td>Red</td>
<td>Blah..</td>
</tr>
<tr>
<td>7463</td>
<td>7 Kg</td>
<td>Blue</td>
<td>Blah..</td>
</tr>
<tr>
<td>8332</td>
<td>42 Kg</td>
<td>Yellow</td>
<td>Blah..</td>
</tr>
</table>
这是我正在寻找的 CSV 输出格式:
Model-No,Attribute-Name,Attribute-Value
8572,"Weight","12 Kg"
8572,"Colour","Red"
8572,"Etc","Blah.."
7463,"Weight","7 Kg"
7463,"Colour","Blue"
7463,"Etc","Blah.."
8332,"Weight","42 Kg"
8332,"Colour","Yellow"
8332,"Etc","Blah.."
由于这些表似乎都是有效的 xhtml,我可能会将每个表加载到 XmlDocument 中,但有没有人有更好的方法来完成此操作?谢谢。
【问题讨论】:
-
@Ash - WebApp - 我只是在将 html 表字符串转换为 csv 字符串的代码之后
标签: c# html-parsing