【问题标题】:How could I parse this HTML file?我如何解析这个 HTML 文件?
【发布时间】:2010-06-14 01:38:35
【问题描述】:
<div id="main">

<style type="text/css">
</style>

<script language="JavaScript">    
</script>
<p style="margin: 0pt 0pt 0.5em;"><b>Media from&nbsp;<a onclick="(new Image()).src='/rg/find-media-title/media_strip/images/b.gif?link=/title/tt0087538/';" href="/title/tt0087538/">The Karate Kid</a> (1984)</b></p>
<style type="text/css">    
</style>

<table style="border-collapse: collapse;">
</table>
</div>

我需要以某种方式提取 (new Image()) 的 href 值。我将如何使用 HtmlAgilityPack 完成此任务?

我是新手,到目前为止我还没有找到有用的教程来说明如何有效地使用它进行解析。

感谢您的帮助!

【问题讨论】:

    标签: html-parsing html-agility-pack


    【解决方案1】:

    HtmlAgilityPack 本身不提供很多解析选项。但是您可以将它与 XPath 一起使用来完成任何类型的复杂解析。在您的示例中,您可以这样做 -

    var testString = "..."; // Your html 
    var doc = new HtmlDocument();
    doc.LoadHtml(testString);
    var node = doc.DocumentNode.SelectSingleNode("/div/p/b/a");
    var hrefValue = node.GetAttributeValue("href", ""));
    

    这会给

    /title/tt0087538/
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-03-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-12-02
      • 1970-01-01
      • 2023-03-22
      相关资源
      最近更新 更多