【问题标题】:How can I extract the text from the html in a specific places?如何从特定位置的 html 中提取文本?
【发布时间】:2016-01-09 13:44:55
【问题描述】:

html内容很长,我只展示一部分:

<OBJECT classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000"codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,0,0"WIDTH="50" HEIGHT="21" id="live"><PARAM NAME=movie VALUE="http://images.one.co.il/images/new/tv/live.swf"> <PARAM NAME=quality VALUE=high> <PARAM NAME=bgcolor VALUE=#E5E6E7> <EMBED src="http://images.one.co.il/images/new/tv/live.swf"quality=high bgcolor=#E5E6E7  WIDTH="50" HEIGHT="21" NAME="live"TYPE="application/x-shockwave-flash" PLUGINSPAGE="http://www.macromedia.com/go/getflashplayer"></EMBED></OBJECT>                                                 
</td></tr><tr><td colspan=100% background="http://images.one.co.il/images/new/tv/dots.jpg" height=2></td></tr><tr height=15><td colspan=100%></td></tr><tr><td colspan=100%><LINK title="OneStyle" href="../../css/One5.css" type="text/css" rel="stylesheet"><table dir=rtl width=100% height="24" bgcolor=#BFBFBF cellpadding=0 cellspacing=0><tr width=100% class=TVChannelBar valign=baseline align=right><td align=right valign=bottom><img id="_ctl0_Main_TVUI1_rptDvs__ctl0_rptPrograms__ctl4__ctl1_imgChannel" src="http://images.one.co.il/images/new/tv/channels/shabatsoccer.jpg" alt="ספורט 1" border="0" style="height:17px;" /></td></tr></table></td></tr><tr height=5><td colspan=100%></td></tr><tr class=TVProgramsTableFont height=21><td dir="rtl" width=50 align=left>                                      <nobr>
14:35&nbsp;</nobr></td><td align=center width=320>
כדורגל - גביע אנגלי, וויקום נגד אסטון וילה</font>                                           
</td><td width=80 align=center>                                                                          <OBJECT classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000"codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,0,0"WIDTH="50" HEIGHT="21" id="live"><PARAM NAME=movie VALUE="http://images.one.co.il/images/new/tv/live.swf"> <PARAM NAME=quality VALUE=high> <PARAM NAME=bgcolor VALUE=#E5E6E7> <EMBED src="http://images.one.co.il/images/new/tv/live.swf"quality=high bgcolor=#E5E6E7  WIDTH="50" HEIGHT="21" NAME="live"TYPE="application/x-shockwave-flash" PLUGINSPAGE="http://www.macromedia.com/go/getflashplayer"></EMBED></OBJECT>                                                    
</td></tr><tr><td colspan=100% background="http://images.one.co.il/images/new/tv/dots.jpg" height=2></td></tr><tr class=TVProgramsTableFont height=21><td dir="rtl" width=50 align=left>                                         <nobr>
16:45&nbsp;</nobr></td><td align=center width=320>
כדורגל ליגת ווינר - בני יהודה - הפועל ת"א</font>                                            
</td><td width=80 align=center>

我想在这个例子中提取的是希伯来语中的这两行:

כדורגל - גביע אנגלי, וויקום נגד אסטון וילה

כדורגל ליגת ווינר - בני יהודה - הפועל ת"א

也许以某种方式使用 OBJECT classid ? 无论如何,这是我想从 html 中提取的行。 这是整页查看-源链接

view-source

这是原始页面的链接:

Original page

如果可以提取整个表格的颜色和任何内容并在硬盘上创建并保存它的简单图像,我想在原始页面中做什么。

这是原始页面的截图以及我要提取的内容:

所以有两件事我想知道是否可以这样做:

  1. 在本例中提取我上面提到的每一行作为文本,在这种情况下是希伯来语中的行。所以我会有一个所有行的列表。

  2. 要将屏幕截图中的表格另存为图像,我无法截取所有表格的屏幕截图,因为其中一些需要向下滚动才能查看,但也许可以将所有表格保存为图像。

【问题讨论】:

    标签: c# html .net winforms


    【解决方案1】:

    此外,如果您想以某种方式操作检索到的页面,您可能想尝试一些 php DOM 解析器。我发现 PHP Simple HTML DOM Parser 非常好用。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-02-22
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多