【发布时间】:2015-02-10 19:29:36
【问题描述】:
我想从网页中提取统计信息,但我完全不知道该怎么做。 例如,在这个网页上,https://www.google.ca/,我想从 HTML 代码中获取按钮“我感觉很幸运”的文本,或者如果可能的话,使用更简单的方法。我有代码,但它与我的问题并没有很好的关系。如果你能帮忙,那就太好了。
编辑:我正在使用 C# Windows 窗体应用程序
【问题讨论】:
标签: c# html html-parsing
我想从网页中提取统计信息,但我完全不知道该怎么做。 例如,在这个网页上,https://www.google.ca/,我想从 HTML 代码中获取按钮“我感觉很幸运”的文本,或者如果可能的话,使用更简单的方法。我有代码,但它与我的问题并没有很好的关系。如果你能帮忙,那就太好了。
编辑:我正在使用 C# Windows 窗体应用程序
【问题讨论】:
标签: c# html html-parsing
我必须说你的问题不清楚。很难给出具体的答案,所以我只能尽力给你一些起点。从标签中,我猜您正在寻找从网站解析 HTML 文件的方法?
首先,当您在这个问题中标记 C# 时,我想您可能想先在 C# 中找到解决方案?你可以看看Html Agility Pack
其他语言也有类似的库。
PHP:PHP Simple HTML DOM Parser
Python:official HTML parser
Java:jsoup
或者,使用 javascript(或 jquery 或其他 javascript 库)来解析 HTML 是最简单的。但是,请注意,如果 HTML 不是您自己的机器,由于同源策略,您不能使用 javascript 来解析该页面的 HTML。不过,您需要以其他方式运行 javascript,例如在开发人员工具控制台中运行、在 chrome-extension 脚本中运行或在服务器端 node.js 中运行。
【讨论】:
此链接可能对您有所帮助
http://www.dotnetperls.com/scraping-html
如果你正在使用 java
http://htmlcleaner.sourceforge.net/javause.php
祝你好运
【讨论】:
我不了解 C#,但您需要一个 html 解析库。 Python 的BeautifulSoup 非常强大。我想看看。
【讨论】:
<html>
<body>
<form action="get_btn_val.php" method="GET">
<input type="submit" name="btn_click" value="I'm Feeling Lucky" >
</form>
</body>
</html>
//在get_btn_val.php页面中
<?php
echo $_GET['btn_click'] ;
?>
【讨论】: