如何删除两个单词之间的字符串答案

【问题标题】：How to remove string between two words如何删除两个单词之间的字符串
【发布时间】：2013-12-26 03:36:27
【问题描述】：

我正在使用以下代码行下载网页，

WebRequest request = WebRequest.Create(strURL);
WebResponse response = request.GetResponse();
Stream data = response.GetResponseStream();

string html = String.Empty;
using (StreamReader sr = new StreamReader(data))
{
  html = sr.ReadToEnd();
}

然后我从这里提取身体部位如下：

int nBodyStart = downloadString.IndexOf("<body");
int nBodyEnd = downloadString.LastIndexOf("</body>");
String strBody = downloadString.Substring(nBodyStart, (nBodyEnd - nBodyStart + 7));

现在我想删除正文部分的所有 javascript，我该怎么做？

我的目标是获取网页的唯一内容。但由于每个页面可能有不同的方法，所以我试图删除任何 js 标签，然后使用下面的 RegEx 删除任何 HTML 标签

Regex.Replace(strBody, @"<[^>]+>|&nbsp;", "").Trim();

但是我不知道怎么去掉script标签之间的js，因为脚本可能是多行也可能是单行。

提前致谢。

【问题讨论】：

任何时候出现 html 的正则表达式解析......这篇文章总是值得一读stackoverflow.com/questions/1732348/…
@GrantWinney 我尝试使用它。但即使我的 URL 有 242 个字符，它也会抛出以下异常：指定的路径、文件名或两者都太长。完全限定文件名必须少于 260 个字符，目录名必须少于 248 个字符。

标签： c# javascript html regex

【解决方案1】：

要匹配脚本标签（包括对的内部），请使用以下内容：

<script[^>]*>(.*?)</script>

要匹配所有 HTML 标记（但不匹配对的内部），您可以使用：

</?[a-z][a-z0-9]*[^<>]*>

我刚刚意识到您可能还想删除样式标签：

<style[^>]*>(.*?)</style>

这里是完整的正则表达式字符串：

<script[^>]*>(.*?)</script>|<style[^>]*>(.*?)</style>|</?[a-z][a-z0-9]*[^<>]*>|<[^>]+>|&nbsp;

【讨论】：

您提供的正则表达式仅从单行中删除标签。如果脚本标签的开始和结束在不同的行怎么办？我也想删除它们之间的内容。
如果您使用 javascript 进行匹配，您可能必须使用任何“点”匹配项指定 [\r\n]。如果您使用的是 C#，它可能是相同的，或者您可以指定点与正则表达式开头的 (?s) 的换行符匹配。
你让我更接近了。但它没有删除脚本标签之间的内容。我也没有脚本标签之间的内容。我正在用 C# 编码。
我不是 100% 确定如何在 C# 中执行此操作，但我感觉默认情况下点与换行符不匹配。在正则表达式中，您可以像这样使用(?s) 指定模式：(?s)(?:<(?:script|style)[^>]*>(.*?)</(?:script|style)>|</?[a-z][a-z0-9]*[^<>]*>)，但如果 C# 的某些部分覆盖它，它将不起作用。例如，如果执行匹配的函数本身只能读取单行，则必须使用不同的函数。
感谢所有帮助。我最终使用了您的旧 reg ex，几乎没有修改。所以最终的正则表达式如下 '||?[az ][a-z0-9]*[^]*>|]+>| '

【解决方案2】：

你可以使用HtmlAgilityPack

WebRequest request = WebRequest.Create(strURL);
WebResponse response = request.GetResponse();
Stream data = response.GetResponseStream();

string html = String.Empty;
using (StreamReader sr = new StreamReader(data))
{
  html = sr.ReadToEnd();
}

HtmlAgilityPack.HtmlDocument document = new HtmlAgilityPack.HtmlDocument();
document.LoadHtml(html);

// to remove all tags 
var result = document.DocumentNode.InnerText;

// to remove script tags inside body 
document.DocumentNode.SelectSingleNode("//body").Descendants()
                .Where(n => n.Name == "script")
                .ToList()
                .ForEach(n => n.Remove());

【讨论】：

他也想删除所有标签（如<whatever>），只保留文本。至少我是这么理解的。
我试过用那个。但即使我的 URL 有 242 个字符，它也会抛出以下异常：指定的路径、文件名或两者都太长。完全限定文件名必须少于 260 个字符，目录名必须少于 248 个字符。
@juan.facorro 你是对的。我想删除所有标签。我只想保留正文的主要数据/内容。不是 js 函数、图像或除内容之外的任何其他东西。
@PratikGaikwad 您已经下载了 html 作为字符串，您可以使用该字符串，如果您想删除所有标签，请使用 document.DocumentNode.InnerText
@Damith：我也试过了，再次遇到异常：mscorlib.dll 中出现“System.ArgumentException”类型的未处理异常附加信息：路径中的非法字符。