如何查询数据库字段但忽略 HTML 标记？答案

【问题标题】：How do I query a database field but ignore the HTML markup?如何查询数据库字段但忽略 HTML 标记？
【发布时间】：2011-01-15 20:15:32
【问题描述】：

我们有一个包含用于在网站上格式化的 HTML 标记的字段，但我们只需要查询应该在屏幕上呈现的文本，而不是 CSS 标记、标记名称、属性名称等内容。

有没有办法忽略 SQL 查询或存储过程中的标记？如果有办法做到这一点，我们以后会不会出现性能问题？

我的猜测是有某种方法可以使用尖括号来解析可搜索文本的字段。

【问题讨论】：

【解决方案1】：

这是您可以利用的用户定义函数：

【讨论】：

【解决方案2】：

这样的处理不应该在数据库中进行。我建议创建一个仅包含文本内容的单独字段。

回应@Nissan Fans 评论：从 HTML 中提取文本不是 IMO 数据库的工作。它的工作太复杂了，它有太多的变数。我不精通阅读存储过程，但如果我正确阅读代码，它会在源代码中出现（无效但仍经常发生）未编码的< 的问题。而且它很可能会因为无效的 HTML 而中断。

或者想象有一天，客户来了，并希望 img 元素的 ALT 属性也被索引。或titles。使用“开始位置，结束位置”算法开始构建它。你会发疯。

我说，如果需要在日常基础上处理来自您无法控制的不同来源的 HTML，请将其留给 DB 之上的层，以便更好地处理这些东西。基于 DOM 的方法——也许使用 BeautifulSoup 来处理无效的 HTML——解析所有 nodeValues 将是最可靠的方法。

也许这是矫枉过正，存储过程在 OP 的情况下可以正常工作 - 从他的评论中看起来很像，这完全没问题。我只是说，如果您无法控制传入的 HTML，请不要使用数据库为这项工作提供的有限手段来剥离 HTML。

【讨论】：

复制数据，因为您必须查询它的子集，这似乎是不规则的。这就像将日期分解为每个组件，因为有人只想查询月份。如果这不是一个超大规模的数据库，那应该不是问题。
这个思路不错，每次查询都去掉html肯定很慢。
用于存储相同信息的空间也增加了一倍。还有很多其他的事情需要考虑......也许这个搜索是每 5,000 次有人使用 HTML 数据就使用一次的功能？想象一个应用程序显示带有标签的数据列表，但允许进行文本搜索，如果每次都使用的话。没有足够的背景来证明这一点。此外，我的不同意与他关于单独字段的陈述无关，而更多地与这样一个事实有关，即查询这样的数据正是数据库的用途。
@Nissan Fan，你的观点是正确的。不过，在这种情况下，我认为数据库不适合这样做。请参阅我的更新答案。
我认为你是绝对正确的，这是对数据库施加的过于复杂的处理。如果我搜索更多行，如果这些行的内容比它们更重要，我会这样做。在我的情况下，虽然这是一个包含可疑数据的描述字段，但在我们测试了一个简单的函数后，观察括号一切正常。因此，您会为此答案获得 +1，但我们使用了 @Nissan Fan 链接的简单函数。

【解决方案3】：

我同意 Pekka 的观点；这不是您的数据库应该处理的事情。

在数据库中进行这种解析的缺点：

如果您必须在数据库中执行此操作...

如果需要在数据库中执行此操作，请考虑以下方法：

您将获得更好的性能，因为您只在写入时进行解析，而不是在每次搜索时进行，并且您的数据库将更好地利用您在纯文本字段中定义的任何索引。

【讨论】：

【解决方案4】：

如果您可以在查询中运行正则表达式，则可以使用此处的示例去除 HTML 并仅返回文本：http://www.regular-expressions.info/examples.html

【讨论】：

【解决方案5】：

如果您尝试索引这些列之一并通过删除 html 来访问它：

WHERE dbo.anyRemoveHtml(yourColumn)='your search text'

不会使用索引，您将进行表扫描。当应用程序的数据很少时，这可能不是问题，但随着向表中添加更多数据，会导致 SELECT 越来越慢。

注意：dbo.anyRemoveHtml 只是一个虚构的名称，代表您选择删除 HTML 的函数，实际上并不存在

【讨论】：