【问题标题】:Counting word occurrences in a table column计算表列中的单词出现次数
【发布时间】:2009-07-07 21:08:50
【问题描述】:

我有一个带有 varchar(255) 字段的表。我想(通过查询、函数或 SP)获取该表中一组行中每个单词的出现次数。

如果有 2 行包含这些字段:

“我喜欢吃香蕉” “我不喜欢像猴子一样吃东西”

我想得到

词 |数数() --------------- 像 3 吃 2 到 2 我 2 一个 1

有什么想法吗?我正在使用 MySQL 5.2。

【问题讨论】:

标签: mysql count word


【解决方案1】:

@Elad Meidar,我喜欢你的问题,我找到了解决方案:

SELECT SUM(total_count) as total, value
FROM (

SELECT count(*) AS total_count, REPLACE(REPLACE(REPLACE(x.value,'?',''),'.',''),'!','') as value
FROM (
SELECT SUBSTRING_INDEX(SUBSTRING_INDEX(t.sentence, ' ', n.n), ' ', -1) value
  FROM table_name t CROSS JOIN 
(
   SELECT a.N + b.N * 10 + 1 n
     FROM 
    (SELECT 0 AS N UNION ALL SELECT 1 UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4 UNION ALL SELECT 5 UNION ALL SELECT 6 UNION ALL SELECT 7 UNION ALL SELECT 8 UNION ALL SELECT 9) a
   ,(SELECT 0 AS N UNION ALL SELECT 1 UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4 UNION ALL SELECT 5 UNION ALL SELECT 6 UNION ALL SELECT 7 UNION ALL SELECT 8 UNION ALL SELECT 9) b
    ORDER BY n
) n
 WHERE n.n <= 1 + (LENGTH(t.sentence) - LENGTH(REPLACE(t.sentence, ' ', '')))
 ORDER BY value

) AS x
GROUP BY x.value

) AS y
GROUP BY value

这是完整的工作小提琴:http://sqlfiddle.com/#!2/17481a/1

首先,我们按照@peterm 的解释here 进行查询以提取所有单词(如果您想自定义处理的单词总数,请按照他的说明进行操作)。然后我们将其转换为子查询,然后我们 COUNTGROUP BY 每个单词的值,然后在此之上进行另一个查询 GROUP BY 未分组的单词情况下可能存在伴随符号。即:你好=你好!带有REPLACE

【讨论】:

  • 工作,非常感谢!
【解决方案2】:

我建议不要在 SQL 中执行此操作。您正在为数据库加载一些它不擅长的东西。选择一组行并在应用程序端进行频率计算将更容易实现,工作速度更快,并且维护起来的问题/头痛更少。

【讨论】:

  • 真的,将其作为存储过程运行不是更聪明吗?还是函数?我一直认为将此类计算卸载到数据库会更好。
  • 同意,使用常规 SQL 无法做到这一点。您可以使用临时表和本文中技术之一的修改版本来编写存储过程:sommarskog.se/arrays-in-sql-2000.html(这适用于 SQL Server 2000,但可以很容易地适应 MySQL 的方言)但是,问题仍然是你这样做超出了 SQL 的“舒适区”
  • 您当然可以在 SP 中做到这一点,对数据集使用多次传递并使用正则表达式提取每个单词,然后将结果放入临时表并对其进行迭代等等。但它相当复杂,既难以编写又难以维护,我会说维护比首先编写它更重要。 DB 有利于它们的设计用途 - 存储/读取/写入关系数据。让他们计算事物只是次优设计,最终会以大量 PITA 的形式返回。
【解决方案3】:

我认为您应该像索引一样使用附加表。 每当您在原始表中创建、更新或删除一行时,您都应该更新您的索引表。该索引表应包含以下列:单词和出现次数。

【讨论】:

  • 是的,但问题是我需要在用户范围内(表上的 FK 与我需要解析的字符串)使用单词、短语和用户之间的连接表有点过头不?
【解决方案4】:

你可以试试这个有点变态的方法:

SELECT 
(LENGTH(field) - LENGTH(REPLACE(field, 'word', ''))) / LENGTH('word') AS `count`
ORDER BY `count` DESC

这个查询可能很慢。而且,它看起来很丑。

【讨论】:

    【解决方案5】:

    如果所有单词都在每一行的一个字段中,我认为您正在尝试使用 SQL 做太多事情。我建议在您从数据库中获取文本字段后,对您的应用程序进行任何文本处理/计数。

    【讨论】:

    • 真的,将其作为存储过程运行不是更聪明吗?还是函数?我一直认为将此类计算卸载到数据库会更好。
    猜你喜欢
    • 1970-01-01
    • 2013-12-25
    • 2021-02-05
    • 2021-10-15
    • 2011-08-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多