【问题标题】:Performance issue MYSQL SELECT on view视图上的性能问题 MYSQL SELECT
【发布时间】:2013-05-29 11:17:30
【问题描述】:

我遇到了 MYSQL 的 SELECT 性能问题。

我有两个表“域”和“电子邮件”,其中包含重复项,这些表经常由不同的来源更新(插入/删除)(大约每十分钟一次)。

我的主要目标是从这些表中创建两个视图,而不会出现任何重复。我知道视图是一个存储查询,但这是我保持它动态的唯一方法,每十分钟创建一个不重复的新表会很疯狂(也许不是?)。

两个视图都被另一个线程(后缀)用于检查收件人是否是允许的。当我尝试做一个简单的查询时

SELECT email FROM emailview WHERE email = 'john@google.com'` 

查询需要 3-4 秒。相反,如果我直接在电子邮件表(包含重复项)上执行 SELECT,则需要 0.01 秒。

如何提高系统上的 SELECT 性能,以获得几乎与视图相似的结果,而不是直接在表上?

这是架构的详细信息(INNODB 引擎,值 1 是随机的,并不重要):

域表:

| field        | type         | null | key  |
|--------------|--------------|------|------|
| domain       | varchar(255) | NO   | NULL |
| creationdate | datetime     | NO   | NULL |
| value 1      | varchar(255) | NO   | NULL |
| source_fkey  | varchar(255) | MUL  | NULL |

| domain     | creationdate        | value 1 | source_fkey |
|------------|---------------------|-----------------------|
| google.com | 2013-05-28 15:35:01 | john    | Y           |
| google.com | 2013-04-30 12:10:10 | patrick | X           |
| yahoo.com  | 2011-04-02 13:10:10 | britney | Z           |
| ebay.com   | 2012-02-12 10:48:10 | harry   | Y           |
| ebay.com   | 2013-04-15 07:15:23 | bill    | X           |

域视图(使用最早的创建日期删除重复域):

CREATE VIEW domainview AS 
  SELECT domain.domain, creationdate, value1, source_fkey 
    FROM domain 
    WHERE (domain, creationdate) IN (SELECT domain, MIN(creationdate) 
                                       FROM domain GROUP BY domain);

| domain     | creationdate        | value 1 | source_fkey |
|------------|---------------------|-----------------------|
| google.com | 2013-04-30 12:10:10 | patrick | X           |
| yahoo.com  | 2011-04-02 13:10:10 | britney | Z           |
| ebay.com   | 2012-02-12 10:48:10 | harry   | Y           |

电子邮件表:

| field        | type         | null | key  |
|--------------|--------------|------|------|
| email        | varchar(255) | NO   | NULL |
| source_fkey  | varchar(255) | MUL  | NULL |


| email              | foreign_key |
|--------------------|-------------|
| john@google.com    | X           |
| john@google.com    | Y           |   <-- duplicate from wrong foreign/domain
| harry@google.com   | X           |
| mickael@google.com | X           |
| david@ebay.com     | Y           |
| alice@yahoo.com    | Z           |

电子邮件视图(合法电子邮件和来自域视图的域/foreign_key 的电子邮件):

CREATE VIEW emailview AS 
  SELECT email.email, email.foreign_key 
    FROM email, domainview 
    WHERE email.foreign_key = domainview.foreign_key 
      AND SUBSTRING_INDEX(email.email,'@',-1) = domainview.domain;

| email              | foreign_key |
|--------------------|-------------|
| john@google.com    | X           |
| harry@google.com   | X           |
| mickael@google.com | X           |
| david@ebay.com     | Y           |
| alice@yahoo.com    | Z           |

没有唯一性,没有索引,唯一的主键在foreign_key所在的表中。

感谢您的帮助。

之前的讨论:Select without duplicate from a specific string/key

【问题讨论】:

  • 有多少条记录?
  • 在我的测试环境中只有 60 个域和 130'000 个电子邮件,在生产环境中,我预计大约有 500'000 个邮件和 10'000 个域 ~。
  • 我试图改进缓存,但它什么也没做。我认为问题在于视图,因为在源表上的直接查询中响应非常快(0,01 秒)。当我像这样对“emailview”进行查询时:SELECT email FROM emailview WHERE email = 'john@google.com';这需要 4 秒,这对于邮件服务器来说真的很慢。
  • 每次查询视图时,它都会“重新创建”。我认为在您的情况下,您最好查询原始表(因为您只对一个条目/电子邮件感兴趣)。仅当您需要为每个查询检索所有/许多电子邮件的关联键时,该视图才有意义。如果您正在寻找一种自动化方法(以简化您的查询),那么您可能正在寻找一个函数。
  • 根据您的建议,我提出了一个请求,时间几乎相同(4.59s 有视野,4.47s 没有视野)。

标签: mysql performance join view


【解决方案1】:

这两个查询都很慢——首先是因为IN 子句中的子选择——直到 MySQL 5.6 才优化;第二个因为在 where 子句中使用了一个函数。

在第一个查询中,您可以将子选择替换为连接 第二种,最好将域存储在单独的列中并用于比较

确保在连接、where 和 group by 子句中使用的字段上有复合索引

【讨论】:

  • 感谢第一次查询的提示,我将使用直接查询而不是对视图进行查询以提高我的性能。
  • @Arka 你错了。多个连接只会杀死您的服务器,而不是一次获取所有数据。我来纠正一些写入你的风格的代码(大约 2 周前),这需要大约 50-90 秒来执行大约 1k 个查询,而不是编写一个执行 1 次的正确查询并获取大约 1 秒的所有信息(因为我使用的是而是索引和连接)。记住:这是我的特殊情况;但我的意见是获得 DBA 的意见,而不是杀死与 DB 的多个连接的服务器(特别是如果 DB 引擎是 InnoDB)。
猜你喜欢
  • 2011-08-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-11-29
  • 1970-01-01
  • 2013-04-21
  • 1970-01-01
  • 2017-07-29
相关资源
最近更新 更多