首页 文章

使用相似Postgres模糊自连接查询提高性能

提问于
浏览
3

我正在尝试运行一个连接表自身的查询,并进行模糊字符串比较(使用trigram比较)来查找可能的公司名称匹配 . 我的目标是返回记录,其中一个记录的公司名称(ref_name字段)的三元组相似性与另一个记录的公司名称相匹配 . 目前,我的阈值设置为0.9,因此它只会返回很可能包含类似字符串的匹配项 .

我知道自联接本质上可以导致许多比较,但我想尽我所能地优化我的查询 . 我不需要即时结果,但是目前我运行的查询需要11个小时才能运行 .

我在Ubuntu 12.04服务器上运行Postgres 9.2 . 我不是't know what the max length of the ref_name field (field I' m匹配)是,所以我把它设置为 varchar(300) . 我想知道将它设置为文本类型可能会影响性能,或者是否有更好的字段类型可用于加速性能 . 我的 LC_CTYPELC_COLLATE 语言环境设置为 "en_US.UTF-8"

我运行查询的表总共包含大约160万条记录,但运行了11个小时的查询只占一小部分(约100k) .

表结构:

CREATE TABLE ref_name (
  ref_name_id integer,
  ref_name character varying(300),
  ref_name_type character varying(2),
  name_display text,
  load_date timestamp without time zone
)

索引:

CREATE INDEX ref_name_ref_name_trigram_idx ON ref_name
  USING gist (ref_name COLLATE pg_catalog."default" gist_trgm_ops);

CREATE INDEX ref_name_ref_name_trigram_idx_1 ON ref_name
  USING gist (ref_name COLLATE pg_catalog."default" gist_trgm_ops)
  WHERE ref_name_type::text = 'E'::text;

CREATE INDEX ref_name_ref_name_e_idx ON ref_name
  USING btree (ref_name COLLATE pg_catalog."default")
  WHERE ref_name_type::text = 'E'::text;

查询:

select a.ref_name_id as name_id,a.ref_name AS name,
  a.name_display AS name_display,b.ref_name_id AS matched_name_id,
  b.ref_name AS matched_name,b.name_display AS matched_name_display
from ref_name a
JOIN ref_name b
 ON a.ref_name_id<>b.ref_name_id
 AND a.ref_name_id>b.ref_name_id
 AND a.ref_name % b.ref_name
WHERE 
 a.ref_name ~>=~ 'A' and a.ref_name ~<~'B'
 AND b.ref_name ~>=~ 'A' and b.ref_name ~<~'B'
 AND a.ref_name_type='E'
 AND b.ref_name_type='E'

解释计划:

"Nested Loop  (cost=0.00..8560728.16 rows=3598470 width=96)"
"  ->  Seq Scan on ref_name a  (cost=0.00..96556.12 rows=103901 width=48)"
"        Filter: (((ref_name)::text ~>=~ 'A'::text) AND ((ref_name)::text ~<~ 'B'::text) AND ((ref_name_type)::text = 'E'::text))"
"  ->  Index Scan using ref_name_ref_name_trigram_idx_1 on ref_name b  (cost=0.00..80.41 rows=35 width=48)"
"        Index Cond: ((a.ref_name)::text % (ref_name)::text)"
"        Filter: (((ref_name)::text ~>=~ 'A'::text) AND ((ref_name)::text ~<~ 'B'::text) AND (a.ref_name_id <> ref_name_id) AND (a.ref_name_id > ref_name_id))"

以下是一些示例记录:

1652632;"A 123 SYSTEMS";"E";"A 123 SYSTEMS INC";"2014-11-14 00:00:00"
1652633;"A123 SYSTEMS";"E";"A123 SYSTEMS INC";"2014-11-14 00:00:00"
1652640;"A 1 ACCOUSTICS";"E";"A-1 ACCOUSTICS";"2014-11-14 00:00:00"
1652641;"A 1 ACOUSTICS";"E";"A-1 ACOUSTICS";"2014-11-14 00:00:00"
1652642;"A1 ACOUSTICS";"E";"A1 ACOUSTICS INC";"2014-11-14 00:00:00"
1652650;"A 1 A ELECTRICAL";"E";"A-1 A ELECTRICAL INC";"2014-11-14 00:00:00"
1652651;"A 1 A ELECTRICIAN";"E";"A 1 A ELECTRICIAN INC";"2014-11-14 00:00:00"
1652652;"A 1A ELECTRICIAN";"E";"A 1A ELECTRICIAN INC";"2014-11-14 00:00:00"
1652653;"A1 A ELECTRICIAN";"E";"A1 A ELECTRICIAN INC";"2014-11-14 00:00:00"
1691270;"ALBERT GARLATTI";"E";"ALBERT GARLATTI";"2014-11-14 00:00:00"
1691271;"ALBERT GARLATTI CONSTRUCTION";"E";"ALBERT GARLATTI CONSTRUCTION CO";"2014-11-14 00:00:00"
1680892;"AG HOG PITTSBURGH";"E";"AG-HOG PITTSBURGH CO INC";"2014-11-14 00:00:00"
1680893;"AGHOG PITTSBURGH";"E";"AGHOG PITTSBURGH CO";"2014-11-14 00:00:00"
1680928;"AGILE PURSUITS FRACHISING";"E";"AGILE PURSUITS FRACHISING INC";"2014-11-14 00:00:00"
1680929;"AGILE PURSUITS FRANCHISING";"E";"AGILE PURSUITS FRANCHISING INC";"2014-11-14 00:00:00"
1680956;"AGING COMMUNITY COORDINATED ENTERPRISES & SUPPORT";"E";"AGING COMMUNITY COORDINATED ENTERPRISES & SUPPORT";"2014-11-14 00:00:00"
1680957;"AGING COMMUNITY COORDINATED ENTERPRISES & SUPPORTI";"E";"AGING COMMUNITY COORDINATED ENTERPRISES & SUPPORTI";"2014-11-14 00:00:00"

正如你所看到的,我创建了一个gist trigram索引来加快速度(到目前为止尝试了两种不同的类型进行比较) . 有没有人对如何提高此查询的性能以及从11小时内将其降低到更易于管理的问题有任何建议?最后,我想在整个表上运行此查询来比较记录,而不仅仅是这个小子集 .

1 回答

  • 6

    指数

    部分GiST指数是好的,我至少会测试这些额外的两个指数:

    GIN指数:

    CREATE INDEX ref_name_trgm_gin_idx ON ref_name
    USING gin (ref_name gin_trgm_ops)
    WHERE ref_name_type = 'E';
    

    这可能会也可能不会使用 . 如果升级到Postgres 9.4,可能会更好,因为GIN索引有了重大改进 .

    varchar_pattern_ops索引:

    CREATE INDEX ref_name_pattern_ops_idx
    ON ref_name (ref_name varchar_pattern_ops)
    WHERE ref_name_type = 'E';
    

    查询

    当您针对所有行检查所有行时,此查询的核心问题是您正在与 O(N²) 进行交叉连接 . 对于大量的行,性能变得难以忍受 . 你似乎很清楚这种动态 . 辩护是限制可能的组合 . 你已朝这个方向迈出了一步,限制了相同的第一个字母 .

    这里一个非常好的选择是 Build 在 GiST indices 的特殊天赋上,用于 nearest neighbour 搜索 . 这种查询技术有一个hint in the manual

    这可以通过GiST索引非常有效地实现,但不能通过GIN索引实现 . 当只需要少量最接近的匹配时,它通常会超过第一个公式 .

    除了GiST索引之外,还可以使用 GIN index . 你必须权衡成本和收益 . 在9.4之前的版本中坚持使用一个大索引可能会更便宜 . 但它可能在第9.4页中值得 .

    Postgres 9.2

    使用 correlated subqueries 替换尚未存在的缺失 LATERAL join:

    SELECT a.*
         , b.ref_name     AS match_name
         , b.name_display AS match_name_display
    FROM  (
       SELECT ref_name_id
            , ref_name
            , name_display
            , (SELECT ref_name_id AS match_name_id
               FROM   ref_name b
               WHERE  ref_name_type = 'E'
               AND    ref_name ~~ 'A%'
               AND    ref_name_id > a.ref_name_id
               AND    ref_name % a.ref_name
               ORDER  BY ref_name <-> a.ref_name
               LIMIT  1                                -- max. 1 best match
              )
       FROM   ref_name a
       WHERE  ref_name ~~ 'A%'
       AND    ref_name_type = 'E'
       ) a
    JOIN   ref_name b ON b.ref_name_id = a.match_name_id
    ORDER  BY 1;
    

    显然,这也需要一个 ref_name_id 的索引,它通常应该是PK,因此自动索引 .

    我在SQL Fiddle中添加了 two more variants .

    Postgres 9.3

    使用 LATERAL join将匹配集设置为set . 与此相关答案中的第2a章类似:

    SELECT a.ref_name_id
         , a.ref_name
         , a.name_display
         , b.ref_name_id  AS match_name_id
         , b.ref_name     AS match_name
         , b.name_display AS match_name_display
    FROM   ref_name a
    ,   LATERAL (
       SELECT b.ref_name_id, b.ref_name, b.name_display
       FROM   ref_name b
       WHERE  b.ref_name ~~ 'A%'
       AND    b.ref_name_type = 'E'
       AND    a.ref_name_id < b.ref_name_id
       AND    a.ref_name % b.ref_name  -- also enforce min. similarity
       ORDER  BY a.ref_name <-> b.ref_name
       LIMIT  10                                -- max. 10 best matches
       ) b
    WHERE  a.ref_name ~~ 'A%'   -- you can extend the search
    AND    a.ref_name_type = 'E'
    ORDER  BY 1;
    

    SQL Fiddle所有变体与您的案例后建模的40k行的原始查询进行比较 .

    查询比你在小提琴中的原始速度快2到5倍 . 而且我希望它们能够在数百万行的情况下更好地扩展 . 你必须测试 .

    b 中的匹配搜索扩展到所有行(同时将 a 中的候选限制为合理的数字)也相当便宜 . 我在小提琴中添加了另外两个变体 .

    旁白:我用 text 而不是 varchar 运行所有测试,但这不应该有所作为 .

    基础知识和链接:

相关问题