场景

求每个域名的top url，存在某几个域名的url数量过多（亿级别），导致整个任务的row_number() over 排序阶段出现长尾。

优化思路

row_number over 归根到底就是在域名分组的前提下进行全局排序，那么对该场景的问题进行抽象就是全局排序如何优化。
如果能在全局排序前先做一次局部排序，筛选出符合候选条件的候选项，再进行全局排序，将能有效的避免长尾。这让我想到了一个场景就是比赛机制，筛选出金银铜牌，从本质上是类似的，所以看看比赛的机制下，是如何做的，emm，其实就是分组，只是每个人作为独立的个体，只能分配到一个小组里。那么top url场景中，url就是比赛的最细粒度的个体，只需要先分组候选出top3，之后再全局top3，就能解决此问题。
所以重点就是：对每个url生成一个group_id, 如1000以内的随机数，让其分配到一个组中去，局部row_number 后，筛选出候选项，再全局row_number一次。这个场景也适合全局sort 求 top场景。

示例代码

对所有域名做了统一处理，也可以挑出热点key, 单独处理

DROP TABLE IF EXISTS ti.tmp_topurl_${date}_${hour};
DROP TABLE IF EXISTS ti.tmp_rank_${date}_${hour};

--Map 端部分聚合，相当于Combiner
SET hive.map.aggr = TRUE;
--有数据倾斜的时候进行负载均衡
SET hive.groupby.skewindata = TRUE;

-- 查询：日期、域名、URL、bytes_sent
-- 域名、URL分组聚合
CREATE  TABLE ti.tmp_topurl_${date}_${hour} AS
SELECT  `datetime`,
        host,
        uri,
        pmod(abs(hash(uri)), 1000) AS group_id, -- 分组使用，稳定分组，随机分组效果是一样的
        count(1) AS request,
        SUM(bytes_bigint) AS bytes
FROM    (
            SELECT  FROM_UNIXTIME(UNIX_TIMESTAMP(ds_req_ts, 'yyyy-MM-dd HH:mm:ss'), 'yyyy-MM-dd HH') AS `datetime`,
                    ds_http_domain AS host,
                    ds_http_uri_rewrite AS uri,
                    CAST(ds_http_resp_size AS BIGINT) AS bytes_bigint
            FROM    ti.data_table
            WHERE   `pt_d` = "${date}"
            AND     `pt_h` = "${hour}"
        ) AS t
GROUP BY
        `datetime`,
        host,
        uri;

-- 分组域名-请求数Rank
CREATE  TABLE ti.tmp_rank_${date}_${hour} AS
SELECT  *
FROM    (
            SELECT  UNIX_TIMESTAMP(`datetime`, 'yyyy-MM-dd HH') AS `ts`,
                    host,
                    uri,
                    request,
                    bytes,
                    row_number() OVER(
                        PARTITION BY
                                `datetime`,
                                host
                        ORDER BY
                                request DESC
                    ) AS host_request_rank,
                    row_number() OVER(
                        PARTITION BY
                                `datetime`,
                                host
                        ORDER BY
                                bytes DESC
                    ) AS host_bytes_rank
            FROM    (
                        -- 全局rank 1000 一定在局部rank 1000
                        SELECT  `datetime`,
                                host,
                                uri,
                                request,
                                bytes,
                                row_number() OVER(
                                    PARTITION BY
                                            `datetime`,
                                            host,
                                            group_id
                                    ORDER BY
                                            request DESC
                                ) AS request_rank,
                                row_number() OVER(
                                    PARTITION BY
                                            `datetime`,
                                            host,
                                            group_id
                                    ORDER BY
                                            bytes DESC
                                ) AS bytes_rank
                        FROM    ti.tmp_topurl_${date}_${hour}
                    ) it1
            WHERE   it1.request_rank <= 1000
            OR      it1.bytes_rank <= 1000
        ) AS t1
WHERE   t1.host_request_rank <= 1000
OR      t1.host_bytes_rank <= 1000;

原文链接：https://blog.csdn.net/u013668852/article/details/116295392