天天色综合色,国产原创一区二区,欧美专区亚洲专区

主頁 > 知識庫 > 如何使用分區處理MySQL的億級數據優化

如何使用分區處理MySQL的億級數據優化

mysql在查詢上千萬級數據的時候，通過索引可以解決大部分查詢優化問題。但是在處理上億數據的時候，索引就不那么友好了。

數據表（日志）是這樣的：

表大小：1T，約24億行；
表分區：按時間分區，每個月為一個分區，一個分區約2-3億行數據（40-70G左右）。

由于數據不需要全量處理，經過與需求方討論后，我們按時間段抽樣一部分數據，比如抽樣一個月的數據，約3.5億行。
數據處理的思路：

1）建表引擎選擇Innodb。由于數據是按月分區的，我們將該月分區的數據單獨copy出來，源表為myisam引擎，因我們可能需要過濾部分數據，涉及到篩選的字段又沒有索引，使用myisam引擎加索引的速度會比較慢；
2）按日分區。將copy出來的表加好索引后（約2-4個小時），過濾掉無用的數據，同時再次新生成一張表，抽取json中需要的字段，并對該表按日分區。

CREATE TABLE `tb_name` (
  `id_`,
  ...,
  KEY `idx_1` (`create_user_`) 
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='應用日志'
PARTITION BY RANGE(to_days(log_time_)) (
    PARTITION p1231 VALUES LESS THAN (737425),
    PARTITION p0101 VALUES LESS THAN (737426),
    PARTITION p0102 VALUES LESS THAN (737427),
    PARTITION p0103 VALUES LESS THAN (737428),
    PARTITION p0104 VALUES LESS THAN (737429),
......
);

3）對上面生成的表按每日進行聚合或者其他操作，并將結果存儲到臨時表中，盡量使用存儲過程加工數據，由于加工相對復雜而且耗時較多（跑一次存儲過程需要大概1-2小時），因此循環調用存儲過程時應記錄操作時間和執行過程中的參數等；

delimiter $$
create procedure proc_name(param varchar(50))
begin
 declare start_date date;
    declare end_date date;
    set start_date = '2018-12-31';
    set end_date = '2019-02-01';
    
    start transaction;
 truncate tmp_talbe;
 commit;
    
    while start_date  end_date do
  set @partition_name = date_format(start_date, '%m%d');
        set @start_time = now(); -- 記錄當前分區操作起始時間
        
  start transaction;
  set @sqlstr = concat(
   "insert into tmp_talbe",
   "select field_names ",
            "from tb_name partition(p", @partition_name,") t ",
            "where conditions;"
   );
  -- select @sqlstr;
  prepare stmt from @sqlstr;  
  execute stmt;
  deallocate prepare stmt;
  commit;
        
        -- 插入日志
        set @finish_time = now(); -- 操作結束時間
        insert into oprerate_log values(param, @partition_name, @start_time, @finish_time, timestampdiff(second, @start_time, @finish_time));
        
  set start_date = date_add(start_date, interval 1 day);
    end while;
end
$$
delimiter ;

4）對上述生成的結果進行整理加工。

總的來說，處理過程相對繁瑣，而且產生了很多中間表，對關鍵步驟還需要記錄操作流程的元數據，這對SQL處理的要求會比較高，因此不建議使用MySQL處理這種任務（除非迫不得已），如果能將能處理過程放在大數據平臺上處理，速度會更快，而且元數據管理會相對專業。

到此這篇關于如何使用分區處理MySQL的億級數據優化的文章就介紹到這了,更多相關MySQL 億級數據優化內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

mysql 數據插入優化方法之concurrent_insert
mysql優化之query_cache_limit參數說明
MySQL 百萬級數據的4種查詢優化方式
MySQL優化之如何寫出高質量sql語句
帶你快速搞定Mysql優化

標簽：定西福州阿里三明溫州山西無錫揚州

巨人網絡通訊聲明：本文標題《如何使用分區處理MySQL的億級數據優化》，本文關鍵詞如何,使用,分區,處理,MySQL,；如發現本文內容存在版權問題，煩請提供相關信息告之我們，我們將及時溝通與處理。本站內容系統采集于網絡，涉及言論、版權與本站無關。

婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

如何使用分區處理MySQL的億級數據優化