<bdo id="4g88a"><xmp id="4g88a">
  • <legend id="4g88a"><code id="4g88a"></code></legend>

    玩轉數據庫索引

    1、概述

    通常我們要對數據庫進行優化,主要可以通過以下五種方法。

    1. 計算機硬件調優
    2. 應用程序調優
    3. 數據庫索引優化
    4. SQL語句優化
    5. 事務處理調優

    數據庫優化

    本篇文章將向大家介紹數據庫中索引類型和使用場合,本文以SQL Server為例,對于其他技術平臺的朋友也是有參考價值的,原理差不多。

    查詢數據時索引使數據庫引擎執行速度更快,有針對性的數據檢索,而不是簡單地整表掃描(Full table scan)。

    為了有效的使用索引,我們必須對索引的構成有所了解,而且我們知道在數據表中添加索引必然需要創建和維護索引表,所以我們要全局地衡量添加索引是否能提高數據庫系統的查詢性能。

    2、數據庫中的文件和文件組

    在物理層面上,數據庫由數據文件組成,而這些數據文件組成文件組,然后存儲在磁盤上。每個文件包含許多區,每個區的大小為64K由八個物理上連續的頁組成(一個頁8K),我們知道頁是SQL Server數據庫中的數據存儲的基本單位。為數據庫中的數據文件(.mdf 或 .ndf)分配的磁盤空間可以從邏輯上劃分成頁(從0到n連續編號)。

    頁中存儲的類型有:數據,索引溢出。

    在SQL Server中,通過文件組這個邏輯對象對存放數據的文件進行管理。

    文件和文件組

    在頂層是我們的數據庫,由于數據庫是由一個或多個文件組組成,而文件組是由一個或多個文件組成的邏輯組,所以我們可以把文件組分散到不同的磁盤中,使用戶數據盡可能跨越多個設備,多個I/O 運轉,避免 I/O 競爭,從而均衡I/O負載,克服訪問瓶頸。

    3、區和頁

    如下圖所示,文件是由區組成的,而區由八個物理上連續的頁組成,由于區的大小為64K,所以每當增加一個區文件就增加64K。

    區和頁

    頁中保存的數據類型有:表數據、索引數據、溢出數據、分配映射、頁空閑空間、索引分配等。

    頁類型 內容
    Data 當 text in row 設置為 ON 時,包含除 text、 ntext、image、nvarchar(max)、varchar(max)、varbinary(max) 和 xml 數據之外的所有數據的數據行。
    Index 索引條目。
    Text/Image 大型對象數據類型:text 、 ntext、image、nvarchar(max)、varchar(max)、varbinary(max) 和 xml 數據。數據行超過 8 KB 時為可變長度數據類型列:varchar 、nvarchar、varbinary 和 sql_variant
    Global Allocation Map、Shared Global Allocation Map 有關區是否分配的信息。
    Page Free Space 有關頁分配和頁的可用空間的信息。
    Index Allocation Map 有關每個分配單元中表或索引所使用的區的信息。
    Bulk Changed Map 有關每個分配單元中自最后一條 BACKUP LOG 語句之后的大容量操作所修改的區的信息。
    Differential Changed Map 有關每個分配單元中自最后一條 BACKUP DATABASE 語句之后更改的區的信息。

    在數據頁上,數據行緊接著頁頭(標頭)按順序放置;頁頭包含標識值,如頁碼或對象數據的對象ID;數據行持有實際的數據;最后,頁的末尾是行偏移表,對于頁中的每一行,每個行偏移表都包含一個條目,每個條目記錄對應行的第一個字節與頁頭的距離,行偏移表中的條目的順序與頁中行的順序相反。

    數據頁

    4、索引的基本結構

    “索引(Index)提供查詢的速度”這是對索引的最基本的解釋,接下來我們將通過介紹索引的組成,讓大家對索引有更深入的理解。

    索引是數據庫中的一個獨特的結構,由于它保存數據庫信息,那么我們就需要給它分配磁盤空間和維護索引表。創建索引并不會改變表中的數據,它只是創建了一個新的數據結構指向數據表;打個比方,平時我們使用字典查字時,首先我們要知道查詢單詞起始字母,然后翻到目錄頁,接著查找單詞具體在哪一頁,這時我們目錄就是索引表,而目錄項就是索引了。

    當然,索引比字典目錄更為復雜,因為數據庫必須處理插入,刪除和更新等操作,這些操作將導致索引發生變化。

    葉節點

    假設我們磁盤上的數據是物理有序的,那么數據庫在進行插入,刪除和更新操作時,必然會導致數據發生變化,如果我們要保存數據的連續和有序,那么我們就需要移動數據的物理位置,這將增大磁盤的I/O,使得整個數據庫運行非常緩慢;使用索引的主要目的是使數據邏輯有序,使數據獨立于物理有序存儲。

    為了實現數據邏輯有序,索引使用雙向鏈表的數據結構來保持數據邏輯順序,如果要在兩個節點中插入一個新的節點只需修改節點的前驅和后繼,而且無需修改新節點的物理位置。

    雙向鏈表(Doubly linked list)也叫雙鏈表,是鏈表的一種,它的每個數據結點中都有兩個指針,分別指向直接后繼和直接前驅。所以,從雙向鏈表中的任意一個結點開始,都可以很方便地訪問它的前驅結點和后繼結點。

    理論上說,從雙向鏈表中刪除一個元素操作的時間復雜度是O(1),如果希望刪除一個具體有給定關鍵字的元素,那么最壞的情況下的時間復雜度為O(n)。

    在刪除的過程中,我們只需要將要刪除的節點的前節點和后節點相連,然后將要刪除的節點的前節點和后節點置為null即可。

    //偽代碼
    node.prev.next=node.next; 
    node.next.prev=node.prev; 
    node.prev=node.next=null;
    

    索引的葉節點和相應的表數據

    如上圖,索引葉節點包含索引值和相應的RID(ROWID),而且葉節點通過雙向鏈表有序地連接起來;同時我們主要到數據表不同于索引葉節點,表中的數據無序存儲,它們不全是存儲在同一表塊中,而且塊之間不存在連接。

    總的來說,索引保存著具體數據的物理地址值。

    5、索引的類型

    索引的類型主要有兩種:聚集索引非聚集索引。

    聚集索引:物理存儲按照索引排序。

    指數據庫表行中數據的物理順序與鍵值的邏輯(索引)順序相同。一個表只能有一個聚集索引,因為一個表的物理順序只有一種情況,所以,對應的聚集索引只能有一個。如果某索引不是聚集索引,則表中的行物理順序與索引順序不匹配,與非聚集索引相比,聚集索引有著更快的檢索速度。

    非聚集索引:物理存儲不按照索引排序。

    該索引中索引的邏輯順序與磁盤上行的物理存儲順序不同,一個表中可以擁有多個非聚集索引。除了聚集索引以外的索引都是非聚集索引,只是人們想細分一下非聚集索引,分成普通索引,唯一索引,全文索引。如果非要把非聚集索引類比成現實生活中的東西,那么非聚集索引就像新華字典的偏旁字典,他結構順序與實際存放順序不一定一致。

    5.1、聚集索引

    聚集索引的數據頁是物理有序地存儲,數據頁是聚集索引的葉節點,數據頁之間通過雙向鏈表的形式連接起來,而且實際的數據都存儲在數據頁中。當我們給表添加索引后,表中的數據將根據索引進行排序。

    假設我們有一個表T_Pet,它包含四個字段分別是:animal,name,sex和age,而且使用animal作為索引列,具體SQL代碼如下:

    -----------------------------------------------------------
    ---- Create T_Pet table in tempdb. 
    -----------------------------------------------------------
    USE tempdb
    
    CREATE TABLE T_Pet
    (
        animal    VARCHAR(20),
        [name]    VARCHAR(20),
        sex        CHAR(1),
        age        INT
    )
    
    CREATE UNIQUE  CLUSTERED INDEX T_PetonAnimal1_ClterIdx ON T_Pet (animal)
    
    -----------------------------------------------------------
    ---- Insert data into data table.
    -----------------------------------------------------------
    
    DECLARE @i int
    
    SET @i=0
    WHILE(@i<1000000)
    BEGIN
    
        INSERT INTO T_Pet (
            animal,
            [name],
            sex,
            age
        )
        SELECT  [dbo].random_string(11) animal,
                [dbo].random_string(11) [name],
                'F'                        sex,
                cast(floor(rand()*5) as int) age    
    
        SET @i=@i+1
    
    END
    
    INSERT INTO T_Pet VALUES('Aardark', 'Hello', 'F', 1)
    INSERT INTO T_Pet VALUES('Cat', 'Kitty', 'F', 2)
    INSERT INTO T_Pet VALUES('Horse', 'Ma', 'F', 1)
    INSERT INTO T_Pet VALUES('Turtles', 'SiSi', 'F', 4)
    INSERT INTO T_Pet VALUES('Dog', 'Tomma', 'F', 2)
    INSERT INTO T_Pet VALUES('Donkey', 'YoYo', 'F', 3)
    

    聚集索引

    如上圖所示,從左往右的第一和第二層是索引頁,第三層是數據頁(葉節點),數據頁之間通過雙向鏈表連接起來,而且數據頁中的數據根據索引排序;假設,我們要查找名字(name)為Xnnbqba的動物Ifcey,這里我們以animal作為表的索引,所以數據庫首先根據索引查找,當找到索引值animal = ‘Ifcey時,接著查找該索引的數據頁(葉節點)獲取具體數據。具體的查詢語句如下:

    SET STATISTICS PROFILE ON
    SET STATISTICS TIME ON
    
    SELECT animal, [name], sex, age
    FROM T_Pet
    WHERE animal = 'Ifcey'
    
    SET STATISTICS PROFILE OFF
    SET STATISTICS TIME OFF
    

    當我們執行完SQL查詢計劃時,把鼠標指針放到“聚集索引查找”上,這時會出現如下圖信息,我們可以查看到一個重要的信息Logical Operation——Clustered Index Seek,SQL查詢是直接根據聚集索引獲取記錄,查詢速度最快。

    查詢計劃

    從下圖查詢結果,我們發現查詢步驟只有2步,首先通過Clustered Index Seek快速地找到索引Ifcey,接著查詢索引的葉節點(數據頁)獲取數據。

    查詢執行時間:CPU 時間= 0 毫秒,占用時間= 1 毫秒。

    查詢結果

    現在我們把表中的索引刪除,重新執行查詢計劃,這時我們可以發現Logical Operation已經變為Table Scan,由于表中有100萬行數據,這時查詢速度就相當緩慢。

    查詢計劃

    從下圖查詢結果,我們發現查詢步驟變成3步了,首先通過Table Scan查找animal = ‘Ifcey’,在執行查詢的時候,SQL Server會自動分析SQL語句,而且它估計我們這次查詢比較耗時,所以數據庫進行并發操作加快查詢的速度。

    查詢執行時間:CPU 時間= 329 毫秒,占用時間= 182 毫秒。

    查詢結果

    通過上面的有聚集索引和沒有的對比,我們發現了查詢性能的差異,如果使用索引數據庫首先查找索引,而不是漫無目的的全表遍歷。

    5.2、非聚集索引

    在沒有聚集索引的情況下,表中的數據頁是通過堆(Heap)形式進行存儲,堆是不含聚集索引的表;SQL Server中的堆存儲是把新的數據行存儲到最后一個頁中。

    非聚集索引是物理存儲不按照索引排序,非聚集索引的葉節點(Index leaf pages)包含著指向具體數據行的指針聚集索引,數據頁之間沒有連接是相對獨立的頁。

    假設我們有一個表T_Pet,它包含四個字段分別是:animal,name,sex和age,而且使用animal作為非索引列,具體SQL代碼如下:

    -----------------------------------------------------------
    ---- Create T_Pet table in tempdb with NONCLUSTERED INDEX. 
    -----------------------------------------------------------
    USE tempdb
    
    CREATE TABLE T_Pet
    (
        animal    VARCHAR(20),
        [name]    VARCHAR(20),
        sex        CHAR(1),
        age        INT
    )
    
    CREATE UNIQUE  NONCLUSTERED INDEX T_PetonAnimal1_NonClterIdx ON T_Pet (animal)
    

    非聚集索引

    接著我們要查詢表中animal = ‘Cat’的寵物信息,具體的SQL代碼如下:

    SET STATISTICS PROFILE ON
    SET STATISTICS TIME ON
    
    SELECT animal, [name], sex, age
    FROM T_Pet
    WHERE animal = 'Cat'
    
    SET STATISTICS PROFILE OFF
    SET STATISTICS TIME OFF
    

    如下圖所示,我們發現查詢計劃的最右邊有兩個步驟:RID和索引查找。由于這兩種查找方式相對于聚集索引查找要慢(Clustered Index Seek)。

    查詢計劃

    查詢計劃

    首先SQL Server查找索引值,然后根據RID查找數據行,直到找到符合查詢條件的結果。

    查詢執行時間:CPU 時間= 0 毫秒,占用時間= 1 毫秒

    查詢結果

    5.3、堆表非聚集索引

    由于堆是不含聚集索引的表,所以非聚集索引的葉節點將包含指向具體數據行的指針。

    以前面的T_Pet表為例,假設T_Pet使用animal列作為非聚集索引,那么它的堆表非聚集索引結構如下圖所示:

    堆表非聚集索引

    通過上圖,我們發現非聚集索引通過雙向鏈表連接,而且葉節點包含指向具體數據行的指針。

    如果我們要查找animal = ‘Dog’的信息,首先我們遍歷第一層索引,然后數據庫判斷Dog屬于Cat范圍的索引,接著遍歷第二層索引,然后找到Dog索引獲取其中的保存的指針信息,根據指針信息獲取相應數據頁中的數據,接下來我們將通過具體的例子說明。

    現在我們創建表employees,然后給該表添加堆表非聚集索引,具體SQL代碼如下:

    USE tempdb
    
    ---- Creates a sample table.
    CREATE TABLE employees (
        employee_id   NUMERIC       NOT NULL,
        first_name    VARCHAR(1000) NOT NULL,
        last_name     VARCHAR(900)  NOT NULL,
        date_of_birth DATETIME                   ,
        phone_number  VARCHAR(1000) NOT NULL,
        junk          CHAR(1000)             ,
        CONSTRAINT employees_pk PRIMARY KEY NONCLUSTERED (employee_id)
    );
    GO
    

    現在我們查找employee_id = 29976的員工信息。

    SELECT * 
    FROM employees
    WHERE employee_id = 29976
    

    查詢計劃如下圖所示:

    查詢計劃

    首先,查找索引值employee_id = ‘29976’的索引,然后根據RID查找符合條件的數據行;所以說,堆表索引的查詢效率不如聚集表,接下來我們將介紹聚集表的非聚集索引。

    5.4、聚集表非聚集索引

    當表上存在聚集索引時,任何非聚集索引的葉節點不再是包含指針值,而是包含聚集索引的索引值。

    以前面的T_Pet表為例,假設T_Pet使用animal列作為非聚集索引,那么它的索引表非聚集索引結構如下圖所示:

    索引表非聚集索引

    通過上圖,我們發現非聚集索引通過雙向鏈表連接,而且葉節點包含索引表的索引值。

    如果我們要查找animal = ‘Dog’的信息,首先我們遍歷第一層索引,然后數據庫判斷Dog屬于Cat范圍的索引,接著遍歷第二層索引,然后找到Dog索引獲取其中的保存的索引值,然后根據索引值獲取相應數據頁中的數據。

    接下來我們修改之前的employees表,首先我們刪除之前的堆表非聚集索引,然后增加索引表的非聚集索引,具體SQL代碼如下:

    ALTER TABLE employees
        DROP CONSTRAINT employees_pk
    
    ALTER TABLE employees 
        ADD CONSTRAINT employees_pk PRIMARY KEY CLUSTERED (employee_id)
    GO 
    
    SELECT * FROM employees
    WHERE employee_id=29976
    

    查詢計劃

    6、索引的有效性

    SQL Server每執行一個查詢,首先要檢查該查詢是否存在執行計劃,如果沒有,則要生成一個執行計劃,那么什么是執行計劃呢?簡單來說,它能幫助SQL Server制定一個最優的查詢計劃。

    下面我們將通過具體的例子說明SQL Server中索引的使用,首先我們定義一個表testIndex,它包含三個字段testIndex,bitValue和filler,具體的SQL代碼如下:

    -----------------------------------------------------------
    ---- Index Usefulness sample
    -----------------------------------------------------------
    
    CREATE TABLE testIndex
    (
        testIndex int identity(1,1) constraint PKtestIndex primary key,
        bitValue bit,
        filler char(2000) not null default (replicate('A',2000))
    )
    
    CREATE INDEX XtestIndex_bitValue on testIndex(bitValue)
    GO
    
    INSERT INTO testIndex(bitValue)
        VALUES (0)
    GO 20000 --runs current batch 20000 times.
    
    INSERT INTO testIndex(bitValue)
        VALUES (1)
    GO 10 --puts 10 rows into table with value 1
    

    接著我們查詢表中bitValue = 0的數據行,而且表中bitValue = 0的數據有2000行。

    SELECT *
    FROM   testIndex
    WHERE  bitValue = 0
    

    查詢計劃

    現在我們查詢bitValue = 1的數據行。

    SELECT *
    FROM   testIndex
    WHERE  bitValue = 1
    

    查詢計劃

    現在我們注意到對同一個表不同數據查詢,居然執行截然不同的查詢計劃,這究竟是什么原因導致的呢?

    我們可以通過使用DBCC SHOW_STATISTICS查看到表中索引的詳細使用情況,具體SQL代碼如下:

    UPDATE STATISTICS dbo.testIndex
    DBCC SHOW_STATISTICS('dbo.testIndex', 'XtestIndex_bitValue')
    WITH HISTOGRAM
    

    直方圖

    通過上面的直方圖,我們知道SQL Server估計bitValue = 0數據行行有約19989行,而bitValue = 1估計約21;SQL Server優化器根據數據量估算值,采取不同的執行計劃,從而到達最優的查詢性能,由于bitValue = 0數據量大,SQL Server只能提供掃描聚集索引獲取相應數據行,而bitValue = 1實際數據行只有10行,SQL Server首先通過鍵查找bitValue = 1的數據行,然后嵌套循環聯接到聚集索引獲得余下數據行。

    7、索引的優缺點

    優點
    第一,通過創建唯一性索引,可以保證數據庫表中每一行數據的唯一性。
    第二,可以大大加快 數據的檢索速度,這也是創建索引的最主要的原因。
    第三,可以加速表和表之間的連接,特別是在實現數據的參考完整性方面特別有意義。
    第四,在使用分組和排序 子句進行數據檢索時,同樣可以顯著減少查詢中分組和排序的時間。
    第五,通過使用索引,可以在查詢的過程中,使用優化隱藏器,提高系統的性能。

    缺點
    第一,創建索引和維護索引要耗費時間,這種時間隨著數據量的增加而增加。
    第二,索引需要占物理空間,除了數據表占數據空間之外,每一個索引還要占一定的物理空間,如果要建立聚簇索引,那么需要的空間就會更大。
    第三,當對表中的數據進行增加、刪除和修改的時候,索引也要動態的維護,這樣就降低了數據的維護速度。

    8、索引創建原則

    1.定義主鍵的數據列一定要建立索引。

    2.定義有外鍵的數據列一定要建立索引。

    3.對于經常查詢的數據列最好建立索引。

    4.對于需要在指定范圍內的快速或頻繁查詢的數據列;

    5.經常用在WHERE子句中的數據列。

    6.經常出現在關鍵字order by、group by、distinct后面的字段。如果建立的是復合索引,索引的字段順序要和這些關鍵字后面的字段順序一致,否則索引不會被使用。

    7.對于那些查詢中很少涉及的列,重復值比較多的列不要建立索引。

    8.對于定義為text、image和bit的數據類型的列不要建立索引。

    9.對于經常存取的列不要建立索引

    10.限制表上的索引數目。對一個存在大量更新操作的表,所建索引的數目一般不要超過3個,最多不要超過5個。索引雖說提高了訪問速度,但太多索引會影響數據的更新操作。

    11.對復合索引,按照字段在查詢條件中出現的頻度建立索引。在復合索引中,記錄首先按照第一個字段排序。對于在第一個字段上取值相同的記錄,系統再按照第二個字段的取值排序,以此類推。因此只有復合索引的第一個字段出現在查詢條件中,該索引才可能被使用,因此將應用頻度高的字段,放置在復合索引的前面,會使系統最大可能地使用此索引,發揮索引的作用。

    9、參考文章

    索引 - SQL Server | Microsoft Learn

    聚集與非聚集索引 - SQL Server | Microsoft Learn

    《ORACLE PL/SQL編程詳解》全原創(共八篇)--系列文章導航

    8 種主流數據遷移工具技術選型

    SQLServer中的CTE(Common Table Expression)通用表表達式使用詳解

    [推薦推薦]ORACLE SQL:經典查詢練手系列文章收尾(目錄篇)

    國思RDIF低代碼快速開發平臺(支持vue2、vue3)

    posted @ 2024-06-25 11:04  .NET快速開發框架  閱讀(428)  評論(2編輯  收藏  舉報
    免费视频精品一区二区_日韩一区二区三区精品_aaa在线观看免费完整版_世界一级真人片
    <bdo id="4g88a"><xmp id="4g88a">
  • <legend id="4g88a"><code id="4g88a"></code></legend>