leveldb之SkipList的简单实现

1、Skiplist

SkipList是链表的变形,它在链表的基础上给每个元素增加了一个高度,且每个元素的高度是一个随机值,因此SkipList是一种随机化的数据结构。SkipList增、删查、改的效率都非常高,是一种典型的以空间换时间的存储方式。

常规的链表如下:
单向链表

而相同元素对应的SkipList结构如下:
SkipList

由上可知,当要在链表中查找某个元素时,必须从链表头一个一个遍历,而在SkipList中查找某个元素时,查找却是跳跃的,因此将其称为SkipList。
如要查找元素25时,对于单链表,要遍历到第9个节点才能找到。而对于Skiplist,只需要经过2次比较即可(表头到元素6再到25),效率非常高。
当查找的效率高了之后,插入、删除、修改的效率自然也就变高了

2、Skiplist中的节点

SkipList中的每个节点,都包含有一个值和一个数组,其中数组元素的个数即为当前节点的高度,数组中对应位置的元素存储的是指向同一高度的下一节点的指针(如next[0]指向level 0的下一节点,next[3]指向level 3的下一节点),因此数组可用一个二级指针表示。

template<typename KeyType,typename DataType,typename Comparator>
struct SkipListNode{
    std::pair<KeyType,DataType> KeyValue;//Leveldb是一个K-V存储系统,因此节点元素值包括Key和Value两部分
    SkipListNode **next;//一个二级指针,指向一个包含level个节点的数组
};

3、SkipList的实现

SkipList类中的成员变量只包含了当前链表的最大高度和表头

template<typename KeyType,typename DataType,typename Comparator> class SkipList{
public:
    typedef SkipListNode<KeyType,DataType,Comparator> Node;

    SkipList():level_(0){      
        head_ = CreateNode(std::make_pair(KeyType(), DataType()), MAXLEVEL);  
    }
    ~SkipList();

    bool Insert(const std::pair<KeyType,DataType>& value);  
    Node* Find(KeyType&  Key) const;
    bool Remove(KeyType& Key);
    int GetLevel() const{
        return level_;
    }
private:
    Node* CreateNode(std::pair<KeyType,DataType> key,int level);
    void DestroyNode(Node *node);

    int level_;//SKipList中节点的最大高度
    Node *head_;//表头元素
};

SkipList在构造函数中调用CreateNode()得到表头节点,表头首先会初始化系统规定的最大高度个数组元素,假设最大高度为4

Node* CreateNode(std::pair<KeyType,DataType> value,int level){
        Node *node=new Node();
        node->KeyValue=value;
        node->next=new Node*[level];
        for(int i=0;i<level;++i)
            node->next[i]=NULL;//表头中初始的下一节点均为NULL
        return node;
    }

经过构造函数构造的表头如下:
这里写图片描述

链表的增、删、查、改中,查找操作是最核心的,其他操作均是建立在查找的基础上的
1)查找元素

    Node* Find(KeyType  Key) const{
        Node *node=head_;
        for(int i=level_-1;i>=0;--i){//从最大高度开始查找
            while(node->next[i]!=NULL&&node->next[i]->KeyValue.first<Key)
                node=node->next[i];//当下一节点值比目标小时,直接往后查找,否则从下一层开始查找
        }
        node=node->next[0];
        if(node==NULL||node->KeyValue.first!=Key)   return NULL;
        else    return node;
    }

2)插入元素

bool Insert(const std::pair<KeyType,DataType>& value){
        Node *node=head_;
        Node *update[MAXLEVEL];
        //SkipList中最核心的部分,找到要增、删、查、改的元素的每一个直接前驱,存储在update[]中,在后面的修改中会用到。当链表为空时,全为head_
        for(int i=level_-1;i>=0;--i){   //当level_到达规定的最大高度时,i从0到level_-1,即i=0~3
            while(node->next[i]!=NULL&&node->next[i]->KeyValue.first<value.first)
                node=node->next[i];
            update[i]=node;
        }

        node=node->next[0];
        if(node!=NULL&&node->KeyValue.first==value.first)   return false;//若已存在于要插入元素的Key值相等的,则不插入直接返回

        int newlevel=getRandomLevel();//随机产生要插入元素的高度
        if(level_<newlevel){//当新的高度大于原来链表中的最大高度时,说明此时从level_到newlevel高度均为空,还没有初始值
            for(int i=level_;i<newlevel;++i)
                update[i]=head_;//则说明新节点从level_到newlevel的直接前驱都只会是head_,将其存放在update[]中
            level_=newlevel;//更新此时链表的最大高度
        }

        node=CreateNode(value,newlevel);//创建新节点
        for(int i=0;i<newlevel;++i){//然后将新节点插入到SkipList中,基本操作与链表相似,只不过节点的不同高度的直接前驱都不同
            node->next[i]=update[i]->next[i];
            update[i]->next[i]=node;
        }
        return true;
    }

以要插入元素17为例(假设其他元素都已经存在),此时的level_=4

SkipList

for(int i=level_-1;i>=0;--i){   //当level_到达规定的最大高度时,i从0到level_-1,即i=0~3
            while(node->next[i]!=NULL&&node->next[i]->KeyValue.first<value.first)
                node=node->next[i];
            update[i]=node;
        }

得到后面要更新的节点update: update[3]=6,update[2]=6,update[1]=9,update[0]=12
同时newlevel=2

for(int i=0;i<newlevel;++i){//与一般节点的插入类似,要对每一高度的节点更新插入
            node->next[i]=update[i]->next[i];
            update[i]->next[i]=node;
        }

这样就将元素插入到SkipList中了


版权声明:本文为u012658346原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。