php-红黑树、散列表、跳表理解入门
就是把链表的结构稍加改造,这种数据结构叫
创新互联公司成都网站建设按需设计网站,是成都网站推广公司,为三轮搅拌车提供网站建设服务,有成熟的网站定制合作流程,提供网站定制设计服务:原型图制作、网站创意设计、前端HTML5制作、后台程序开发等。成都网站建设热线:18982081108
为了提升链表的查询效率,怎么让链表支持类似‘数组’那样的‘二分’算法呢
跳表是一个各方面性能都比较优秀的 动态数据结构 ,可以支持快速地插入、删除、查找操作,写起来也不复杂,甚至可以替代红黑树。
Redis 中的有序集合(Sorted Set)就是用跳表来实现的。
那 Redis 为什么会选择用跳表(和散列表)来实现有序集合呢? 为什么不用红黑树呢?这个问题一会在回答,先看看跳表的数据结构
其实概念很简单,就是在链表上加上了
当我们在不停插入数据,如果我们不更新索引,可能出现某 2 个索引结点之间数据非常多的情况。极端情况下,跳表还会退化成单链表。
红黑树、AVL 树这样平衡二叉树,是通过左右旋的方式保持左右子树的大小平衡,而跳表是通过 随机函数 来维护平衡性。
插入、删除、查找以及迭代输出有序序列这几个操作,红黑树也可以完成,时间复杂度跟跳表是一样的。但是, 按照区间来查找数据这个操作,红黑树的效率没有跳表高。
对于按照区间查找数据这个操作,跳表可以做到 O(logn) 的时间复杂度定位区间的起点,然后在原始链表中顺序往后遍历就可以了。
Redis 键值构建一个散列表,这样按照 key 来删除、查找一个成员对象的时间复杂度就变成了 O(1)。同时,借助跳表结构,其他操作也非常高效。
散列表的英文叫“Hash Table”,我们平时也叫它“哈希表”或者“Hash 表”
散列技术是在记录的存储位置和它的关键字之间建立一个确定的对应关系 f,使得每个关键字 key 对应一个存储位置 f(key)。查找时根据这个对应关系匠互给定的 key 的映射 f(key)
这种关系 f 称为散列函数(又称哈希函数)。散列技术将记录存储在一块连续的存储空间中,这块连续存储空间称为散列表或哈希表。那么关键字对应的记录存储位置称为散列地址。
散列函数的构造方法特点就是:计算简单、散列地址分布均匀
大家一定听说过 hash 碰撞。就是2个不同的 key 对应着不同的 f 关系。但这是几乎不可能的,即便像业界著名的MD5、SHA、CRC等哈希算法,也无法完全避免这种散列冲突。而且,因为数组的存储空间有限,也会加大散列冲突的概率。
我们只能通过其它途径来寻找方法。我们常用的散列冲突解决方法有两类,开放寻址法(open addressing)和链表法(chaining)。
所谓的开放寻址法就是一但发生了冲突,就去寻找下一个空的散地址,只要散列表足够大,空的散列表地址总能找到,并将记录存入。
链地址法又称链表法,其实当发生冲突时存入链表,如下图很容易就可以看明白。此时,已经不存在什么冲突地址的问题,无论有多少冲突,都只是在当前位置给单链表增加结点的问题。
这种不常见,就是把冲突的单独找个地方。
顾名思义,红黑树中的节点,一类被标记为黑色,一类被标记为红色。除此之外,一棵红黑
平衡二叉树 是一种二叉排序树,其中每一个节点的左子树和右子树的高度不能大于 1
红黑树是一种平衡二叉查找树。它是为了解决普通二叉查找树在数据更新的过程中,复杂度退化的问题而产生的。红黑树的高度近似 log2n,所以它是近似平衡,插入、删除、查找操作的时间复杂度都是 O(logn)。
平衡二叉查找树其实有很多,比如,Splay Tree(伸展树)、Treap(树堆)等,但是我们提到平衡二叉查找树,听到的基本都是红黑树。
红黑树在众多里面,表现的最为平衡。
“近似平衡”就等价为性能不会退化得太严重。
一棵红黑树还需要满足这样几个要求:
看到这里你会很头大,什么黑的红的,完全不懂。赋上连接,有时间在看
散列表 :插入删除查找都是O(1), 是最常用的,但其缺点是不能顺序遍历(存入的数据是无顺序的)以及扩容缩容的性能损耗。适用于那些不需要顺序遍历,数据更新不那么频繁的。
散列表总和链表、跳表一起出现组合使用。
跳表 :插入删除查找都是O(logn), 并且能顺序遍历。缺点是空间复杂度O(n)。适用于不那么在意内存空间的,其顺序遍历和区间查找非常方便。
跳表还可以和散列表组合让删除、查找一个成员对象操作变为O(1),也就是说利用了散列表查找速度,跳表的顺序结构
红黑树 :插入删除查找都是O(logn), 中序遍历即是顺序遍历,稳定。缺点是难以实现,去查找不方便。其实跳表更佳,但红黑树已经用于很多地方了。
数据结构—树的详解
树是非线性存储结构,存储的是具有“一对多”关系的数据元素的集合。
使用树结构存储的集合 {A,B,C,D,E,F,G,H,I,J,K,L,M} 的示意图。对于数据 A 来说,和数据 B、C、D 有关系;对于数据 B 来说,和 E、F 有关系。这就是“一对多”的关系。
将具有“一对多”关系的集合中的数据元素按照图中的形式进行存储,整个存储形状在逻辑结构上看,类似于实际生活中倒着的树,所以称这种存储结构为“树型”存储结构。
使用树结构存储的每一个数据元素都被称为“结点”。例如,图 1中,数据元素 A 就是一个结点;
对于图 1中的结点 A、B、C、D 来说,A 是 B、C、D 结点的父结点(也称为“双亲结点”),而 B、C、D 都是 A 结点的子结点(也称“孩子结点”)。对于 B、C、D 来说,它们都有相同的父结点,所以它们互为兄弟结点。
每一个非空树都有且只有一个被称为根的结点。图 1中,结点A就是整棵树的根结点。
树根的判断依据为:如果一个结点没有父结点,那么这个结点就是整棵树的根结点。
如果结点没有任何子结点,那么此结点称为叶子结点(叶结点)。例如图 1中,结点 K、L、F、G、M、I、J 都是这棵树的叶子结点。
如图 1中,整棵树的根结点为结点 A,而如果单看结点 B、E、F、K、L 组成的部分来说,也是棵树,而且节点 B 为这棵树的根结点。所以称 B、E、F、K、L 这几个结点组成的树为整棵树的子树;同样,结点 E、K、L 构成的也是一棵子树,根结点为 E。
注意:单个结点也是一棵树,只不过根结点就是它本身。图 1中,结点 K、L、F 等都是树,且都是整棵树的子树。
知道了子树的概念后,树也可以这样定义:树是由根结点和若干棵子树构成的。
如果集合本身为空,那么构成的树就被称为空树。
空树中没有结点。
补充:在树结构中,对于具有同一个根结点的各个子树,相互之间不能有交集。例如,图 1中,除了根结点 A,其余元素又各自构成了三个子树,根结点分别为 B、C、D,这三个子树相互之间没有相同的结点。如果有,就破坏了树的结构,不能算做是一棵树。结点的度和层次
对于一个结点,拥有的子树数(结点有多少分支)称为结点的度(Degree)。例如,图 1中,根结点 A 下分出了 3 个子树,所以,结点 A 的度为 3。
一棵树的度是树内各结点的度的最大值。图 1表示的树中,各个结点的度的最大值为 3,所以,整棵树的度的值是 3。
从一棵树的树根开始,树根所在层为第一层,根的孩子结点所在的层为第二层,依次类推。对于图 1来说,A 结点在第一层,B、C、D 为第二层,E、F、G、H、I、J 在第三层,K、L、M 在第四层。
一棵树的深度(高度)是树中结点所在的最大的层次。图 1树的深度为 4。
如果两个结点的父结点虽不相同,但是它们的父结点处在同一层次上,那么这两个结点互为堂兄弟。例如,图 1中,结点 G 和 E、F、H、I、J 的父结点都在第二层,所以之间为堂兄弟的关系。
如果树中结点的子树从左到右看,谁在左边,谁在右边,是有规定的,这棵树称为有序树;反之称为无序树。
在有序树中,一个结点最左边的子树称为"第一个孩子",最右边的称为"最后一个孩子"。
图 1来说,如果是其本身是一棵有序树,则以结点 B 为根结点的子树为整棵树的第一个孩子,以结点 D 为根结点的子树为整棵树的最后一个孩子。
由 m(m = 0)个互不相交的树组成的集合被称为森林。图 1中,分别以 B、C、D 为根结点的三棵子树就可以称为森林。
树可以理解为是由根结点和若干子树构成的,而这若干子树本身是一个森林,所以,树还可以理解为是由根结点和森林组成的。用一个式子表示为:
Tree =(root,F),其中,root 表示树的根结点,F 表示由 m(m = 0)棵树组成的森林。
数据结构中为了存储和查找的方便,用各种树结构来存储文件,我们首先介绍下基本的树的种类:二叉查找树(二叉排序树)、平衡二叉树(AVL树)、红黑树、B-树、B+树、字典树(trie树)、后缀树、广义后缀树。
二叉查找树是一种动态查找表,具有这些性质:
(1)若它的左子树不为空,则左子树上的所有节点的值都小于它的根节点的值;
(2)若它的右子树不为空,则右子树上所有节点的值都大于它的根节点的值;
(3)其他的左右子树也分别为二叉查找树;
(4)二叉查找树是动态查找表,在查找的过程中可见添加和删除相应的元素,在这些操作中需要保持二叉查找树的以上性质。
含有相同节点的二叉查找树可以有不同的形态,而二叉查找树的平均查找长度与树的深度有关,所以需要找出一个查找平均长度最小的一棵,那就是平衡二叉树,具有以下性质:
(1)要么是棵空树,要么其根节点左右子树的深度之差的绝对值不超过1;
(2)其左右子树也都是平衡二叉树;
(3)二叉树节点的平衡因子定义为该节点的左子树的深度减去右子树的深度。则平衡二叉树的所有节点的平衡因子只可能是-1,0,1。
红黑树是一种自平衡二叉树,在平衡二叉树的基础上每个节点又增加了一个颜色的属性,节点的颜色只能是红色或黑色。具有以下性质:
(1)根节点只能是黑色;
(2)红黑树中所有的叶子节点后面再接上左右两个空节点,这样可以保持算法的一致性,而且所有的空节点都是黑色;
(3)其他的节点要么是红色,要么是黑色,红色节点的父节点和左右孩子节点都是黑色,及黑红相间;
(4)在任何一棵子树中,从根节点向下走到空节点的路径上所经过的黑节点的数目相同,从而保证了是一个平衡二叉树。
B-树是一种平衡多路查找树,它在文件系统中很有用。一棵m阶B-树(图为4阶B-树),具有下列性质:
(1)树中每个节点至多有m棵子树;
(2)若根节点不是叶子节点,则至少有2棵子树;
(3)除根节点之外的所有非终端节点至少有 m/2 棵子树;
(4)每个节点中的信息结构为(A0,K1,A1,K2......Kn,An),其中n表示关键字个数,Ki为关键字,Ai为指针;
(5)所有的叶子节点都出现在同一层次上,且不带任何信息,也是为了保持算法的一致性。
B+数是B-树的一种变形,它与B-树的差别在于(图为3阶B+树):
(1)有n棵子树的节点含有n个关键字;
(2)所有的叶子节点包含了全部关键字的信息,及指向这些关键字记录的指针,且叶子节点本身按关键字大小自小到大顺序链接;
(3)所有非终端节点可以看成是索引部分,节点中仅含有其子树(根节点)中最大(或最小)关键字,所有B+树更像一个索引顺序表;
(4)对B+树进行查找运算,一是从最小关键字起进行顺序查找,二是从根节点开始,进行随机查找。
字典树是一种以树形结构保存大量字符串。以便于字符串的统计和查找,经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。具有以下特点:
(1)根节点为空;
(2)除根节点外,每个节点包含一个字符;
(3)从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串。
(4)每个字符串在建立字典树的过程中都要加上一个区分的结束符,避免某个短字符串正好是某个长字符串的前缀而淹没。
所谓后缀树,就是包含一则字符串所有后缀的压缩了的字典树。先说说后缀的定义。给定一长度为n的字符串S=S 1 S 2 ..S i ..S n ,和整数i,1 = i = n,子串S i S i+1 ...S n 都是字符串S的后缀。以字符串S=XMADAMYX为例,它的长度为8,所以S[1..8], S[2..8], ... , S[8..8]都算S的后缀,我们一般还把空字串也算成后缀。这样,我们一共有如下后缀。对于后缀S[i..n],我们说这项后缀起始于i。
所有这些后缀字符串组成一棵字典树:
上图,我们可以看到不少值得压缩的地方。比如蓝框标注的分支都是独苗,没有必要用单独的节点同边表示。如果我们允许任意一条边里包含多个字母,就可以把这种没有分叉的路径压缩到一条边。另外每条边已经包含了足够的后缀信息,我们就不用再给节点标注字符串信息了。我们只需要在叶节点上标注上每项后缀的起始位置。于是我们得到下图:
这样的结构丢失了某些后缀。比如后缀X在上图中消失了,因为它正好是字符串XMADAMYX的前缀。为了避免这种情况,我们也规定每项后缀不能是其它后缀的前缀。要解决这个问题其实挺简单,在待处理的子串后加一个空字串就行了。例如我们处理XMADAMYX前,先把XMADAMYX变为 XMADAMYX$,于是就得到suffix tree。
这就形成一棵后缀树了。关于如何建立一棵后缀树,已有很成熟的算法,能在o(n)时间内解决。
广义后缀树是好几个字符串的的所有后缀组成的字典树,同样每个字符串的所有后缀都具有一个相同的结束符,不同字符串的结束符不同。
传统的后缀树只能处理一个单词的所有后缀。广义后缀树存储任意多个单词的所有后缀。例如字符串“abab”和“baba”,首先将它们使用特殊结束符链接起来,如表示成"ababbaba#",然后求连接后的新字符的后缀树,遍历所得后缀树,如遇到特殊字符,如"baba#",然后求连接后的新字符的后缀树,遍历所得后缀树,如遇到特殊字符,如"","#"等则去掉以该节点为跟的子树,最后所得后缀树即为原字符串组的广义后缀树。其实质是将两个字符串的所有后缀,即:abab,bab,bab,ab,b,b,baba#,aba#,ba#,a#,组成字典树,再进行压缩处理。
广义后缀树的一个常应用就是判断两个字符串的相识度。
简单地理解,满足以下两个条件的树就是二叉树:
二叉树的性质经过前人的总结,二叉树具有以下几个性质:
性质 3 的计算方法为:对于一个二叉树来说,除了度为 0 的叶子结点和度为 2 的结点,剩下的就是度为 1 的结点(设为 n1),那么总结点 n=n 0 +n 1 +n 2 。
同时,对于每一个结点来说都是由其父结点分支表示的,假设树中分枝数为 B,那么总结点数 n=B+1。而分枝数是可以通过 n1 和 n2 表示的,即 B=n 1 +2 n 2 。所以,n 用另外一种方式表示为 n=n 1 +2 n 2 +1。
两种方式得到的 n 值组成一个方程组,就可以得出 n 0 =n 2 +1。
二叉树还可以继续分类,衍生出满二叉树和完全二叉树。
如果二叉树中除了叶子结点,每个结点的度都为 2,则此二叉树称为满二叉树。
满二叉树除了满足普通二叉树的性质,还具有以下性质:
如果二叉树中除去最后一层节点为满二叉树,且最后一层的结点依次从左到右分布,则此二叉树被称为完全二叉树。
如图 3a) 所示是一棵完全二叉树,图 3b) 由于最后一层的节点没有按照从左向右分布,因此只能算作是普通的二叉树。
完全二叉树除了具有普通二叉树的性质,它自身也具有一些独特的性质,比如说,n 个结点的完全二叉树的深度为 [log 2 n ]+1。
[log 2 n ]表示取小于[log 2 n ]的最大整数。例如,[[log 2 4 ]] = 2,而 [[log 2 5 ]] 结果也是 2。
对于任意一个完全二叉树来说,如果将含有的结点按照层次从左到右依次标号(如图 3a)),对于任意一个结点 i ,完全二叉树还有以下几个结论成立:
如何根据制定的数据使用PHP生成一个二叉树
假如你所说的二叉树是指这种的话
那么你的数据结构一定要满足一个条件,则每一条数据必须记录好父级的标识
?php
$data = array(
array(
'id' = 1,
'pid' = 0,
'name' = ""新建脑图,
),
array(
'id' = 2,
'pid' = 1,
'name' = "分支主题",
),
array(
'id' = 3,
'pid' = 1,
'name' = "分支主题",
),
);
?
上述二位数组中的 id为2,3的子数组的父级(pid)id均是1,则他们的父级就是id为1的数组
?php
foreach($data as $key=$value){
if( $value['pid'] == '0'){
$parent[] = $value;
unset($data[$key]);
}
}
foreach($parent as $key=$value){
foreach($data as $k=$v){
if( $v['pid'] == $value['id'] ){
$parent[$key]['_child'][] = $v;
unset($data[$k]);
}
}
}
?
通过以上循环过后,对应二叉树关系的数组就可以做出来了
当然上述代码只能进行到二级二叉树,如果想做出无限级二叉树的数组,则必须使用到递归函数了
PS:上述代码是网页里手打的,没经过测试,但思路肯定是没问题的哈
【数据结构】树的定义和树的三种存储结构
树(Tree)是n(n=0)个结点的有限集。n=0时称为空树。在任意一颗非空树中:
假设以一组连续空间存储数的结点,同时在每个结点中, 附设一个指示器指示其双亲结点到链表中的位置 。
把每个结点的孩子结点排列起来,以 单链表作为存储结构 ,则n个结点有n个孩子链表,如果是叶子结点则此单链表为空。然后 n个头指针又组成一个线性表,采用顺序存储结构 ,存放进一个一维数组中。
孩子表示法有两种结点结构: 孩子链表的孩子结点 和 表头数组的表头结点
对于孩子表示法,查找某个结点的某个孩子,或者找某个结点的兄弟,只需要查找这个结点的孩子单链表即可。但是 当要寻找某个结点的双亲时 ,就不是那么方便了。所以可以将双亲表示法和孩子表示法结合,形成 双亲孩子表示法 。
任意一棵树,它的结点的第一个孩子如果存在就是唯一的,它的右兄弟存在也是唯一的。因此,设置两个指针,分别指向该结点的第一个孩子和此结点的右兄弟。
分享名称:php树数据结构,树结构 数据库
网站地址:http://scpingwu.com/article/hdhcjp.html