12排序（下）：如何用快排思想在O(n)内查找第K大元素？.pdf

上传人：紫竹语嫣

文档编号：5529990

上传时间：2020-06-01

格式：PDF

页数：18

大小：840.62KB

《12排序（下）：如何用快排思想在O(n)内查找第K大元素？.pdf》由会员分享，可在线阅读，更多相关《12排序（下）：如何用快排思想在O(n)内查找第K大元素？.pdf（18页珍藏版）》请在三一文库上搜索。

1、12|排序（下）：如何用快排思想在O(n)内查找第K大元素？ file:/F/temp/geektime/数据结构与算法之美/12排序（下）：如何用快排思想在O(n)内查找第K大元素？.html2019/1/15 15:35:29 12|排序（下）：如何用快排思想在O(n)内查找第K大元素？上一节我讲了冒泡排序、插入排序、选择排序这三种排序算法，它们的时间复杂度都是O(n2)，比较高，适合小规模数据的排序。今天，我讲两种时间复杂度为O(nlogn)的排序算法，归并排序和快速排序。这两种排序算法适合大规模的数据排序，比上一节讲的那三种排序算法要更常用。归并排序和快速排序都用到了分治思想，非

2、常巧妙。我们可以借鉴这个思想，来解决非排序的问题，比如：如何在O(n)的时间复杂度内查找一个无序数组中的第K大元素？这就要用到我们今天要讲的内容。归并排序的原理我们先来看归并排序（Merge Sort）。归并排序的核心思想还是蛮简单的。如果要排序一个数组，我们先把数组从中间分成前后两部分，然后对前后两部分分别排序，再将排好序的两部分合并在一起，这样整个数组就都有序了。 12|排序（下）：如何用快排思想在O(n)内查找第K大元素？ file:/F/temp/geektime/数据结构与算法之美/12排序（下）：如何用快排思想在O(n)内查找第K大元素？.html2019/1/15 1

3、5:35:29 归并排序使用的就是分治思想。分治，顾名思义，就是分而治之，将一个大问题分解成小的子问题来解决。小的子问题解决了，大问题也就解决了。从我刚才的描述，你有没有感觉到，分治思想跟我们前面讲的递归思想很像。是的，分治算法一般都是用递归来实现的。分治是一种解决问题的处理思想，递归是一种编程技巧，这两者并不冲突。分治算法的思想我后面会有专门的一节来讲，现在不展开讨论，我们今天的重点还是排序算法。前面我通过举例让你对归并有了一个感性的认识，又告诉你，归并排序用的是分治思想，可以用递归来实现。我们现在就来看看如何用递归代码来实现归并排序。我在第10节讲的递归代码的编写技巧你还记得吗？

4、写递归代码的技巧就是，分析得出递推公式，然后找到终止条件，最后将递推公式翻译成递归代码。所以，要想写出归并排序的代码，我们先写出归并排序的递推公式。递推公式： merge_sort(pr) = merge(merge_sort(pq), merge_sort(q+1r) 终止条件： p = r 不用再继续分解我来解释一下这个递推公式。 merge_sort(pr)表示，给下标从p到r之间的数组排序。我们将这个排序问题转化为了两个子问题，merge_sort(pq)和merge_sort(q+1r)，其中下标q等于p和r的中间位置，也就是(p+r)/2。当下标从p到q和从q+1到r这两个

5、子数组都排好序之后，我们再将两个有序的子数组合并在一起，这样下标从p到r之间的数据就也排好序了。 12|排序（下）：如何用快排思想在O(n)内查找第K大元素？ file:/F/temp/geektime/数据结构与算法之美/12排序（下）：如何用快排思想在O(n)内查找第K大元素？.html2019/1/15 15:35:29 有了递推公式，转化成代码就简单多了。为了阅读方便，我这里只给出伪代码，你可以翻译成你熟悉的编程语言。 / 归并排序算法, A是数组，n表示数组大小 merge_sort(A, n) merge_sort_c(A, 0, n-1) / 递归调用函数 merge_sort

6、_c(A, p, r) / 递归终止条件 if p = r then return / 取p到r之间的中间位置q q = (p+r) / 2 / 分治递归 merge_sort_c(A, p, q) merge_sort_c(A, q+1, r) / 将Ap.q和Aq+1.r合并为Ap.r merge(Ap.r, Ap.q, Aq+1.r) 你可能已经发现了，merge(Apr, Apq, Aq+1r)这个函数的作用就是，将已经有序的Apq和Aq+1r合并成一个有序的数组，并且放入Apr。那这个过程具体该如何做呢？如图所示，我们申请一个临时数组tmp，大小与Apr相同。我们用两个游标i和j

7、，分别指向Apq和Aq+1r的第一个元素。比较这两个元素Ai和Aj，如果Ai1 通过这个公式，如何来求解T(n)呢？还不够直观？那我们再进一步分解一下计算过程。 T(n) = 2*T(n/2) + n = 2*(2*T(n/4) + n/2) + n = 4*T(n/4) + 2*n = 4*(2*T(n/8) + n/4) + 2*n = 8*T(n/8) + 3*n = 8*(2*T(n/16) + n/8) + 3*n = 16*T(n/16) + 4*n = 2k * T(n/2k) + k * n 12|排序（下）：如何用快排思想在O(n)内查找第K大元素？ file:/F/tem

8、p/geektime/数据结构与算法之美/12排序（下）：如何用快排思想在O(n)内查找第K大元素？.html2019/1/15 15:35:29 通过这样一步一步分解推导，我们可以得到T(n) = 2kT(n/2k)+kn。当T(n/2k)=T(1)时，也就是n/2k=1，我们得到k=log2n 。我们将k值代入上面的公式，得到T(n)=Cn+nlog2n 。如果我们用大O标记法来表示的话，T(n)就等于O(nlogn)。所以归并排序的时间复杂度是O(nlogn)。从我们的原理分析和伪代码可以看出，归并排序的执行效率与要排序的原始数组的有序程度无关，所以其时间复杂度是非常稳定的，不管是最

9、好情况、最坏情况，还是平均情况，时间复杂度都是O(nlogn)。第三，归并排序的空间复杂度是多少？归并排序的时间复杂度任何情况下都是O(nlogn)，看起来非常优秀。（待会儿你会发现，即便是快速排序，最坏情况下，时间复杂度也是O(n2)。）但是，归并排序并没有像快排那样，应用广泛，这是为什么呢？因为它有一个致命的“弱点”，那就是归并排序不是原地排序算法。这是因为归并排序的合并函数，在合并两个有序数组为一个有序数组时，需要借助额外的存储空间。这一点你应该很容易理解。那我现在问你，归并排序的空间复杂度到底是多少呢？是O(n)，还是O(nlogn)，应该如何分析呢？如果我们继续按照分析

10、递归时间复杂度的方法，通过递推公式来求解，那整个归并过程需要的空间复杂度就是O(nlogn)。不过，类似分析时间复杂度那样来分析空间复杂度，这个思路对吗？实际上，递归代码的空间复杂度并不能像时间复杂度那样累加。刚刚我们忘记了最重要的一点，那就是，尽管每次合并操作都需要申请额外的内存空间，但在合并完成之后，临时开辟的内存空间就被释放掉了。在任意时刻，CPU只会有一个函数在执行，也就只会有一个临时的内存空间在使用。临时内存空间最大也不会超过n个数据的大小，所以空间复杂度是O(n)。快速排序的原理我们再来看快速排序算法（Quicksort），我们习惯性把它简称为“快排”。快排利用的也是分

11、治思想。乍看起来，它有点像归并排序，但是思路其实完全不一样。我们待会会讲两者的区别。现在，我们先来看下快排的核心思想。快排的思想是这样的：如果要排序数组中下标从p到r之间的一组数据，我们选择p到r之间的任意一个数据作为pivot（分区点）。我们遍历p到r之间的数据，将小于pivot的放到左边，将大于pivot的放到右边，将pivot放到中间。经过这一步骤之后，数组p到r之间的数据就被分成了三个部分，前面p到q-1之间都是小于pivot的，中间是pivot，后面的q+1到r之间是大于pivot的。 12|排序（下）：如何用快排思想在O(n)内查找第K大元素？ file:/F/temp/g

12、eektime/数据结构与算法之美/12排序（下）：如何用快排思想在O(n)内查找第K大元素？.html2019/1/15 15:35:29 根据分治、递归的处理思想，我们可以用递归排序下标从p到q-1之间的数据和下标从q+1到r之间的数据，直到区间缩小为1，就说明所有的数据都有序了。如果我们用递推公式来将上面的过程写出来的话，就是这样：递推公式： quick_sort(pr) = quick_sort(pq-1) + quick_sort(q+1, r) 终止条件： p = r 我将递推公式转化成递归代码。跟归并排序一样，我还是用伪代码来实现，你可以翻译成你熟悉的任何语言。 12|排序（

13、下）：如何用快排思想在O(n)内查找第K大元素？ file:/F/temp/geektime/数据结构与算法之美/12排序（下）：如何用快排思想在O(n)内查找第K大元素？.html2019/1/15 15:35:29 / 快速排序，A是数组，n表示数组的大小 quick_sort(A, n) quick_sort_c(A, 0, n-1) / 快速排序递归函数，p,r为下标 quick_sort_c(A, p, r) if p = r then return q = partition(A, p, r) / 获取分区点 quick_sort_c(A, p, q-1) quick_sort_c

14、(A, q+1, r) 归并排序中有一个merge()合并函数，我们这里有一个partition()分区函数。partition()分区函数实际上我们前面已经讲过了，就是随机选择一个元素作为pivot（一般情况下，可以选择p到r区间的最后一个元素），然后对Apr分区，函数返回pivot的下标。如果我们不考虑空间消耗的话，partition()分区函数可以写得非常简单。我们申请两个临时数组X和Y，遍历Apr，将小于pivot的元素都拷贝到临时数组X，将大于pivot的元素都拷贝到临时数组Y，最后再将数组X和数组Y中数据顺序拷贝到Apr。 12|排序（下）：如何用快排思想在O(n)内查找第K

15、大元素？ file:/F/temp/geektime/数据结构与算法之美/12排序（下）：如何用快排思想在O(n)内查找第K大元素？.html2019/1/15 15:35:29 12|排序（下）：如何用快排思想在O(n)内查找第K大元素？ file:/F/temp/geektime/数据结构与算法之美/12排序（下）：如何用快排思想在O(n)内查找第K大元素？.html2019/1/15 15:35:29 但是，如果按照这种思路实现的话，partition()函数就需要很多额外的内存空间，所以快排就不是原地排序算法了。如果我们希望快排是原地排序算法，那它的空间复杂度得是O(1)，那part

16、ition()分区函数就不能占用太多额外的内存空间，我们就需要在Apr的原地完成分区操作。原地分区函数的实现思路非常巧妙，我写成了伪代码，我们一起来看一下。 partition(A, p, r) pivot := Ar i := p for j := p to r-1 do if Aj 1 但是，公式成立的前提是每次分区操作，我们选择的pivot都很合适，正好能将大区间对等地一分为二。但实际上这种情况是很难实现的。我举一个比较极端的例子。如果数组中的数据原来已经是有序的了，比如1，3，5，6，8。如果我们每次选择最后一个元素作为pivot，那每次分区得到的两个区间都是不均等的。我们需要进

17、行大约n次分区操作，才能完成快排的整个过程。每次分区我们平均要扫描大约n/2个元素，这种情况下，快排的时间复杂度就从O(nlogn)退化成了O(n2)。我们刚刚讲了两个极端情况下的时间复杂度，一个是分区极其均衡，一个是分区极其不均衡。它们分别对应快排的最好情况时间复杂度和最坏情况时间复杂度。那快排的平均情况时间复杂度是多少呢？我们假设每次分区操作都将区间分成大小为9:1的两个小区间。我们继续套用递归时间复杂度的递推公式，就会变成这样： T(1) = C； n=1时，只需要常量级的执行时间，所以表示为C。 T(n) = T(n/10) + T(9*n/10) + n； n1 这个公式的递

18、推求解的过程非常复杂，虽然可以求解，但我不推荐用这种方法。实际上，递归的时间复杂度的求解方法除了递推公式之外，还有递归树，在树那一节我再讲，这里暂时不说。我这里直接给你结论：T(n)在大部分情况下的时间复杂度都可以做到O(nlogn)，只有在极端情况下，才会退化到O(n2)。而且，我们也有很多方法将这个概率降到很低，如何来做？我们后面章节再讲。解答开篇快排核心思想就是分治和分区，我们可以利用分区的思想，来解答开篇的问题：O(n)时间复杂度内求无序数组中的第K大元素。比如，4， 2， 5， 12， 3这样一组数据，第3大元素就是4。我们选择数组区间A0n-1的最后一个元素An-1作为

19、pivot，对数组A0n-1原地分区，这样数组就分成了三部分，A0p-1、Ap、Ap+1n-1。如果p+1=K，那Ap就是要求解的元素；如果Kp+1, 说明第K大元素出现在Ap+1n-1区间，我们再按照上面的思路递归地在Ap+1n-1这个区间内查找。同理，如果Kp+1，那我们就在A0p-1区间查找。 12|排序（下）：如何用快排思想在O(n)内查找第K大元素？ file:/F/temp/geektime/数据结构与算法之美/12排序（下）：如何用快排思想在O(n)内查找第K大元素？.html2019/1/15 15:35:29 我们再来看，为什么上述解决思路的时间复杂度是O(n)？第一次

20、分区查找，我们需要对大小为n的数组执行分区操作，需要遍历n个元素。第二次分区查找，我们只需要对大小为n/2的数组执行分区操作，需要遍历n/2个元素。依次类推，分区遍历元素的个数分别为、n/2、n/4、n/8、n/16.直到区间缩小为1。如果我们把每次分区遍历的元素个数加起来，就是：n+n/2+n/4+n/8+1。这是一个等比数列求和，最后的和等于2n-1。所以，上述解决思路的时间复杂度就为O(n)。你可能会说，我有个很笨的办法，每次取数组中的最小值，将其移动到数组的最前面，然后在剩下的数组中继续找最小值，以此类推，执行K次，找到的数据不就是第K大元素了吗？不过，时间复杂度就并不是O

21、(n)了，而是O(K * n)。你可能会说，时间复杂度前面的系数不是可以忽略吗？O(K * n)不就等于O(n)吗？这个可不能这么简单地划等号。当K是比较小的常量时，比如1、2，那最好时间复杂度确实是O(n)；但当K等于n/2或者n时，这种最坏情况下的时间复杂度就是O(n2)了。内容小结归并排序和快速排序是两种稍微复杂的排序算法，它们用的都是分治的思想，代码都通过递归来实现，过程非常相似。理解归并排序的重点是理解递推公式和merge()合并函数。同理，理解快排的重点也是理解递推公式，还有partition()分区函数。归并排序算法是一种在任何情况下时间复杂度都比较稳定的排序算法，这

22、也使它存在致命的缺点，即归并排序不是原地排序算法，空间复杂度比较高，是O(n)。正因为此，它也没有快排应用广泛。 12|排序（下）：如何用快排思想在O(n)内查找第K大元素？ file:/F/temp/geektime/数据结构与算法之美/12排序（下）：如何用快排思想在O(n)内查找第K大元素？.html2019/1/15 15:35:29 快速排序算法虽然最坏情况下的时间复杂度是O(n2)，但是平均情况下时间复杂度都是O(nlogn)。不仅如此，快速排序算法时间复杂度退化到O(n2)的概率非常小，我们可以通过合理地选择pivot来避免这种情况。课后思考现在你有10个接口访问日志文件

23、，每个日志文件大小约300MB，每个文件里的日志都是按照时间戳从小到大排序的。你希望将这10个较小的日志文件，合并为1个日志文件，合并之后的日志仍然按照时间戳从小到大排列。如果处理上述排序任务的机器内存只有1GB，你有什么好的解决思路，能“快速”地将这10个日志文件合并吗？欢迎留言和我分享，我会第一时间给你反馈。我已将本节内容相关的详细代码更新到GitHub，戳此即可查看。 12|排序（下）：如何用快排思想在O(n)内查找第K大元素？ file:/F/temp/geektime/数据结构与算法之美/12排序（下）：如何用快排思想在O(n)内查找第K大元素？.html2019/1/15

24、15:35:29 精选留言：峰 2018-10-16 23:35:42 每次从各个文件中取一条数据，在内存中根据数据时间戳构建一个最小堆，然后每次把最小值给写入新文件，同时将最小值来自的那个文件再出来一个数据，加入到最小堆中。这个空间复杂度为常数，但没能很好利用1g内存，而且磁盘单个读取比较慢，所以考虑每次读取一批数据，没了再从磁盘中取，时间复杂度还是一样O(n)。 25赞 12|排序（下）：如何用快排思想在O(n)内查找第K大元素？ file:/F/temp/geektime/数据结构与算法之美/12排序（下）：如何用快排思想在O(n)内查找第K大元素？.html2019/1/15 1

25、5:35:29 Light Lin 2018-10-17 09:51:48 伪代码反而看得费劲，可能还是对代码不够敏感吧 154赞作者回复2018-10-17 11:07:48 那我以后还是写代码吧你有资格吗？ 2018-10-18 11:51:43 建议还是写源码吧，伪代码不能体现细节，基础不好的同学看起来也费劲，还有一个问题课后思考能不能在下一节课开头讲一下，因为感觉您每次留的课后思考都很精辟，想知道以您的维度怎么来思考和解决这个问题 76赞李建辉 2018-10-28 12:28:45 先构建十条io流，分别指向十个文件，每条io流读取对应文件的第一条数据，然后比较时间戳，选择出

26、时间戳最小的那条数据，将其写入一个新的文件，然后指向该时间戳的io流读取下一行数据，然后继续刚才的操作，比较选出最小的时间戳数据，写入新文件，io流读取下一行数据，以此类推，完成文件的合并，这种处理方式，日志文件有n个数据就要比较n次，每次比较选出一条数据来写入，时间复杂度是O（n），空间复杂度是O（1）,几乎不占用内存，这是我想出的认为最好的操作了，希望老师指出最佳的做法！ 63赞作者回复2018-10-29 01:48:35 你回答的不错思路是正确的王先统 2018-10-17 00:32:33 可以为每个文件分配一个40M的数组，再另外分配一个400M的数组储存归并结果，每

27、个文件每次读取40M，对十个数组做归并排序直到其中某个数组的数据被处理完，这时将归并结果写入磁盘，处理完的数组继续读入40M继续参与归并，以此类推，直到所有文件都处理完 49赞侯金彪 2018-10-17 00:28:03 老师，有个问题没懂，在一个数组中找第k大的数这个问题中，为什么如果p+1=k，ap就是要查找的结果呢？ 26赞陈华应 2018-10-17 04:36:25 坚持初衷，死磕就行，不退缩，不放弃！ 14赞曹源 2018-10-18 01:29:27 先取得十个文件时间戳的最小值数组的最小值a，和最大值数组的最大值b。然后取mid=(a+b)/2，然后把每个文件按照mi

28、d分割，取所有前面部分之和，如果小于1g就可以读入内存快排生成中间文件，否则继续取时间戳的中间值分割文件，直到区间内文件之和小于1g。同理对所有区间都做同样处理。最终把生成的中间文件按照分割的时间区间的次序直接连起来即可。 13赞冷笑的花猫 2018-10-17 03:43:26 老师您好，最后的思考题思路基本都是先拆成小文件，然后取出topK，最后再合并。疑惑的是内存不够，怎么读到内存中。如果不读到内存中该怎么实现，读不读到内存中的标准是什么？如果每个文件都是3g，内存只有1g，思路类似。老师能提供下详细的代码吗？相信绝大部分同学都有疑惑，谢谢。 11赞 12|排序（下）：如何用快排思想在O(n)内查找第K大元素？ file:/F/temp/geektime/数据结构与算法之美/12排序（下）：如何用快排思想在O(n)内查找第K大元素？.html2019/1/15 15:35:29 周茜(Diane) 2018-10-26 05:29:12 看了十几节课，第一次留言竟然是支持老师写伪代码。捂脸。不希望被代表。另外希望总结的同学，尽量少写一点吧，翻着太累了。我也写总结，在自己的笔记应用里。默写。写完再查漏补缺。感觉效果很好，也能检查自己到底学进去多少。 10赞

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 12 排序何用思想查找元素

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：12排序（下）：如何用快排思想在O(n)内查找第K大元素？.pdf
链接地址：https://www.31doc.com/p-5529990.html