10G数中找到前5G大的数-伙伴云

10G数中找到前5G大的数

网友投稿 903 2022-05-29

堆排序（转换为求前5G大的元素）

处理海量数据常用【堆排序】：

（1）不需要一次性将所有数据加载到内存中；

（2）不用对所有元素进行排序，只需要和堆的根结点比较大小即可；

（3）对于海量数据而言，要求前k小/大的数，我们只需要构建一个k个大小的堆，然后将读入的数依次和根节点比较就行了（当然这里的前提是内存需要存的下k个数）

最大堆求前n小，最小堆求前n大。

10G数中找到前5G大的数

1、前k小：

构建一个k个数的最大堆，当读取的数大于根节点时，舍弃；当读取的数小于根节点时，替换根节点，重新塑造最大堆，然后继续读取，最后读取完所有的数据之后，最大堆中的数就是最小k个数

2、前k大：

构建一个k个数的最小堆，当读取的数小于根节点时舍弃；当读取的数大于根节点时，替换根节点，重新塑造最小堆，然后继续读取，读取完所有的数据之后，最小堆中的数就是最大k个数

所以我们本题采用堆排序来求中位数

对于10G的数据，它的中位数就是第5G个元素，按常理来说我们需要构建一个5G大小的堆，但是

允许的内存只有两个G

，所以我们先构建一个1G大小的大顶堆，然后求出第1G个元素（根节点），然后利用该元素构建一个新的1G大小的堆，求出第2G大的元素，依次类推，求出第5G大的元素

每次构建一个堆求第几G大的元素，都需要重新遍历完所有10G的数据，相当于要遍历5 * 10G次，这需要频繁的IO操作，需要不断的从硬盘中读取数据

另外

还有其他方法，参考（https://zhuanlan.zhihu.com/p/75397875）

怎样能冻结前两行（怎么设置冻结前两行）

903 2022-05-29

10G数中找到前5G大的数

背景音乐在哪删除（背景音乐如何去除）

怎样修改图片尺寸大小（怎样修改图片的大小尺寸）

怎样能冻结前两行（怎么设置冻结前两行）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

家居定制平台是什么？

友情链接

10G数中找到前5G大的数

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接