2016 - 2024

感恩一路有你

nginx如何实现负载均衡 一道java面试题,20亿数字的文本排序,如何取前100?

浏览量:1451 时间:2021-03-13 07:03:53 作者:admin

一道java面试题,20亿数字的文本排序,如何取前100?

因为这是一个Java问题,所以这是典型的TOPK问题。首先取前100个数字构建一个最小堆,然后依次从堆的顶部插入剩余的数字,同时调整堆。堆中最后100个元素就是结果。空间复杂度为k,时间复杂度为nlogk

七种排序算法:bubble、select、insert、fast、bucket、shell、heap

其中,bubble是最简单、效率最低的排序方法,老师要求我们掌握选择排序方法。

快速排序是最好的排序算法:首先,选择一个边界值,将大于和小于边界值的数据分成两部分;对于分开的部分,重复此过程直到结束。

大量数据用哪种算法排序最好?

1、4字节表示的整数数为2^32≈40亿,2字节表示的无符号整数数为2^16≈60000。

2、2G=2^31b≈20亿字节。

3、为了找出出现次数最多的数字,应记录每个数字的出现次数。最快的方法是记录每个数字在内存中出现的次数。记录方法是记录相应的存储器地址数和相应地址的存储器单元数。但是,2G内存只能记录20亿字节的数字,如果每个数字的出现次数大于255则会发生溢出,没有风险。因此,这种方案是不可取的。

4、这样,磁盘上只能记录每次出现的次数。这样,就在磁盘上创建了一个16g文件。每4个字节对应一个整数,可以对应40亿个整数。用于记录相应整数的个数。

1. 初始化文件。

2. 依次读取数据并用无符号整数记录在磁盘文件中。如果发生溢出,则该数字是次数最多的数字。

3. 从文件中读取每个数字的次数,用变量a记录最高次数,用变量B记录最高次数的数据,用文件依次记录最高次数的数据。当最大次数增加时,a1和B被设置为1,并且该数字被写入文件中。当出现相同次数的数字b1时,该数字被写入文件的相应位置,直到全部被读取为止。

所以您根本不需要2G内存。

nginx如何实现负载均衡 对大数据排序 rediszset数据结构

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。