从大量的IP访问记录中找到访问次数最多的IP

从大量的IP访问记录中找到访问次数最多的IP

1.内存不受限

一个IP有32bit(4Byte),1GB=10亿,那么在4GB内存的情况下,可以存10亿个IP。用HashMap,边存入IP边维护一个最大次数,这样遍历一遍就可以求出,时间复杂度为O(n)。

2.内存受限

假设我们有1TB的数据,但内存只有4GB,不能将数据全部读入内存做运算。

  • 从输入流中读取1TB的数据,将IP地址按模1000运算,相同的模值IP写到同一个文件中。这样就会产生1000个小文件,每个文件大约1GB,且保证了相同的IP一定在同一个文件中。
  • 对这1000个文件中的每个文件使用HashMap找到该文件中的最多IP,然后1000个局部极值比较,再求出最值,有点像小组赛晋级然后总决赛。

【Reference】

  1. 从1亿个ip中找出访问次数最多的IP http://blog.csdn.net/linmiansheng/article/details/19290879
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/112603.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • linux搭建svn服务器客户端_搭建web服务器的步骤

    linux搭建svn服务器客户端_搭建web服务器的步骤Linux搭建SVN服务器

    2022年4月21日
    64
  • cisco交换机基本配置命令_cisco交换机保存命令

    cisco交换机基本配置命令_cisco交换机保存命令前段时间我们发布了关于学校机房项目交换机的配置,理解这篇,交换机配置不再难,这篇是以思科交换机为配置基础,有部分朋友觉得有些难度,希望我们发些基础些的内容,本期我们就一起来看下思科的基础配置。思科交换机的基本配置一、基本配置switch>enable//进入特权模式switch#configterminal…

    2022年4月20日
    435
  • MySQL练习题(经典50题)

    MySQL练习题(经典50题)MySQL练习题(经典50题)–建表–学生表CREATETABLEStudent(s_idVARCHAR(20),s_nameVARCHAR(20)NOTNULLDEFAULT‘’,s_birthVARCHAR(20)NOTNULLDEFAULT‘’,s_sexVARCHAR(10)NOTNULLDEFAULT‘’,PRIMARYKEY(s_id));–课程表CREATETABLECourse(c_idVARCHAR(20),c_nam

    2022年9月18日
    3
  • c语言错误lnk1120_2019咬文嚼字十大错误

    c语言错误lnk1120_2019咬文嚼字十大错误错误提示LNK2019错误,其实早找我之前就遇到过:C++BookNote-LNK2019严重性 代码 说明 项目 文件 行 禁止显示状态错误 LNK2019 无法解析的外部符号“public:__thiscallmy_util::ReferCounter::ReferCounter(void)”(??0?KaTeXparseerror:Expectedgroupafter’_’atposition71:…c:staticvoid_̲_cdeclmy

    2022年10月5日
    2
  • 请编写一个给list去重的函数_计算表达式

    请编写一个给list去重的函数_计算表达式c#拉姆达表达式实现List去重varlist=studentlist.OrderByDescending(a=>a.CreateDate).ToList();Console.WriteLine(JsonConvert.SerializeObject(list.Where((x,i)=>list.FindIndex(z=&gt…

    2022年9月16日
    3
  • loadrunner11 中文激活成功教程版(附详细安装教程)[通俗易懂]

    loadrunner11 中文激活成功教程版(附详细安装教程)[通俗易懂]LoadRunner是一款专业级别的应用负载测试工具,它可以模拟上千万用户对企业应用进行真实的负载测试,通过大量实时监测器和精确的分析来得到最真实的数据,并且支持自动重复测试,以确保数值稳定和准确。通过使用LoadRunner,企业能最大限度地缩短测试时间,优化产品性能和加速应用系统的发布周期。LoadRunner适用于各种体系架构,它从用户关注的“响应时间”、“点击次数”或是工业层面的“吞吐量”…

    2022年7月22日
    9

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号