干货!java文件上传判重姿势浅谈

干货!java文件上传判重姿势浅谈一、场景:文件上传,用户极有可能上传重复文件,内容完全一致。如果对上传的文件未做任何处理,对于文件存储系统来说将是灾难,大量重复的数据,如果允许上传大文件,那么对于存储资源将是巨大的浪费。对于重复的文件,只需要复制相应的访问地址即可,源文件可无需上传,既减轻了网络带宽压力,也减少了存储容量的压力。二、应对:1、通过文件名判重。非特殊情况下,不会采用这种方案,理由跟人同名一样,文件名很容易重复,随着用户上升,概率会变大。采用此方案极易导致不能达到判重的目的。2、读取文件头加部分内容。这种方案可以解

大家好,又见面了,我是你们的朋友全栈君。

一、场景:文件上传,用户极有可能上传重复文件,内容完全一致。如果对上传的文件未做任何处理,对于文件存储系统来说将是灾难,大量重复的数据,如果允许上传大文件,那么对于存储资源将是巨大的浪费。对于重复的文件,只需要复制相应的访问地址即可,源文件可无需上传,既减轻了网络带宽压力,也减少了存储容量的压力。

二、应对:

1、通过文件名判重。非特殊情况下,不会采用这种方案,理由跟人同名一样,文件名很容易重复,随着用户上升,概率会变大。采用此方案极易导致不能达到判重的目的。

2、读取文件头加部分内容。这种方案可以解决百分之五十的问题,缺点是随着量的上升,重复的概率依然存在。

3、读取文件内容,进行hash计算,通常情况下,这种方案比较可靠,出现误判的概率低。一些分布式文件系统,如fastdfs等也是采取hash的方式进行文件判重。

三、方案

开发语言:java  JDK 1.8 IDE:eclipse

机器配置:i5双核  内存4G 64位

四、代码实现

1、org.apache.commons.codec.digest.DigestUtils

@Test
  public void test1()
    String path = "your file path";
    try {
      long begin = System.currentTimeMillis();
      String md5 = DigestUtils.md5Hex(new FileInputStream(path));
      long end = System.currentTimeMillis();
      System.out.println(md5);
      System.out.println("time:" + ((end - begin) / 1000) + "s");
    } catch (FileNotFoundException e) {
      e.printStackTrace();
    } catch (IOException e) {
      e.printStackTrace();
    }
  }

2、自定义缓冲区实现

@Test
  public void test2() {
    String path ="file path";
    long begin = System.currentTimeMillis();
    BigInteger bi = null;
    try {
      byte[] buffer = new byte[8192 * 10];
      int len = 0;
      MessageDigest md = MessageDigest.getInstance("MD5");
      File f = new File(path);
      FileInputStream fis = new FileInputStream(f);
      while ((len = fis.read(buffer)) != -1) {
        md.update(buffer, 0, len);
      }
      fis.close();
      byte[] b = md.digest();
      bi = new BigInteger(1, b);
    } catch (NoSuchAlgorithmException e) {
      e.printStackTrace();
    } catch (IOException e) {
      e.printStackTrace();
    }
    String md5 = bi.toString(16);
    long end = System.currentTimeMillis();
    System.out.println(md5);
    System.out.println("time:" + ((end - begin) / 1000) + "s");
  }

3、com.twmacinta.util.MD5

@Test
  public void test3() {
    String path ="file path";
    long begin = System.currentTimeMillis();
    try {
      String md5 = MD5.asHex(MD5.getHash(new File(path)));
      long end = System.currentTimeMillis();
      System.out.println(md5);
      System.out.println("time:" + ((end - begin) / 1000) + "s");
    } catch (IOException e) {
      e.printStackTrace();
    }
  }

4、NIO读取


public class MD5FileUtil {
  /**
   * 默认的密码字符串组合,用来将字节转换成 16 进制表示的字符,apache校 验下载的文件的正确性用的就是默认的这个组合
   */
  protected static char hexDigits[] = { '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e',
      'f' };

  protected static MessageDigest messagedigest = null;
  static {
    try {
      messagedigest = MessageDigest.getInstance("MD5");
    } catch (NoSuchAlgorithmException e) {
      e.printStackTrace();
    }
  }

  /**
   * 生成文件的md5校验值
   * @param file 文件路径
   * @return MD5码返回
   * @throws IOException
   */
  public static String getFileMD5(File file) throws IOException {
    String encrStr = "";
    // 读取文件
    FileInputStream fis = new FileInputStream(file);
    // 当文件<2G可以直接读取
    if (file.length() <= Integer.MAX_VALUE) {
      encrStr = getMD5Lt2G(file, fis);
    } else { // 当文件>2G需要切割读取
      encrStr = getMD5Gt2G(fis);
    }
    fis.close();
    return encrStr;
  }

  /**
   * 小于2G文件
   * 
   * @param fis 文件输入流
   * @return
   * @throws IOException
   */
  public static String getMD5Lt2G(File file, FileInputStream fis) throws IOException {
    // 加密码
    String encrStr = "";
    FileChannel ch = fis.getChannel();
    MappedByteBuffer byteBuffer = ch.map(FileChannel.MapMode.READ_ONLY, 0, file.length());
    messagedigest.update(byteBuffer);
    encrStr = bufferToHex(messagedigest.digest());
    return encrStr;
  }

  /**
   * 超过2G文件的md5算法
   * 
   * @param fileName
   * @param InputStream
   * @return
   * @throws Exception
   */
  public static String getMD5Gt2G(InputStream fis) throws IOException {
    // 自定义文件块读写大小,一般为4M,对于小文件多的情况可以降低
    byte[] buffer = new byte[1024 * 1024 * 4];
    int numRead = 0;
    while ((numRead = fis.read(buffer)) > 0) {
      messagedigest.update(buffer, 0, numRead);
    }
    return bufferToHex(messagedigest.digest());
  }

  /**
   * 
   * @param bt           文件字节流
   * @param stringbuffer 文件缓存
   */
  private static void appendHexPair(byte bt, StringBuffer stringbuffer) {
    // 取字节中高 4 位的数字转换, >>> 为逻辑右移,将符号位一起右移,此处未发现两种符号有何不同
    char c0 = hexDigits[(bt & 0xf0) >> 4];
    // 取字节中低 4 位的数字转换
    char c1 = hexDigits[bt & 0xf];
    stringbuffer.append(c0);
    stringbuffer.append(c1);
  }

  private static String bufferToHex(byte bytes[], int m, int n) {
    StringBuffer stringbuffer = new StringBuffer(2 * n);
    int k = m + n;
    for (int l = m; l < k; l++) {
      appendHexPair(bytes[l], stringbuffer);
    }
    return stringbuffer.toString();
  }

  private static String bufferToHex(byte bytes[]) {
    return bufferToHex(bytes, 0, bytes.length);
  }

  /**
   * 判断字符串的md5校验码是否与一个已知的md5码相匹配
   * @param password  要校验的字符串
   * @param md5PwdStr 已知的md5校验码
   * @return
   */
  public static boolean checkPassword(String password, String md5PwdStr) {
    String s = getMD5String(password);
    return s.equals(md5PwdStr);
  }

  /**
   * 生成字符串的md5校验值
   * @param s
   * @return
   */
  public static String getMD5String(String s) {
    return getMD5String(s.getBytes());
  }

  /**
   * 生成字节流的md5校验值
   * @param s
   * @return
   */
  public static String getMD5String(byte[] bytes) {
    messagedigest.update(bytes);
    return bufferToHex(messagedigest.digest());
  }
  
  public static void main(String[] args) throws IOException {
    String path ="path";
    File big = new File(path);
    long begin = System.currentTimeMillis();
    String md5 = getFileMD5(big);

    long end = System.currentTimeMillis();
    System.out.println("md5:" + md5);
    System.out.println("time " + (end - begin));
    System.out.println("time:" + ((end - begin) / 1000) + "s");

  }
}

五、测试结果

方式/时间

304KB

31.2MB

69.5MB

600MB

3.09G

apache

37ms

489ms

1121ms

8987ms

45699ms

缓冲区

4ms

134ms

292ms

9393ms

45993ms

md5

19ms

173ms

338ms

9021ms

48427ms

nio去读

22ms

165ms

320ms

9815ms

45347ms

600M以下:缓冲区 > NIO > MD5 > Apache

600M以上:Apache>缓冲区>NIO>MD5

六、总结

以上数据取样比较分散,可以采用均匀分布样本测试的结果可能更加特近真实效果,也可能得出一个转折点,可根据不同的数据量采用不同的生成模式,其效率有一定差别:

有兴趣的朋友私下可以进行多次测试,可得出更真实的结果

数据以小文件为主的,使用缓冲区生成MD5的方式效率更高,而到了G级别的文件,采用apache的生成方式更高效。上述结果仅供参考,实际情况下请各位根据需要采用不同的生成方式。如有更高效的生成方式,欢迎交流。

图片

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/146520.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 开始laravel项目+理解

    开始laravel项目+理解一.laravel运行理解Ⅰ.开始,public/index.php此文件有两个作用。①:作为入口的起点,引导构建服务所需要的一切(包括路由,服务容器之类的)。②:作为所有请求的必经之路。请求经过此文件,会被“指派”到合适的路由,中间件等等进行处理。tips:所以用phpstudy的时候,记得设置一下①指定项目的根目录。②指定下路由。我用的nginx,设置的vhost.config文件。画起第一行用以指定项目的根目录,就apache的www文件的意思。第二行是指定所有请求最终会定向

    2022年5月7日
    39
  • 体验了一把线上CPU100%及应用OOM的排查和解决过程

    点击上方☝,轻松关注!及时获取有趣有料的技术文章“下面是我遇到的问题,以及一些简单的排查思路,如有不对的地方,欢迎留言讨论。如果你已经遇到 InMemoryReporterMetrics…

    2022年3月1日
    51
  • 如何判断二极管的极性_二极管的反向饱和电流

    如何判断二极管的极性_二极管的反向饱和电流三极管饱和状态的判断比如上图如何判断电路正常状态下(麦克风无声音)Q1饱和而不是Q2饱和?首先看Q1:因为R2=100R3所以电流的话R3是100倍的R2,但是8050放大系数是200倍以上,说明此时三极管已经无力再放大这个基极电流了,三极管处于饱和状态而后边Q2R3是R4的30倍左右,很明显电流的话根本就用不上HFE放大系统,处于截止状态…

    2025年10月23日
    2
  • intellij idea 在线 激活码_通用破解码[通俗易懂]

    intellij idea 在线 激活码_通用破解码,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月16日
    138
  • A 股历年三大财务报表 API 接口「建议收藏」

    A股历年三大财务报表历年所有财报数据,全量A股数据,最全三大财报数据。1.产品功能支持所有A股全量三大财报数据查询;分别包括资产负债表、利润表、现金流量表数据;返回70多项财务指标;多数据源清洗整合,百万级数据毫秒级返回;全接口支持HTTPS(TLSv1.0/v1.1/v1.2/v1.3);全面兼容AppleATS;全国多节点CDN部署;接口极速响应,多台服务器构建API接口负载均衡。2.API文档接口详情:https://www.

    2022年4月17日
    93
  • 怎样卸载干净eclipse_eclipse卸载又重新安装之曲折心路

    以前下过EclipseIDEforJavaDevelopers(其实当时自己下的时候也没有什么详细查应该下哪个,随便下的一个版本),课程老师要求下载红框框起来的这个EclipseIDEforEnterpriseJavaDevelopers(压缩包名字:eclipse-jee-2019-09-R-win32-x86_64)。其实问题不大,卸了重下呗。但是(敲黑板),踩了几个坑,差点摔…

    2022年4月6日
    74

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号