关于数据存储类型的一点分析

关于数据存储类型的一点分析

简介

    SQL Server每个表中各列的数据类型的有各种形式,产生的效果也各有不同,我们主要根据效率兼顾性能的情况下讨论下如何规定类型。

    在SQL Server中,数据的存储以页为单位。八个页为一个区。一页为8K,一个区为64K,这个意味着1M的空间可以容纳16个区。       SQL Server中的分配单元分为三种,分别为存储行内数据的In_Row_Data,存储Lob对象的LOB_Data,存储溢出数据的Row_Overflow_data。下面我们通过一个更具体的例子来理解这三种分配单元。

    我建立如图2所示的表。

image

    图2.测试表

    图2的测试表不难看出,通过插入数据使得每一行的长度会超过每页所能容纳的最大长度8060字节。使得不仅产生了行溢出(Row_Overflow_Data),还需要存储LOB的页.测试的插入语句和通过DBCC IND看到的分配情况如图3所示。

image

    图3.超过8060字节的行所分配的页

    除去IAM页,这1行数据所需要三个页来存储。首先是LOB页,这类是用于存储存在数据库的二进制文件所设计,当这个类型的列出现时,在原有的列会存储一个24字节的指针,而将具体的二进制数据存在LOB页中,除去Text之外,VarBinary(max)也是存在LOB页中的。然后是溢出行,在SQL Server 2000中,一行超过8060字节是不被允许的,在SQL Server 2005之后的版本对这个特性进行了改进,使用Varchar,nvarchar等数据类型时,当行的大小不超过8060字节时,全部存在行内In-row data,当varchar中存储的数据过多使得整行超过8060字节时,会将额外的部分存于Row-overflow data页中,如果update这列使得行大小减少到小于8060字节,则这行又会全部回到in-row data页。

数据类型的选择

    在了解了一些基础知识之后。我们知道SQL Server读取数据是以页为单位,更少的页不仅仅意味着更少的IO,还有更少的内存和CPU资源消耗。所以对于数据选择的主旨是:

尽量使得每行的大小更小

    这个听起来非常简单,但实际上还需要对SQL Server的数据类型有更多的了解。

    比如存储INT类型的数据,按照业务规则,能用INT就不用BIGINT,能用SMALLINT就不用INT,能用TINYINT就不用SMALLINT。

    所以为了使每行的数据更小,则使用占字节最小的数据类型。

   1.比如不要使用DateTime类型,而根据业务使用更精确的类型,如下表:

类型
所占字节

Date(仅日期)
3

Time(仅时间)
5

DateTime2(时间和日期)
8

DateTimeOffSet(外加时区)
10

    2.使用VarChar(Max),Nvarchar(Max),varbinary(Max)来代替text,ntext和image类型

    根据前面的基础知识可以知道,对于text,ntext和image类型来说,每一列只要不为null,即使占用很小的数据,也需要额外分配一个LOB页,这无疑占用了更多的页。而对于Varchar(Max)等数据类型来说,当数据量很小的时候,存在In-row-data中就能满足要求,而不用额外的LOB页,只有当数据溢出时,才会额外分配LOB页,除此之外,Varchar(Max)等类型支持字符串操作函数比如:

  • COL_LENGTH
  • CHARINDEX
  • PATINDEX
  • LEN
  • DATALENGTH
  • SUBSTRING

    3.对于仅仅存储数字的列,使用数字类型而不是Varchar等。

     因为数字类型占用更小的存储空间。比如存储123456789使用INT类型只需要4个字节,而使用Varchar就需要9个字节(这还不包括Varchar还需要占用4个字节记录长度)。

    4.如果没有必要,不要使用Nvarchar,Nchar等以“字”为单位存储的数据类型。这类数据类型相比varchar或是char需要更多的存储空间。

    5.关于Char和VarChar的选择

     这类比较其实有一些了。如果懒得记忆,大多数情况下使用Varchar都是正确的选择。我们知道Varchar所占用的存储空间由其存储的内容决定,而Char所占用的存储空间由定义其的长度决定。因此Char的长度无论存储多少数据,都会占用其定义的空间。所以如果列存储着像邮政编码这样的固定长度的数据,选择Char吧,否则选择Varchar会比较好。除此之外,Varchar相比Char要多占用几个字节存储其长度,下面我们来做个简单的实验。

    首先我们建立表,这个表中只有两个列,一个INT类型的列,另一个类型定义为Char(5),向其中插入两条测试数据,然后通过DBCC PAGE来查看其页内结构,如图4所示。

 image
    图4.使用char(5)类型,每行所占的空间为16字节

    下面我们再来看改为Varchar(5),此时的页信息,如图5所示。

image

    图5.Varchar(5),每行所占用的空间为20字节

    因此可以看出,Varchar需要额外4个字节来记录其内容长度。因此,当实际列存储的内容长度小于5字节时,使用char而不是varchar会更节省空间。

关于Null的使用

    关于Null的使用也是略有争议。有些人建议不要允许Null,全部设置成Not Null+Default。这样做是由于SQL Server比较时就不会使用三值逻辑(TRUE,FALSE,UNKNOWN),而使用二值逻辑(True,False),并且查询的时候也不再需要IsNull函数来替换Null值。

    但这也引出了一些问题,比如聚合函数的时候,Null值是不参与运算的,而使用Not Null+Default这个值就需要做排除处理。

    因此Null的使用还需要按照具体的业务来看。

考虑使用稀疏列(Sparse)

    稀疏列是对 Null 值采用优化的存储方式的普通列。 稀疏列减少了 Null 值的空间需求,但代价是检索非 Null 值的开销增加。 当至少能够节省 20% 到 40% 的空间时,才应考虑使用稀疏列。

    稀疏列在SSMS中的设置如图6所示。

image

    图6.稀疏列

    更具体的稀疏列如何能节省空间,请参看MSDN

对于主键的选择

     对于主键的选择是表设计的重中之重,因为主键不仅关系到业务模型,更关系到对表数据操作的的效率(因为主键会处于B树的非叶子节点中,对树的高度的影响最多)。这个我们得结合主键索引的选择来具体分析,之前写过一篇关于索引的,以后有需要再进一步延伸来讲

总结

    本篇文章对于设计表时,数据列的选择进行了一些探寻。好的表设计不仅仅是能满足业务需求,还能够满足对性能的优化。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/119627.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • mysql报错hy000_1251-client does not support

    mysql报错hy000_1251-client does not support我似乎无法重新创建一个已删除的简单用户,即使以root用户身份在MySQL中也是如此。我的情况是:用户’jack’曾经存在,但是我从mysql.user中删除了它以重新创建它。我在那张桌子上看不到任何痕迹。如果我对其他随机用户名(例如“jimmy”)执行此命令,则该命令会正常工作(就像最初对“jack”所做的一样)。我已经做了些什么来破坏用户“jack”,以及如何撤销该破坏,以便重新创建“j…

    2022年8月12日
    8
  • 数人云|优势+工具+实践=DevOps&Docker的企业级落地

    数人云|优势+工具+实践=DevOps&Docker的企业级落地

    2022年3月5日
    40
  • matlab读取txt文件中的数据_matlab读取文本文件

    matlab读取txt文件中的数据_matlab读取文本文件常用的主要有以下几种方法:1、load    Data=load("filename.txt");   该函数只能加载仅含有数字的文本文件,如果文档中夹杂着字母或者文字,就会报错。2、importdata    Data=importdata("filename.txt");    既可以读取数据又可以读取字符:Data.data矩阵里存放的是纯数字,Data.textdata矩阵…

    2025年9月19日
    9
  • 在Sqlite中实现RowNumber功能[通俗易懂]

    在Sqlite中实现RowNumber功能[通俗易懂]SELECT ROWID, (SELECTCOUNT(1)FROM`Weight`bWHEREa.`Date`>=b.`Date`)AS`ROWNUMBER`, a.*FROM `Weight`aORDERBY a.`Date`SELECT ROWID, (SELECTCOUNT(1)FROM`Weight`bW…

    2022年6月1日
    72
  • SSIS 关于并发的两个设置

    SSIS 关于并发的两个设置

    2021年9月12日
    69
  • MacPorts_苹果mac教程

    MacPorts_苹果mac教程在macOS上管理软件包,MacPorts和homebrew是不错的选择。但有网友说MacPorts倾向于在自己电脑上编译,而homebrew倾向于使用已经编译好的。这些暂且不论,但有一点,MacPorts是个老牌的工具,它支持的库确实比homebrew多,这让我不得不选择MacPorts.下面简单介绍下MacPortsMacPorts官方文档:https://guide.macpor

    2022年9月21日
    6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号