Tensorflow数据读取之tfrecord

Tensorflow数据读取之tfrecord文章目录tfrecordtfrecord的使用流程写入tfrecord文件读取tfrecord文件tfrecord中的数据格式tfrecord中对于变长数据和定长数据的处理tfrecord中生成batch_data的方法插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

tfrecord

这次只记录我在实验中遇到的情况和略懂的几点,多余的我没有怎么看【笑哭】,一个是因为懒,一个是因为官网介绍页太少了8,有点心塞~~
开门见山,关于Tensorflow读取数据,官网给出了三种方法,分别是:
1.供给数据(Feeding): 在TensorFlow程序训练或者测试的每一个epoch,在tf.Session().run()函数中,以字典的形式通过feed_dict参数进行赋值。
2.从文件读取数据: 在TensorFlow图的起始, 让一个输入管线从文件中读取数据。
3.预加载数据: 在TensorFlow图中定义常量或变量来保存所有数据(仅适用于数据量比较小的情况)。

截止到目前为止,由于我使用tensorflow的时间不长,次数不多,所以只是尝试过第一种和第三种方法。最近刚刚尝试了第三种方法,使用的是tensorflow内定的标准读取数据的格式—tfrecord,在这里记录一下。(好像并没有开门见山,尴尬脸)

TFRecords是一种二进制文件,这个格式我真的理解无能,据说它不对数据进行压缩,所以可以被快速加载到内存中,要复制和移动的时候也是咻的一下就搞定,所以说人家作为内定格式是有原因的,嗯,没错,凭实力内定。但是这种格式不支持随机访问,因此它适合于大量的数据流,但不适用于快速分片或其他非连续存取。

tfrecord的使用流程

写入tfrecord文件

TFRecords文件包含了tf.train.Example 协议内存块(protocol buffer)(协议内存块包含了字段 Features)。我们可以写一段代码获取你的数据, 将数据填入到Example协议内存块(protocol buffer),将协议内存块序列化为一个字符串, 并且通过tf.python_io.TFRecordWriter 写入到TFRecords文件。

上面这段话是从别人那里复制来的。用更通俗的话来解释一下。分两种情况来说:
1.一次往tfrecord文件中存储一个样本数据
2.一次往tfrecord文件中存储一个bacth的样本数据
对于第一种情况(一次往tfrecord文件中存储一个样本数据),每一个样本的特征构造一个dict={‘特征1’:“value1”,”特征2”:“value2”,…,“特征n”:“value n”}。
首先通过tf.python_io.TFRecordWriter函数打开要写入的tfrecord文件。

writer = tf.python_io.TFRecordWriter(outfile)

Jetbrains全家桶1年46,售后保障稳定

然后通过下面这种形式把样本特征存到example中。

example = tf.train.Example(
                    features=tf.train.Features( #构造每个样本的信息键值对
                        feature={ 
   
                            'fm_feat_indices': tf.train.Feature(
                                bytes_list=tf.train.BytesList(value=[fm_feat_indices_str])),
                            'fm_feat_values': tf.train.Feature(
                                float_list=tf.train.FloatList(value=fm_feat_values)),
                            'fm_feat_shape': tf.train.Feature(
                                int64_list=tf.train.Int64List(value=fm_feat_shape)),
                            'labels': tf.train.Feature(
                                bytes_list=tf.train.BytesList(value=[labels_str]))
                        }
                    )
                )

然后在对example进行序列化。

serialized = example.SerializeToString()

最后将序列化好的样本特征写入tfrecord文件。

writer.write(serialized)

这样就能成功写入tfrecord文件啦【转圈圈】。但是呢,在深度学习中要使用的时候通常是用batch_size作为使用单位的,每次取出一个batch的数据。所以在读的时候要自己构造batch生成器。个人感觉这样会麻烦一些。所以想省事的童鞋第二种情况就比较适合你们啦。

对于第二种情况(一次往tfrecord文件中存储一个batch样本数据),步骤也是和上面一样。唯一的差别是存入feature的每一项特征不再是每一个样本的特征,而是一个batch中的样本的所有特征组成的list或者array。这样之后读取的时候,每次读取一个样本值,所得到的就是batch的内容。

读取tfrecord文件

从TFRecords文件中读取数据, 可以使用tf.TFRecordReader的tf.parse_single_example解析器。这个操作可以将Example协议内存块(protocol buffer)解析为张量。

 def get_iterator(self, src_dataset):
     src_dataset = src_dataset.map(self.parser)
     iterator = src_dataset.make_initializable_iterator()
     # 所需数据格式
     _fm_feat_indices, _fm_feat_values,  _fm_feat_shape, _labels = iterator.get_next()
     self.initializer = iterator.initializer
     self.fm_feat_indices = _fm_feat_indices
     self.fm_feat_values = _fm_feat_values
     self.fm_feat_shape = _fm_feat_shape
     self.labels = _labels

 def parser(self, record):
     keys_to_features = { 
   
         'fm_feat_indices': tf.FixedLenFeature([], tf.string), # (batch_size,'fm_feat_values': tf.VarLenFeature(tf.float32), # (batch_size)
         'fm_feat_shape': tf.FixedLenFeature([2], tf.int64), # (batch_size,2'labels': tf.FixedLenFeature([], tf.string), # (batch_size,}
     parsed = tf.parse_single_example(record, keys_to_features)
     fm_feat_indices = tf.reshape(tf.decode_raw(parsed['fm_feat_indices'], tf.int64), [-1, 2])  # (batch_size,2)
     fm_feat_values = tf.sparse_tensor_to_dense(parsed['fm_feat_values'])
     fm_feat_shape = parsed['fm_feat_shape']
     labels = tf.reshape(tf.decode_raw(parsed['labels'], tf.float32), [-1, 1])
     return fm_feat_indices, fm_feat_values, fm_feat_shape, labels,

由于从 tfrecord 文件中导入的样本是刚才写入的 tf_serialized 序列化样本,所以我们需要对每一个样本进行解析。这里就用 dataset.map(parse_function) 来对 dataset 里的每个样本进行相同的解析操作。
注:dataset.map(输入) 中的输入是一个函数。
解析基本就是写入时的逆过程,所以会需要写入时的信息,上面先列出刚才写入时,所有 feature 的各项信息。
在这个过程中会用到两个函数,tf.FixedLenFeature()和 tf.VarLenFeature(),前者是取固定长度的特征的,后者是针对不定长的特征的,关于这两个函数的具体使用情况可以参照官方文档。但是需要注意的一个地方是,这两个函数都有一个参数是shape,除了字符串类型的特征在取的时候用tf.FixedLenFeature()不用指定要取的特征的shape,其余类型的特征在取的时候要标明取得shape。

tfrecord中的数据格式

接上面一部分,上面一部分中的feature里面的特征只能有三种类型。

  • int64:tf.train.Feature(int64_list = tf.train.Int64List(value=输入))

  • float32:tf.train.Feature(float_list = tf.train.FloatList(value=输入))

  • string:tf.train.Feature(bytes_list=tf.train.BytesList(value=输入))

注:输入必须是 list(向量),向量的嵌套是不合法的,比如输入=[[1,2],[2,3]]
这里必须要提一下,tfrecord文件中能存储任何类型的数据,不管是标量,向量,还是矩阵,tensor,都能被成功存储到文件中去。但是在存之前要先将矩阵和tensor通过tostring函数转成字符串形式,然后再存成striing类型的数据。对,就是这样,万物皆可存,万物皆可字符串化。

fm_feat_indices_str = fm_feat_indices.tostring()
labels_str = labels.tostring()

tfrecord中对于变长数据和定长数据的处理

对于定长数据,可以把它转化成int,float,byte三种类型之一,然后存储,在读取的时候使用tf.FixedLenFeature()来获取。
对于变长数据,首先也要转化成int,float,byte三种类型之一,存储的时候如果是把他压成字符形式来存储,这样会丢失数据的维度信息,所以不仅要存储数据本身的内容,还要另外再加一个特征字段用来存储数据的shape,方便后面用tf.VarLenFeature(),这个字段一般用int类型就可以。
读取出来再转换数据形状。

# 变长数据存储
'inp_mask': tf.train.Feature(bytes_list=tf.train.BytesList(value=[inp_mask])),
'inp_shape': tf.train.Feature(int64_list=tf.train.Int64List(value=inp_shape))

好了,这篇先到此结束。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/234091.html原文链接:https://javaforall.net

(0)
上一篇 2025年6月11日 下午8:22
下一篇 2025年6月11日 下午9:01


相关推荐

  • 惠普台式电脑安装系统按哪个键_hp不识别u盘装系统

    惠普台式电脑安装系统按哪个键_hp不识别u盘装系统当我们使用U盘给电脑装系统时,需要进入BIOS设置从USB启动,不过设置BIOS太麻烦了,而且大多数电脑现在都支持快捷键启动,如惠普笔记本,那么惠普usb装系统按哪个键呢?接下来小编就跟大家讲解一下,希望能够帮助到大家。惠普usb装系统步骤阅读1、将U盘插在电脑的USB接口,开机并不断按下启动U盘快捷键f12。2、在进入系统启动菜单中选择有USB字样的选项并回车。3、重启电脑,选择YunQiShi…

    2022年8月13日
    9
  • 如何添加CSS虚线以及DIV框

    如何添加CSS虚线以及DIV框css 虚线样式其实很简单 现在大家应该知道怎么在 css 里添加虚线了吧 控制 div 线框的是 border 我们可以具体设置四条边的线框是否显示 也可以去设置虚线框的颜色和粗细 线框的设置可以让 div 的块状更加明显 至于是用虚线还是实线 大家可以根据具体情况而定 不知道怎么在 css 里添加虚线的朋友 可以拿本文的代码去看看效果 自己再去修改修改 体会下变化 进而更审核的掌握 css 虚线样式 可以看到 css 虚线样式的重点是在 border 其中 1px 表示虚线的粗细 如果设置 5px 那么线条就会更加粗些

    2026年3月16日
    3
  • select 函数详解

    select 函数详解Unix 系统下解释 函数原型 intselect intmaxfdp fd set readfds fd set writefds fd set errorfds structtimeva timeout select 函数的主要用途是什么 select 函数是一个监控函数 用来监控插口的状态 插口就是指的是文件描述符 Unix Linux 一切皆文件 select 函数能够监控插口状态 如下表 具体解释 select 的参数 先解释第五个参数 最后一个参数 st

    2026年3月17日
    3
  • 腾讯浑元模型左边搜索记录怎么删除

    腾讯浑元模型左边搜索记录怎么删除

    2026年3月13日
    2
  • 图形数据库

    图形数据库图形数据库 利用了图这种数据结构存储了实体 对象 之间的关系 图形数据库最典型的例子就是社交网络中人与人的关系 数据模型主要是以节点和边 关系 来实现 特点在于能高效地解决复杂的关系问题 图形数据库顾名思义 就是一种存储图形关系的数据库 它利用了图这种数据结构存储了实体 对象 之间的关系 关系型数据用于存储明确关系的数据 但对于复杂关系的数据存储却有些力不从心 如社交网络中人物之间的关系 如果用关系型数据库则非常复杂 用图形数据库将非常简单 典型产品 Neo4J InfoGrid 等

    2026年3月20日
    2
  • 分享一个年化15%以上的无风险套利机会「建议收藏」

    分享一个年化15%以上的无风险套利机会「建议收藏」更多精彩内容,欢迎关注公众号:数量技术宅,也可添加技术宅个人微信号:sljsz01,与我交流。数字货币期现套利原理数字货币市场,是近期大家关注度相当高的一个市场。在这个市场中,存在着现货交易(数字

    2022年8月6日
    8

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号