TimeDistributed的理解和用法（keras）

最新推荐文章于 2023-02-19 22:46:21 发布

zh_JNU

最新推荐文章于 2023-02-19 22:46:21 发布

阅读量2.7w

点赞数 9

CC 4.0 BY-SA版权

分类专栏： keras

本文链接：https://blog.csdn.net/zh_JNU/article/details/85160379

keras 专栏收录该内容

19 篇文章

订阅专栏

本文深入探讨了Keras中TimeDistributed层的工作原理及其在Mask R-CNN等模型中的应用，解析了其如何实现时间序列上的张量操作，并通过实例说明了它在Dense和Conv2D层的用法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

之前一直在看one-stage目标定位的算法，主要是速度快。今天无聊就看下mask-rcnn的源码，了解下主要结构和训练过程。看网络图中发现了使用TimeDistributed层，平常自己没有用过这样的层，所以看官方文档和其他人的博客，发现有的博客理解的并不太正确，所以还是简单介绍下吧。只是个人理解，如有问题欢迎指出。

TimeDistributed顾名思义就是使用时间序列来进行一系列张量操作。个人认为应该加上share这个单词，因为这个TimeDistributed都是共享权重信息的。下面进行例子验证：

应用于Dense层：

#coding:utf-8
from keras.models import Input,Model
from keras.layers import Dense,Conv2D,TimeDistributed

input_ = Input(shape=(12,8))
out = TimeDistributed(Dense(units=10))(input_)
#out = Dense(units=10)(input_)
model = Model(inputs=input_,outputs=out)
model.summary()

一共有90个参数，8×10个weights，10个bias，序列长度一共是12个。从参数数量来看，这12个序列共享这90个训练参数，整个网络输出大小为（None，12，10）。但是这里，使用out = Dense(units=10)(input_)来代替out = TimeDistributed(Dense(units=10))(input_)也是可以的，输出和参数量都是一样的，不知道原因。

应用于Conv2D层：

from keras.models import Input,Model
from keras.layers import Dense,Conv2D,TimeDistributed

input_ = Input(shape=(12,32,32,3))
out = TimeDistributed(Conv2D(filters=32,kernel_size=(3,3),padding='same'))(input_)
model = Model(inputs=input_,outputs=out)
model.summary()

这里12代表就是时间序列，32，32，3指的是高，宽，通道数。卷积操作使用TimeDistributed就相当与这12个时间序列共享一个卷积层参数信息，无论时间序列值为多少，参数总量还是一定的。此处一共有896个参数，卷积核weights有3×3×3×32=864个，卷积核bias有32个。

TimeDistributed在mask-rcnn的用法在于：对FPN网络输出的多层卷积特征进行共享参数。因此，个人认为TimeDistributed的真正意义在于使不同层的特征图共享权重。