T6好莱坞明星识别-CSDN博客

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊

一、导入数据

from tensorflow       import keras
from tensorflow.keras import layers,models
import os, PIL, pathlib
import matplotlib.pyplot as plt
import tensorflow        as tf

data_dir = "C:/Users/CuiWanbing/Desktop/48-data"
data_dir = pathlib.Path(data_dir)

查看图片
在这里插入图片描述

二、数据预处理

batch_size = 32
img_height = 224
img_width = 224

"""
关于image_dataset_from_directory()的详细介绍可以参考文章：https://mtyjkh.blog.csdn.net/article/details/117018789
"""
train_ds = tf.keras.preprocessing.image_dataset_from_directory(
    data_dir,
    validation_split=0.1,
    subset="training",
    label_mode = "categorical",
    seed=123,
    image_size=(img_height, img_width),
    batch_size=batch_size)

"""
关于image_dataset_from_directory()的详细介绍可以参考文章：https://mtyjkh.blog.csdn.net/article/details/117018789
"""
val_ds = tf.keras.preprocessing.image_dataset_from_directory(
    data_dir,
    validation_split=0.1,
    subset="validation",
    label_mode = "categorical",
    seed=123,
    image_size=(img_height, img_width),
    batch_size=batch_size)

测试集与验证集的关系：

验证集并没有参与训练过程梯度下降过程的，狭义上来讲是没有参与模型的参数训练更新的。
但是广义上来讲，验证集存在的意义确实参与了一个“人工调参”的过程，我们根据每一个epoch训练之后模型在valid data上的表现来决定是否需要训练进行early stop，或者根据这个过程模型的性能变化来调整模型的超参数，如学习率，batch_size等等。
因此，我们也可以认为，验证集也参与了训练，但是并没有使得模型去overfit验证集

plt.figure(figsize=(20, 10))

for images, labels in train_ds.take(1):
    for i in range(20):
        ax = plt.subplot(5, 10, i + 1)

        plt.imshow(images[i].numpy().astype("uint8"))
        plt.title(class_names[np.argmax(labels[i])])
        
        plt.axis("off")

在这里插入图片描述

三、构建CNN网络

"""
关于卷积核的计算不懂的可以参考文章：https://blog.csdn.net/qq_38251616/article/details/114278995

layers.Dropout(0.4) 作用是防止过拟合，提高模型的泛化能力。
关于Dropout层的更多介绍可以参考文章：https://mtyjkh.blog.csdn.net/article/details/115826689
"""

model = models.Sequential([
    layers.experimental.preprocessing.Rescaling(1./255, input_shape=(img_height, img_width, 3)),
    
    layers.Conv2D(16, (3, 3), activation='relu', input_shape=(img_height, img_width, 3)), # 卷积层1，卷积核3*3  
    layers.AveragePooling2D((2, 2)),               # 池化层1，2*2采样
    layers.Conv2D(32, (3, 3), activation='relu'),  # 卷积层2，卷积核3*3
    layers.AveragePooling2D((2, 2)),               # 池化层2，2*2采样
    layers.Dropout(0.5),  
    layers.Conv2D(64, (3, 3), activation='relu'),  # 卷积层3，卷积核3*3
    layers.AveragePooling2D((2, 2)),     
    layers.Dropout(0.5),  
    layers.Conv2D(128, (3, 3), activation='relu'),  # 卷积层3，卷积核3*3
    layers.Dropout(0.5), 
    
    layers.Flatten(),                       # Flatten层，连接卷积层与全连接层
    layers.Dense(128, activation='relu'),   # 全连接层，特征进一步提取
    layers.Dense(len(class_names))               # 输出层，输出预期结果
])

model.summary()  # 打印网络结构

在这里插入图片描述

四、训练模型

1.设置动态学习率

📮 ExponentialDecay函数：
tf.keras.optimizers.schedules.ExponentialDecay是 TensorFlow 中的一个学习率衰减策略，用于在训练神经网络时动态地降低学习率。学习率衰减是一种常用的技巧，可以帮助优化算法更有效地收敛到全局最小值，从而提高模型的性能。

🔎 主要参数：
● initial_learning_rate（初始学习率）：初始学习率大小。
● decay_steps（衰减步数）：学习率衰减的步数。在经过 decay_steps 步后，学习率将按照指数函数衰减。例如，如果 decay_steps 设置为 10，则每10步衰减一次。
● decay_rate（衰减率）：学习率的衰减率。它决定了学习率如何衰减。通常，取值在 0 到 1 之间。
● staircase（阶梯式衰减）：一个布尔值，控制学习率的衰减方式。如果设置为 True，则学习率在每个 decay_steps 步之后直接减小，形成阶梯状下降。如果设置为 False，则学习率将连续衰减。

# 设置初始学习率
initial_learning_rate = 1e-4

lr_schedule = tf.keras.optimizers.schedules.ExponentialDecay(
        initial_learning_rate, 
        decay_steps=60,      # 敲黑板！！！这里是指 steps，不是指epochs
        decay_rate=0.96,     # lr经过一次衰减就会变成 decay_rate*lr
        staircase=True)

# 将指数衰减学习率送入优化器
optimizer = tf.keras.optimizers.Adam(learning_rate=lr_schedule)

model.compile(optimizer=optimizer,
              loss=tf.keras.losses.CategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])

2.早停与保存最佳模型参数

关于ModelCheckpoint的详细介绍可参考文章 🔗ModelCheckpoint 讲解【TensorFlow2入门手册】

EarlyStopping()参数说明：

● monitor: 被监测的数据。
● min_delta: 在被监测的数据中被认为是提升的最小变化，例如，小于 min_delta 的绝对变化会被认为没有提升。
● patience: 没有进步的训练轮数，在这之后训练就会被停止。
● verbose: 详细信息模式。
● mode: {auto, min, max} 其中之一。在 min 模式中，当被监测的数据停止下降，训练就会停止；在 max 模式中，当被监测的数据停止上升，训练就会停止；在 auto 模式中，方向会自动从被监测的数据的名字中判断出来。
● baseline: 要监控的数量的基准值。如果模型没有显示基准的改善，训练将停止。
● estore_best_weights: 是否从具有监测数量的最佳值的时期恢复模型权重。如果为 False，则使用在训练的最后一步获得的模型权重。

关于EarlyStopping()的详细介绍可参考文章 🔗早停 tf.keras.callbacks.EarlyStopping() 详解【TensorFlow2入门手册】

from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping

epochs = 100

# 保存最佳模型参数
checkpointer = ModelCheckpoint('best_model.h5',
                                monitor='val_accuracy',
                                verbose=1,
                                save_best_only=True,
                                save_weights_only=True)

# 设置早停
earlystopper = EarlyStopping(monitor='val_accuracy', 
                             min_delta=0.001,
                             patience=20, 
                             verbose=1)

history = model.fit(train_ds,
                    validation_data=val_ds,
                    epochs=epochs,
                    callbacks=[checkpointer, earlystopper])

在这里插入图片描述

最后、个人总结

在这里插入图片描述
这个一开始跑出来过拟合了，Accuracy是0.3944最好
使用了sparse_categorical_crossentropy后，效果还降低了

对于三种损失函数总结如下：
一、定义及适用场景
binary_crossentropy（对数损失函数）
定义：当用于二分类问题时，binary_crossentropy计算的是预测值与真实值之间的交叉熵损失。其公式为：loss = -[target * log(pred) + (1 - target) * log(1 - pred)]，其中target表示真实值（0或1），pred表示预测值（模型预测为正类的概率）。
适用场景：主要用于二分类问题，也可以用于多分类问题（但需要将多分类问题拆分为多个二分类问题，每个类别独立预测）。
categorical_crossentropy（多分类的对数损失函数）
定义：categorical_crossentropy计算的是多分类问题中预测概率分布与真实概率分布之间的交叉熵损失。它要求输入的真实标签是one-hot编码形式。
适用场景：主要用于多分类问题，且标签已经过one-hot编码。
sparse_categorical_crossentropy（稀疏性多分类的对数损失函数）
定义：sparse_categorical_crossentropy是categorical_crossentropy的稀疏版本，它允许输入的真实标签是整数形式，而不是one-hot编码。在内部，该函数会自动将整数标签转换为one-hot编码，然后计算交叉熵损失。
适用场景：主要用于多分类问题，但标签是整数形式，且类别数量较多时。使用sparse_categorical_crossentropy可以减少数据预处理步骤，提高计算效率。
二、主要区别
输入标签格式：
binary_crossentropy：通常用于二分类问题，输入标签为0或1。
categorical_crossentropy：输入标签为one-hot编码形式。
sparse_categorical_crossentropy：输入标签为整数形式。
输出层激活函数：
binary_crossentropy：通常与sigmoid激活函数一起使用，用于二分类问题。
categorical_crossentropy：通常与softmax激活函数一起使用，用于多分类问题。
sparse_categorical_crossentropy：同样可以与softmax激活函数一起使用（尽管在内部进行了标签转换），但输入层接受的是整数标签。
应用场景：
binary_crossentropy：适用于二分类问题或需要将多分类问题拆分为多个二分类问题的场景。
categorical_crossentropy：适用于多分类问题，且标签已经过one-hot编码的场景。
sparse_categorical_crossentropy：适用于多分类问题，但标签是整数形式且类别数量较多的场景。
三、总结
在选择损失函数时，应根据具体的分类任务和标签格式来决定。对于二分类问题，通常选择binary_crossentropy；对于多分类问题且标签已经过one-hot编码的场景，选择categorical_crossentropy；对于多分类问题但标签是整数形式且类别数量较多的场景，选择sparse_categorical_crossentropy可以减少数据预处理步骤并提高计算效率。
最后尝试修改了图片大小为256x256，加入L2正则化，以及降低全连接层神经元数量。