💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖
本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】
TensorFlow 深度学习:Python 使用 TensorFlow 读取 CSV 文件并训练 DNN 模型
在实际业务中,我们经常需要对 结构化数据(表格数据) 进行分类或预测。常见的数据格式就是 CSV 文件。在深度学习框架 TensorFlow 中,可以利用 全连接神经网络(DNN, Deep Neural Network) 来训练这些表格数据,从而解决分类或回归问题。
本文将带你从零开始,演示 如何使用 Python + TensorFlow 从 CSV 文件读取数据并训练 DNN 模型,并逐步扩展到 二分类、多分类与进阶优化(Dropout、BatchNormalization、EarlyStopping)。
📌 一、准备工作
在开始之前,确保安装好必要的依赖库:
pip install tensorflow pandas scikit-learn matplotlib
准备一个 CSV 文件,例如二分类数据:
feature1,feature2,feature3,label
5.1,3.5,1.4,0
4.9,3.0,1.4,0
6.2,3.4,5.4,1
5.9,3.0,5.1,1
其中 feature1, feature2, feature3
是特征,label
是类别(0/1)。
如果是多分类任务,label
可以是 0, 1, 2, ...
形式的整数标签。
📊 二、读取与预处理 CSV 数据
使用 pandas
读取数据,scikit-learn
进行标准化,并转为 tf.data.Dataset
:
import pandas as pd
import tensorflow as tf
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
# 1. 读取 CSV 文件
data = pd.read_csv("dataset.csv")
# 2. 分离特征与标签
X = data.drop("label", axis=1).values
y = data["label"].values
# 3. 划分训练集 / 测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 4. 标准化特征
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
# 5. 转换为 TensorFlow Dataset
train_ds = tf.data.Dataset.from_tensor_slices((X_train, y_train)).batch(32).shuffle(100)
test_ds = tf.data.Dataset.from_tensor_slices((X_test, y_test)).batch(32)
这样,我们的数据就能直接送入神经网络模型进行训练。
🏗️ 三、搭建 DNN 模型
基础版(适合初学者)
一个简单的 二分类模型 可以写成:
from tensorflow.keras import layers
model = tf.keras.Sequential([
layers.Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
layers.Dense(32, activation='relu'),
layers.Dense(1, activation='sigmoid') # 二分类
])
model.compile(optimizer='adam',
loss='binary_crossentropy',
metrics=[