前言
第二个作业是年收入判断,任务是做一个线性二元分类器,根据人们的个人资料来判断其年收入是否高于50000美元。这里用了逻辑回归和概率生成模型两种方法。
数据集有X_train,Y_train,X_test三个文件。这三个文件是老师事先帮我们将数据整理成csv格式并且全都是数字的数据。
X_train、 X_test :每一行包含一个510-dim的特征,代表一个样本。
Y_train: label = 0 表示 "<=50K" 、 label = 1 表示 " >50K " 。
训练数据共54256个
测试集大概20000多个
参数共510个。
那么可以得出结论:
模型的输入是510维
模型输出是一个布尔值表示预测的是或不是。
上课共讲了两种方法,一种是逻辑回归,一种是生成模型。只不过生成模型的w和b是通过平均值和协方差直接求出来,而不需要梯度下降进行收敛获得。具体步骤和用到的Normalize函数和分类函数都一样。
逻辑回归方法
逻辑回归:
1.数据准备
2. 一些有用的函数
3.梯度与损失
4