1200字范文 > 机器学习入门与Python实战（三）：分类与逻辑回归 Logistic Regression

机器学习入门与Python实战（三）：分类与逻辑回归 Logistic Regression

时间：2019-12-25 00:24:49

现实案例

分类预测

通过股价预测任务区分回归任务与分类任务

分类问题求解

更适合于分类场景的模型：逻辑回归

逻辑回归处理更复杂的分类任务

逻辑回归模型求解

Python实战：商业异常消费数据预测

商业异常消费数据预测实战summary：

拓展学习

现实案例

垃圾短信检测：：自动判断收到的信息是否为垃圾信息

如何实现：

收集一些样本，告诉计算机哪些是垃圾信息

计算机自动寻找垃圾信息共同特征（部分特征：发件人、是否群发、网址、元、赢、微信、免费）

在新信息中检测是否包含垃圾信息特征内容，判断其是否为垃圾邮件

图像识别

手写数字识别：/exdb/lenet/

股票涨跌预测：判断每只股票接下来一段时间会上涨，还是下跌

分类预测

根据数据类别与部分特征信息，自动寻找类别与特征信息的关系，判断一个新的样本属于哪种类别

分类预测的实现方法

通过股价预测任务区分回归任务与分类任务

分类问题求解

任务：根据水位，判断水池是否需要蓄水或放水

更适合于分类场景的模型：逻辑回归

1、更符合类别数据分布特点；

2、连续的函数关系

根据数据特征，计算样本归属于某一类别的概率P(x)，根据概率数值判断其所属类别。

逻辑回归处理更复杂的分类任务

逻辑回归模型求解

寻找损失函数极小值点分类问题，结果为离散数据，需要对损失函数进行调整以适应梯度下降法求解

Python实战：商业异常消费数据预测

基础环境：Python语言；安装核心工具包numpy、pandas、sklearn、matplotlib；环境管理软件Anaconda；Jupyter notebook

环境配置参考：机器学习入门与Python实战核心工具篇：pip源、python、anaconda、工具包（完整版）/dfly_zx/article/details/110188923

任务：基于task2_data.csv数据，建立二阶多项式逻辑回归模型实现异常消费数据预测，与线性逻辑回归模型结果进行对比。

#数据加载import pandas as pdimport numpy as npdata = pd.read_csv('task2_data.csv')data.head()

#数据可视化from matplotlib import pyplot as pltfig1= plt.figure()plt.scatter(data.loc[:,'pay1'],data.loc[:,'pay2'])plt.title('pay1_pay2')plt.xlabel('pay1')plt.ylabel('pay2')plt.show()

#创建maskmask= data.loc[:,'y']==1print(mask)

fig1= plt.figure()abnormal = plt.scatter(data.loc[:,'pay1'][mask],data.loc[:,'pay2'][mask])normal = plt.scatter(data.loc[:,'pay1'][~mask],data.loc[:,'pay2'][~mask])plt.title('pay1_pay2')plt.xlabel('pay1')plt.ylabel('pay2')plt.legend((abnormal,normal),('abnormal','normal'))plt.show()

#X y赋值X = data.drop(['y'],axis=1)y = data.loc[:,'y']X.head()y.head()print(X.shape,y.shape)

#建立线性边界分类模型from sklearn.linear_model import LogisticRegressionLR1 = LogisticRegression()LR1.fit(X,y)

#模型预测y_predict = LR1.predict(X)print(y_predict)print(y)

#准确率计算from sklearn.metrics import accuracy_scoreaccuracy = accuracy_score(y,y_predict)print(accuracy)

#边界函数参数获取theta0 = LR1.intercept_theta1,theta2 = LR1.coef_[0][0],LR1.coef_[0][1]print(theta0,theta1,theta2)

X1 = data.loc[:,'pay1']print(X1)

X2_new = -(theta0+theta1*X1)/theta2print(X2_new)

fig2= plt.figure()abnormal = plt.scatter(data.loc[:,'pay1'][mask],data.loc[:,'pay2'][mask])normal = plt.scatter(data.loc[:,'pay1'][~mask],data.loc[:,'pay2'][~mask])plt.plot(X1,X2_new)plt.title('pay1_pay2')plt.xlabel('pay1')plt.ylabel('pay2')plt.legend((abnormal,normal),('abnormal','normal'))plt.show()

X2 = data.loc[:,'pay2']print(X2)

#生成二次项X1_2 = X1*X1X2_2 = X2*X2X1_X2 = X1*X2print(X1_2.shape,X2_2.shape,X1_X2.shape)print(X1[0],X2[0],X1_2[0],X2_2[0],X1_X2[0])

#创建二次分类边界数据X_new = {'X1':X1,'X2':X2,'X1_2':X1_2,'X2_2':X2_2,'X1_X2':X1_X2}X_new = pd.DataFrame(X_new)print(X_new)

#建立新模型LR2 = LogisticRegression()LR2.fit(X_new,y)

#模型预测y2_predict = LR2.predict(X_new)print(y2_predict)

#准确率accuracy2 = accuracy_score(y,y2_predict)print(accuracy2)

#边界函数参数获取theta0 = LR2.intercept_theta1,theta2,theta3,theta4,theta5 = LR2.coef_[0][0],LR2.coef_[0][1],LR2.coef_[0][2],LR2.coef_[0][3],LR2.coef_[0][4]print(theta0,theta1,theta2,theta3,theta4,theta5)

X1_new = X1.sort_values()print(X1_new)print(X1)

a = theta4b = theta5*X1_new + theta2c = theta0+theta1*X1_new+theta3*X1_new*X1_newX2_new_2 = (-b+np.sqrt(b*b-4*a*c))/(2*a)print(X2_new_2)

fig2= plt.figure()abnormal = plt.scatter(data.loc[:,'pay1'][mask],data.loc[:,'pay2'][mask])normal = plt.scatter(data.loc[:,'pay1'][~mask],data.loc[:,'pay2'][~mask])plt.plot(X1_new,X2_new_2)plt.title('pay1_pay2')plt.xlabel('pay1')plt.ylabel('pay2')plt.legend((abnormal,normal),('abnormal','normal'))plt.show()

#新样本预测pay1=80, pay2=20X_test = np.array([[80,20,80*80,20*20,80*20]])y_predict = LR2.predict(X_test)print(X_test)print('abnormal' if y_predict==1 else 'normal')