sklearn之Logistic回归算法类库介绍-JobPlus

1. scikit-learn的Logistic回归算法类库概述

在scikit-learn中，与Logistic回归有关的类主要有3个，分别是LogisticRegression， LogisticRegressionCV 和logistic_regression_path，其中LogisticRegression和LogisticRegressionCV的主要区别是LogisticRegressionCV使用了交叉验证来选择正则化系数C，而LogisticRegression需要自己每次指定一个正则化系数。除了交叉验证，以及选择正则化系数C以外， LogisticRegression和LogisticRegressionCV的使用方法基本相同。

logistic_regression_path类则比较特殊，它拟合数据后，不能直接来做预测，只能为拟合数据选择合适逻辑回归的系数和正则化系数。主要是用在模型选择的时候，一般情况用不到这个类，所以后面不再讲述logistic_regression_path类。

此外，scikit-learn里面有个容易让人误解的类RandomizedLogisticRegression，虽然名字里有LogisticRegression，但它主要是用L1正则化的逻辑回归来做特征选择的，属于维度规约的算法类，不属于我们常说的分类算法的范畴。

后面的讲解主要围绕LogisticRegression和LogisticRegressionCV中的重要参数的选择来展开，这些参数的意义在这两个类中都是一样的。

2. LogisticRegression和LogisticRegressionCV重要参数调参的注意点

1). 正则化选择参数：penalty

LogisticRegression和LogisticRegressionCV默认就带了正则化项。penalty参数可选择的值为”l1”和”l2”，分别对应了L1正则化和L2正则化，默认是L2正则化。

在调参时如果我们主要的目的只是为了解决过拟合，一般penalty选择L2正则化就够了。但是如果选择L2正则化发现还是过拟合，即预测效果差的时候，就可以考虑L1正则化了。另外，如果模型的特征非常多，我们希望一些不重要的特征系数归零，从而让模型系数稀疏化的话，也可以使用L1正则化。

penalty参数的选择会影响我们损失函数优化算法的选择，即参数solver的选择，如果是L2正则化，那么4种可选的算法{‘newton-cg’，’lbfgs’，’liblinear’，’sag’}都可以选择，但是如果penalty是L1正则化的话，就只能选择{‘liblinear’}了。这是因为L1正则化的损失函数不是连续可导的，而{‘newton-cg’，’lbfgs’，’sag’}这三种优化算法都需要损失函数的一阶或者二阶连续导数，而{‘liblinear’}并没有这个依赖。

2). 优化算法选择参数：solver

solver参数决定了我们对Logistic回归损失函数的优化算法，有4种算法可以选择，分别是：

a). liblinear：使用了开源的liblinear库实现，内部使用了坐标轴下降法来迭代优化损失函数；

b). lbfgs：拟牛顿法的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数；

c). newton-cg：也是牛顿法家族中的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数；

d). sag：随机平均梯度下降，是梯度下降法的变种，和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度，适合于样本数据多的时候。

从上面的描述可以看出，newton-cg，lbfgs和sag这三种优化算法时都需要损失函数的一阶或者二阶连续导数，因此不能用于没有连续导数的L1正则化，只能用于L2正则化。而liblinear通吃L1正则化和L2正则化。

同时，sag每次仅仅使用了部分样本进行梯度迭代，所以当样本量少的时候不要选择它，而如果样本量非常大，比如大于10万，sag是第一选择。但是sag不能用于L1正则化，所以当你有大量的样本，又需要L1正则化的话就要自己做取舍了，要么减少样本量，要么回到L2正则化。

从上面的描述，大家可能觉得，既然newton-cg，lbfgs和sag这么多限制，如果不是大样本，我们选择liblinear不就行了嘛？错！因为liblinear也有自己的弱点。我们知道，Logistic回归有二元Logistic回归和多元Logistic回归，对于多元Logistic回归常见的有one-vs-rest(OvR)和many-vs-many(MvM)两种，这其中MvM一般比OvR分类相对准确一些。但郁闷的是liblinear只支持OvR，不支持MvM，这样如果我们需要相对精确的多元Logistic回归时，就不能选择liblinear了。也意味着如果我们需要相对精确的多元Logistic回归不能使用L1正则化了。

3). 分类方式选择参数：multi_class

multi_class参数决定了我们分类方式的选择，有ovr和multinomial两个值可以选择，默认是 ovr。

ovr即前面提到的one-vs-rest(OvR)，而multinomial即前面提到的many-vs-many(MvM)。如果是二元Logistic回归，ovr和multinomial并没有任何区别，区别主要在多元Logistic回归上。

OvR的思想很简单，无论你是多少元Logistic回归，我们都可以看做二元逻辑回归。具体做法是，对于第K类的分类决策，我们把所有第K类的样本作为正例，除了第K类样本以外的所有样本都作为负例，然后在上面做二元Logistic回归，得到第K类的分类模型。其它类的分类模型的获得以此类推。

而MvM则相对复杂，这里举MvM的特例one-vs-one(OvO)作讲解。如果模型有T类，我们每次在所有的T类样本里面选择两类样本出来，不妨记为T1类和T2类，把所有的输出为T1和T2的样本放在一起，把T1作为正例，T2作为负例，进行二元Logistic回归，得到模型参数。我们一共需要T(T-1)/2次分类。

从上面的描述可以看出OvR相对简单，但分类效果相对略差（这里指大多数样本的分布情况，某些样本分布下OvR可能更好）。而MvM分类相对精确，但是分类速度没有OvR快。

如果选择了ovr，则4种损失函数的优化方法{‘newton-cg’，’lbfgs’，’liblinear’，’sag’}都可以选择。但是如果选择了multinomial，则只能选择{‘newton-cg’，’lbfgs’，’sag’}这三种了。

4). 类型权重参数：class_weight

class_weight参数表示分类模型中各种类型的权重，可以不输入，即不考虑权重，或者说所有类型的权重一样。如果选择输入的话，可以选择balanced让类库自己计算类型权重，或者我们自己输入各个类型的权重，比如对于0，1的二元模型，我们可以定义class_weight={0:0.9, 1:0.1}，这样类型0的权重为90%，而类型1的权重为10%。

如果class_weight选择balanced，那么类库会根据训练样本量来计算权重。某种类型样本量越多，则权重越低，样本量越少，则权重越高。

那么class_weight有什么作用呢？在分类模型中，我们经常会遇到两类问题：

第一种是误分类的代价很高。比如对合法用户和非法用户进行分类，将非法用户分类为合法用户的代价很高，我们宁愿将合法用户分类为非法用户，这时可以人工再甄别，但是却不愿将非法用户分类为合法用户。这时，我们可以适当提高非法用户的权重。

第二种是样本是高度失衡的，比如我们有合法用户和非法用户的二元样本数据10000条，里面合法用户有9995条，非法用户只有5条，如果我们不考虑权重，则我们可以将所有的测试集都预测为合法用户，这样预测准确率理论上有99.95%，但是却没有任何意义。这时，我们可以选择balanced，让类库自动提高非法用户样本的权重。

提高了某种分类的权重，相比不考虑权重，会有更多的样本分类划分到高权重的类别，从而可以解决上面两类问题。

当然，对于第二种样本失衡的情况，我们还可以考虑用下面讲到的样本权重参数： sample_weight，而不是使用class_weight。

5). 样本权重参数：sample_weight

上面我们提到了样本失衡的问题，由于样本不平衡，导致样本不是总体样本的无偏估计，从而可能导致我们的模型预测能力下降。遇到这种情况，我们可以通过调节样本权重来尝试解决这个问题。调节样本权重的方法有两种，第一种是在class_weight中使用balanced。第二种是在调用fit函数时，通过sample_weight来自己调节每个样本权重。

在scikit-learn做Logistic回归时，如果上面两种方法都用到了，那么样本的真正权重是class_weight*sample_weight。

以上就是scikit-learn中Logistic回归类库调参的一个小结，还有些参数比如正则化参数C（交叉验证就是 Cs），迭代次数max_iter等，由于和其它的算法类库并没有本质上的不同，这里就不再赘述了。

3. 使用Mnist数据集测试scikit-learn的Logistic回归算法类库

代码如下所示：

—————————————————————————————————

from time import time

from sklearn.linear_model import LogisticRegression, LogisticRegressionCV

from sklearn import metrics

import numpy as np

import mnist

import roc

if __name__ == “__main__”:

# 读取Mnist数据集

mnistSet = mnist.loadLecunMnistSet()

train_X, train_Y, test_X, test_Y = mnistSet[0], mnistSet[1], mnistSet[2], mnistSet[3]

t = time()

model = LogisticRegression(C=0.000001, solver=’lbfgs’, multi_class=’multinomial’)

model.fit(train_X, train_Y)

train_Y_hat = model.predict(train_X)

print ‘训练集精确度: ‘, metrics.accuracy_score(train_Y, train_Y_hat)

test_Y_hat = model.predict(test_X)

print ‘测试集精确度: ‘, metrics.accuracy_score(test_Y, test_Y_hat)

# # 数据集总样本数

# m, n = np.shape(train_X)

# # 分批训练数据时每次拟合的样本数

# num = 10000

# idx = range(m)

# model = LogisticRegressionCV(Cs=np.logspace(-7, -3, 5), cv=5, solver=’lbfgs’, multi_class=’multinomial’)

# for i in range(int(np.ceil(1.0*m/num))):

# minEnd = min((i+1)*num, m)

# sub_idx = idx[i*num:minEnd]

# model.fit(train_X[sub_idx], train_Y[sub_idx])

# print ‘最优参数: ‘, model.C_

print “总耗时:”, time() - t, “秒”

# 绘制ROC曲线

n_class = len(np.unique(train_Y))

roc.drawROC(n_class, test_Y, test_Y_hat)

—————————————————————————————————

输出结果为：

—————————————————————————————————

训练集精确度: 0.928383333333

测试集精确度: 0.9251

总耗时: 54.7760000229 秒

Micro AUC: 0.958388888889

Micro AUC(System): 0.958388888889

Macro AUC: 0.957818001737

—————————————————————————————————

1. scikit-learn的Logistic回归算法类库概述在scikit-learn中，与Logistic回归有关的类主要有3个，分别是LogisticRegression， LogisticRegressionCV 和logistic_regression_path，其中LogisticRegression和LogisticRegressionCV的主要区别是LogisticRegressionCV使用了交叉验证来选择正则化系数C，而LogisticRegression需要自己每次指定一个正则化系数。除了交叉验证，以及选择正则化系数C以外， LogisticRegression和LogisticRegressionCV的使用方法基本相同。logistic_regression_path类则比较特殊，它拟合数据后，不能直接来做预测，只能为拟合数据选择合适逻辑回归的系数和正则化系数。主要是用在模型选择的时候，一般情况用不到这个类，所以后面不再讲述logistic_regression_path类。此外，scikit-learn里面有个容易让人误解的类RandomizedLogisticRegression，虽然名字里有LogisticRegression，但它主要是用L1正则化的逻辑回归来做特征选择的，属于维度规约的算法类，不属于我们常说的分类算法的范畴。后面的讲解主要围绕LogisticRegression和LogisticRegressionCV中的重要参数的选择来展开，这些参数的意义在这两个类中都是一样的。2. LogisticRegression和LogisticRegressionCV重要参数调参的注意点1). 正则化选择参数：penaltyLogisticRegression和LogisticRegressionCV默认就带了正则化项。penalty参数可选择的值为”l1”和”l2”，分别对应了L1正则化和L2正则化，默认是L2正则化。在调参时如果我们主要的目的只是为了解决过拟合，一般penalty选择L2正则化就够了。但是如果选择L2正则化发现还是过拟合，即预测效果差的时候，就可以考虑L1正则化了。另外，如果模型的特征非常多，我们希望一些不重要的特征系数归零，从而让模型系数稀疏化的话，也可以使用L1正则化。penalty参数的选择会影响我们损失函数优化算法的选择，即参数solver的选择，如果是L2正则化，那么4种可选的算法{‘newton-cg’，’lbfgs’，’liblinear’，’sag’}都可以选择，但是如果penalty是L1正则化的话，就只能选择{‘liblinear’}了。这是因为L1正则化的损失函数不是连续可导的，而{‘newton-cg’，’lbfgs’，’sag’}这三种优化算法都需要损失函数的一阶或者二阶连续导数，而{‘liblinear’}并没有这个依赖。 2). 优化算法选择参数：solversolver参数决定了我们对Logistic回归损失函数的优化算法，有4种算法可以选择，分别是：    a). liblinear：使用了开源的liblinear库实现，内部使用了坐标轴下降法来迭代优化损失函数；    b). lbfgs：拟牛顿法的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数；    c). newton-cg：也是牛顿法家族中的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数；    d). sag：随机平均梯度下降，是梯度下降法的变种，和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度，适合于样本数据多的时候。从上面的描述可以看出，newton-cg，lbfgs和sag这三种优化算法时都需要损失函数的一阶或者二阶连续导数，因此不能用于没有连续导数的L1正则化，只能用于L2正则化。而liblinear通吃L1正则化和L2正则化。同时，sag每次仅仅使用了部分样本进行梯度迭代，所以当样本量少的时候不要选择它，而如果样本量非常大，比如大于10万，sag是第一选择。但是sag不能用于L1正则化，所以当你有大量的样本，又需要L1正则化的话就要自己做取舍了，要么减少样本量，要么回到L2正则化。从上面的描述，大家可能觉得，既然newton-cg，lbfgs和sag这么多限制，如果不是大样本，我们选择liblinear不就行了嘛？错！因为liblinear也有自己的弱点。我们知道，Logistic回归有二元Logistic回归和多元Logistic回归，对于多元Logistic回归常见的有one-vs-rest(OvR)和many-vs-many(MvM)两种，这其中MvM一般比OvR分类相对准确一些。但郁闷的是liblinear只支持OvR，不支持MvM，这样如果我们需要相对精确的多元Logistic回归时，就不能选择liblinear了。也意味着如果我们需要相对精确的多元Logistic回归不能使用L1正则化了。3). 分类方式选择参数：multi_classmulti_class参数决定了我们分类方式的选择，有ovr和multinomial两个值可以选择，默认是 ovr。ovr即前面提到的one-vs-rest(OvR)，而multinomial即前面提到的many-vs-many(MvM)。如果是二元Logistic回归，ovr和multinomial并没有任何区别，区别主要在多元Logistic回归上。OvR的思想很简单，无论你是多少元Logistic回归，我们都可以看做二元逻辑回归。具体做法是，对于第K类的分类决策，我们把所有第K类的样本作为正例，除了第K类样本以外的所有样本都作为负例，然后在上面做二元Logistic回归，得到第K类的分类模型。其它类的分类模型的获得以此类推。而MvM则相对复杂，这里举MvM的特例one-vs-one(OvO)作讲解。如果模型有T类，我们每次在所有的T类样本里面选择两类样本出来，不妨记为T1类和T2类，把所有的输出为T1和T2的样本放在一起，把T1作为正例，T2作为负例，进行二元Logistic回归，得到模型参数。我们一共需要T(T-1)/2次分类。从上面的描述可以看出OvR相对简单，但分类效果相对略差（这里指大多数样本的分布情况，某些样本分布下OvR可能更好）。而MvM分类相对精确，但是分类速度没有OvR快。如果选择了ovr，则4种损失函数的优化方法{‘newton-cg’，’lbfgs’，’liblinear’，’sag’}都可以选择。但是如果选择了multinomial，则只能选择{‘newton-cg’，’lbfgs’，’sag’}这三种了。 4). 类型权重参数：class_weightclass_weight参数表示分类模型中各种类型的权重，可以不输入，即不考虑权重，或者说所有类型的权重一样。如果选择输入的话，可以选择balanced让类库自己计算类型权重，或者我们自己输入各个类型的权重，比如对于0，1的二元模型，我们可以定义class_weight={0:0.9, 1:0.1}，这样类型0的权重为90%，而类型1的权重为10%。如果class_weight选择balanced，那么类库会根据训练样本量来计算权重。某种类型样本量越多，则权重越低，样本量越少，则权重越高。那么class_weight有什么作用呢？在分类模型中，我们经常会遇到两类问题：第一种是误分类的代价很高。比如对合法用户和非法用户进行分类，将非法用户分类为合法用户的代价很高，我们宁愿将合法用户分类为非法用户，这时可以人工再甄别，但是却不愿将非法用户分类为合法用户。这时，我们可以适当提高非法用户的权重。第二种是样本是高度失衡的，比如我们有合法用户和非法用户的二元样本数据10000条，里面合法用户有9995条，非法用户只有5条，如果我们不考虑权重，则我们可以将所有的测试集都预测为合法用户，这样预测准确率理论上有99.95%，但是却没有任何意义。这时，我们可以选择balanced，让类库自动提高非法用户样本的权重。提高了某种分类的权重，相比不考虑权重，会有更多的样本分类划分到高权重的类别，从而可以解决上面两类问题。当然，对于第二种样本失衡的情况，我们还可以考虑用下面讲到的样本权重参数： sample_weight，而不是使用class_weight。 5). 样本权重参数：sample_weight上面我们提到了样本失衡的问题，由于样本不平衡，导致样本不是总体样本的无偏估计，从而可能导致我们的模型预测能力下降。遇到这种情况，我们可以通过调节样本权重来尝试解决这个问题。调节样本权重的方法有两种，第一种是在class_weight中使用balanced。第二种是在调用fit函数时，通过sample_weight来自己调节每个样本权重。在scikit-learn做Logistic回归时，如果上面两种方法都用到了，那么样本的真正权重是class_weight*sample_weight。以上就是scikit-learn中Logistic回归类库调参的一个小结，还有些参数比如正则化参数C（交叉验证就是 Cs），迭代次数max_iter等，由于和其它的算法类库并没有本质上的不同，这里就不再赘述了。 3. 使用Mnist数据集测试scikit-learn的Logistic回归算法类库代码如下所示：—————————————————————————————————from time import timefrom sklearn.linear_model import LogisticRegression, LogisticRegressionCVfrom sklearn import metricsimport numpy as npimport mnistimport roc if __name__ == “__main__”:    # 读取Mnist数据集    mnistSet = mnist.loadLecunMnistSet()    train_X, train_Y, test_X, test_Y = mnistSet[0], mnistSet[1], mnistSet[2], mnistSet[3]     t = time()     model = LogisticRegression(C=0.000001, solver=’lbfgs’, multi_class=’multinomial’)    model.fit(train_X, train_Y)    train_Y_hat = model.predict(train_X)    print ‘训练集精确度: ‘, metrics.accuracy_score(train_Y, train_Y_hat)    test_Y_hat = model.predict(test_X)    print ‘测试集精确度: ‘, metrics.accuracy_score(test_Y, test_Y_hat)     # # 数据集总样本数    # m, n = np.shape(train_X)    # # 分批训练数据时每次拟合的样本数    # num = 10000    # idx = range(m)    # model = LogisticRegressionCV(Cs=np.logspace(-7, -3, 5), cv=5, solver=’lbfgs’, multi_class=’multinomial’)    # for i in range(int(np.ceil(1.0*m/num))):    #     minEnd = min((i+1)*num, m)    #     sub_idx = idx[i*num:minEnd]    #     model.fit(train_X[sub_idx], train_Y[sub_idx])    #     print ‘最优参数: ‘, model.C_     print “总耗时:”, time() - t, “秒”     # 绘制ROC曲线    n_class = len(np.unique(train_Y))    roc.drawROC(n_class, test_Y, test_Y_hat)—————————————————————————————————输出结果为：—————————————————————————————————训练集精确度:  0.928383333333测试集精确度:  0.9251总耗时: 54.7760000229 秒Micro AUC: 0.958388888889Micro AUC(System): 0.958388888889Macro AUC: 0.957818001737—————————————————————————————————