preprocessing数据预处理-JobPlus

一、标准化（Z-Score），或者去除均值和方差缩放

公式为：(X-mean)/std 计算时对每个属性/每列分别进行。

将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。

实现时，有两种不同的方式：

使用sklearn.preprocessing.scale()函数，可以直接将给定数据进行标准化。

使用sklearn.preprocessing.StandardScaler类，使用该类的好处在于可以保存训练集中的参数（均值、方差）直接使用其对象转换测试集数据。

二、将属性缩放到一个指定范围

除了上述介绍的方法之外，另一种常用的方法是将属性缩放到一个指定的最大和最小值（通常是1-0）之间，这可以通过preprocessing.MinMaxScaler类实现。

使用这种方法的目的包括：

1、对于方差非常小的属性可以增强其稳定性。

2、维持稀疏矩阵中为0的条目。当然，在构造类对象的时候也可以直接指定最大最小值的范围：feature_range=(min, max)，此时应用的公式变为：

X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))

X_scaled=X_std/(max-min)+min

三、正则化（Normalization）

正则化的过程是将每个样本缩放到单位范数（每个样本的范数为1），如果后面要使用如二次型（点积）或者其它核方法计算两个样本之间的相似性这个方法会很有用。

Normalization主要思想是对每个样本计算其p-范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的p-范数（l1-norm,l2-norm）等于1。

p-范数的计算公式：||X||p=(|x1|^p+|x2|^p+...+|xn|^p)^1/p

该方法主要应用于文本分类和聚类中。例如，对于两个TF-IDF向量的l2-norm进行点积，就可以得到这两个向量的余弦相似性。

1、可以使用preprocessing.normalize()函数对指定数据进行转换：

2、可以使用processing.Normalizer()类实现对训练集和测试集的拟合和转换：

3.Binarization

　　feature binarization是将数值型的特征值转换为布尔值，可以用于概率估计。

>>> binarizer = preprocessing.Binarizer().fit(X)
>>> binarizer
Binarizer(copy=True, threshold=0.0)
>>> binarizer.transform(X)
array([[ 1., 0., 1.],
[ 1., 0., 0.],

[ 0., 1., 0.]])

4.Encoding categorical features

　　类别型特征用整数值进行编码，OneHotEncoder将m种值转换为m个二元位，其中只有一位是活跃的。

1 >>> enc = preprocessing.OneHotEncoder()

2 >>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])

3 OneHotEncoder(categorical_features='all', dtype=<type 'float'>,

4 n_values='auto', sparse=True)

5 >>> enc.transform([[0, 1, 3]]).toarray()

6 array([[ 1., 0., 0., 1., 0., 0., 0., 0., 1.]]) # from letf to right,the first '1,0' represent 0默认情况下，每个特征有几种值是由数据集确定的。可以通过n_values参数对其进行显性指定。

补充：

<h2>一、标准化（Z-Score），或者去除均值和方差缩放</h2>公式为：(X-mean)/std  计算时对每个属性/每列分别进行。将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。实现时，有两种不同的方式：<ul><li>使用sklearn.preprocessing.scale()函数，可以直接将给定数据进行标准化。</li></ul><ul><li><img src="https://file.jobplus.com.cn/2018/05/09/acb0cbc7cbc147eeadfee396243e0101.png" _src="https://file.jobplus.com.cn/2018/05/09/acb0cbc7cbc147eeadfee396243e0101.png"/>使用sklearn.preprocessing.StandardScaler类，使用该类的好处在于可以保存训练集中的参数（均值、方差）直接使用其对象转换测试集数据。</li><li><img src="https://file.jobplus.com.cn/2018/05/09/006b20476bc04f329c2fb5f5ba18e3b2.png" _src="https://file.jobplus.com.cn/2018/05/09/006b20476bc04f329c2fb5f5ba18e3b2.png"/></li></ul><h2>二、将属性缩放到一个指定范围</h2>除了上述介绍的方法之外，另一种常用的方法是将属性缩放到一个指定的最大和最小值（通常是1-0）之间，这可以通过preprocessing.MinMaxScaler类实现。使用这种方法的目的包括：1、对于方差非常小的属性可以增强其稳定性。2、维持稀疏矩阵中为0的条目。当然，在构造类对象的时候也可以直接指定最大最小值的范围：feature_range=(min, max)，此时应用的公式变为：<img src="https://file.jobplus.com.cn/2018/05/09/8938a1c1a09a4756bbd8b774dba05e46.png" _src="https://file.jobplus.com.cn/2018/05/09/8938a1c1a09a4756bbd8b774dba05e46.png"/>X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))X_scaled=X_std/(max-min)+min<h2>三、正则化（Normalization）</h2>正则化的过程是将每个样本缩放到单位范数（每个样本的范数为1），如果后面要使用如二次型（点积）或者其它核方法计算两个样本之间的相似性这个方法会很有用。Normalization主要思想是对每个样本计算其p-范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的p-范数（l1-norm,l2-norm）等于1。             p-范数的计算公式：||X||p=(|x1|^p+|x2|^p+...+|xn|^p)^1/p该方法主要应用于文本分类和聚类中。例如，对于两个TF-IDF向量的l2-norm进行点积，就可以得到这两个向量的余弦相似性。1、可以使用preprocessing.normalize()函数对指定数据进行转换：<img src="https://file.jobplus.com.cn/2018/05/09/cfb232afc90f457eb04faf0458c761ab.png" _src="https://file.jobplus.com.cn/2018/05/09/cfb232afc90f457eb04faf0458c761ab.png"/>2、可以使用processing.Normalizer()类实现对训练集和测试集的拟合和转换：<img src="https://file.jobplus.com.cn/2018/05/09/c48b9ccb764c4af990cc2d00c6406206.png" _src="https://file.jobplus.com.cn/2018/05/09/c48b9ccb764c4af990cc2d00c6406206.png"/>3.Binarization　　feature binarization是将数值型的特征值转换为布尔值，可以用于概率估计。>>> binarizer = preprocessing.Binarizer().fit(X) >>> binarizer Binarizer(copy=True, threshold=0.0) >>> binarizer.transform(X) array([[ 1.,  0.,  1.],        [ 1.,  0.,  0.],        [ 0.,  1.,  0.]]) 4.Encoding categorical features　　类别型特征用整数值进行编码，OneHotEncoder将m种值转换为m个二元位，其中只有一位是活跃的。<img src="https://images.cnblogs.com/OutliningIndicators/ExpandedBlockStart.gif" style="max-width:98%"/>1 >>> enc = preprocessing.OneHotEncoder()2 >>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])3 OneHotEncoder(categorical_features='all', dtype=<type 'float'>,4        n_values='auto', sparse=True)5 >>> enc.transform([[0, 1, 3]]).toarray()6 array([[ 1.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  1.]])  # from letf to right,the first '1,0' represent 0默认情况下，每个特征有几种值是由数据集确定的。可以通过n_values参数对其进行显性指定。补充：<img src="https://images0.cnblogs.com/blog/407700/201412/091414004623860.png" style="max-width:98%"/><img src="https://file.jobplus.com.cn/2018/05/09/e317346271a34ae5b9fe3f553fc4e5dc.png" _src="https://file.jobplus.com.cn/2018/05/09/e317346271a34ae5b9fe3f553fc4e5dc.png"/>