3.3.2 分类模型随机数据生成

make_classification函数的主要参数如下所示。

·n_samples:样本数量,默认值100。

·n_features:特征个数=n_informative+n_redundant+n_repeated,默认值20。

·n_informative:信息特征的个数,默认值2。

·n_redundant:冗余信息,informative特征的随机线性组合,默认值2。

·n_repeated:重复信息,随机提取n_informative和n_redundant特征,默认值0。

·n_classes:分类类别,默认值2。

·n_clusters_per_class:某一个类别是由几个cluster构成的,默认值2。

·weights:分类类别的样本比例,默认值是None,代表均衡比例。

·shuffle:随机打乱样本,默认值True。

·random_state:随机数种子,默认值是None,不配置该参数每次生成的数据都是随机的。

使用make_classification在Jupyter Notebook环境生成分类模型随机数据代码案例如下:


import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification

# X为样本特征,Y为样本类别输出,共1000个样本,每个样本5个特征,输出有2个类别,没有冗余特征,每个类别一个簇
X, Y = make_classification(n_samples=1000, n_features=5, n_redundant=0,n_informative =1,n_clusters_per_class=1, n_classes=2,random_state =20)
plt.scatter(X[:, 0],X[:, 1], marker='o' ,c=Y)
plt.show()

输出如图3-3所示。

图3-3 分类模型随机数据散点图