3.3.1 常用接口_机器学习：软件工程方法与实现-QQ阅读男生中文轻小说网

书名：机器学习：软件工程方法与实现
作者名：张春强张和平唐振
本章字数：651字
更新时间：2025-03-31 09:29:27

3.3.1　常用接口

常用的接口包含以下几类。

1）用于分类和聚类的接口：这些接口生成的样本特征向量矩阵以及对应的类别标签，根据样本所属的类别可以分为单标签和多标签。生成单标签分类和聚类数据的函数简介如表3-7所示。

表3-7　生成单标签分类和聚类数据的接口函数

2）用于多标签分类的接口：make_multilabel_classification生成多类多标签数据集，生成的数据集模拟了从很多话题的混合分布中抽取词袋模型，每个文档的话题数量符合泊松分布。话题本身从一个固定的随机分布中抽取出来，同样，单词数量也是泊松分布抽取，句子则是从多项式抽取。

3）用于双聚类的接口函数：make_biclusters生成具有恒定块对角线结构的数据；make_checkerboard生成具有用于双聚类的块棋盘结构的数据。

4）用于回归类型的接口函数：接口函数简介如表3-8所示。

表3-8　生成回归数据的接口函数

5）用于流行学习的接口函数：流形学习，全称流形学习方法（Manifold Learning），于2000年在《Science》中被首次提出，现已成为信息科学领域的研究热点。在理论和应用上，流形学习方法都具有重要的研究意义。假设数据是均匀采样于一个高维欧氏空间中的低维流形，流形学习就是从高维采样数据中恢复低维流形结构，即找到高维空间中的低维流形，并求出相应的嵌入映射，以实现维数约简或者数据可视化。从观测到的现象中去寻找事物的本质，进而找到产生数据的内在规律。生成流形学习数据的接口函数简介如表3-9所示。

表3-9　生成流行学习数据的接口函数

6）用于可降维的接口函数：生成可降维数据的接口函数简介如表3-10所示。

表3-10　生成可降维数据的接口函数

下面对scikit-learn dataset模块生成数据的常用接口做进一步介绍。更多详细介绍请参考官方文档^[1]。

[1] https://scikit-learn.org/stable/datasets/