- 商用机器学习:数据科学实践
- (加)约翰·赫尔
- 1150字
- 2021-04-05 03:42:23
2.5 国家风险
现在我们来考虑一个外国投资者对国家风险的理解问题。我们可以考虑的特征如下:
·GDP增长率(数据来源于国际货币基金组织);
·清廉指数(数据来源于透明国际);
·和平指数(数据来源于经济与和平研究所);
·法律风险指数(数据来源于产权协会)。
对于所有的122个国家和地区的特征数据与分析可参考www2.rotman.utoronto.ca/~hull上的相关内容。表2-2为一部分数据摘录,该表还体现了特征缩放的重要性(参考第2.1节)。GDP增长率为量级小于10%的正负数,清廉指数的取值范围为0(高度腐败)~100(无腐败),和平指数的取值范围为1(非常和平)~5(不和平),法律风险指数的取值范围为0~10(数字越高越有利)。表2-3为表2-2经过Z评分标准化方法进行数据缩放的结果,通过表中数据可以看到澳大利亚的GDP增长率略高于平均数,其清廉指数的标准差为1.71且高于平均数,和平指数的标准差为1.20且低于平均数(但和平指数是好的),法律风险指数的标准差为1.78且高于平均数。
表2-2 国际投资风险评估,国家聚类分析数据表部分数据(完整数据请参考csv文件)
表2-3 表2-2的数据经过Z评分标准化进行缩放
当数据缩放之后,由于当前我们只有4个特征变量,从而可以通过散点图来验证特征之间的相互关系。从图2-4中可以看出清廉指数和法律风险指数存在高相关性(并不意外,在法律系统不健全的国家腐败现象更加普遍)。因此我们需要删除清廉指数,因为它与法律风险指数存在高度重合的特征。在进行上述处理之后,我们将从3个维度来分析数据,这3个维度分别为:GDP增长率、和平指数和法律风险指数。
图2-4 法律风险指数与清廉指数分布散点图(详细数据请参考Excel文件)
图2-5展示了惯性矩是如何随着k值的增大而变化的。如之前解释的,我们可以通过这张图应用肘部法来判断子聚类的数量,即随着k值的数量增加,惯性矩没有明显下降的点。图2-5的肘部点没有图2-3中的那样明显,但是仍然可以看出当k值从1到2,再从2到3变化时,其惯性矩的变化程度大于k值从3到4时的变化程度。
图2-5 国家投资风险评估案例:惯性矩变化趋势图(Python输出结果)
表2-4为通过轮廓法所得出的结果,可以看出当子聚类的个数为3时,其平均轮廓系数最优。因此就目前使用的数据集来说,肘部法和轮廓法所得出的结论一致:最优子聚类的个数为3。[1]
表2-4 国家投资风险评估案例:平均轮廓系数与子聚类的数量趋势图(Python输出结果)
表2-5~表2-7展示了当子聚类个数为3时国家和地区的聚类分布情况,表2-8展示了特征缩放后子聚类的中心。由此我们可以得出部分结论,例如高风险国家和地区在3个特征上都比均值高出1个标准差(和平指数越高表示越危险)。
表2-5 高风险国家和地区(Python输出结果)
表2-6 中等风险国家和地区(Python输出结果)
表2-7 低风险国家和地区(Python输出结果)
表2-8 特征缩放(均值为0,标准差为1)后的子聚类中心(Python输出结果)
[1] 肘部法则和轮廓分析法的结果不一定总是一致。