即将开始加载,剩余 1 秒...
剧情介绍
聚类算法
在无监督学习中,训练样本的标记信息是未知的。我们需要通过对无标记样本的学习来揭示数据的内在性质与规律。聚类算法简单而言就是物以类聚,人以群分。
比如我们看电视剧时,不知道正方和反方,但我们很简单就能看出,那两群人,而不是一群人。一群人中表现出比如博爱、正义、舍己为人等等,另一群表现出邪恶、贪婪、自私等等。每一类人表现出相同的品性,而非我族类其心必诛。这是假设有个伪君子,那这就是干扰因素了,但细分到最后,我们总能把他正确归类,这就需要强大的学习能力了。久经江湖的人,一眼就能看出。菜鸟则需要上当受骗之后或者他表现出不好的品质,才知道他与我不同。
学习之后,我们希望最后的结果就是自己人要团结,不是自己人要离得远一点。簇内相似度高,簇间相似度低。聚类的性能度量一般有两种:将聚类结果和某个参考模型比较,称为外部指标;另一类时直接考察聚类的结果,称为内部指标。
外部指标,数据集d={x1,x2,x3,,,xm},聚类结果给出的簇划分c={c1,c2,c3,,,ck},参考模型给出的簇划分c*={c1*,c2*,c3*,,,cs*}.记a="既属于聚类划分的,又属于参考模型的样本",b="属于聚类的,不属于参考模型的",c="不属于聚类的,属于参考模型的",d="既不属于聚类的,又不属于参考模型的"。一些衡量外部指标的有
jc=a/(a+b+c),fmi=sqrt(a/(a+b))*sqrt(a/(a+c)),ri=(a+d)/(a+b+c+d)。
上述的性能度量的值都在【0,1】范围内,值越大表明聚类结果越好。k均值算法此类中比较常用的原型聚类算法。
猜你喜欢
影片评论
评论加载中...