开发者社区> 知与谁同> 正文

《中国人工智能学会通讯》——12.47 分类型数据聚类有效性

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.47节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
+关注继续查看
福利推荐:阿里云、腾讯云、华为云等大品牌云产品全线2折优惠活动来袭,4核8G云服务器899元/3年,新老用户共享优惠,点击这里立即抢购>>>

12.47 分类型数据聚类有效性

聚类结果的有效性评价是聚类分析中的一个重要组成部分。不同聚类算法或同一算法不同参数设置往往在聚类同一数据时会产生不同的结果。因此,人们需要聚类有效性函数去评价聚类结果,并从众多聚类结果中寻找最适合于数据的一种划分。对于分类型数据而言,k-modes 优化目标函数[31] 、分类效用函数[32]和信息熵函数[12]是三个广泛使用的有效性评价函数。k-modes 优化目标函数是由 Huang在 1997 年提出,该目标函数是对 k-means 优化目标函数的扩展。通过使用“mode”代替“mean”,用简单匹配相异测度代替欧式距离。该目标函数能够最小化类内对象与类中心的距离和。基于目标函数,Huang 提出了 k-modes 聚类算法通过迭代优化方法求得该目标函数的局部最优解。此外,若干个改进 k-modes 聚类算法也被提出[33] 。分类效用函数是 Gluck 和 Corter 提出的[33] ,该函数试图最大化同类对象拥有相同特征和异类对象拥有不同特征的概率。COBWEB 增量算法[7]就是一种典型的以分类效用函数为目标函数的聚类算法,该算法试图通过最大化分类效用函数得到一个最优的聚类结果。

Mirkin [34] 采用分类效用函数去处理混合数据的聚类。信息熵函数是将信息理论应用到聚类评价中,用信息熵去度量类内属性值分布的差异性。以信息熵为聚类目标函数的聚类算法有 COOLCAT 算法[12]和 ACE 算法[14]等。这些算法试图通过最小化信息熵函数来获得一个最优的聚类结果。以上三种不同优化目标函数都从不同角度对聚类结果进行评价。如果将这三个评价函数去评价同一个聚类结果时,需要解决下面 3 个问题:① 三个目标函数有怎样的共性和差异性?② 类间信息是否被忽略?③ 以三个目标函数其中之一为聚类准则,如何确定该准则在一个给定数据集上的取值范围?针对上述问题 , Bai et al [35] 从解空间(优化)角度,构建了一个广义的有效性函数及其优化模型,理论分析发现在评价聚类结果时,分类效用函数等效于信息熵函数,k-modes 目标函数的最优解是分类效用函数的近似解,最小化广义有效性函数等于最大化某一类间分离函数。这表明使用这些类内信息评价聚类结果时,并不会忽略类间信息。对于一个给定的数据集,通过放宽某些变量的约束条件,将这些有效性函数最大化和最小化优化问题转化为凸规划问题,获得其上下界,进而实现函数的归一化。该研究成果为解决分类型数据聚类准则的选择,以及聚类算法的互学习对聚类有效性的影响等问题提供了理论基础。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
184 0
2019年上半年收集到的中国人工智能发展详情文章
2019年上半年收集到的中国人工智能发展详情文章
73 0
中国人工智能计划,我来说几句
中国人工智能计划,我来说几句
67 0
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元
人工智能产业是智能产业发展的核心,是其他智能科技产品发展的基础,近年来,中国人工智能产业在政策与技术双重驱动下呈现高速增长态势。
849 0
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
93 0
中国95后流行色是什么?人工智能给出的答案是它
中国 95 后的流行色是什么?人工智能说是 RGB 值为 22/20/24 的「黑色」。
129 0
机器之心选出全球最值得关注的100家人工智能公司(中国27家),同时这是一个开源项目
机器之心和 Comet Labs 联合发布了影响全球人工智能公司的榜单。我们选取了基础研究、技术和产品、行业潜力、公司运营能力、资本实力等五个维度,甄选出了全球范围内最具前途的 100 家人工智能公司,它们包括那些我们已经熟知的科技巨头,垂直行业独角兽,也有尚在萌芽的初创公司。 当然,这份榜单肯定没有做到尽善尽美,也存在 100 家的名额限制,但我们坚信,这份基于我们诚意、内容经验和专业判断的不存在任何商业利益的榜单可以为大家总结和精炼出一些有价值的信息,带给大家灵感和启发。
177 0
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
74 0
?《2020科技趋势报告》重磅发布:人工智能重塑业务形态,中国创造了新的世界秩序
?《2020科技趋势报告》重磅发布:人工智能重塑业务形态,中国创造了新的世界秩序
85 0
+关注
文章
问答
文章排行榜
最热
最新
相关电子书
更多
视觉AI能力的开放现状及ModelScope实战
立即下载
通用多模态AI构建
立即下载
阿里云AI产品必知必会系列电子书
立即下载


http://www.vxiaotou.com