开发者社区> 知与谁同> 正文

《中国人工智能学会通讯》——12.48 混合型数据聚类算法

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.48节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
+关注继续查看
福利推荐:阿里云、腾讯云、华为云等大品牌云产品全线2折优惠活动来袭,4核8G云服务器899元/3年,新老用户共享优惠,点击这里立即抢购>>>

12.48 混合型数据聚类算法

混合型数据在本文是指分类型数据和数值型数据并存的一类数据,由于两类数据描述的差异性,使得混合型数据聚类算法中类个数的确定变得越来越困难。针对分类型数据,Chen et al [36] 利用熵的性质提出了一个针对分类型数据确定聚类个数的层次聚类方法。该方法根据增量熵的变化来指导凝聚层次聚类过程,根据每层对应划分的期望熵的二次导数随类个数的变化曲线来估计候选的最佳聚类个数。Yan et al [37] 提出了一个专门针对事务数据的聚类个数确定方法。该方法给出了基于事务数据覆盖密度的类间 modes 的不相似度定义,提出了一种凝聚类型的层次聚类算法,通过比较分析类间不相似度指标(Merging Dissimilarity Index)来确定候选的最佳聚类个数。针对数值型数据,Leung et al [38]从人类对于结构感知方式的重要性这一观点出发,提出了一种基于初级视觉系统尺度空间理论的聚类个数确定算法。该方法用尺度空间理论进行描述,尺度大小的不同对应着不同的聚类结构,根据每一聚类结果的存活区间的大小来确定聚类个数。

Sunet al [39] 基于模糊 k-means 算法提出了一个聚类个数自动确定方法。该方法是在给定的数据集上,通过使用不同的参数(聚类个数)来运行模糊 k-means聚类算法对数据集进行不同的划分并计算每次划分的聚类有效性指标,最后通过比较分析各个指标的大小来确定最佳的聚类数。Wang et al [40] 提出了一个近似无参数的自动估计聚类个数的方法。该方法首先通过输入的不相似度矩阵生成一幅VAT (VisualAssessment of Cluster Tendency)图像;然后对该图像进行图像分割得到二值灰度图像;进而把二值图像投影到主对角线上并进行平滑处理;最后计算一阶导数,通过观察变化曲线的顶点和波谷来确定类个数。混合型数据由于同时具有数值型属性和分类型属性,聚类个数的确定变得更为困难。Liang et al [41]利用信息熵能很好地反应类的抱团性和分离性这一优点,对以上问题进行了研究,分别利用 Renyi 熵和互补熵来刻画数值型数据和分类型数据的类内、类间信息,并将其融合,在此基础上定义了一种混合型数据的相异性度量,用于识别算法在每一次迭代过程中的最差类。通过扩展分类效用函数,给出了一种混合型数据聚类结果的有效性评价指标,进而设计了一个混合型数据聚类个数确定算法。实验结果表明,提出的算法不仅能够准确地找到聚类个数,而且同时能够获得较优的聚类结果。为了解决混合型数据聚类中不同特征对聚类结果的影响,更加准确客观地度量对象与类之间的差异性,赵兴旺等[42] 定义了一种针对混合型数据的扩展欧氏距离,基于类内信息熵和类间信息熵给出了聚类过程中不同特征重要性的度量,提出了一种混合型数据属性加权聚类算法。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
184 0
2019年上半年收集到的中国人工智能发展详情文章
2019年上半年收集到的中国人工智能发展详情文章
73 0
中国人工智能计划,我来说几句
中国人工智能计划,我来说几句
67 0
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元
人工智能产业是智能产业发展的核心,是其他智能科技产品发展的基础,近年来,中国人工智能产业在政策与技术双重驱动下呈现高速增长态势。
849 0
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
93 0
中国95后流行色是什么?人工智能给出的答案是它
中国 95 后的流行色是什么?人工智能说是 RGB 值为 22/20/24 的「黑色」。
129 0
机器之心选出全球最值得关注的100家人工智能公司(中国27家),同时这是一个开源项目
机器之心和 Comet Labs 联合发布了影响全球人工智能公司的榜单。我们选取了基础研究、技术和产品、行业潜力、公司运营能力、资本实力等五个维度,甄选出了全球范围内最具前途的 100 家人工智能公司,它们包括那些我们已经熟知的科技巨头,垂直行业独角兽,也有尚在萌芽的初创公司。 当然,这份榜单肯定没有做到尽善尽美,也存在 100 家的名额限制,但我们坚信,这份基于我们诚意、内容经验和专业判断的不存在任何商业利益的榜单可以为大家总结和精炼出一些有价值的信息,带给大家灵感和启发。
177 0
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
74 0
?《2020科技趋势报告》重磅发布:人工智能重塑业务形态,中国创造了新的世界秩序
?《2020科技趋势报告》重磅发布:人工智能重塑业务形态,中国创造了新的世界秩序
85 0
+关注
文章
问答
文章排行榜
最热
最新
相关电子书
更多
视觉AI能力的开放现状及ModelScope实战
立即下载
通用多模态AI构建
立即下载
阿里云AI产品必知必会系列电子书
立即下载


http://www.vxiaotou.com