开发者社区> 知与谁同> 正文

《中国人工智能学会通讯》——12.49 结束语

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.49节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
+关注继续查看
福利推荐:阿里云、腾讯云、华为云等大品牌云产品全线2折优惠活动来袭,4核8G云服务器899元/3年,新老用户共享优惠,点击这里立即抢购>>>

12.49 结束语

近年来,分类型数据的聚类分析技术已经获得了长足的发展,在市场营销[43] 、生物信息学 [44-45] 、软件系统分析[46]等领域得到了广泛的应用。分类型数据的聚类算法也成为聚类集成学习的一种有效工具[47] 。而如此广泛的应用又吸引了越来越多的研究者的兴趣[48-49] ,推动了分类型数据聚类的进一步发展。

我们认为,在未来关于分类型数据聚类有如下问题值得进一步研究与思考。

(1) 分类型集值数据聚类算法:通常分类型数据中一个对象在每个分类变量上仅有一个属性值。在实际应用中,一些分类变量常常有多个属性值,称为集值数据。比如一个客户的性别变量是单个属性值,而头衔和地址变量常常有多个属性值。如何设计集值数据聚类的有效算法将是一个非常挑战性的工作。

(2) 大规模分类型数据聚类算法:规模性是分类型数据聚类算法面临的一个重要问题。分类型数据的规模性主要体现在样本规模的海量性和特征规模的高维性两个方面。抽样方法可以作为一种提高大规模数据计算效率的有效策略。如何建立合理的抽样策略能够保持数据的整体特性是大规模数据聚类的一个重要问题。针对分类型数据的高维性,如何进行特征选择与样本聚类的互学习,是一个值得探索的方向。

(3) 分类型数据可视化:分类型数据由于缺乏几何特性,不能像数值型数据直观地在几何空间进行可视化展示。分类型数据的可视化大多数是通过计算对象两两之间的距离,然后变换到二维空间进行展示。由于分类型数据的可视化常常计算的是对象之间的相对距离,因此不同分布的数据有可能出现在同一空间的相同位置,如何在同一空间可视化不同分布的数据仍然是一个值得关注的问题。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
184 0
2019年上半年收集到的中国人工智能发展详情文章
2019年上半年收集到的中国人工智能发展详情文章
73 0
中国人工智能计划,我来说几句
中国人工智能计划,我来说几句
67 0
2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元
人工智能产业是智能产业发展的核心,是其他智能科技产品发展的基础,近年来,中国人工智能产业在政策与技术双重驱动下呈现高速增长态势。
849 0
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
Nat. Biotechnol. | 人工智能药物研发在中国蓬勃发展
93 0
中国95后流行色是什么?人工智能给出的答案是它
中国 95 后的流行色是什么?人工智能说是 RGB 值为 22/20/24 的「黑色」。
129 0
机器之心选出全球最值得关注的100家人工智能公司(中国27家),同时这是一个开源项目
机器之心和 Comet Labs 联合发布了影响全球人工智能公司的榜单。我们选取了基础研究、技术和产品、行业潜力、公司运营能力、资本实力等五个维度,甄选出了全球范围内最具前途的 100 家人工智能公司,它们包括那些我们已经熟知的科技巨头,垂直行业独角兽,也有尚在萌芽的初创公司。 当然,这份榜单肯定没有做到尽善尽美,也存在 100 家的名额限制,但我们坚信,这份基于我们诚意、内容经验和专业判断的不存在任何商业利益的榜单可以为大家总结和精炼出一些有价值的信息,带给大家灵感和启发。
177 0
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
AI 2000人工智能全球最具影响力学者揭晓,中国正在快速追赶美国
74 0
?《2020科技趋势报告》重磅发布:人工智能重塑业务形态,中国创造了新的世界秩序
?《2020科技趋势报告》重磅发布:人工智能重塑业务形态,中国创造了新的世界秩序
85 0
+关注
文章
问答
文章排行榜
最热
最新
相关电子书
更多
视觉AI能力的开放现状及ModelScope实战
立即下载
通用多模态AI构建
立即下载
阿里云AI产品必知必会系列电子书
立即下载


http://www.vxiaotou.com