开发者社区> 知与谁同> 正文

《中国人工智能学会通讯》——12.46 分类型数据流聚类算法

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.46节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
+关注继续查看
福利推荐:阿里云、腾讯云、华为云等大品牌云产品全线2折优惠活动来袭,4核8G云服务器899元/3年,新老用户共享优惠,点击这里立即抢购>>>

12.46 分类型数据流聚类算法

在许多真实的应用中经常产生连续到达的数据,诸如网络流量监控、股票市场、信用卡欺诈检测、网站点击流和超市的客户交易等。由于到达的数据随着时间变化,所以数据的分布也将随着时间发生变化。比如在社会网络分析中,一些人可能逐渐从一个主题转换到另一个主题,而一些人可能很快改变他们的兴趣,利用聚类分析可以发现不同群体在不同时间段行为模式。针对数值型数据,数据流的聚类问题已经做了大量的研究[21-24] 。

针对分类型数据,为挖掘动态Web 站点用户日志的演化,Nasraoui et al [25] 提出了一个 Web 用户挖掘框架,并且能够从一个真实网站的 Web 日志文件中发现用户的使用模式。Chen etal [26] 提出了一个分类型数据流的聚类框架,该框架在不同的滑动窗口下检测漂移的概念,并且基于当前窗口产生聚类结果,通过可视化对不同窗口聚类结果之间的关系进行展示。然而,在这个框架中,需要设置太多的参数增加了在不同应用中的困难。Cao et al [27-29] 基于滑动窗口技术和粗糙集的隶属函数、概念的上下近似,定义了两个概念间的距离,提出了概念漂移检测算法和数据标签算法,设计了可视化算法去观察不同滑动窗口下聚类结果的演化过程,实验结果表明,提出的框架不但能精确地检测到概念漂移 , 而且能提供高质量的聚类结果。此外,用户能通过可视化方法跟踪用户感兴趣类的演化趋势。但以上提及的这些方法仍面临如下两个问题:① 将新到达的数据子集聚类问题看作类标记问题,仅使用对象和类之间的相似性来确定到达对象的类标签。由于缺乏有效性标准和优化策略,无法去调整或优化聚类结果。② 聚类优化函数和漂移概念检测指标之间缺乏关联性,这样可能忽略聚类结果有效性对漂移概念检测的影响。对于新到达的数据子集,当它的聚类结果很差时,漂移概念检测结果可能是不正确的。为了克服这些问题,Bai etal [30] 建立了一个优化模型来解决分类型数据流的聚类问题,该模型充分考虑了类代表的确定性和前后相连时刻聚类结果的连续性。基于该优化模型,获得了一个概念漂移检测指标。理论分析发现,最小化目标函数等同于最小化漂移检测指标的值。通过融合检测指标和优化模型,提出了一种新的方法去捕获分类型数据流上的聚类结构的演变趋势,该方法可以有效地避免聚类有效性对概念漂移检测结果的影响。通过真实数据集,展示了提出的聚类优化算法的有效性。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
容联CTO许志强:AI、5G让通讯更智能、更高效
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/82784122 ...
1597 0
【特朗普悍然给中国高科技加税】中国通讯、半导体等遭精准打压,美国用AI算出1300项加税商品
美国贸易代表办公室(USTR)昨天公布了拟加征关税的中国商品清单,这些商品多达1300种商品,计划加征25%的关税,其中,包含大量的半导体产业商品。值得注意的是,在精准打击中国制造2025的路上,美国使用了计算机算法挑选出这1300中商品。
1836 0
《中国人工智能学会通讯》——12.49 结束语
本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.49节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
1062 0
《中国人工智能学会通讯》——6.11 链接数据技术
本节书摘来自CCAI《中国人工智能学会通讯》一书中的第6章,第6.11节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
1216 0
《中国人工智能学会通讯》——12.48 混合型数据聚类算法
本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.48节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
1145 0
《中国人工智能学会通讯》——12.47 分类型数据聚类有效性
本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.47节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
1001 0
《中国人工智能学会通讯》——12.45 k-modes 型算法的类中心表示与收 敛性分析
本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.45节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
1219 0
《中国人工智能学会通讯》——12.44 分类型数据的定义
本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.44节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
1047 0
《中国人工智能学会通讯》——6.10 链接数据实践
本节书摘来自CCAI《中国人工智能学会通讯》一书中的第6章,第6.10节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
1330 0
《中国人工智能学会通讯》——12.43 分类型数据聚类算法研究进展
本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.43节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
1376 0
+关注
文章
问答
文章排行榜
最热
最新
相关电子书
更多
视觉AI能力的开放现状及ModelScope实战
立即下载
通用多模态AI构建
立即下载
阿里云AI产品必知必会系列电子书
立即下载


http://www.vxiaotou.com