欢迎访问发表云网!为您提供杂志订阅、期刊投稿咨询服务!

基于多维数据集的异常子群发现技术

张静恬; 伍赛; 陈刚; 寿黎但; 陈珂 浙江大学计算机科学与技术学院; 杭州310027; 浙江省大数据智能计算重点实验室; 杭州310027; 浙江大学计算机辅助设计与图形学国家重点实验室; 杭州310027
频繁项集挖掘   子群发现   多维数据集   数据挖掘   异常检测  

摘要:非频繁项集是未被标准化的频繁项集产生算法(如APRIORI以及FP-Growth算法)提取的所有项集.在数据集上挖掘有意义的非频繁项集是数据挖掘的重要工作之一.目前,基于传统数据集的非频繁项集挖掘研究主要集中在负相关、负模式以及间接关联等方面,且主要是对整个数据集上的性质进行分析,而没有对数据集的切片进行分析.该文提出了一种新的模式,试图找到符合如下条件的特定子群,其描述的数据集切片上存在某些特殊项集,这些项集在整个数据集上并非频繁项集,但是在该数据集切片上却是频繁项集.根据用户要求自动找出这些异常子群以及其对应项集的算法在数据分析中有着十分重要的意义.该文提出的解决方案由两部分组成:候选产生阶段以及查询交互阶段.前者是一个脱机处理的过程,而后者则是在线实时反馈的过程.在候选产生阶段,该文提出了一种基于多维数据集高效产生频繁项集以及显著子群并有效建立索引的算法.根据索引,在查询交互阶段,该文提出的算法框架可以快速准确地返回给定查询对应的异常子群以及对应项集.基于多个真实数据集的实验表明,该文提出的方案可以根据用户要求实时返回有意义的异常子群以及对应项集.此外,该文提出的算法在多维数据集上的挖掘效率比UTMTU算法提升了数倍.

简介:《计算机学报》(CN:11-1826/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机学报

北大期刊 下单

关注 18人评论|1人关注
服务与支持