欢迎访问发表云网!为您提供杂志订阅、期刊投稿咨询服务!

数据挖掘课程设计论文大全11篇

时间:2023-03-17 18:00:40

数据挖掘课程设计论文

数据挖掘课程设计论文篇(1)

0引言

近几年,随着互联网技术的发展和对人们工作生活的不断渗透,随着移动互联、物联网、云计算、智慧工程等新兴信息技术的出现和普及,数据在人们的生活中呈爆炸式增长,人们开始进入大数据时代。由于海量数据中记录了企业的发展、运营以及人们生活和行为的点点滴滴,所以,挖掘海量数据背后存在的模式、规律和趋势,并结合各行各业进行创新应用,已经成为这个时代的重要课题。我国电子商务经过近20年的发展和数据累积,已经从用户为王、销售为王进入到数据为王的阶段,如何针对用户消费行为的分析,提升电子商务的运营效率,促进精准营销的开展,增加客户黏性,从而实现电子商务的智能化发展,是当前电子商务发展的重中之重。因此,在大数据背景下,为适应行业发展需求,国内外很多高校,尤其是应用型本科院校,在电子商务专业本科生中陆续开设大数据分析与挖掘系列的课程,其中作为大数据研究与应用的重要支撑技术的数据挖掘,是其中一门重要课程。

1电子商务专业开设数据挖掘课程的必要性

1.1行业发展的必然要求

进入大数据时代,“互联网+”技术与传统行业深度融合,电子商务数据已覆盖了从用户、商家、第三方、物流等一系列商务环节。因此,充分利用大数据,有效分析和挖掘大数据的价值和规律,已成为推动电子商务深化发展的重要引擎。首先,数据挖掘技术是电子商务智能化的基础。由于电子商务的活动从开始就具备了信息电子化的先天优势,所以,用户在电子商务网站上发生的所有行为信息都被日志记录,包括用户对产品的搜索、浏览、在购物车加入或取出商品、收藏产品、对商品的讨论、评价、分享等。对这些用户行为信息进行收集和分析,可以挖掘用户的兴趣特征和潜在需求,实现对用户的个性化推荐。其次,数据挖掘技术支撑电子商务的精细化营销的实现。通过网络爬虫收集用户在消费过程种对商品的兴趣、偏好、评价等数据,并进行分析挖掘,可以更好地对用户进行细分,针对性地制定营销策略,更准确地把握用户态度和对产品的情感倾向,及时控制营销中的不良影响,从而提升用户体验和用户黏性。第三,数据挖掘技术推动电商物流的优化。通过对电商物流数据的分析和挖掘,可以预测市场需求变化的规律,帮助企业合理地进行库存管理和控制,优化配送路线,进行物流中心选址策略分析等。可见,对于电子商务专业大学生开设数据挖掘课程是行业发展的必然需求。

1.2专业人才培养的迫切需求

电子商务是利用信息和通信技术,通过Internet在个人、组织和企业之间进行商务活动和处理商务关系的一种活动。随着云计算、物联网及移动互联等新兴信息技术的迅速发展,大量传感器和监控设备不间断的数据采集和行业数据的持续积累,使大数据成为时代的鲜明特点。教育部电子商务专业教学指导委员会王伟军教授等人对138个电子商务专业本科人才的市场招聘需求进行研究发现,网络营销与数据分析是当前电子商务专业的主要能力需求,而目前我国开设电子商务专业的高校中开设数据挖掘及其相关课程的只有14所。因此,该类别人才缺口目前较为严重,市场需求量较大。为了适应时展需求,高校在人才培养时既要注重电子商务运营管理能力的培养,同时更要注意商务数据分析与挖掘能力培养。培养同时具备这两种能力,并且可以将两种能力有效结合起来的应用型人才,是当前高校电子商务专业发展的趋势和方向。总之,在当前的电子商务活动中,商务管理是核心,数据分析与挖掘是手段。在大数据背景下,要提升电子商务的管理效率,实现电子商务的智能化发展,必须应用好数据挖掘这把利器。因此,在电子商务专业开设数据挖掘课程,是行业发展的必然要求,也是专业发展的迫切要求。

2电子商务专业数据挖掘课程教学思路设计

数据挖掘是一门交叉学科,涉及统计学、数据库、机器学习、高性能计算等多门学科相关内容,要求学生具有较为扎实的基础知识。由于课程难度较大,早期高校都把该课程作为研究生的专业课程。为适应市场需求和行业发展,近年来,也有些高校将此课作为本科生高年级选修课开设。从该课程的传统教学上来看,由于学生理论基础不够扎实,课程教学又多侧重算法的分析与实现,导致该课程存在教学难度大、理论教学过多、学习兴趣难以提高等问题。考虑到传统教学的问题以及电子商务专业培养应用型本科人才的实际情况,笔者认为该课程在教学过程中应“轻算法,重应用”,以启发学生数据思维为主,以理解算法思路为主(忽略细节实现),以合理构建数据挖掘模型、正确解读数据挖掘结果为主。在组织教学时,采用基于场景的启发式教学方式。该课程在讲授每个数据挖掘方法时,都通过一个电子商务问题进行导入;通过本节所授方法,形成解决问题的思路;最后通过专门数据挖掘软件进行方法的应用,通过对挖掘结果的解读分析,为导入问题的决策分析提供依据。通过这种由浅入深,由易到难的方式,引起学生学习兴趣,激发学生主动思考,真正成为课堂的主体。实践环节是学生理论联系实际的关键步骤,选用合适的数据挖掘软件工具非常重要,对于电子商务专业的学生,数据挖掘重在问题的建模和方法的应用,所以,该课程选择的数据挖掘工具是IBM公司的SPSSModeler。SPSSModeler拥有丰富的数据挖掘算法,本课程涉及到的分类、聚类、关联分析、时序分析、社会网络分析挖掘等主要数据挖掘功能均可实现,而且其操作简单易用,分析结果直观易懂,可以使用户方便快捷地实现数据挖掘。学生通过对算法基本思路的了解,针对实验问题设计数据挖掘方案,并通过数据挖掘软件进行算法的应用和结果的分析,理论和时间的顺利衔接,进一步加深学生对数据挖掘方法的认识和理解。

3电子商务专业数据挖掘课程教学内容设计

数据挖掘课程主要讲解数据挖掘的基本概念、主要方法和技术、应用情况及发展趋势,目的在于启发学生的数据思维,提升学生数据分析与挖掘的能力,深入理解电子商务数据在电子商务中的重要地位和作用,实现商务管理和数据挖掘的有机结合。由于数据挖掘课程理论性和应用性均较强,反映在教学要求上,既要重视理论学习,又要重视实践环节。具体来说,就是一方面通过理论教学使学生对理论内容有较深入的理解和领悟;另一方面结合实践教学,鼓励学生多动手,多思考,综合运用所学知识分析和解决实际问题。

3.1理论教学设计

针对大数据时代的数据特点和应用特点,在数据挖掘课程的理论教学设计时,其内容不仅包括传统的基础性的分类、聚类、关联分析、时序分析等数据挖掘方法,还注重根据电子商务行业特点进行知识的拓展介绍,比如在将关联分析的时候,除了传统的购物篮分析,还增加了序列模式分析内容;比如在结合社会化电子商务的发展,对社会网络分析、文本挖掘等前沿数据挖掘知识也进行了一定的拓展介绍。这些拓展内容,不但丰富了学生的知识体系,也为部分学生的课下深度扩展指明了方向。我校电子商务专业的数据挖掘课程总学时为48学时,其中理论教学32学时,主要内容及其学时分配如表1所示。表1数据挖掘课程理论教学安排序号章节标题内容提要学时1数据挖掘概述数据挖掘基本概念与功能;基本流程与步骤;基本方法与应用;拓展:数据库,数据仓库与数据挖掘的关系22数据预处理数据清洗;数据的集成与转换23分类分析决策树分类;贝叶斯分类;分类特点及结果分析64聚类分析K-means聚类;两步聚类;聚类特点与结果分析65关联分析频繁项集;关联规则挖掘;关联分析效果评价;拓展:序列模式分析86时序分析移动平均模型;指数平滑模型;拓展:ARIMA模型67数据挖掘发展趋势社会网络分析;文本挖掘;Web挖掘2理论教学在组织时,基本上以“课堂引例-问题分析-算法思路讲解-课后练习”的方式展开。通过实例分析,给学生介绍各种算法的基本思想和相关概念,引起学生学习兴趣。在讲授算法时,通过具体的简单数据演算实例来分析数据挖掘的过程和结果,使学生在实际案例中明白数据挖掘算法在处理数据过程中的作用和意义。虽然该课程开设在电子商务专业的第六学期,但是,由于数据挖掘课程本身需要多个学科的基础知识,在目前的大学课程体系内,难以在有限的时间内开设全部先修课程。因此,在理论讲解时,对涉及到学生比较生疏的知识点,应根据学生的知识水平,予以补充说明。例如,在讲决策树分类时,对于信息论中信息熵基本概念和计算方法,可以结合实际数据集合,进行讲解和计算。

3.2实验教学设计

数据挖掘是一门紧密结合实际应用的课程,具有较强的实践性。实践教学环节中,首先教师讲解实验步骤,然后安排学生进行实验,并对实验结果做详细分析与评价。每个实验要求学生完成以下几方面的内容:(1)根据实验问题设计数据挖掘方案和实施流程;(2)进行数据预处理,并构建数据挖掘模型;(3)解读数据挖掘结果,并联系实验问题进行具体分析;(4)实验拓展与总结。在实验拓展和总结部分,可以设计一些开放性的题目,比如在进行关联分析时,可以设计这样的问题“如果支持度阈值设置时降低十个百分点,频繁项集会有哪些变化?关联规则的准确性和适用性会有哪些方面的变化?”。在实验环境下,学生可以通过对比实验,比较容易得到结果,而在总结这些变化规律时,又可以强化和巩固对关联规则、频繁项集、支持度、置信度等这些概念和指标意义的理解,从而更好的应用在以后的工作实践中。结合电子商务活动特点以及数据挖掘在电子商务中的应用,该课程的实验是16学时。在实验设计时,共设计了五个单人实验和一个综合性多人实验.由于使用数据挖掘技术处理实际问题时,很多时候需要综合运用一些数据挖掘方法,其设计方案不止一种,分析结果也不一定完全一致。为激发学生的主观能动性,本课程在最后需要每个小组共同完成一个综合性的数据挖掘作业。研究表明,对于本科生来说,指导教师给出一些具体的题目,如大学生消费状况预测、校园共享单车满意度分析等,这些热点问题更容易激发学生的学习兴趣。综合作业从数据挖掘方案的设计、数据采集、数据预处理、数据建模、结果分析以及报告撰写全部由小组成员协作完成,通过这样一个完整的分析问题、解决问题的过程,不但可以锻炼学生综合应用知识的能力,也可以锻炼学生的沟通写作能力。在综合性作业完成的过程中,教师需要给予一定的指导,例如教师可以介绍问卷星等网络调查平台或网络爬虫等工具帮助学生进行原始数据的采集;通过对数据挖掘方案的点评,帮助学生更合理的选取数据分析指标,设计数据挖掘方案;通过报告撰写指导,帮助学生规范化的总结实验分析结果。

4结论

大数据时代的电子商务活动中,对电子商务人才的数据挖掘和分析能力非常迫切,在电子商务专业中开设数据挖掘课程是行业发展和专业发展的必然要求。在电子商务专业开设数据挖掘课程既有别于研究生也有别于计算机等理工科专业,“轻算法,重应用”,以提升学生主动学习兴趣为导向,采用基于场景的启发式教学方法更合适。本文从教学思路、教学方法、教学内容等方面进行了思考和探索,经课程开设两年来的教学实践证明,学生在学习上的主观能动性得到了一定的体现,理论和实践相结合的能力得到了锻炼。激发学生学习兴趣,培养学生的主动性思维,是当前教学中的重要课题,在电商行业不断发展的过程中,如何更好的将最新行业问题融入教学过程,实现理论和实践的有机结合,需要我们进一步深入思考和探索。

参考文献

[1]冯然,陈欣.论数据分析类课程在电子商务专业设置中的重要性[J].河南教育,2015,(2).

[2]黄岚.数据挖掘课程实践教学资源库建设[J].计算机教育,2014,(12).

[3]薛薇.基于SPSSModeler的数据挖掘(2版)[M].中国人民大学出版社,2014.

[4]李海林.大数据环境下的数据挖掘课程教学探索[J].计算机时代,2014,(2).

数据挖掘课程设计论文篇(2)

【中图分类号】G642 【文献标识码】A 【文章编号】1674-4810(2015)33-0063-02

我们生活在一个信息爆炸的时代,更具体地说我们生活在一个数据爆炸的时代。每天,来自商业、社会、科学、互联网、移动设备等各个领域的数据以爆炸的方式增长着。巨大的数据中蕴藏着重要的信息和知识,因此我们需要强大和通用的工具,从海量的数据中发现这些有价值的信息,把数据转化为知识,因此导致了数据挖掘的诞生。“数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。”

随着越来越多的企事业单位认识到数据挖掘的重要性,对数据挖掘人才的需要近两年也呈现快速增长的态势,大数据分析师更是被媒体称为“未来最具发展潜力的职业之一”。因此很多高校开设了数据挖掘课程。通过本课程的学习,使学生了解数据挖掘技术的整体概貌,了解数据挖掘技术的主要应用及当前的研究热点问题,了解数据挖掘技术的发展方向,掌握最基本的概念、算法原理和技术方法,培养学生应用数据挖掘解决实际问题的能力。本文分析了在本科阶段开设数据挖掘课程的特点,阐述了教学内容和教学方法,对数据挖掘课程教学进行了新的思考和探索

一 数据挖掘课程特点

1.大数据背景

“大数据”成为近年来比较热门的词语,同时也反映数据的爆炸式增长给我们带来的机遇和挑战。大数据在维基百科上的解释是:大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。大数据的四个特征是:数据量浩大;模态繁多、异构;生成快速;价值巨大。“大数据”分析的需求导致了数据挖掘的产生,也同时给数据挖掘带来了巨大的发展前景。

2.学科发展快,内容丰富

数据挖掘出现于20世纪80年代后期,90年代之后开始突飞猛进的发展,新的和改进的算法不断出现,所考察的数据类型日趋丰富,应用领域逐渐扩大。比如数据类型,有流、序列、图、时间序列、生物序列、空间、音频、图像和视频数据等。数据挖掘的模型和算法丰富,比如关联规则的挖掘有Apriori算法,分类规则的挖掘有决策树、神经元网络、朴素贝叶斯、支持向量机等,聚类规则挖掘,时间序列挖掘等。

3.学科交叉,难度大

数据挖掘课程作为一门多学科交叉的专业课程,涉及的学科较多。如统计学,多元统计学,时间序列,统计推断等;机器学习中的监督学习、无监督学习、半监督学习、主动学习等;数据库系统和数据仓库、计算机软件编程和开发、Web搜索引擎。众多的学科交叉增加了课程的教学难度,因此需要合理地规划课程内容和重点,循序渐进地展开教学内容。

二 教学探索

1.课程内容体系

数据挖掘是一门多学科交叉的前沿学科,它结合了数据库技术、统计学、机器学习、知识系统、信息检索、高性能计算和可视化等多问学科的知识。然而在目前的大学课程体系中,很难在有限的时间内开设这些课程。

――――――――――――――――――――――――

* 韩山师范学院2014年校级优质网络课程――数学模型资助项目,通讯作者:李承耕

特别是对于数学与统计学院的学生,数学基础理论比较好,但是在数据库技术、计算机软件算法和编程方面比较薄弱,大部分的同学没有编程经验和数据处理分析能力。针对这些问题,我们数据挖掘课程的授课对象为大三或大四应用型专业的学生,并在前期课程中开设数学分析、高等代数、概率与统计、多元统计学等数学类课程,同时开设c语言、java语言、数值分析、数据库原理等计算机课程,这些课程的开设为数据挖掘授课打下了必要的理论基础。

数据挖掘的内容丰富,包含的知识点很多,我们构建了课程的核心知识结构。核心知识为三部分:(1)数据预处理,主要任务包括数据清洗,数据集成,数据变换和数据规约;(2)数据仓库,主要包括数据仓库的基本概念,数据立方体,数据立方体的设计与实现;(3)数据挖掘,主要包括数据挖掘的基本流程,数据挖掘的主要算法,数据挖掘的常用工具及数据挖掘的应用实例。考虑到数学与统计学院学生的特点和教学课时的限制,教学重点为数据预处理、数据仓库的基本概念、数据挖掘的主要模型三个方面,特别是数据挖掘的模型是重点讲授的内容。由于数据挖掘的模型和算法非常多,我们采用首先讲解数据挖掘的基本流程,然后重点讲解数据挖掘中关联分析、分类、聚类三个方面的模型。

我们采用理论讲解、实验操作、模型应用三个步骤来讲解每个模型。理论讲解使学生掌握数据挖掘模型的基本理论和算法流程。在实验操作阶段,学生要亲手实现模型的基本算法,我们使用的编程语言是python,通过算法的实现,巩固和加深学生对模型的理解。模型应用步骤要求学生综合应用所学的数据挖掘模型知识,选择一个应用领域,应用自己学习的算法解决这个实际问题,并按照数据挖掘的流程完成实验报告。实验报告要求按照数据说明、数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示等几个部分完成,使学生掌握数据挖掘的全过程,充分认识数据挖掘各个阶段要完成的工作。通过这三个阶段的学习和实践,学生基本掌握了数据挖掘的算法并具备了基本的模型应用能力。

2.以应用为背景,用案例教学方式组织教学

案例教学法是教师以具有鲜明代表性的案例为学生创设问题情境,引导学生通过对案例进行分析讨论,在情境中掌握理论知识并总结规律,创造性地将知识与实践相结合,找到更多的实际生活范例或提出解决实际问题的思路与方法。数据挖掘本身就是一门应用性很强的学科,课程内容非常适合进行案例教学。

数据挖掘课程主要针对数学与统计学院应用型本科专业开设,考虑到学生就业和当前市场需求,以及课程本身实践性强的特点,在教学过程中注重理论结合实践,培养学生解决实际问题的能力。因此,在向学生介绍目前常用的数据挖掘基本模型的基础上,结合市场需求,以实例为切入点,采用案例教学的方式组织教学。案例的来源丰富,有医疗、商业、航空、环保等众多领域,案例全部来自于真实的数据挖掘项目,每个案例有背景与挖掘目标、数据预处理、构建模型、模型评价、上机实验几个部分组成。通过讲解真实案例,让学生了解数据挖掘的算法在实际中是如何应用的,培养学生应用数据挖掘的思想,使学生对数据挖掘有了感性认识,激发其学习兴趣。具体采用的案例如下表所示。

三 结束语

数据挖掘是一门多学科交叉的应用型学科,在数学与统计学院开设数据挖掘课程有现实意义,同时对教师和学生也是一个挑战。因此通过将理论教学和实践相结合,使用案例教学的方式组织教学,激发学生的学习兴趣,提高课堂教学效率,增强学生实践能力,培养学生应用数据挖掘的基本方法解决实际问题的能力。同时,数据挖掘也是一个快速发展的学科,因此也要不断更新教学案例,不断学习和总结,使教学更加完善合理。

参考文献

[1]〔美〕Jiawei Han、Micheline Kamber、Jian Pei等.数据挖掘概念与技术(第3版)(范明、孟小峰译)[M].北京:机械工业出版社,2012

[2]张良均等.MATLAB数据分析与挖掘实战[M].北京:机械工业出版,2015

[3]谭磊.New Internet:大数据挖掘[M].北京:电子工业出版社,2013

数据挖掘课程设计论文篇(3)

中图分类号:G642 文献标识码:A

文章编号:1672-5913(2007)14-0027-03

1引言

数据挖掘是一门综合性的交叉学科,它融合了概率统计学、数据库技术、数据仓库、人工智能、机器学习、信息检索、数据结构、高性能计算、数据可视化以及面向对象技术等,在保险业、电信业、交通业、零售业、银行业正在被越来越广泛深入地使用,同时在生物学、天文学、地理学等领域也逐渐显现出技术优势,特别是在客户关系管理系统、个性化网站设计、电子商务系统、搜索引擎等方面数据挖掘技术显示出了独特的魅力。数据挖掘技术正在以一种全新的概念改变着计算机应用的方式。

从最近计算机技术的发展以及学生就业方面来看,对本校的应用性本科生开设“数据挖掘技术”课程迫在眉睫。但数据挖掘给人的感觉就是“高深莫测”,当前数据挖掘领域主要是博士生、硕士生研究的领域,数据挖掘课程也只在一些重点大学的研究生或高年级的本科生中开设,应用型本科院校以及一些高职高专几乎都没有开设此类课程。这限定了数据挖掘作为一门既有理论又有实践价值学科的应用和推广,笔者认为很可惜。从计算机专业的学生的毕业设计以及就业角度分析,相当多的同学以后会从事电子商务类软件的开发,而这类应用目前都渐渐基于Web作为应用平台,面对的是海量的数据信息,因此让学生掌握数据挖掘的思想和方法对提高计算机素养很有必要。即使将来从事控制、通信、游戏、图像处理等软件开发,数据挖掘的思想和方法也很容易找到用武之地。

2数据挖掘课程开设的可行性分析

从计算机技术发展以及学生就业反馈的信息,笔者觉得数据挖掘的思想、方法以及算法对应用型本科生是很重要的,并且让学生掌握好这门课程也是完全可能的。我校从1998年以来一直在高年级本科生中开设了“人工智能”课程,但从教学效果上来看,很不理想。“数据挖掘技术”这门课程在不少地方很像“人工智能”,“数据挖掘技术”课程中的一些思想就是从“人工智能”中发展过来的,但是“数据挖掘技术”课程与“人工智能”课程有一个本质的区别,就是数据挖掘从诞生的一开始就是面向大量的、实际的数据库信息,因此,具有极强的应用性,如果将“数据挖掘技术”课程看做是“数据库技术”课程的自然延伸,同时充分利用数据结构、人工智能、面向对象技术与方法、Web技术、概率统计等课程的基础,就能够将“数据挖掘技术”课程开设好。于是两年前,笔者在应用型本科生中做了尝试,就是取消原来的“人工智能”课程,取而代之的是“数据挖掘技术”课程,从两年的教学实践以及教学效果上看,行之有效。并且在教学中发现,虽然数据挖掘技术要用到人工智能的一些思想和方法,但没有“人工智能”课程作为前导课程,没有任何影响,因为,数据挖掘中的一些人工智能思想在“数据挖掘技术”课程的教学中是自成体系的,并且是以比“人工智能”中的方法更加简单、更加直接、更加面向应用的方式。开设“数据挖掘技术”课程必须以下列的课程作为基础(前导课程),当然这些课程都是一些常规课程。

1) 必须深入学习一门程序设计语言,通过这门语言的学习可以掌握程序设计的基础知识,并且掌握面向对象思想开发的精髓,能够进行可视化程序设计。学习程序设计绝不是记住程序设计语言的语法就行了,而要努力做到将应用中的思想变为程序。这一点是计算机专业学生的基本素养。这一环节没有做好,其余的计算机专业的专业课程,如数据结构、操作系统、数据库原理、编译原理、软件工程等就无法学习,即使学了,也不能真正掌握。笔者从计算机发展和应用角度,推荐学习C/C++和Java,要求对C++的模板以及STL或Java的数据结构类(在Java的util包中)能够较好掌握。

2) 掌握“数据结构”课程,特别是“数据结构”课程中的树的特点和应用。在“数据结构”课程中,树主要以二叉树为主,对于一般的树,在当前的“数据结构”课程的教学中都是将一般的树转化为二叉树来进行处理的,但是在数据挖掘中这样不太方便。数据挖掘中的很多算法都涉及到树的应用,并且大多都是不太规则的树,在数据挖掘中,采用树的思想与Java中的数据结构类或C++中的STL相结合的方法,能够得到很好的效果。

3) 掌握“数据库技术”课程中数据库操作的特点和应用。数据挖掘的对象主要是数据库中的数据,但作为数据挖掘对象的数据库的数据信息量往往很大,因此,为了提高挖掘的效率,需要建立数据仓库,或者需要在算法上加工,尽量减少扫描数据库的次数。

4) 掌握“Web技术”。这是因为Internet已经广泛应用并且深入人心,未来的软件相当多的都是基于Web平台之上,因此,对于Web挖掘不仅重要,而且具有直接的应用价值。当前Internet上的软件如一些知名网站、搜索引擎以及一些电子商务系统,采用了数据挖掘技术,得到了很多有价值的信息或提高了个性化能力,大大增强了企业的竞争力。因此,掌握“Web技术”课程对Web挖掘很有裨益。

5) 熟悉“概率统计”课程中的思维方式,对各种分布以及条件概率能够熟练掌握,在数据挖掘中的分类、关联规则等领域很多挖掘方法都灵活运用了概率统计中的思想和方法。

从“数据挖掘技术”课程的教学实践中明显看出,主要需要以上几门课程,并且教学结束后发现,学生不仅能够掌握数据挖掘的思想、方法以及算法,通过对一些主要的挖掘算法的实现,对“数据库技术”、“程序设计语言”、“数据结构”、“Web技术”以及“概率统计”掌握得更加深刻,将“数据挖掘技术”作为“数据库技术”的自然延伸,是“程序设计语言”、“数据结构”、“Web技术”以及“概率统计”的综合运用得到良好效果。

3 “数据挖掘技术”课程的设置

一门课程的设置,不仅要根据当前计算机技术的发展,同时也要根据当前学生的就业需求,充分考虑到应用型本科学生的特点。两年前,经过多方面的考虑以及参考了各种国内国外数据挖掘的教材以及论文后决定,“数据挖掘技术”课程教学学时定为32课时,讲课22学时,上机实验10学时。在这个总的学时定下来之后,就是对“数据挖掘技术”课程的内容设计,这是最重要的环节。精选出的内容不仅要反映数据挖掘的特点以及最新发展,还要结合应用型本科生的特点,要具有很强的针对性,重点要突出,要能够“学以致用”。最后“数据挖掘技术”课程的教学内容如下:

1) 数据挖掘综述2学时。本讲侧重于从两、三个具体应用领域进行分析得出采用数据挖掘技术的重要性与必要性,可以选取客户关系管理、体育竞技、信息安全和商业欺诈等作为案例,然后给出完整的数据挖掘定义和数据挖掘技术的分类,以及数据挖掘需要的一些前导课程的知识要点。

2) 数据挖掘过程及当前数据挖掘的软件工具2学时。数据挖掘的过程是数据抽取与集成、数据清洗与预处理、数据的选择与整理、数据挖掘以及结论评估。本讲重点讲解挖掘的过程,强调数据预处理对挖掘的重要意义,对于缺省的值、残缺的值等的处理方法。让学生对数据挖掘的整体过程有清楚的理解。然后介绍一下当前流行的商品化数据挖掘软件如IBM的IntelligentMiner和加拿大Simon Fraser 大学的DBMiner。

3) 关联规则挖掘与序列模式挖掘6学时。在介绍关联规则原理的基础上,主要介绍著名算法Apriori及其改进、FP_Tree算法、用于序列模式挖掘的AprioriSome算法。每个算法需要2学时,对每个算法要进行彻底分析,不仅能够理解算法的原理、思想以及过程,还要分析算法提出人为什么会提出这种算法,在日常生活中的含义是什么,算法的优点和缺点是什么,以及如何用Java或C++来编程实现该算法。最后,对多层次关联以及数量关联规则挖掘做个简单介绍即可。

4) 分类技术4学时。介绍分类的原理,主要讲解ID3和C4.5、朴素贝叶斯分类,简单介绍一下BP神经网络的分类。对于C4.5要求能够从原理上把握整个算法,能够进行连续值的离散化处理,理解C4.5比ID3的优势所在;对于朴素贝叶斯分类,要深刻理解该分类的原理以及贝叶斯信念网络的工作原理。特别的,对于FP_TREE以及C4.5算法的实现,需要用到不规则树,提出用C++或Java解决这种不规则树的方法。

5) 聚类技术4学时。在介绍聚类的重要性和分类的基础上主要介绍划分聚类PAM算法思想以及基于密度聚类DBSCAN,对于当前重要的聚类STING和CLIQUE做个简单介绍。最后,比较聚类和分类的不同之处。

6) Web挖掘与个性化推荐技术4学时。对于Web挖掘从内容挖掘、访问行为挖掘和结构挖掘三个方面进行讲解,重点讲解个性化技术。对基于最小关联规则集的个性化推荐以及基于协作筛的个性化推荐作深入剖析,并指出在当今网站设计中的重要意义。

7) 上机实验设计。精选五个上机实验。第一个实验是关联规则的Apriori算法或FP_Tree算法的实现,两个任选一个,如果选择Apriori的话,需要采取一些效率改进措施;第二个实验是序列模式挖掘中的AprioriSome算法;第三个实验是分类技术中的ID3或C4.5算法,这两个算法的主体相同,任做一个即可;第四个实验是聚类中的PAM或DBSCAN算法,两个任选一个;第五个实验是利用协作筛进行个性化网站的智能推荐。以上五个实验每个实验2学时,建议编程语言采用Java或C++,最后挖掘结果具有可理解性。

当然,以上的课程内容设计会随着数据挖掘技术的发展,不断进行微调,以适应不断变化的计算机技术发展与社会需求。

4 “数据挖掘技术”教学实践总结

两年前,虽然已对“数据挖掘技术”课程作了充分准备,但在刚开设这门课程的时候,很担心这门“高深莫测”的课程的教学效果。但经过两年的教学实践发现,这门课程的教学效果比预想的还要好。通过对该门课程的学习,学生不仅基本掌握了数据挖掘的基本原理和算法,同时对以前的一些主干课程如数据结构的理解和运用有了非常深刻的认识。更为重要的是,本课程的五个实验都是数据挖掘领域中最经典、最重要的算法,通过对这些算法的编程实现,不仅理解了数据挖掘关键算法的精髓,同时,这些数据挖掘算法实现的程序经过不断改进、加工,性能不断提高,由于都是源代码,可以将这些算法应用到一些实用的软件系统如客户关系管理系统、个性化网站中去,收到良好效果。此外,在网上的一些数据挖掘论坛中,经常看到一些初学数据挖掘的研究生或技术人员很想看一看数据挖掘经典算法的具体程序实现,我们也将这两年不断改进的程序源代码作为免费资源赠送给了不少同行,也为数据挖掘的推广应用贡献了微薄之力。

5结束语

“数据挖掘技术”课程的教学尝试目前主要针对的是本校应用型计算机专业本科生,虽然收到了良好的效果,但“数据挖掘技术”绝不仅仅是计算机专业学生才需要掌握的课程,对于我校通信系、电力系、自动化系等工科专业,经济系、管理系甚至一些文科类的学生也很有价值,因此,怎样在非计算机专业的应用型本科生中开设好这门新兴课程,甚至在高职高专学生中也开设好这门课程,则是需要作进一步的探索和尝试。

参考文献:

[1] 毛国君. 数据挖掘原理与算法[M]. 北京:清华大学出版社,2005.

[2] 陈文伟. 数据挖掘技术[M]. 北京工业大学出版社,2002.

[3] 余力. 电子商务个性化[M]. 北京:清华大学出版社,2007.

A Test to Applied College Students on Teaching Data Mining

XU Jin-bao

(Dept. of Computer Engineering, Nanjing Institute of Technology,

Nanjing 211100,China)

数据挖掘课程设计论文篇(4)

0.引言

随着经济、科技和信息技术的飞速发展,特别是网络技术的发展,数据的产生和存储能力有了很大程度的提高。数据挖掘的出现,为人们提供了一条解决“数据丰富而知识贫乏”困境的有效途径Ⅲ。所以很多高校,包括世界上一些著名高校都开设了数据挖掘课程。课程的基础理论部分一般包括数据预处理、关联规则、分类、聚类、时间序列挖掘、Web挖掘等内容。该课程使学生学会分析研究数据挖掘中数据预处理、常用算法、结果的可视化等技术,并培养学生的数据抽象能力,帮助学生形成科学思维和专业素养,使他们毕业后在就业上有更多的选择。

笔者将探讨基于实例教学的数据挖掘课程的教学内容安排,强调淡化学科背景,加强算法的应用性训练,将实际的例子贯穿于教学中,并重新组织授课内容、安排实践环节,教会学生学以致用。

1.教学现状分析

1.1课程本质

数据挖掘原理与算法涉及的学科领域很宽泛。其最终目的是在数据中挖掘出可供人们利用的知识和信息,因此数据挖掘技术要从数据库技术、统计学、机器学习、神经网络、知识系统、信息检索、高性能计算和可视化等领域汲取营养。另外,每个学科都在进行着日新月异的发展变化,数据挖掘技术遇到的挑战也为相关学科领域的深入研究提供了新的契机。由于课程难度较大,很多高校把这门课程作为研究生的专业课程,也有院校将此课作为本科生高年级选修课开设脚。但是本科生开设这门课程的普通院校较少,我们能借鉴的教学经验有限。

1.2数据挖掘课程教学环节的弊端

①某些学校对本科生开设的数据挖掘课程,其教学过程对理论的探讨过多,与应用存在距离,没有体现出这门课程面向应用的特质,缺少对学生工程能力的训练,存在学生在学了这门课程后不知道能干什么的现象。

②教学形式呆板单一。传统的教师讲、学生听的教学模式,很难引起学生的探究兴趣,不利于发挥他们自身的能动性和创新动机。

2.选择恰当实例贯穿数据挖掘课程的教学过程

烟台大学计算机学院所开设的数据挖掘课程在教学上安排了6章内容,涉及3个实例(其中两个是实际生活中的项目课题):第1个是用于房产信息调查的房产客户关系管理系统;第2个是用于烟台大学督评中心评教文本分类的中文文本数据挖掘系统;第3个是用于国家葡萄酒检测中心的数据分析的葡萄酒成分数据挖掘系统。

2.1房产客户关系管理系统

在讲述房产客户关系管理系统时内容涵盖绪论、知识发现过程和关联规则3章,重点讲授内容包括:

(1)数据仓库。住房管理数据仓库中的数据是按主题组织的,可从历史观点提供信息。数据挖掘技术能按知识工程的方法完成高层次需求,可以发现蕴藏在数据内部的知识模式。挖掘后形成的知识表示模式可为企业决策提供支持。

(2)通过对客户信息进行分析,阐述关联规则的参数:support、confidence、expected confidence,并简单介绍关联规则中的多维、多层次等拓展知识。

(3)关联规则挖掘。①讲授关联规则挖掘的Apriori算法;②讲述布尔关联规则的概念,对处理后形成的交易数据库进行布尔关联规则挖掘,将问题转化为寻找以决策属性为结果的规则;③将关联规则挖掘应用于客户关系管理的最终目的是努力将潜在客户转变为现实客户,将满意客户转变为忠诚的终生客户,提高客户满意程度,降低市场销售及宣传成本,增加利润率。

(4)设minsup=10%,minconf=70%。在统计的各类人群中猎取咨询的渠道主要是杂志、报纸、互联网和电视。经试验统计后得到以下有关知识:①满足age>50 AND职业=“工人”的客户占所统计总人数的9.7%;其中满足age>50 AND职业=“工人”AND渠道=“TV”的客户占92%。②符合学历=“大专”AND职业=“工人”的客户占所统计总人数的24.8%,其中满足学历=“大专”AND职业=“工人”AND渠道=“newspaper”的客户占82%。③被统计人群中满足income=“5000-9000”AND职业=“教师、医生、公务员”的客户占所统计总人数的32.7%;其中满足income=“4000-6000”AND职业=“教师、医生、公务员”AND渠道=“杂志”的客户占83%。④被统计人群中满足学历=“本科”AND income≥“10000”的客户占所统计总人数的占11.6%;其中符合学历=“本科”ANDincome≥“8000”AND职业=“公司经理”AND渠道=“杂志”的客户占86.5%。

(5)教师要分析Apriori算法的瓶颈和改进,介绍Close算法和FP-树算法,并且要求学生们掌握这3种经典算法。

2.2中文文本数据挖掘系统

中文文本数据挖掘系统围绕评教分类模型的建立讲述特征选择和主要分类算法。根据烟台大学教学督评中心提供的学生对教师的中文评教文本,利用分类的方法找出其评价的倾向性,结合教材,重点讲授了以下内容:

1)特征选择。

①介绍有监督、无监督和半监督的特征选择方法。②介绍使用分词软件后,统计词频,去掉小于阈值的低频词。③对比词频率、IG值(信息增益)、期望值差异对分类结果的影响留取特征词。

部分数据示例如下:用特征选择的方法对重要的属性进行抽取,略去对分类影响不大的属性,达到降维的目的,把特征选择作为预处理。我们选用517条主观评价作为训练样本,其中233条留言是一般评价,采用以下3种方式进行特征选择:词频率、IG值(信息增益)、期望值差异。不同方式特征选择对分类准确性的影响如表1所示。

2)分类。

在介绍常用的分类基础知识和决策树、ID3、朴素贝叶斯分类、最近邻分类算法之后,又介绍了基于潜在语义分析的降维技术,讲授了支持向量机(SVM)适用于文本分类的原因。布置给学生的任务是用爬虫获取网评,作倾向性分析。

评教文本分类统计后的结论是:将降维技术和支持向量机算法结合在评教模型的建立过程中,研究讨论的主要内容有:①各个指标取不同值对分类的影响,这些指标主要集中在特征抽取和选择、保留词性和降维维数等几方面;②对分词后的文本进行特征选择,筛去了词频数小于4的文本;③降维至30维,并适当设置SVM中的可变参数,找到合适的训练一测试样本的比例,最后综合出一个现有条件下的最佳分类模型。

2.3葡萄酒成份数据挖掘系统

葡萄酒成份数据挖掘系统介绍数值数据的预处理和聚类2章内容。对葡萄酒成份的分析是根据所提供的酒中各成份的含量数据,采用聚类或分类的方法确定某种葡萄酒的种类,比如是红葡萄酒、白葡萄酒还是甜葡萄酒。围绕这个问题我们介绍了如下内容:

1)数值数据的预处理。

①介绍葡萄酒中各个属性的含义和取值范围;②讲授数据的离散化技术,如等深、等宽、聚类技术;③讲授本例中使用的m一估值计算对数值属,1生的离散化技术;④讲述本例中如何避免0值出现及去噪声技术。

葡萄酒中各成份的含量数据如表2所示。

2)聚类。

在介绍聚类的基本知识和常用算法(如k均值、k中心点、DBSCAN技术)之后,讲解了:①本课题使用的层次聚类算法。在测试结果时通过测试样本和分类样本的不同比例,对结果进行了对比。②讲述了用朴素贝叶斯分类计数对这一问题的分类处理,同时对比了聚类和分类算法在同一问题上的结论差异。利用朴素的贝叶斯分类器可以完成预测目标,根据训练样本建立分类器,对待测样本进行预测,准确率可达到90%以上。③引导学生思考对问题的处理可以联合使用各种算法,并分析各种算法对结果的影响,从而找出解决问题的最佳方案。

2.4利用已知算法和实例讲授Web挖掘技术

因特网规模庞大、结构复杂、动态变化性大,蕴含大量的信息。将Web上丰富的信息转变成有用的知识正是Web挖掘的意义所在。用之前中文文本分类的方法引导学生在一些购物网站中下载对商品评论的中文文本,抽取特征词,进行倾向性分析,使学生熟悉支持向量机的分类方法,分词软件的使用及文本挖掘的整个过程。

3.结语

文章在前期制定应用型本科生数据挖掘课程教学大纲的基础上,针对数据挖掘课程内容多学科交叉的特点,在教学中提出淡化学科背景,注重算法应用与实践,以客户关系管理、葡萄酒数据分析、中文评教文本分类等实例作为授课内容主线,让实例教学始终围绕着典型的算法和前沿知识展开的教学方式。在今后的教学工作中,我们还应该不断站在学科发展的前列,经常更新实例,使其更好地融入教学,将教与学有机统一,取得更好的教学效果。因此我们还有大量的工作需要探索研究。

参考文献:

[1]宋成,李晋宏,项目驱动的数据挖掘教学模式探讨[J],中国电力教育,2011(27):116-177.

[2]刘云霞,统计学专业本科生开设“数据挖掘”课程的探讨[J],吉林工程技术师范学院学报,2010(6),20-22.

[3]徐金宝,对应用型本科生开设数据挖掘课程的尝试[J],计算机教育,2007(7):27-29.

数据挖掘课程设计论文篇(5)

二、根据信息管理专业本科生培养要求确定课程目标

数据挖掘课程是一门综合性很强的前沿学科,对计算机软硬件、数据库、人工智能技术、统计学算法、优化算法等基础知识都有较高的要求。因此该门课程开设在学生大三下学期,既有相关知识的基础,又为大四做毕业设计提供了一种思路。信息管理专业是计算机与管理相结合的专业,旨在培养具备信息系统开发能力与信息资源分析与处理能力的综合应用型人才。对信息管理专业的学生而言,本课程主要的目标是数据挖掘算法原理理解、数据挖掘算法在商务管理问题中的应用以及常用数据仓库与数据挖掘软件的熟练应用和二次开发。

三、基于模块化方法的课程内容分析

模块化教学模式是按照程序模块化的构想和原则来设计教学内容的一整套教学体系,它是在既定的培养目标指导下,将全部教学内容按照一定标准或规则进行分解,使其成为多个相对独立的教学模块,且各教学模块之间可以按照一定的规则有选择性的重新组合。学生可以根据个人兴趣和职业取向在不同模块之间进行选择和搭配,从而实现不同的教学目标和人才培养要求。模块化教学本质上是以知识点与实践的细化为出发点研究的。商务智能方法本身非常丰富,实践应用也是课程的主要特点之一,因此十分适合使用模块化的知识分解方式。本课程的知识点模块管理分为两个层次,一是从宏观角度设计课程的基础内容模块和高级主题模块;二是从微观角度针对较为复杂的教学内容进行的知识点划分。

1.课程主要内容模块化分析。目前该课程包括十章理论内容,分别为数据仓库与数据挖掘的基本知识、数据仓库的OLAP技术、数据预处理、数据挖掘系统的结构、概念描述:特征化与比较、挖掘大型数据库中的关联规则、分类与预测、聚类分析、复杂类型数据挖掘和序列模式挖掘。根据模块化管理的宏观角度分类,课程内容的第一至五章属于基础理论部分和简单数据挖掘技术的介绍,可以作为基础内容模块;第六至八章为数据挖掘的核心算法,其中既有基础理论与技术方法,又可深入到较难的方法和复杂的应用,因此介于基础内容与高级主题之间;第九、十章可以算做课程的高级主题模块;另外,课程的实践模块既包含数据仓库的建设又包含数据挖掘算法的应用,难度也介于基础内容与高级主题之间。

2.复杂知识点的模块化管理。从微观角度对知识点进行设计主要针对的是上述的高级主题、以及难度介于基础内容与高级主题之间的章节,由于这些章节知识点在难度上有一定层次,讲授内容弹性比较大,因此需要在课程设计中明确一定课时量所要达到的难度。以商务智能技术中的分类算法为例:首先一般的入门课程都会介绍分类算法的概念和基本原理;接着开始介绍分类算法的基础算法———决策树,而决策树算法中又包含ID3等多种算法,并且除了决策树外,还有其他更高级的分类算法;在真正使用分类法进行预测时,还要分析预测准确度;最终要将所学知识加以应用。这样就形成了一个结构清晰、难度循序渐进的知识点模块的层次关系。在宏观角度、微观角度对教学内容进行分类的前提下进行相应的授课方法与考查方法的研究,才能真正有助于学生的学习。

四、授课与考核方法设计

对不同层次学生要求不同,这种不同既体现在知识点的要求上,又直接体现在任务的难易性程度上,这都需要教师在课程设计时充分考虑不同要求情况下的不同的授课方式,并使学生清楚自己需要掌握的程度。对于高级算法和实现部分,通常可以选择一到两章内容采用专题探讨式的教学方法。这种方法是指在教师启发和引导下,以学生为主体,选择某个基本教学单元为专题,学生自主研究作为知识传递的基本形式,将多种灵活的教学方式综合运用到教学环节的教学方法。根据信管专业培养方案的培养目标、以及对学生调研的情况,实践环节比较适合选择成熟的商务智能工具进行数据的整合和多维数据建模,也就是直接使用现成的;或者使用数据挖掘软件进行数据建模,完善数据挖掘算法。可以针对学生管理基础课与IT基础课知识的掌握情况,选择合适的工具为学生设计综合性实验。实验中给出部分操作步骤,并在实验后期仅给出数据与工具,让学生自己设计数据仓库、进行数据挖掘、并对挖掘结果进行多种形式的展示。

数据挖掘课程设计论文篇(6)

关键词: 数据挖掘技术;课程;教学

Key words: data mining technology;course;teaching

中图分类号:G642.0 文献标识码:A 文章编号:1006-4311(2011)25-0155-01

0 引言

数据挖掘技术是电子商务专业的一门重要专业课程,它是信息化时代对信息与数据管理的必然要求。一方面,在生产、生活和商业活动中,我们产生了海量的数据,这些数据有着不同的表现形式,如最常见的超市记录单、各种各样的公司或商业数据库,还包括音频、视频等;另一方面,我们需要从这些数据中寻求规律,对数据进行“挖掘”,使数据发挥更大的作用[1]。数据挖掘正是从大量的数据中提取出隐含的、以前不为人所知的、可信而有效的知识[2]。数据挖掘技术教学的目的就是要使学生掌握典型的数据挖掘技术,并能够运用数据挖掘技术解决实际问题,为今后运用数据挖掘技术解决实际问题打下扎实的基础。

1 数据挖掘技术课程特点

数据挖掘技术具有自己独特的课程特点:

1.1 新颖性 1995年,在加拿大召开了第一届知识发现和数据挖掘国际学术会议(International Conference on Knowledge Discovery and Data Mining),由于把数据库中的数据形象地比喻为“矿床”,“数据挖掘”一词很快流传开来[3]。数据挖掘的发展仅有10余年的时间,数据挖掘技术课程是一门新兴学科。

1.2 内容广 数据挖掘包括关联规则挖掘、分类规则挖掘、特征规则挖掘、时序规则挖掘、偏差规则挖掘、聚类规则挖掘和预测这七大任务,相应的,每种任务都有自己专门的挖掘技术[4],如关联规则挖掘的典型技术为Apriori算法及其衍生技术,分类规则挖掘的典型技术为ID3或C4.5决策树算法及其改进算法等。

1.3 有深度 数据挖掘技术作为一门计算机与数据处理相结合的新兴学科,具有一定的难度。其中的任何一个技术都可以独立成篇,如粗糙集分类算法自原理至实例推广就是一门单独的课程;作为数据处理的重要内容,聚类算法同样可以独立成籍。

1.4 交叉性 诚如前面所述,数据挖掘技术有着广泛的支撑背景,既包括信息论方法和集合论方法等归纳学习类技术,又包括神经网络方法、遗传算法方法、蚁群算法等仿生物技术,还包括成熟的统计分析技术和模糊数学技术,此外还有公式发现类技术和可视化技术等。可以这样说,数据挖掘总是在广泛吸取其他各门学科的先进技术,并加以转化、发展的。

2 数据挖掘技术教学过程存在的问题剖析

数据挖掘技术作为一门新学科、新课程,发展迅速,但是其缺点也是不言而喻的,主要包括:

2.1 课程教材不统一 目前,数据挖掘技术的教材层出不穷,这些教材尽管总体涵盖内容相近,均自成体系,但是有的细节却并不一致,如多数教材主张采用E-R图进行数据仓库(数据挖掘通常总是与数据仓库连接在一起的)设计,但也有教材持反驳态度[3];对数据仓库系统的体系结构说法也不尽一致,不同的教材给出不同的体系结构,有的甚至将数据结构等同于体系结构[5]。这主要是由于学科和课程的新颖性导致的,使得教材的编写多带有研究探索的性质,未能达成统一。

2.2 教学重点不统一 教材的不统一和学时的不统一(如有的院校是36课时,有的是48课时)导致教学重点也不统一,有的考虑到学生掌握知识的浅显性,将重点放在统计分析技术,而对神经网络技术和遗传算法技术等相对较难的技术一笔带过;有的则考虑到体系的完整性,对所有数据挖掘技术等同对待,均匀笔墨。

2.3 教学方式不统一 数据挖掘技术是一门实验技术较强的课程,但是有的教师在安排授课时,仅设置理论课时,没有实验课时;有的教师则将课程直接放在实验室来上,偏重于对学生实验技巧的掌握。当然,更多的是将实验课时与理论课时交错进行的。对实验安排的处理也不尽相同,有的分组进行,有的则由学生独立完成。

3 提高数据挖掘技术课程效果的对策建议

3.1 精心编排课程讲义 课程教材是授课的首要基础,一本好的教材不仅便于教师的备课、授课,更有利于学生的理解。当然,教材与课时、教学大纲有着密切关系,教师在选择教材时应充分考虑学生的学科基础、授课课时数、教学大纲规定的培养目标等各种因素,从大量层出不穷的教材中选择最理想的教材,适当的时候也可根据相关教材,整理一份恰当的讲义教材,组织学生使用。

3.2 合理安排教学内容 数据挖掘技术的教学内容应考到学科体系的完整性,既要为学生打牢理论基础,又要突出学生实践能力的培养。因此要以“掌握理论、强化应用、突出能力”作为数据挖掘技术课程的培养目标,通过精选具有充分代表性、源于实际问题的典型例题与案例,使它们能基本覆盖在实际中最常见的数据挖掘问题,在讲解这些从实践中抽取并经过精心改造和设计的例题和案例的过程中,逐步地建立起学生应该掌握的数据挖掘技术理论框架。

4 结束语

数据挖掘技术教学具有十分重要的现实意义,通过科学讲述数据挖掘技术,有助于培养学生对理论知识的现实应用转化能力,培养学生从现实世界出发提出问题、分析问题和解决问题的能力。数据挖掘技术的教学应以培养学生能力为主线,精心组织教学内容,有效采用多种方式,增进学生对知识的理解与掌握,显著提高教学效果与质量。

参考文献:

[1]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.

[2]Jiawei Han,Micheline Kamber著.范明,孟小峰译.数据挖掘:概念与技术[M].北京:机械工业出版社,2007.

数据挖掘课程设计论文篇(7)

中图分类号:C37文献标识码: A

一、前言

网络技术在不断发展,科学技术也在不断进步。高校的信息化建设也蒸蒸日上。如何把数据挖掘技术很好的应用到学校的信息化建设中是学校在信息化建设中十分重要的一个研究课题。从数据挖掘的定义和特点开始分析,对其中的一些问题展开讨论。

二、高校网络教学平台信息化建设的现状

随着我国高等教育规模的快速发展、信息技术的广泛应用,我国高等教育的教学理念、教学模式、教学环境和教学手段等都有了重大变革,课程教学模式与教学管理模式得到了不断的改进。网络教学平台以其灵活的、开放的、基于资源的特点日益成为现代教育过程中不可替代的部分,不断增长的学生需求和网络所提供的开放式学习机会为网络教学平台的研发、应用和推广提供了优越的发展空间。然而,由于近年来许多高校不断扩招,造成了在校学生规模的剧增,给学校的教学工作带来了许多影响教学质量的问题。而现今的网络教学平台,多是提供教学大纲、教学课件、授课教案、单元测试等教学资源,供学生课后学习。通过信箱、留言板、课程论坛等提供师生实时或非实时的交流。这样的教学平台,只能将知识给学生,而在学生访问教学平台的过程中,学校并无法获知学生的反馈信息。而实际教学工作展开的过程中,教师需要得知学生的学习过程中出现的问题和状况,并且提供帮助,以此来确保教育教学工作的全方位展开,为课程改革的推行做出贡献,充分利用网络教学平台,把资源合理的优化使用。

三、数据挖掘技术

通过笔者的分析可以看出,我国的高校信息化建设还存在许多不足。其中比较突出的问题是在传统的网络教学平台中,学校无法通过学生的活动对学生未来的发展趋势或者是规律做出预判。随着技术的不断发展,越来越多的高校开始考虑将数据挖掘技术应用到网络教学平台中,通过对学生点击访问教学平台的数据进行分析和挖掘,对学生学习方式、学习态度、知识的把握度、学习反馈等有了科学的了解,对今后的教学改革、课程设置、教学平台设置等工作提供了决策支持。

1、数据挖掘定义

数据挖掘是一门新兴的学科,它主要是面向决策支持,为决策者提供有价值的信息。数据挖掘又是一个交叉性的科学领域,涉及数据库技术、统计学理论、机器学习技术、模式识别技术、可视化理论和技术等。有人从商业角度将数据挖掘(Data Mining)定义为:数据挖掘在商业活动中的主要作用是对商业活动中的业务数据进行分析处理,用模型化的方法对数据进行全方位分析,帮助减少商业活动中的风险,帮助企业管理者做出决策。

2、数据挖掘分类

由于所用的数据挖掘方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的不同,从而产生了大量的、各种不同类型的数据挖掘。

(一)根据所挖掘数据库类型的不同来分类,可以分为:关系型数据挖掘、对象型数据挖掘、对象-关系型数据挖掘、事务型数据挖掘、数据仓库的数据挖掘。

(二)根据所挖掘的知识类型来分类,可以分为:特征化、区分、关联、分类、聚类、孤立点分析(异常数据)和演变分析、偏差分析、相似性分析等分类。

(三)根据所采用技术,可以分为:自动数据挖掘、证实驱动挖掘、发现挖掘和交互式数据挖掘。

(四)根据数据挖掘应用来划分,可以分为:金融数据的数据弯角、电信行业的数据挖掘、DNA序列数据挖掘、股票市场数据挖掘、WWW数据挖掘等。

不同的应用通常需要集成对于该应用特别有效果的方法,因此,普通的、全功能的数据挖掘并不一定适合特定领域的数据挖掘任务。

3、数据模块中采用的几项典型技术如下:

(一)聚类分析。聚类是把一组数据对象设计成一类,以便让同一类中的对象具有最高的相似性。而类间具有最大的差异性,这种方法被用于机器学习、模式确认、图象分析、信息检索等领域。

建立的每一个聚类可以看成是一类对象,通过它导出规则。聚类在教育中的应用能帮助机构组合学生个人相似的班,把学生分成类,以便使学生在一类中相互之间更相似,或者说水平更平均。

(二)决策树。决策树是一种决策支持工具,它使用树型图显示可能的结果,包括概率事件结果和源的关系,成本和用途功用,它是一种方式显示一种算法。决策树常被用于行为研究特别是决策分析,去帮助识别一种策略,主要是要达到的目标;决策树作为一种描述性工具手段用于计算条件概率;决策树还可以用于分析一个机构的准入规则。同时它对小数据样也能给出好的结论。这种方法能适用于不同数量级的编目变量。

(三)关联规则。反映一个事件和其他事件之间依赖或关联的知识,如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测,可以用关联规则的形式表示规则形式。

(四)分类。找出描述或识别数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象。

(五)回归。通过构造函数以符合数据变化的趋势,这样可以用一个变量预测另一个变量。

四、数据挖掘在高校教育信息化中的应用

高校教育信息化是整合先进的技术,运用到高校教育管理体系之中,使教育教学、管理工作和校园的文化生活更网络化、信息化,提高教育质量和效率,形成一种全新的教育和管理模式。高校教育信息化所产生和积累的数据,为我们进行数据挖掘提供了有效的数据。数据挖掘可以应用到高校教育信息化的各个方面,如教学评价、课程设置、网络教育、分析学习者特征、干预师生行为、辅助考试等方面。

1、教学评价

教学评价就是根据教学目标、原则的要求,利用收集到的信息对教学活动以及教学成果进行评价的过程,主要包括对学生学和对教师教的评价。随着信息化的快速发展,高校教育信息化积累了大量的学生成绩、行为纪律、处罚奖励等数据,利用数据挖掘的方式来进行分析处理,可以客观准确的得到学生的评价结果,及时纠正学生的不良的学习行为,同时还能尽量避免教师因主观作用对学生做出的不公平的、不客观的评价。将数据挖掘的关联规则运用到教学评价的数据中,使教师能够认识到自身的教学情况以及学生的学习和个性特点,并给予合理的意见,对今后的教学工作有一定的指导意义。

2、合理设置课程

高校学生所进行的课程学习是循序渐进的,对于课程的学习要一步一步按照先易后难来进行,而且由于教师、学生以及班级的文化氛围的不同,同一年级的不同班级在学习相同课程时也存在很大的差异。这种情况下,教务管理人员和任课教师就很难根据学生的成绩做出客观、合理的判断,从而做出教学进程的决策。因此,要借助于数据挖掘技术,从大量已有数据中挖掘出有用的信息和内容,分析各数据之间存在的关系,找到影响学生成绩的因素,然后在此基础上,对课程设置做出合理的安排。

3、个性化、智能化网络教育

个性化、智能化网络远程教育充分的利用了数据挖掘的技术,远程教育的顺利开展得到保障。首先根据学生所提供的信息,对不同层次的学生提供不同的学习内容和模式,进行因材施教。其次,对已保存的学生的信息进行数据挖掘,利用已有的资源,对课程进行重新组合,使之更符合教学规律。最后通过对学习者学习行为进行数据挖掘,了解学习者的浏览模式,重新进行页面之间的链接,以符合学习者的访问习惯。

4、学习者特征分析

根据系统中已有学生的基本信息、成绩信息、学习过程数据、偏好、知识结构等,利用数据挖掘功能分析学生特征,从获取的知识帮助学生修正自己的行为。教师利用挖掘到的知识帮助学生修正学习行为、提高学习能力。

对学习者特征的分析在教育活动中具有重要的地位。它不仅是教学设计的前提,是教学成功的关键。学习者特征包括学习者的知识结构和学习风格。学习者的知识结构是学习者已经学习的或即将学习的内容。学习风格包括学习者的生理、心理和社会特征。利用数据挖掘来分析学习者的特征,不仅有助于学习者改进自己的学习行为,而且能提高学习者的学习能力,完善其人格,有利于学习者素质的全面、和谐发展。

5、在教学评价方面的应用分析

高校信息化系统长期运行中产生了海量数据,学籍数据、考勤纪律、招生就业、奖惩等各方面的数据累积在信息系统中,通过使用数据挖掘技术可帮助教师、学生、学校管理决策者有效地利用这些数据,建设有效的评价系统。

6、就业预测分析

通过对历史中毕业生的就业数据进行数据挖掘,对毕业生就业因素的相关性进行分析,如综合成绩,英语成绩,计算机成绩,是否学生干部等,对学生能否就业的影响因素进行挖掘,得出毕业生的就业预测模型,这样可以对学生未来是否能就业,对就业作出预测,对就业好的学生类型推广,对不易就业的学生类型,修改培养方案和模式。

五、结束语

通过数据挖掘技术可以加强高校的信息化建设水平,对学生的学习和就业能够进行有效的指导,对高校的整体发展也有促进的效果和作用。希望各大学校能够加快对数据挖掘技术的学习和应用,以此来促进自己学校的建设和发展。

参考文献

[1] 胡春红.数据挖掘技术在高校信息化管理中的应用[J]. 长江大学学报(自然科学版)理工卷. 2010年03期,11-12

[2] 孙中祥,彭湘君,杨玉平,贺一.数据挖掘在教育教学中的应用综述[J]. 智能计算机与应用. 2012年01期,99-100

[3] 余永红,向晓军,高阳,商琳,杨育彬.面向服务的云数据挖掘引擎的研究[J]. 计算机科学与探索. 2012年01期,45-46

[4]胡春红 数据挖掘技术在高校信息化系统中的应用长江大学学报(自然科学版)理工卷2010-06-15期刊,15期,67-69页

[5]徐建锋; 董桂娟; 朱颖; 袁家三 谈数据挖掘技术在高校图书馆中的应用吉林化工学院学报2008-10-15期刊,15期,109-110页

[6]黄小红; 王倩 数据挖掘技术在高速铁路SCADA中的应用研究中国电气化铁路两万公里学术会议论文集2005-12-01中国会议,12期,88-89页

数据挖掘课程设计论文篇(8)

中图分类号:TP319文献标识码:A文章编号文章编号:1672-7800(2013)012-0121-02

基金项目:江苏省职业技术教育学会职业教育立项课题(2013012)

作者简介:孙雪娟(1977-),女,无锡高等师范学校讲师,研究方向为计算机教学。

1系统设计背景

随着信息化技术的不断推进,利用校园网共享网络教学资源,构建网络教学环境,并可进行交互、协作和开放式的教学已成为重要的教学方式之一。通过对学生使用系统所产生的信息数据进行数据挖掘,得到学生学习兴趣、学习习惯、学习不足等个人信息,用以指导教师教学。为学生提供个性化、智能化的网络教学系统成为当下教学系统的主流。

软件专业是实践性非常强的一个专业,学生学习程序设计语言类课程只有通过大量的编程训练,才能理解理论课所教授的知识点。但传统的教学偏重于采用“以教师为中心,教师讲、学生听”为特征的教学模式,忽视了计算机语言实践技能训练的重要性,从而缺乏对学生的个性化教学和知识再生能力的培养。对无锡高等师范学校软件专业学生的调查表明,因为课堂时间有限和教师与学生数量配比低,很多学生认为实验课程缺乏教师的帮助与指导,导致学习效果不理想。因此,在有限的客观条件下,进一步丰富课后自主学习资源,增加学生自主学习的时间和空间,使学生的学习不仅仅局限在课堂及实验课上,无疑是改善教学效果的有效方法。

2系统模块组成与流程设计

2.1系统功能模块组成

本教学系统预设定以下几个模块:课程资源、RSS定制、教学博客和会员中心等。

课程资源模块提供相关课程的教学信息、课程电子教案、课件、开放工具软件、免费电子书籍与参考资料、相关技术文章、相关课程练习与考试试题及参考答案等资源。

RSS定制模块将Web2.0技术之一的RSS技术应用于该系统建设中,使得学生能够在大量的教学内容中快速获取自己感兴趣的教学内容,从而实现个性化的学习过程。

教学博客模块按照课程和专题分类提供教师日常教育教学中遇到的问题或收获,同时该模块也可作为教师和学生课后的在线交流平台,针对具体问题进行交流以弥补课堂教学的不足。

会员中心模块主要负责对用户权限、密码、数据备份与安全等进行管理,对各项上传数据进行审核整理等。

2.2系统流程设计

该软件系统分为学生、教师两种不同的身份注册,身份不同,拥有的权限也不同。学生进入系统后学生利用系统提供的教学资源进行在线学习,与教师和同学进行在线交流、网上作业、网上实验。学生使用系统中产生的数据由数据挖掘算法对其进行挖掘分析,并给出相应的教学评价和建议,从而实现个性化教学的目的。教师进入系统后主要进行教学资源的上传、管理自己的博客,并对题库进行更新等;同时与学生进行在线交流、在线作业布置和批阅,可获得相应的学生各项成绩,并对题库进行更新等。

3关键技术

3.1Web2.0技术

Web 2.0的概念是2004年始于出版社经营者O'Reilly和MediaLive International之间的一场头脑风暴论坛。Web2.0是与互联网有关的一系列技术发展到一定阶段后应用门槛逐步降低,且技术与需求得以很方便地结合,从而产生的一次大规模的应用普及。Web2.0代表着互联网发展的新理念,逐渐成为该领域发展的热点和主流。Web2.0倡导用户主导、用户参与、用户分享、用户创造,最大限度地帮助用户实现个性化生产和满足用户个性化需求就是Web2.0服务的中心内容。目前,有关基于Web技术的智能教学系统的研究和开发逐渐成为国内外研究的热点,Web技术已成为智能教学系统不可缺少的技术。本系统拟采用Web2.0技术,一些人把Web 2.0看作是WWW发展的一个新阶段,这一阶段从架构到应用都显现出一些显著的特征。

Web2.0的特性表现在如下方面:

(1)多人参与,发挥的是个人的力量。每个人都是内容的供稿者,个人深度参与到互联网中,而不是作为被动的客体,这是一场革命性的变化。当然,这里的个人不是孤立的个人,而是彼此相连。

(2)可读可写互联网,交互能力强。Web2.0是“可写可读互联网”,发挥的是自组织的力量。个人与个人之间,创造的内容与内容之间,以及汇聚的群体与群体之间,都是以不同的自组织方式架构起来。以自组织的方式让人、内容和应用等充分“活动”起来,力量才能最大程度地爆发。

(3)Web2.0提供博客服务、简易信息聚合(RSS)、对等网络(P2P)、社区信息资源共享服务、集体编辑服务和社会性书签等服务。

总结而言,Web2.0实际上是对各信息源进行扩展,使其多样化和个性化的网络平台。

3.2数据挖掘技术

3.2.1数据挖掘概念

数据挖掘简单来说是从大量不规则的数据中寻找规律的技术。从人工智能和数据库领域研究的角度看,数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的、具有潜在价值信息的非平凡过程。数据挖掘是多种技术结合的产物,主要包括人工智能、数据库、统计学、模式识别、可视化技术等。数据挖掘技术的分析方法有很多,比如关联规则分析、聚类分析、分类分析、回归分析、序列模式分析等。

3.2.2数据挖掘过程

(1)创建数据源。数据挖掘的处理对象是大量的数据,根据用户需求,选择恰当的信息收集方法和合适的数据存储管理方式将收集到的信息存入数据库。

(2)数据预处理。在系统使用过程中,会在数据库存储大量的积累数据,但这些数据往往不适合直接进行知识挖掘,通常在挖掘之前,要对这些数据进行数据预处理,具体的方法是选择相关数据、消除噪音、推算遗漏数据、消除冗余数据、数据类型转换等处理。完整、正确、一致的数据信息将有利于数据挖掘的效率和准确度。

(3)数据挖掘。数据挖掘的实施,仅仅是整个数据挖掘过程的一个步骤。数据挖掘常用的算法有关联规则分析算法、聚类分析算法、序列模式分析算法等。根据预处理后数据库中的数据信息,选择合适的分析算法,选取相应算法的参数,并分析数据,得到可能形成知识的模型。

(4)评估模型。实施数据挖掘所获得的模型,需要进行评估分析,以便有效发现那些没有实际意义的知识模型。这些初始模型所获得的模式有些可能不满足挖掘任务的需要,有些可能存在冗余,甚至有些情况下与事实相反。评估的方法可以直接用数据来检验其准确性,其中数据可以是原先建立的挖掘数据库中的数据,也可以另找一批数据并对其进行检验, 或者是在实际运行的环境中取新数据进行检验。

最后,需要对建立的模型进行可视化表示,将挖掘结果转换为用户易懂的另一种表示方法。数据挖掘过程是一个不断反馈修正的过程,无论哪个步骤如果没有达到预期目标,就需要退回到前面的挖掘步骤,重新选择数据,采用新的数据变换方法,设定新的参数值,甚至换一种数据挖掘算法。

3.2.3数据挖掘在本系统中的应用

教学系统要想做到因材施教,为学生提供个性化教学,数据挖掘技术的应用尤为重要。教学系统的后台数据库能够保留大量与学生相关的数据,但数据不是信息,如何从海量的数据资源中挖掘所蕴涵的有益信息是该系统研究的重点。

本系统中,学生的注册信息、学生的行为信息、课件库都可以作为数据挖掘的数据资源库。本文在此列举几种数据挖掘分析的基本算法在该系统中的应用。

(1)关联分析。关联分析是数据挖掘领域常用的一类算法,主要用于发现隐藏在数据库中有意义的联系,在此算法中支持度和置信度是重要的参数。支持度用来衡量某一给定数据集的频繁程度,置信度用来衡量某一数据集在特定事务中出现的频繁程度。本系统中,通过对学生各课程中知识的兴趣点、疑问知识点、各知识点分配的时间等数据的关联分析,可以发现知识点之间的关联,掌握学生学习情况,并给出相应的评价和一些学习建议。

(2)序列模式分析。序列模式挖掘有基于时间或者发现序列等的模式分析方法,其侧重点在于分析数据间的前后或因果关系。学生学习系列知识需要掌握前后的知识点,特别是软件专业的学习,系列性较强,在时间有序的事务集中,找到那些“一些项跟随另一些项”的内部知识的联系对学习非常有帮助。学习活动序列模式挖掘问题由于其数据源和需要挖掘的模式的特殊性,因而还有许多问题有待解决。

(3)聚类分析。聚类分析属于探索性的数据分析方法,人们不必事先给出一个分类的标准,从给定的数据出发,自动进行分类。利用聚类分析可以将看似没有任何联系的数据进行分组,归类聚类结果要求组内对象相似性较高,组间对象相似性较低。比如,在学生访问系统的过程中,会参与相关知识领域的讨论,从而产生相应的数据,系统会对相同知识点感兴趣的学生进行聚类。经过分析,这些学生被聚类为一组,系统会自动给该组学生提供有别于其他同学的学习导航,使学生最大程度地受益。

4结语

基于Web的教学系统已成为当今流行的教学形式。但目前使用的大多数教学系统几乎都是静态的,存在交互手段少、不能因材施教等缺点,而在站点上却积累了大量有用的信息,没有被充分利用。本文设计的该系统能够根据学生的具体情况安排教学,如自动的因材施教等,旨在构造一个“以学生为中心”的,基于Web2.0 并使用数据挖掘的个性化教学系统,使其能在平时的教学实践中发挥更大的作用。个性化与智能化是辅助教学发展的趋势所在,基于Web的挖掘技术在教学系统中的应用是一个新的领域,也是一个带有很大挑战性的课题,必将有力地推动教学系统及相关学科的不断发展和进步,其无疑具有深刻的理论和实践意义。

献参考文献:

[1]张荣梅,彦峰,晓林.基于Internet 网络教学系统的设计与实现[J].现代远距离教育,2005(2).

数据挖掘课程设计论文篇(9)

摘要:学习成绩是评价学生素质的重要方面,也是教师检验教学能力、反思教学成果的重要标准。利用大连民族大学统计学专业本科生有关数据(专业基础课成绩、平时成绩和回归分析期末成绩),建立多元線性回归模型,对影响回归分析期末成绩的因素进行深入研究,其结果对今后的教学方法改进和教学质量提高具有十分重要的指导意义。

关键词:多元线性回归;专业基础课成绩;平时成绩;期末成绩

为了实现教学目标,提高教学质量,有效提高学生学习成绩是很有必要的。我们知道专业基础课成绩必定影响专业课成绩,而且平时成绩也会影响专业课成绩,这两类成绩与专业课成绩基本上是呈正相关的,但它们之间的关系密切程度有多大?它们之间又存在怎样的内在联系呢?就这些问题,本文主要选取了2016级统计专业50名学生的四门专业基础课成绩以及回归分析的平时成绩和期末成绩,运用SPSS统计软件进行分析研究,寻求回归分析期末成绩影响因素的变化规律,拟合出关系式,从而为强化学生的后续学习和提高老师的教学质量提供了有利依据。

一、数据选取

回归分析是统计专业必修课,也是统计学中的一个非常重要的分支,它在自然科学、管理科学和社会、经济等领域应用十分广泛。因此研究影响统计学专业回归分析成绩的相关性是十分重要的。

选取了统计专业50名学生的专业基础课成绩(包括数学分析、高等代数、解析几何和概率论)、回归分析的平时成绩和期末成绩,结合多元线性回归的基础理论知识[1-2],建立多元回归方程,进行深入研究,可以直观、高效、科学地分析各种因素对回归分析期末成绩造成的影响。

二、建立多元线性回归模型1及数据分析

运用SPSS统计软件对回归分析期末成绩的影响因素进行研究,可以得到准确、科学合理的数据结果,全面分析评价学生考试成绩,对教师以后的教学工作和学生的学习会有较大帮助。自变量x1表示数学分析成绩,x2表示高等代数成绩,x3表示解析几何成绩,x4表示概率论成绩,x5表示平时成绩;因变量y1表示回归分析期末成绩,根据经验可知因变量y1和自变量xi,i=1,2,3,4,5之间大致成线性关系,可建立线性回归模型:

(1)

线性回归模型通常满足以下几个基本假设,

1.随机误差项具有零均值和等方差,即

(2)

这个假定通常称为高斯-马尔柯夫条件。

2.正态分布假定条件

由多元正态分布的性质和上述假定可知,随机变量y1服从n维正态分布。

从表1描述性统计表中可看到各变量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的标准差分别为10.847,11.531,8.929,9.018,9.221,y1的标准差为8.141;有效样本量n=50。

回归分析期末成绩y1的多元回归模型1为:

y1=-5.254+0.221x1-0.4x2+0.154x3

+0.334x4+0.347x5

从表2中可以看到各变量的|t|值,在给定显著水平?琢=0.05的情况下,通过t分布表可以查出,自由度为44的临界值t?琢/2(44)=2.015,由于高等代数x2的|t|值为0.651小于t?琢/2(44),因此x2对y1的影响不显著,其他自变量对y1都是线性显著的。下面利用后退法[3]剔除自变量x2。

三、后退法建立多元线性回归模型2及数据分析

从模型1中剔除了x2变量,多元回归模型2为:

y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)

在表4中,F统计量为90.326,在给定显著水平?琢=0.05的情况下,查F分布表可得,自由度為p=4和n-p-1=45的临界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自变量的|t|值都大于t?琢/2(45)=2.014,因此,多元回归模型2的线性关系是显著的。

四、结束语

通过对上述模型进行分析,即各个自变量对因变量的边际影响,可以得到以下结论:在保持其他条件不变的情况下,当数学分析成绩提高一分,则回归分析成绩可提高0.242分[4-5];同理,当解析几何成绩、概率论成绩和平时成绩每提高一分,则回归分析成绩分别提高0.149分、0.377分和0.293分。

通过对学生专业基础课成绩、平时成绩与回归分析期末成绩之间相关关系的研究,一方面有利于教师把控回归分析教学课堂,提高教师意识,注重专业基础课教学的重要性,同时,当学生平时成绩不好时,随时调整教学进度提高学生平时学习能力;另一方面使学生认识到,为了更好地掌握回归分析知识,应加强专业基础课的学习,提高平时学习的积极性。因此,通过对回归分析期末成绩影响因素的研究能有效的解决教师教学和学生学习中的许多问题。

统计学毕业论文范文模板(二):大数据背景下统计学专业“数据挖掘”课程的教学探讨论文

摘要:互联网技术、物联网技术、云计算技术的蓬勃发展,造就了一个崭新的大数据时代,这些变化对统计学专业人才培养模式的变革起到了助推器的作用,而数据挖掘作为拓展和提升大数据分析方法与思路的应用型课程,被广泛纳入统计学本科专业人才培养方案。本文基于数据挖掘课程的特点,结合实际教学经验,对统计学本科专业开设数据挖掘课程进行教学探讨,以期达到更好的教学效果。

关键词:统计学专业;数据挖掘;大数据;教学

一、引言

通常人们总结大数据有“4V”的特點:Volume(体量大),Variety(多样性),Velocity(速度快)和Value(价值密度低)。从这样大量、多样化的数据中挖掘和发现内在的价值,是这个时代带给我们的机遇与挑战,同时对数据分析技术的要求也相应提高。传统教学模式并不能适应和满足学生了解数据处理和分析最新技术与方法的迫切需要。对于常常和数据打交道的统计学专业的学生来说,更是如此。

二、课程教学探讨

针对统计学本科专业的学生而言,“数据挖掘”课程一般在他们三年级或者四年级所开设,他们在前期已经学习完统计学、应用回归分析、多元统计分析、时间序列分析等课程,所以在“数据挖掘”课程的教学内容选择上要有所取舍,同时把握好难度。不能把“数据挖掘”课程涵盖了的所有内容不加选择地要求学生全部掌握,对学生来说是不太现实的,需要为统计学专业本科生“个性化定制”教学内容。

(1)“数据挖掘”课程的教学应该偏重于应用,更注重培养学生解决问题的能力。因此,教学目标应该是:使学生树立数据挖掘的思维体系,掌握数据挖掘的基本方法,提高学生的实际动手能力,为在大数据时代,进一步学习各种数据处理和定量分析工具打下必要的基础。按照这个目标,教学内容应以数据挖掘技术的基本原理讲解为主,让学生了解和掌握各种技术和方法的来龙去脉、功能及优缺点;以算法讲解为辅,由于有R语言、python等软件,学生了解典型的算法,能用软件把算法实现,对软件的计算结果熟练解读,对各种算法的改进和深入研究则不作要求,有兴趣的同学可以自行课下探讨。

(2)对于已经学过的内容不再详细讲解,而是侧重介绍它们在数据挖掘中的功能及综合应用。在新知识的讲解过程中,注意和已学过知识的融汇贯通,既复习巩固了原来学过的知识,同时也无形中降低了新知识的难度。比如,在数据挖掘模型评估中,把混淆矩阵、ROC曲线、误差平方和等知识点就能和之前学过的内容有机联系起来。

(3)结合现实数据,让学生由“被动接收”式的学习变为“主动探究”型的学习。在讲解每种方法和技术之后,增加一个或几个案例,以加强学生对知识的理解。除了充分利用已有的国内外数据资源,还可以鼓励学生去搜集自己感兴趣的或者国家及社会大众关注的问题进行研究,提升学生学习的成就感。

(4)充分考虑前述提到的三点,课程内容计划安排见表1。

(5)课程的考核方式既要一定的理论性,又不能失掉实践应用性,所以需要结合平时课堂表现、平时实验项目完成情况和期末考试来综合评定成绩。采取期末闭卷理论考试占50%,平时实验项目完成占40%,课堂表现占10%,这样可以全方位的评价学生的表现。

三、教学效果评估

经过几轮的教学实践后,取得了如下的教学效果:

(1)学生对课程的兴趣度在提升,课下也会不停地去思考数据挖掘有关的方法和技巧,发现问题后会一起交流与讨论。

(2)在大学生创新创业项目或者数据分析的有关竞赛中,选用数据挖掘方法的人数也越来越多,部分同学的成果还能在期刊上正式发表,有的同学还能在竞赛中取得优秀的成绩。

(3)统计学专业本科生毕业论文的选题中利用数据挖掘有关方法来完成的论文越来越多,论文的完成质量也在不断提高。

(4)本科毕业生的就业岗位中从事数据挖掘工作的人数有所提高,说明满足企业需求技能的人数在增加。继续深造的毕业生选择数据挖掘研究方向的人数也在逐渐增多,表明学生的学习兴趣得以激发。

数据挖掘课程设计论文篇(10)

Key words data mining; association rules; teaching management; teaching plan

0 引言

近几年来华留学生教育进入快速发展时期,我国已经成为国际学生流动的重要目的地国家之一。随着我校留学生规模的不断扩大,如何更有效地对来华留学生进行教学管理已成为一个重要的研究课题。而运用数据挖掘技术,从大量的留学生相关数据中挖掘出一些有价值的信息,将更有利于构建切合我校留学生实际的培养体系,更好地保证培养质量。

一方面,从招生角度上来讲。目前我校留学生的生源渠道主要分为三类:第一类是由中国国家留学基金委直接分配至我校学习的获中国政府奖学金的学生。第二类是学生自己通过网上申请,我校根据学生提供的材料进行审核录取。第三类是由国外大学或中介机构根据协议推荐来我校学习的学生。由于外国留学生来自不同的国家,之前在各自不同的教育体系中接受高中教育,文化课背景差异很大,这就导致生源的质量参差不齐。运用数据挖掘技术可以找到其中有价值的信息,如哪个国家的教育水平相对较高,来自哪个国家的学生平均申请成绩较好,使用何种母语更容易融入中国高校教学等。这为招生工作提供了参考,从招生源头提高留学生质量。

另一方面,从教学管理角度来讲。目前,我校留学生数据库中存放着历届学生的各科考试成绩,海量的数据只是单纯地记载了数据信息,对学生信息、成绩等数据的处理一般还停留在简单的数据备份和查询阶段,如传统数据库技术可以查询最高分最低分和平均分等表层信息,但却无法发现隐藏数据之间的规律或者说有指导意义的知识。大量有价值的信息被淹没在海量数据中。事实上不论是课程与课程之间,还是课程的设置之间,与学生成绩都存在着千丝万缕的联系,现阶段已有的数据并没有发挥其真正的价值,而运用数据挖掘技术则可能更好地发现隐藏在数据背后的丰富信息。通过对学生成绩数据库中所包含的各种类型数据进行相应的处理,如:抽取、转换、分析和模型化处理,从中寻找影响学生学习成绩的众多因素,以及这些因素所涉及到的相关问题。应用数据挖掘技术分析学生的成绩水平,使学生深入了解其在学生整体中的相对位置,由此来调整个人学习计划。同时,帮助教师和学校决策者洞悉教学过程中存在的问题,进而反思教学质量。还可以根据关联规则挖掘得到的一系列有价值的规则,分析检查课程体系的合理性,比如:相关课程之间的衔接与先后顺序是否恰当等,根据分析结果最大限度地优化培养计划和决策。此外,利用数据挖掘技术还可以发现数据中存在的潜在关系与规则,比如:根据学生的出勤次数和作业的上交情况预测学生成绩发展趋势等。为教师的教学环节提供建设性的意见和建议,为学生管理工作提供有价值的决策支持,从而帮助学校做出实时适时的决策调整,使得学生管理工作有的放矢。

1 数据仓库与数据挖掘

1.1 数据仓库

传统数据库在联机事务处理(OLTP)中获得了较大的成功,而传统数据库中只保留当前的管理信息,缺乏决策分析所需要的大量历史信息,故不能满足管理人员的决策分析要求。为了解决这一问题,进行相关决策分析,数据仓库应运而生。简而言之,数据仓库就是能够满足决策分析所需要的数据环境。数据仓库的概念,由“数据仓库之父”W.H.Inmom博士提出:数据仓库是一个面向主题的,集成的、与时间有关的,非易失的数据集合,为管理部门提供决策支持。它实际上是一个特殊的数据库,这种系统称为OLAP系统。本文中我们就利用留学生成绩数据库中的各种类型的数据建立相应的数据仓库,为数据挖掘提供数据平台。

1.2 数据挖掘

近年来随着信息技术的迅猛发展,人们所拥有的数据信息急剧增大。如何从大量随机的数据中挖掘出一些有价值的信息,成为一个重要的研究课题,由此带动了数据挖掘技术的产生和飞速发展。数据挖掘就是从大量的,不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又有潜在的有用信息和知识的过程,是数据库中的知识发现的核心。可以说,有数据积累的地方,就有数据挖掘技术的用武之地。

数据挖掘的分析方法分为:聚类分析,关联分析,时序模式分析和分类分析。其中聚类分析是指通过数据本身具有的相似特点把海量数据集归纳为若干个簇,即“物以类聚”。同一簇中的数据之间相距小,相似度高;不同簇中的数据之间相距较大,数据相异度高。关联分析是指利用关联规则进行数据挖掘,其主要评价标准有:支持度、置信度、兴趣度等。本文中我们将数据挖掘技术与留学生教学管理相结合,挖掘在留学生教学管理中隐藏的有价值的信息,为留学生管理提供决策指导与决策支持。

2 数据挖掘在教学领域中的应用

数据挖掘与数据仓库相结合,是完成决策分析的关键因素。教务数据主要存储在关系型数据库中,其主要任务是执行联机事务和查询处理,对其中大量的教学信息及数据的应用仅限于某些单方面的分析,而缺乏相关的综合分析,大部分数据难以再次利用,不能满足决策分析的要求,为此需要对各种类型的数据进行抽取,转换、汇总加载到留学生成绩数据仓库中,借助数据挖掘技术,为教学提供决策支持服务。

在留学生成绩数据库中,包含着多种类型的数据,它们既相互独立又相互联系。运用数据仓库的理论和方法,对这些数据进行适当的预处理,即可产生支持教学决策所需要的信息。留学生成绩仓库的应用模型如图1所示。

根据留学生成绩的特点,以学生成绩分析为主题建立星型结构的留学生成绩仓库。星型结构主要由事实表与维度表两部分构成。事实表是星型模型的核心,维度表是事实表的附属表,一个事实表一般拥有一组维度表,每个维度表都通过主键与事实表相连,维度表之间通过事实表的中介相互建立联系。该数据仓库主要涉及到的信息有:留学生基本信息,教师信息,课程信息,试卷信息,知识点信息及专业信息等。星型结构的留学生成绩数据仓库的具体构建情况如图2所示。

2.1 数据挖掘在成绩分析中的应用

定性评价在生活中有着广泛的应用,我们往往把学生成绩硬性地划分为:优、良、中、差四个等级。而这种传统的硬性区间划分法,存在着众多弊端。例如将成绩90分定为“优”,而成绩79分确定为“良”,这往往只是根据经验但却缺乏理论指导,而实际上二者之间并没有那么明显的差距。如果我们利用数据挖掘中的聚类分析法对学生成绩进行适当处理,就可以有效地对学生成绩进行等级划分,为学生学习和教师的教学提供更合理的参考标准。在合理的等级划分基础上,我们就可以利用关联规则挖掘技术对学生成绩进行多角度、多方向的深入分析,获得可以为教学工作提供决策支持的有价值的隐藏规则。比如:学生成绩的好坏跟作业上交情况有着明显的关系,该规则说明教师可以通过及时督促学生上交作业来提高学生成绩。此外,我们也可以采用决策树挖掘技术来分析影响学生某门课程成绩的主要因素。比如:针对学生出勤率,作业上交情况,国籍,学生中英文水平四个因素对学生成绩的影响程度进行决策树挖掘分析,我们发现学生出勤率、作业上交情况以及学生的中英文水平是影响学生成绩的主要因素,而国籍则是次要因素。由此说明较高的出勤率、良好的作业上交情况以及较好的中英文水平是学生取得良好成绩的重要保障。

2.2 数据挖掘在培养计划制定中的应用

培养计划对一个专业的学习至关重要,一个好的培养计划将会获得事半功倍的效果,反之,将会产生事倍功半的结果。目前我校对于本科留学生虽然部分课程有全英文授课模式,但是就培养方案、教学计划来讲,大部分课程与本专业国内学生的几乎一样。而我国大学课程大纲的起点都是按照和国内高中毕业的程度衔接制定的,特别是数理化这样衔接性很强,对基础和选修课程要求很高的课程,大部分留学生不能跟上学习进度,教学效果较差,学习困难较大。

传统的教务系统无法为留学生的培养计划的制定提供建设性的决策支持。然而,利用数据挖掘技术对留学生信息维表,课程维表和学生成绩维表进行关联规则挖掘,则可以找出不同课程之间的关联,从而为留学生单独制定一套行之有效的特殊培养方案,适当调整外国留学生的必修和选修课程,提高教学效果和质量。如对石油工程专业留学生课程成绩进行关联规则挖掘,获得等级为“优”的课程之间存在的有价值的规则,如表1所示。

相应的规则解释有:(1)规则2 表明,“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程的信任度为88.3%,因此“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程比较合理。(2)规则3表明,“理论力学”作为“材料力学”先行课的信任度为90.6%,所以“理论力学”作为“材料力学”的先行课程比较合理。(3)规则4表明,“理论力学”和“材料力学”作为“油田开发地质”的先行课程的信任度为86.0%,所以“理论力学”和“材料力学”作为“油田开发地质”的先行课程比较合理。综合(1)(2)(3)可知,高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质这四门课程的合理开课顺序应该是:(1)高等数学(Ⅱ)(I ,II)(2)理论力学(3)材料力学(4)油田开发地质。如果对上面列出的规则进行多次推导,可以得出“石油工程”这个专业大致合理的开课顺序:(1)高等数学(Ⅱ)I、高等数学(Ⅱ)II;(2)高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质;(3)测井综合解释,钻井工程、油藏工程、气藏工程,石油工程的全面设计;(4)环境保护在石油和天然气领域,强化开采理论。

由上述的关联规则及相应的结果解释,我们可以清楚地看到,相关课程成绩之间存在较高的关联程度,先行课程的学习情况将直接影响其后续课程的学习。我校即可根据上述结论为学习“石油工程专业”的本科留学生合理安排课程顺序,使其获得良好的学习效果。

2.3 数据挖掘在留学生选课方面的应用

高校愈来愈注重个性化人才培养,学校教育方式越来越人性化、多样化,学生自主选课就成为课程改革的必然产物。但由于留学生初到中国对环境的不熟悉,包括一开始的语言障碍、沟通障碍,显然对中国高校的课程设置了解有限,这样有可能致使他们选课仅仅是凭表面感觉来进行。如:学生在选择“中国概况”这门课的时候,可能仅仅是因为对中国历史文化的好奇,而并不了解应如何合理选择其他相关课程来加深对这门课程的理解。“中国概况”这门课程需要有一定中文语言基础,盲目选课将导致留学生对中国概况的学习仅限于皮毛,而不能深入了解中国历史文化。

现有的选课系统不能为学生选课提供建设性意见,但如果利用数据挖掘技术对学生汉语成绩进行关联规则挖掘,找出课程之间的关联,就可以在学生选择某门课时为其推荐相关课程,完善学生在该领域的学习体系。若获得如下规则:“中级汉语”和“中国概况”成绩等级为“优”;该规则说明汉语水平高低与中国概况的了解程度有较强的关联程度,所以我们在学生选择“中国概况”这门课程的时候,就应当向其推荐“中级汉语”,从而加强学生对该课程的学习。

2.4 数据挖掘在教学中其他方面的应用

数据挖掘课程设计论文篇(11)

1.1 大数据含义 大数据是网络技术发展到一定阶段出现的新兴名词,是指数量巨大、结构复杂、类型众多的数据构成的集合,大数据是以云计算的共享平台为基础,通过数据的交叉复用,形成新的智力资源和知识服务能力。大数据处理需要分布式计算机构架才能完成,仅依靠单台的计算机无法实现大数据处理,因此大数据处理就是借助云计算的分布式处理、分布式数据库、虚拟存储技术对大量数据进行整合处理的过程。

1.2 大数据特征 大数据具有数量大(Volume)、类型多(Variety)、价值高(Value)和速度快(Velocity)的特点,简称为“4V”。大数据处理的数据规模不断扩大,已经由GB、TB级扩展到EB或ZB级,这是普通计算机硬盘容量所无法达到的;大数据对象包括结构化数据、半结构化数据以及非结构化数据,存储对象由传统的文本内容扩展到了音频数据、视频数据、搜索引擎中关键词等,其数据的类型繁多复杂;数据之间的关联性不断加强,已经对社会经济、系统、信息学、网络学以及心理学等多个领域产生了深远影响;大数据的产生形式以数据流为主,能瞬时产生,具有很强的动态性和时效性。

2 《数据挖掘》课程教学探讨

2.1 教学内容 《数据挖掘》是一门综合性的学科,学科内涉及的主要内容有数据库技术、统计学、信息检索、计算机技术以及可视化技术等,需要不同的学科交叉学习,因此,该课程具有很高的理论性和实践性。在教学过程中,不仅要注重基础理论知识的培养,还要加强对学生创新能力以及问题解决能力的培养。课程的知识结构可按照表1所示组建。

数据挖掘前需要进行预处理,然后才能存入数据仓库,再利用相关的挖掘工具和算法,按照挖掘流程进行数据挖掘,最后将挖掘结果以可视化的形式展示出来。在整个教学过程中,教学重点是挖掘工具和挖掘算法,其中挖掘工具主要有通用挖掘工具和专用挖掘工具两类,而挖掘算法则包括分类法、关联分析法、聚类法等10种方法。学生不仅要了解各类算法的相关概念,还要能利用算法对实例进行分析。

2.2 《数据挖掘》课程教学探索

2.2.1 培养数据意识 《数据挖掘》是以数据为驱动的理论分析和应用课程,具有抽象性和具体性,抽象性是指数据挖掘过程中的理论、技术和方法具有很强的抽象性,学生在有限的时间内无法理解和消化;具体性是指研究内容比较客观,具有一定的解释性和理解性。针对以上特点,教师在组织教学时,应先培养学生的学习兴趣,使学生产生一定的数据意识。具体安排时,可先安排2-4个学时讲解数据及其主要应用,让学生对大数据的产生、影响和应用等内容做初步了解,使学生对该课程的学习目的和实际意义产生客观认识。

2.2.2 深化基础,加强理论体系 大数据特征对数据分析技术提出了更高的要求,现有的数据分析技术难以满足实际需求,这就说明了数据挖掘技术的应用和发展将面临更严峻的考验。数据挖掘技术涉及的知识内容较多,在大学课程体系中难以全部开设,给学生的学习带来很大阻碍。为解决以上问题,开封大学采取措施:将《数据挖掘》课程授课对象设定为高年级学生,经过两年或三年基础课程的学习,学生已经具备了一定的理论基础,在学习《数据挖掘》课程中,就可节约大量时间学习课程的核心内容。

2.2.3 教学方式多样化 理论来源于实践,也可以指导实践;实践是检验理论的唯一途径。《数据挖掘》具有很强的抽象性,学生无法在有限的学习时间内对众多概念产生足够清晰的认识,只能借助实践教学使学生明白课程内容的原理及其实用价值。在讲解基本概念、原理或者算法时,可采取案例教学法、任务驱动教学法、项目教学法等,将理论与实践相结合,提高学生的学习兴趣和操作能力。因此教师应在教学过程中注意教学方法的选择和使用,充分体现出学生的主体地位和教师的主导作用,通过一系列理实一体化教学方式,提高教学效果。