欢迎访问发表云网!为您提供杂志订阅、期刊投稿咨询服务!

数据挖掘学习计划大全11篇

时间:2022-04-23 23:34:01

数据挖掘学习计划

数据挖掘学习计划篇(1)

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9599 (2012) 15-0000-02

1 绪论

2010年5月6日,我国国务院常务会议审议并通过了《国家中长期教育改革和发展规划纲要(2010-2020年)》(以下简称《教育规划纲要》),标志着中国新的教育改革的开始。

《教育规划纲要》提出“大力发展现代远程教育,建设以卫星、电视和互联网等为载体的远程开放继续教育及公共服务平台,为学习者提供方便、灵活、个性化的学习条件”。

基于这一思想,我们申报了“基于数据挖掘的网络教学决策支持系统研究”项目研究课题,探索并构建了基于数据挖掘技术的网络教学模式,并在现代远程开放教育实践中进行了应用尝试。

今天,数据挖掘技术在国外的大型商业、金融业、保险业、民航等大型企业得到了广泛应用,其中,Web挖掘在电子商务上的应用是目前最成功的,我们常常访问的京东、当当等大型商务网站均能看到数据挖掘的影子。Web挖掘为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。

目前国内外远程教学平台在利用数据挖掘技术分析学生访问记录,优化Web站点拓扑结构,从而给学生提供动态的个性化的高效率学习支持服务方面做得比较少,大多数网络教学平台只是简单利用了一些数据统计功能等,对数据的分析不够深入,不能提供完善的个性化支持服务。这是因为数据挖掘作为一个新兴领域,在实际应用当中仍存在许多尚未解决的问题,有很多问题需要深入研究,我国在这一领域已有专家在从事研究工作,但应用和产品相对滞后。

2 Web数据挖掘

首先看看什么是数据挖掘,通俗地说,数据挖掘就是从数据中发掘信息或知识,有人称为知识发现(KDD),也有人称为数据考古学、数据模式分析或功能相依分析。

数据挖掘应用于Internet,于是就有了Web数据挖掘的产生。Web挖掘是利用数据挖掘技术从大量的Web数据中发现有用模式和信息的过程。

Internet包含了丰富和动态的链接信息,以及Web页面的访问和使用信息,为数据挖掘提供了丰富的资源,与传统数据比较,Internet上的数据有其独有的特点。如:Web数据庞大、Web页面复杂性大、Web信息是动态的等。

Web数据挖掘的技术主要有频繁模式挖掘、序列模式挖掘、聚类分析、路径分析等。

3 需求分析与系统搭建

网络教学系统是现代远程教育的方向,教学决策支持系统在其中扮演着重要角色。我们的基于数据挖掘的网络决策支持系统,主要包括以下功能:

3.1 学生学习功能

基于Web的在线学习、在线自测、在线作业等功能。

3.2 课程管理功能

提供给课程教师进行课程管理所需各种功能。如资料管理、作业布置评改、学习评测、学生评价等。

3.3 统计挖掘功能

统计查询功能主要对学生的数据进行统计查询,建立起完整的学生学习个性模型,进行个性化界面定制,可为用户提供智能化、个性化服务。

3.4 其他

权限管理功能、BBS论坛、质量评价等。

在我们的平台设计中,系统开发环境的选择要求是目前流行的开发技术手段同时又要求经济可行。所以免费开源成了我们的首选。我们系统软件环境搭建为Apache服务器+PHP+Winxp+Mysql数据库。

PHP是:Hypertext Preprocessor(超文本预处理器)的缩写,它是一种服务器端的HTML脚本/编程语言,支持几乎所有流行的数据库以及操作系统。

MySQL是最受欢迎的开源SQL数据库管理系统。是一个快速、多线程、多用户的SQL数据库服务器,PHP的首选数据库。MySQL可运行在不同的操作系统下。

Apache是世界排名第一的Web服务器,它为我们的网络管理员提供了丰富多彩的功能,如果您在Windows系统上成功安装配置了Apache之后,您的计算机也将随着Apache的生效而摇身一变,成为一台名副其实的Web Server。

4 数据挖掘处理模块的实现

Web挖掘的主要由以下几个基本步骤完成:数据收集、数据预处理、模式识别、模式分析。

数据的收集是根据用户的需要从原始数据库中选取数据,Web服务器的日志文件详细地记录了用户的浏览行为。

数据的预处理是保证数据挖掘质量的关键。首先进行数据清理,主要包括进行冗余数据的清除,以及对错误数据和缺失数据的修复,比如去除访问中的广告链接、图片链接等信息,将其转化成适合模式发现的、具有良好格式的数据抽象;第二步是识别用户,想要识别出每一个用户变得很复杂,一般采用的方法包括Cookie技术,启发式规则等;第三步是会话识别,会话识别的目的是把属于同一用户的同一次访问请求识别出来;第四步是路径补充,路径补充的主要目的就是将漏掉的用户访问请求补充到用户会话中,通常采用站点的拓扑结构结合引用页的方法进行路径补充。

模式识别:是对预处理后的数据用数据挖掘算法来分析数据。首先确定挖掘的目的是进行分类、聚类、关联规则发现等,确定了任务再决定使用的挖掘算法。

模式分析:解释并评估结果,对数据挖掘得到的知识结果进行分析,将经过模式分析得到有价值的模式,采用可视化技术,以图形界面的方式提供给使用者。

平台设计时,我们将平台分为在线和离线,在线部分向学生提供访问页面,提供服务,信息处理则为离线,进行后台数据挖掘。如图1.1所示。

5 数据挖掘对平台决策的支持

数据挖掘功能应用于网络教学平台,能够实现学生学习的个性化。在学校,课程的学习是循序渐进的,学习的课程也有关联。同一年级学习的不同班级、同一班级的不同学生,由于授课方式、学生基础的不同,成绩结果相差很大。利用教学平台中存放的历史学习记录和历史成绩,结合关联规则挖掘,聚类挖掘等技术,找到一条最佳学习路径,因材施教,对课程学习做出合理安排。

数据挖掘技术对网络平台的优化提供了数据支持。利用数据挖掘的关联规则,寻找教学平台页面间的内在联系。可以在学习者访问A网页时,根据关联规则结果,向其推荐页面C。平台还可以提前将页面C下载至用户缓冲,加快浏览速度。

6 总结与展望

与原来的电大在线比较,网络决策支持系统的优点主要在于强调远程教育的网络学习过程;强调教师与学生、学生与学生或学生与资源的互动;强调网络学习的环境建设,强调个性化学习支持,强调网站结构的合理。

WEB日志挖掘的理论研究及实现技术涉及多方面的理论、方法和技术,由于本文主要是针对自适应站点建构的可行性研究,因此对算法的要求主要是算法正确、可行,对于系统的完善、资源的优化和服务器优化设计等在今后需要更深入的研究。

参考文献:

[1]刘上力,赵劲强,聂勤务.Web使用挖掘中的数据预处理方法[J].郑州轻工业学院学报,2010,4(8):23-27

[2]焦李成.智能数据挖掘与知识发现[M].西安:西安电子科技大学出版社,2006,8

[3]朱晋华,陈俊杰.Web日志预处理中会话识别的优化[J].太原理工大学学报,2008,2(4):34-36

数据挖掘学习计划篇(2)

中图分类号:TP393 文献标识码:A

1 引言

在信息时代,信息技术的快速发展对社会各个领域都产生了一定的影响,在电子商务中反映尤为突出。对于学校教务系统的应用相对较晚,但教务数据对学校而言,是最基本的数据,这些数据的保留是学校运作的根本。对教务数据的分析也是对学校教学效果的评定,能够从庞大的教务数据中挖掘出更潜在的信息,既是对学校运行状况的更深入了解,又有利于学校对未来发展方向的决策。

2 教务管理状况分析

教务管理不仅是处理学校的日常事务,它更重要的作用体现在可以反映学校的教学效果和分析学校培养方向的正确性,并以此帮助学校向更好的方向发展。教务数据分析的处理到目前为止经历了人工和计算机处理的两大阶段。

2.1 人工处理阶段

为了反映较大范围教务情况的整体特征,教务部门通常要付出庞大的人力和物力收集和分析大量数据。这个数据的收集通常要经历一个较长的时间,间隔一段时间还必须重复执行。比如开课计划、学生成绩、教室使用情况等。然而,分析收集来的海量数据更是教务部门头疼的一件事。

还没有出现计算机前,光靠人工来处理数据有时还会面临这样的窘境:上一期的数据结果还没分析出来,下一期的数据收集又要开始了,因此整个数据收集和分析工作变得没有任何意义。另外,有些数据需要间隔一段时间重新收集,然后进行短期和长期的分析数据。比如成绩分析,若按照4年制本科为一个分析周期。首先,每学期教务部门要进行一次短期成绩分析。其次每学年教务部门就需对即将毕业的本科前4年的所有成绩做一次中长期成绩分析。然而,如果学校还需了解长期以来各级学生的学习情况,则还必须知道近10年、20年、50年甚至更长时间的成绩发展趋势,那么光靠人工去翻阅以前的数据就是件很困难的工作了。所以人工处理数据阶段,有许多教务数据分析工作受到很大限制。

2.2 计算机处理阶段

自计算机出现后,许多领域的工作发生了翻天覆地的变化,教务管理同样也不会忽略如此有效的技术手段。20世纪80年代以来,我国一直关注信息化在各领域的应用,教务管理信息化的发展大致经历了以下三个阶段:面向数据处理的第一代教务管理、面向信息处理的第二代教务管理、面向知识处理的第三代教务管理。在前两个阶段中,许多教务工作确实提高了效率,但是教务海量数据中隐含的价值仍不能被有效发掘与利用。正如在一大座金山中,获取更有价值的黄金还需更细致更有效的清理和挖掘。

虽然在前些年,学校各级部门具备了一定的信息化基础设施,为构建信息化教务系统奠定了基础。但是,由于缺乏统一的规划,学校各子系统或多或少存在“信息孤岛”的问题,也没有有效的方法从海量数据资源中快速挖掘更有价值的知识信息。因此,耗费成本收集的数据没有利用就被弃置了,教务数据分析仅停留在表面。

由于信息技术的发展,信息化时代逐渐进入第三展中,即有效应用数据仓库和数据挖掘技术挖掘知识。

3 DW和DM技术

数据仓库(DataWare,即DW)是指一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策[1]。当大量的数据被整合在一起后,从用户分析角度来看,使用这些数据的手段是多方面和多层次的。面向知识处理的教务系统应能够自动剔除掉不需要的数据,按照用户的要求整合杂乱的数据资源,获取某些可用的属性。而且,学校的决策通常是经过观察长期发展的状况而制定的。其间,需要分析5年、10年,甚至几十年的大量相关数据资源。因此,教务数据需要被长期且稳定的存储。在日常收集数据和整理数据时,利用数据仓库的思想来进行,有利于我们充分发挥数据挖掘技术进行知识的挖掘。

数据挖掘(Data Mining,即DM)是指从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。数据挖掘就是从大量数据中提取或“挖掘”知识。

首先,我们要确定数据挖掘的对象有哪些。数据资源可以从多方面获得,如系统分析设计人员向不同范围的业务对象调研获得,或反之业务对象主动向系统设分析设计人员提出;在互联网时代,从网络中获得数据资源更快更多了。

其次,要有效地应用数据挖掘技术,就要遵循科学的应用流程。一般的挖掘流程是:(1)确定挖掘对象;(2)数据准备;(3)数据挖掘,即模式提取;(4)结果分析,即模式评估。[2]

数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分为两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用。数据挖掘功能以及它们可以发现的模式类型包括:class/concept description、Association analysis、Classification and prediction、Clustering、Outlier analysis等。

4 建立面向知识处理的教务数据分析系统

按照上述数据挖掘的基本流程,以教务系统中成绩分析为例介绍如何让教务系统实现面向知识的处理。

4.1 构建教务系统的数据仓库

这部分主要分为四个任务:确定教务系统中的数据源;Web数据的预处理;多维Web数据模式的建立;应用OLAP技术。

4.1.1确定教务系统中的数据源

教务系统的数据主要从两个方面获得:

(1)各学院开课计划、学校学计划;

(2)教师提交的各门课程的成绩。

第一方面的数据主要由学校、各学院按照培养计划每学期提交,包括各专业班级的课程安排、授课教师、课时、学分等。这部分数据主要以Excel表格形式提交,教务部门对这部分的数据收集与存储大部分停留在文档形式。

第二方面的数据主要在学期末由授课教师分专业班级和课程提交。目前,这部分的数据收集有的以纸质文档形式收集,有的以Excel文档形式收集,也有的实现了数据库收集存储。

在进行数据挖掘之前,首先要将这两方面的数据完全实现数据库收集与存储。随着教务数据与日俱增,还需使用数据仓库来管理这些数据。

目前,有许多学校实现了在线登录成绩的信息化。那么如何对庞大的Web数据建立数据仓库呢?

4.1.2 Web数据的预处理

通过Web收集的数据称之为原始数据,管理员可根据需要用某些字段记录相关数据。如:专业班级名称,教师登录名,课程名称,成绩比例,分数,提交时间等。对Web数据的预处理包括两步。第一步:清除噪音,即去掉对知识挖掘无关的数据。第二步:转化数据,即将原始数据按照挖掘需求,通过重新组织或简单计算转换成规范模式。

4.1.3多维Web数据模式的建立

分为三步进行。第一步,选取维。多维数据便于我们从多个角度、多个侧面对数据库中的数据进行观察、分析,以深入了解包含在数据中的信息和内涵。N维数据矩阵用C(A1, A2, . .., Am ,count)模式表示,其中Ai代表第i维,i=1,2,...,n, count是变量,反映数据的实际意义。

数据单元用r[A1:a1,...,An:an,count]模式表示,即为维Ai选定一个维成员ai,i=l,…,n,这些维成员的组合唯一确定了变量count的一个值。通常,需要了解成绩的分布情况,可以选取专业班级维、时间维、课程维构建数据矩阵,以形成多维视图。

第二步,构造多维视图。先选取Date维(按学期组织)、Class维(按专业班级组织)用二维形式表示每个专业班级各学期的成绩状况。然后加入第三维Course维(按课程组织),进一步构建成绩分布的三维视图。视图显示的事实是Course_Class_Analyse(课程专业学习情况)。

第三步,创建多维数据模式。最流行的数据仓库数据模型是多维数据模型。最常见的模型范例是星型模式。

4.1.4应用OLAP技术

OLAP,即在线联机处理。应用OLAP技术可以很方便地从Web数据矩阵中作出一些简单的结论性分析,如回答一些问题:(1)哪些专业班级学习情况较好,哪些较差?(2)哪些专业课程成绩较高,哪些较低?我们可以充分利用多维数据模型上的OLAP操作,如下钻(drill-down)、上卷(roll-up)、切片分析(slice)和切块分析(dice)等技术对问题进行求解。

4.2 挖掘模式的有效应用

应用数据挖掘技术可以自动发现学生学习倾向和专业发展趋势。

4.2.1数据挖掘技术应用的范围

虽然现在已有很多学校都建立了自己的教务管理网站,但教职工与学生仅仅只在Web上进行成绩的登录和查询。这样的教务网站只是提供了收集数据的快捷途径,并没有从根本上体现本身应有的应用价值。教务系统希望能够从其门户网站中收集大量原始数据,并依此发掘更深入的服务信息。同时,学校高层也希望能从教务系统中发现学生的学习情况,课程计划的实施效果等。这些都需要从海量的教务数据中应用特定的挖掘模型反映出来。基于此,对于下一次培养计划的修订才有现实的数据支撑。

4.2.2应用挖掘模式提取和分析知识

根据不同的应用要求,在数据挖掘模式中选择合适的方法进行计算,提取有效数据,得出知识。对于教务系统而言,可以应用聚类方法确定特定不同成效的学生与课程的分布,从而识别出一些问题:

(1) 对于某个专业班级,哪些课程学习效果较好;

(2) 对于学习效果较好的课程,是因为教学效果好,还是开课计划恰当;

(3) 对比同一门课的不同专业班级,以辅助各学院分析培养计划的适应性。

5 结束语

关于DW and DW 技术对教务数据分析的应用,还有许多值得继续深入研究。但是,不论从哪个方向进行研究,都必须要以提高教务处理能力为宗旨,让教务资源发挥最大的辅助决策价值。

参考文献:

[1] Colin White. Data Warehousing: Cleaning and Transforming Data [M], InfoDB, 2002.

数据挖掘学习计划篇(3)

中图分类号:TP393.092 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02

1 划一式教学方法的缺陷

(1)该教学方法设计不能充分考虑学生的个体差异,不能根据个体差异进行因材施教。(2)该教学方法的 教学内容的表现方法十分单一,不能重设计适合学生特点的学习环境。(3)自主学习教学资源不足。并没有为学生提供丰富的学习资源以便利于学生自主学习。(4)缺乏动态交互性效果。划一式课程教学信息交互性差、内容陈旧、更新速度慢,不能与时俱进,根据实际情况更新教学内容,学生只能被动的接受,不能主动的参与进行主动学习,教学效果欠佳。

为了解决以上问题,因材施教达到个性化学习的目的,加强自适应学习系统的建设,完善自适应学习系统的功能需求迫在眉睫。也就是要进一步加强系统对学生的引导性,提高自适应学习系统的智能性等等。因此可以看出现有的自适应学习系统的要解决的首要问题就是分析学生的学习特征。分析学生的学习特征的核心也就要研究学习者的个性化学习特征。这是一个典型的分析规律与匹配对比进行合理决策的问题,同时也是一个典型的数据挖掘问题。序列模式挖掘可以根据学生使用的不通资源学习以及学习过程,找出这些各类资源的组合和顺序以及他们的共性规律,这样经过分析、比对可以提供符合 学生性化学习规律的适应性学习方案。

2 自适应学习系统的设计

适应性教学系统是随着适应性超媒体技术的兴起而随之发展起来的,他主要考虑的是学生的知识背景、学习目标、学习方向、学习能力、和学习要求的个性化差异,为学生提供有个性化差别的自适应性个性化的学习环境。基于适应性超超媒体系统发展起来的自适应学习系统综合的应用了计算机技术、网络技术、多媒体技术和人工智能技术。能够从多方面,多角度的满足学生个体需要。提高个体学习效率。适应性学习系统的功能主要包括两个方面:一是适应性内容呈现、二是适应性导航。

自适应学习系统的关键技术在于个体差别,根据学生的学习性差别学习特征,建立最适应该学生的学习内容、适合该学生的学习方法,及合理的学习安排。学生的学习特征包括初始学习时的准备状态、基本学习时的一般特征、以及常态学习时的学习风格等。自适应学习系统就是根据研究者所建立的学生学习特征数据库及适应学习的特征数据库,快速挖掘建立匹配学习安,学习内容。快速,最科学的满足学生个性化学习要求。

3 数据挖掘技术

数据挖掘技术就是从大量数据中获取有效的、有规律的、潜在可用的、可理解有用的模式的过程,换句话说,数据挖掘技术就是从大量数据中提取有用的可用的信息源。可以看出数据挖掘技术把用户对数据的应用从低级的增加、删除、修改、查询升级到从数据中挖掘可用的数据源,并对比分析提出决策支持。提升的决策系统和人工智能系统。数据挖掘系统是一门交叉学科,如图1所示。它是信息科学、数据库技术、可视化技术、机器学习技术、统计学以及其他相关科学的交叉学科。可以应用于多个领域。可以有效的提高决策的准确性以及决策效率。

数据库技术机器学习信息科学其他学科图1统计学数据挖掘可视化

4 数据挖掘技术在自适应学习系统研究中的应用

自适应学习系统,首先采集学生在线学习行为,对数据信息进行整理、归类、排序、存储建立学生学习规律的数据源数据库。第二步对所建立的数据库中的可用数据资源进行对比分析,运用相关序列挖掘有用算法找出此数据库用用知识的内在规律。第三步根据数据挖掘技术挖掘、对比、分析的结果给出适应学生个性化学习的学习方案。

第一步数据预处理:在该阶段首先采集学生学习内容,包括图形、音频、视频等多媒体数据源。第二步采集学生的学习特征取值。包括学习知识点ID、学生ID、学习时间学习顺序、等。数据采集表如

第二步根据数据源产生的相关数据库生成数据大序列。把系统支持度设为60%,用数据挖掘算法找出的大序列集。根据支持度与置信度,由系统生成学生学习的个性化规律。

第三步随机抽取个体样本组,进行评估,找出分类正确支持率在85%到90%之间,比较稳定的结果。

参考文献:

[1]祝智庭.网络教育应用教程[M].北京师范大学出版社,2001.

[2]邓晖.网络个性化学习学生特征分析系统的分析与设计[J].远程教育杂志,2003(1):11-13.

[3]吴战杰.网络远程教育中学习者特征分析体系的构建及学生模型(student model)的设计[J].陕西师范大学教育技术学,2004.

[4]毛国君,段立娟,王实,石云.数据挖掘原理与算法[M].清华大学出版社,2005.

[5]Jiwen Guan,David A.Bell and Dayou Liu. Data Mining:Tools and Applications. Intelligent,2005.

[6] Jiawei Han,Hong Cheng,Dong Xin,Xifeng Yan Frequent pattern mining: current status and future directions .Data Mining Knowledge Disc,2007.

数据挖掘学习计划篇(4)

[中图分类号]TP[文献标识码]A[文章编号]1007-9416(2010)02-0079-02

1 前言

数据挖掘能帮助企业减少不必要投资的同时提高资金回报。数据挖掘给企业带来的潜在的投资回报几乎是无止境的。世界范围内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制定他们的产品推广策略,以用最小的花费得到最好的销售。

2 数据挖掘概述

数据挖掘是一种决策支持过程,是一类深层次的数据分析方法。它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性地推理,从中挖掘出潜在的模式,预测客户行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。数据挖掘的商业应用可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。数据挖掘,还可以称为数据库中的知识发现(Knowledge Discovery in Database, KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的信息的高级处理过程。

2.1 数据挖掘是在数据库技术、人工智能技术、概率与数理统计的基础上发展起来的一种的技术。

2.1.1 数据库技术

SQL统治数据库查询语言标准三十多年这一事实本身就与现在 IT 发展的节拍不符,难道我们“只会查询”吗?所以就有很多专家纷纷转向数据仓库与数据挖掘技术,从数据查询转向数据挖掘、从数据演绎转向数据归纳。传统的数据库系统的体系结构也过于瘦少,只有不协调的两层,这样的结构就造成了只有程序员能编程,老板只能求助于这些“专家”。

2.1.2 人工智能技术

人工智能技术的三大难题:“知识获取、知识表示、缺乏常识”直接制约了它在现实技术市场上的作为。而在与数据仓库技术的结合上,它可以发挥重要作用,这使得它转向数据挖掘技术。

2.1.3 概率与数理统计

数理统计技术是应用数学中最重要、最活跃的学科。但在与数据库技术的结合上作为有限,这从 SQL 中那可怜的几条汇总函数便可看出。随着数据挖掘对查询、归纳对演绎需求的进化,概率与数理统计将获得新的生命力。

2.2 数据挖掘中最常用的技术:

2.2.1 工神经网络(Artificial Neural Networks)

人工神经网络是仿照生理神经网络结构的非线性预测模型,通过学习进行模式识别。神经网络常用于两类问题:分类和回归。在结构上,可以把一个神经网络划分为输入层、输出层和隐含层。而神经网络的知识体现在网络连接的权值上,是一个分布式矩阵结构;神经网络的学习体现在神经网络权值的逐步计算上,为的是防止训练过度和控制训练的速度,如图1所示:

2.2.2 决策树 (Decision Tree)

决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个节点,再根据概述性字段的不同取值建立树的分支;在每个分支子集中重复建立树的下层节点和分支过程。决策树的基本组成部分:决策节点、分支和叶子。比如,在贷款申请中,要对申请的风险大小做出判断,为了解决这个问题而建立的一棵决策树,如图2所示:

2.2.3 临近搜索方法(Nearest Neighbor Method)

临近搜索方法将数据集合中每一个记录进行分类的方法。

2.2.4 规则推理(Rule Induction)

从统计意义上对数据中的“如果-那么”规则进行寻找和推导。

2.3 数据挖掘步骤

数据挖掘的数据分析过程可以分为三个步骤:

2.3.1 确定业务对象

清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步,挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。

2.3.2 数据准备(Data Preparation)

本阶段又可进一步细分为两步:数据集成、数据选择和预分析。

(1)集成(Integration)。在这一步中,将从操作型环境中提取并集成数据,解决语义二义问题,消除脏数据等等。很明显,数据集成的目的和所利用的技术与数据仓库的数据集成完全一致,都是为了建立统一的数据视图。数据挖掘不一定需要建立在数据仓库的基础上,但如果数据挖掘与数据仓库能协同工作,则必将大大地提高数据挖掘的工作效率。

(2)数据选择和预分析(Data Selection and Pre-Analysis)。这一步将负责缩小数据范围,提高数据挖掘的质量,前面提到的验证型工具长于对数据的细致,深入地观察和表述,在这一步中可以发挥相当的作用。

2.3.3 挖掘(Mining)

数据挖掘(Data Mining processor)综合利用前面提到的四种数据挖掘方法分析数据库中的数据。

2.3.4 表述(Presentation)

与验证型工具一样,数据挖掘将获取的信息以便于用户理解和观察的方式反映给用户,这时可以利用可视化工具。由于用户要求的不同,DM分析的数据的范围会有所不同,这样DM系统会得出不同的结论。这些基于不同数据集合的分析结果除了通过可视化工具提供给用户外还可以存储在知识库中,供日后进一步分析和比较。

2.3.5 评价(Assess)

如果分析人员对分析结果不满意,可以递归的执行上述三个过程,直到满意为止。

3 数据挖掘在企业决策过程中的作用

3.1 数据挖掘的功能

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘就是对海量数据进行精加工。严格地说,数据挖掘是一种技术,从大量的数据中抽取出潜在的、不为人知的有价值信息、模式和趋势,然后以易于理解的可视化形式表达出来,其目的是为了提高市场决策能力、检测异常模式、控制可预见风险、在经验模型基础上预言未来趋势等。数据挖掘技术在商业领域已经不是一个新名词,最早成功应用于高投入、高风险、高回报的金融领域,正在不断向电信、保险、零售等客户资源信息密集的行业拓展。美国财富杂志500强之一的第一数据公司(First Data Corp.)就在为第一国家银行(First National Bank)、美国在线交易(Ameritrade holding Co.)、奥马哈保险公司(Mutual of Omaha Co.)等著名的金融证券和保险公司提供数据挖掘的产品服务,这些企业在风险控制、挖掘客户、降低成本方面的年收益数以亿计。

3.2 在企业决策过程中利用数据挖掘的作用

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

目前,商业数据挖掘的应用重点集中在对企业内部信息资源的加工处理,指导企业运营的战术策略的实施。具体地说,就是在以客户需求为价值源泉、进销存为价值链的各环节进行数据增值分析,并将分析结果迅速向链条的上一环节传递,调整链条上游的执行达到改善下游环节执行结果的目的,最终形成以客户终端需求为导向的价值增值。

部分企业资源计划软件中集成了对计划、生产、产品销售进行数据挖掘的模块,能够提供商业智能的分析结果;另外,客户需求的价值链终端是另一个数据挖掘技术应用的重点,客户关系管理的目的就是创造、挽留客户并不断升级对客户的服务,以保证企业利润的持续增长。“以客户为中心”的数据挖掘内容涵盖了客户需求分析、客户忠诚度分析、客户等级评估分析等三部分,有些还包括产品销售。

客户需求分析包括:消费习惯、消费频度、产品类型、服务方式、交易历史记录、需求变化趋势等因素分析。

客户忠诚度分析包括:客户服务持续时间、交易总数、客户满意程度、客户地理位置分布、客户消费心理等因素分析。

客户等级评估分析包括:客户消费规模、消费行为、客户履约情况、客户信用度等因素分析。

产品销售分析包括:区域市场、渠道市场、季节销售等因素分析。

然而,数据挖掘不仅仅用于客户关系管理,ERP更不能够完全覆盖数据挖掘的整个内涵。企业数据挖掘的内容不仅包括企业的内部信息资源,更包括大量的企业外部信息资源。商业数据挖掘的下一个应用热点将建立在两类信息资源充分整合的基础上。

相对于内部信息资源而言,企业外部的宏观政策环境、市场需求动向和竞争对手情报等信息资源左右着企业战略决策与宏观发展规划,也直接决定企业市场战术策略的实施,所以对信息资源的整合利用以及竞争情报分析将成为企业级数据挖掘应用的重点。

以IBM为例,为了导正企业战略决策方向,IBM于1993年提出三项竞争策略:立即加强对竞争对手的研究、建立一个协调统一的竞争情报运行机制以及将可操作的竞争情报运用于公司战略、市场计划及销售策略。其新的竞争策略通过研究市场格局和竞争对手的状况、合理定位并改善自身的产品和服务两个途径有效地提升了企业核心竞争力,采用的竞争情报运行机制及竞争情报规划能够把全公司的竞争情报力量集中于主要的竞争对手和主要威胁,不断地优化现有的情报资源。

随着企业市场竞争的日益加剧,企业竞争情报已经不限于原有意义上的数据采集、整理、分类、的概念,“在线”需求逐步超越“离线”需求,“受动式服务”正为“主动式、自助式”服务所取代,数据挖掘技术已经成为“信息分析”这个企业竞争情报系统中核心模块的技术支撑。“数据在线服务”和“竞争情报个性化服务”将成为企业级数据挖掘应用的新热点需求,也将成为知识经济下新兴的数据服务模式。

4 结语

数据挖掘的核心技术是人工智能、机器学习、统计学等,但一个DM系统不是多项技术的简单组合,而是一个完整的整体,它还需要其他辅助技术的支持,才能完成数据采集、预处理、数据分析、结果表述这一系列任务,最后将分析结果呈现在用户面前。

[参考文献]

[1] 胡百敬,SQL Server 2000 数据转换服务[M],北京:中国铁道出版社,2003.1.

[2] Reed Jacobson,SQL Server 2000 Analysis services 学习指南[M].北京:机械工业出版社,2001.

[3] 韩加炜J.(Han,JiaWei),数据挖掘:概念与技术[M].北京:机械工业出版社,2001.

[4] 陈京民,数据仓库与数据挖掘[M],北京:电子工业出版社,2002.

[5] 李真文, SQL Server 2000 开发人员指南[M].北京:北京希望电子出版社,2001.

[6] 石钧.ADO编程技术[M].北京:清华大学出版社,2001.

数据挖掘学习计划篇(5)

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

数据挖掘学习计划篇(6)

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(data mining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(svm)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、rbf神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

数据挖掘学习计划篇(7)

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

参考文献:

数据挖掘学习计划篇(8)

随着信息化教育的发展,数字化校园和网络教育逐渐成为人们足不出户完成教育和学习的关键领域,各种类型的教育软件和网站层出不穷,用户在自由浏览教育网站信息的同时出现了海量的具有潜在价值的日志信息。如何把这些教育数据转变成教育决策和教育教学活动优化等有用信息和知识,便是elearning用户行为模式挖掘的意义所在。

1web数据挖掘

1.1web数据挖掘及web用户行为模式挖掘

web数据挖掘(web data mining)是数据挖掘技术在web上的应用。web挖掘是集数据挖掘、信息检索和信息抽取多种技术于一体的研究领域。web数据挖掘的发展源于数据挖掘,但是web挖掘的研究对象囊括了很多传统数据挖掘技术很难处理的数据:图像、视频、声音及网页之间的各种链接等。这些数据具有海量、异构、非结构化等特性,web挖掘就是针对这些数据特点而进行研究并获取潜在有用信息的过程。

行为模式是指用户操作过程中所体现出来的某种规律性[1]。用户行为模式挖掘是在web日志挖掘(web usage mining)基础上的应用研究,以网络日志为研究对象。web日志挖掘是指从用户的访问记录中提取感兴趣内容的挖掘模式。在用户浏览internet信息的过程中,服务器会记录用户访问及其与客户端之间的交互信息(包括访问的页面、时间、用户id等信息)并被记录在日志文件中,包括3种类型的日志文件:server logs、error logs、cookie logs。web用户行为模式挖掘正是对这3种日志文件进行挖掘,从而发现相似用户群体、访问模式、频繁路径等知识。

1.2web行为模式挖掘

目前, web行为模式挖掘研究领域主要包括:形式化描述网络访问行为、自动获取行为特征以及发现行为规律,研究的数据主要包括url页面请求、页面间链接的拓扑结构、注册用户特征等[2]。常用的研究方法主要有统计分析、关联规则分析、聚类分析和频繁序列模式分析[3]。

(1)统计分析是指获取用户行为的统计信息,如访问时间、频率等[4]。

(2)关联规则分析可获取用户页面访问行为间的关系。

(3)聚类分析是指通过聚类将特征相似用户的访问行为特点归并分组。

(4)频繁序列模式分析可以获取用户访问习惯、爱好及趋势等[5]。

通过这些分析方法获得的数据在页面导航、应用和产品推荐及公共教育服务系统的开发方面有着十分重要的作用。

1.3用户行为模式挖掘工作流程

结合web应用的需求,针对用户行为模式的特点,参照web日志挖掘的方法和流程,建立了用户行为模式挖掘模型,其工作流程如图1所示。

图1web用户行为挖掘工作流程

1.3.1数据准备

web挖掘过程中的数据采集和预处理阶段,旨在收集web服务器的访问日志文件,生成挖掘数据源,主要包括数据清洗、用户唯一性识别和完善访问路径等。通过这些可以有效地过滤掉一些类似用户访问传输协议、错误请求和短时间内多次重复的干扰信息,从而提高数据的纯净度、准确度和可信度。

1.3.2用户行为建模

早期的web应用大多以静态网页的形式呈现,现在越来越多的应用系统转变为基于平台的,并逐步发展成为具有实时交互性和开放性的web服务模式。人们发现在应用这些服务系统的过程中,理解用户与系统交互行为对于网络系统性能的提高、站点的重构以及个性化、多元化服务等具有重要意义[6]。同时,大量实践也表明,用户行为在时序、聚集、依赖等方面确实存在强一致性的行为特征[7]。

传统的建模方法和仅基于web日志的访问路径建模方法缺乏对用户行为模式的动态语义信息描述,为了解决这些建模方式存在的问题,我们采用一种新的基于网页元数据的建模方式。根据web用户行为的分层特性,行为模式可分为url访问、活动、会话3个层次。

基于分层的行为模型在用户访问序列信息的基础上增加了访问内容的局部主题、关键字等信息,这样的行为模型不仅有助于对用户行为的分析和理解,而且为新的

网络服务系统构建提供了良好的支持。

1.3.3用户频繁行为序列模式挖掘

用户行为序列模式挖掘是在用户行为序列模型的基础上,根据网络行为的一般规律,在目标用户群中通过序列模式挖掘方法,获得频繁的、普遍的、潜在的行为序列规律。这种行为序列描述了该用户群体在网络环境下一定程度上的共性行为特征,为后期的个性化行为预测提供了必要的支持[8]。

针对行为序列数据的特点,对现有序列模式挖掘算法适用场合进行分析,我们选择出一种合适的访问行为频繁序列模式挖掘算法——prefixspan算法。根据访问行为序列特点,发现此算法比较适合行为序列模式挖掘。这主要是因为:①行为序列的每个元素都是单向的,便于序列投影;②以活动为单位的序列模式很长,使用此算法才能提高挖掘效率。

prefixspan算法是一种深度优先搜索算法,其基本思想是使用频繁前缀划分搜索空间和投影序列数据库,并搜索相关序列,检查前缀子序列,将其相应的后缀子序列投影到数据库中。该算法同时采用分治的策略,不断产生更多个更小的投影数据库,然后在各投影数据库上进行序列模式挖掘。

假设用户分为一个组,根据prefixspan 算法得到频繁序列模式为:

fsgroupid=(groupid,{(s1,t1),(s2,t2),…,(si,ti),…,(sn,tn)},tmin)(1≤i≤n)(1)

其中, groupid为用户组的标识,具有唯一性。si是该组内频繁行为序列,ti为si的支持度。

1.3.4用户行为模式聚类

web用户访问模式聚类就是根据用户访问的公共特性进行聚类。通过聚类形成多于一个的用户簇,这样每个簇中的用户都具有共同特性。通过对上述web日志挖掘数据的获取,提取用户的访问特性。

当前,用户网络行为分类研究还处于初级阶段,可将用户的网络行为简单分为交互行为、浏览行为、查询行为、协同行为等。然而现实生活中,用户的网络行为模式大多是这些行为的综合。聚类技术根据被分析对象间的相似性将相同或相似的对象集划分在同一类中。根据行为序列模式在时间轴上的变化特点,通过以序列相似性为基础的序列聚类算法对行为序列模式聚类,实现行为序列模式类别划分。

(1)序列相似性计算。因为网络用户行为存在着自主性和不确定性的特点,使得用户的访问行为发生的时间有很大的差异,普通的基于时间序列的欧几里得距离及其变形的序列相似性计算算法难以满足需要,因而,此处使用一种基于序列投影压缩的相似度计算方法。

以网络活动序列为例,假设有两条活动序列si,sj,且si=(ai1,ai2,…,ain),sj=(aj1,aj2,…,ajm),n≤m。则相似度计算公式如下:

sim(si,sj)=s(si,sj’)(t/m) (2)

sj’为sj 投影压缩后的变形,t为sj’的长度,即t= |sj’|

(2)序列聚类算法。在行为序列相似度计算的基础上,进行行为序列聚类,可以采用基于k中心聚集的序列聚类算法。

输入:行为序列集d,预设的簇数k。

输出:k个簇的集合,使得所有对象与其最近中心点的相异度总和最小。

方法:①从序列集d中随意选取2k个序列,组成k个初始簇,则每个簇就包含了两个序列;②将剩余的每个序列进行序列相似性计算,寻找与初始序列的投影压缩最相似的簇;③添加序列到该簇;④反复迭代执行,直到簇的大小不再发生变化。

2web行为模式挖掘在elearning系统中的应用

2.1elearning系统

elearning是指通过因特网或其它数字化内容进行的学习与教学活动,它充分利用现代信息技术所提供的、具有全新沟通机制和丰富资源的学习环境,实现一种全新的学习方式,这种学习方式将改变传统教学中教师的作用和师生之间的关系,从而根本改变教学结构和教育本质[9]。目前市场上的elearning供应商大致分为3类:平台技术供应商、课程资源供应商和平台兼资源共同发展的供应商。elearning系统应用也经历了从最初的在线学习阶段,到在线学习+学习管理阶段,再到在线学习+学习管理+培训管理阶段,最终发展成为现在的在线学习+学习管理+培训管理+知识管理阶段。

2.2web行为模式挖掘与elearning系统

基于web用户行为模式的数据挖掘在elearning方面的应用,就是指一个将来自各种elearning网络教学平台的日志文件所包含的潜在有用的

数据转换为有用信息的过程,这些有用信息可为教师、学生、家长、教育研究人员、教育管理人员以及elearning软件系统开发人员所利用,以了解学生及其所受教育的情况,并据此采取有针对性的管理和教学优化措施[9]。

elearning用户行为模式挖掘过程如下:①收集网络elearning系统服务平台用户使用数据;②数据预处理;③用户行为建模;④用户频繁序列模式分析和行为序列聚类,如图2所示。

实验发现,将用户行为模式挖掘算法和流程应用在elearning系统的分析和挖掘,具有很好的效果,可以获得一些有用的数据,进而为教育教学工作服务。

通过用户行为模式挖掘,elearning系统的建设者可以清楚地了解用户的需求,建立“以用户为中心的”网络结构体系,针对不同用户的需求“量身定做”课程设置,使elearning教育系统的优势最大化,同时提高用户满意度;网站管理者可以利用系统向用户推送一些可能有兴趣的新知识;当用户关注到下一个知识点时,系统会建议并提供一些在学习新知识时可能会用到的知识点和相关信息,针对不同用户的个性化学习,定制个性化信息,即通过用户行为模式挖掘,建立、调整用户的喜好,使用户能够以自己的方式来访问,从而实现服务的个性化。不仅如此,通过用户行为模式挖掘可以让网站的设计者不再完全依赖专家的定性指导来设计网站,而是根据访问者的信息来修改网站的结构,设计网站的外观,找出优化网站组织结构的策略,节省用户的访问时间,节约网站的开支;通过挖掘结果还可以分析用户浏览学习的历史资料,预测用户的需求趋势,评估需求倾向的改变,提高elearning服务系统的核心竞争力。通过web用户行为模式挖掘知识、规律和信息,及时调整系统课程设置和专业设置,满足广大用户的需求,留住现有用户,吸引更多用户。

图2elearning用户行为模式挖掘流程

3结语

web行为模式挖掘是在web数据挖掘基础上发展起来的一门综合技术,主要致力于从网络海量的、异构的、多维的信息资源中寻找有潜在价值的知识。elearning在我国经过十几年的发展,其模式也在不断改变,从单纯的在线学习发展到在线学习与在线管理相结合的模式。随着网络教育的发展,科学安排在线学习及管理模式非常重要,将web行为模式挖掘运用于elearning系统中,能有效地帮助网站开发者和网站管理者了解用户,依据用户的偏好合理布局、改变管理模式以及调整发展战

第6期 陈新:基于java rmi的分布式数据库系统开发与应用软 件 导 刊2014年标题

基于java rmi的分布式数据库系统开发与应用

作者陈新

作者单位(镇江高等职业技术学校,江苏 镇江212000)

数据挖掘学习计划篇(9)

随着教育信息化的加速发展,教务管理系统已在各高校广泛使用。教务管理系统积累的数据与日俱增,蕴藏了大量的有价值信息。但目前对这些数据的处理还仅仅是简单的数据查询、备份、报表和汇总。利用数据挖掘技术对这些数据进行分析,深入挖掘,综合评价,得出的有用信息,可以有效地为教学服务,辅助完成学生管理、成绩分析、培养方案制定、教学计划制定、教师评价等工作[1]。本文将对数据挖掘技术在教学管理中的应用,进行概括和分析。

1.数据挖掘技术概述

1.1 数据挖掘的概念

数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database),就是从大量、不完整而且是带有噪声以及模糊和随机的实际应用数据中,提取出隐含、未知但又潜在有用的信息和知识的过程[2]。广义的讲,数据挖掘意味着从大量事实或观察数据的集合中寻找模式的决策支持过程。

数据挖掘融合的技术主要包括数据库技术、机器学习、人工智能、统计学等,通过对数据进行分析,做出归纳性推理,挖掘出潜在信息,辅助完成正确性决策。

1.2 数据挖掘的过程和方法

数据挖掘的过程可总结为四个阶段:确定挖掘对象、数据准备、数据挖掘、结果的解释和评价。其中数据准备阶段包括:数据选择、数据预处理和数据变化等步骤。

数据挖掘的分析方法需根据待挖掘对象的类型、数据规模和类型进行选择。主要包括:聚类分析、关联规则、变化和偏差分析等[3]。

聚类分析是一种研究如何将研究对象按照多个方面的特征进行综合分类的无监督的学习过程。它将待挖掘的数据集分成若干不同的类或者簇,使同一类的数据对象尽可能相近被分到同一个簇中,不同类的数据对象尽可能相异将会处于不同的簇中。

关联分析是一种从大容量数据中发现数据之间关联的,寻找给定数据集中数据间的隐含规律性联系的挖掘技术。关联规则有两个规则兴趣度的度量标准,分别为反映发现规则确定性的置信度和反映发现规则有用性的支持度。

变化和偏差分析是一种寻找观测结果与参照值之间有意义差别,探测数据现状、历史记录或标准之间的显著变化和偏离、偏差的挖掘技术。该技术用于检测数据库中异常数据记录,如聚类外的离群值、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。意外规则的挖掘可以应用到各种异常信息的发现、识别、分析、评价和预警等方面。

2.数据挖掘在教学管理中的应用

教务管理系统中,采集、积累、处理的数据越来越多,数据的增长速度也越来越快,间接反映出教育已处于大数据时代。这些数据主要包括学生信息、教师信息、选课信息、教学计划、培养方案、学生成绩等等。看似普通的数据中,其实隐藏着很多能够服务于教学管理的有用信息。

2.1 聚类分析的应用

以学生教学测评结果为数据源,结合教师信息,可将数据挖掘中的聚类分析方法应用于教师教学水平的评价分析[4]。学生作为授课的对象,对教师教学情况更加了解。通过分析统计教学测评结果,根据分析出的教师分类及教师间的教学质量差异,对教师进行量化考核和分类,可真实反映出教师教学中存在的问题,完善教师考核。进而为教学管理者提高教师的教学质量、优化教师队伍提供了参考。

2.2 关联规则的应用

以学生的历年成绩库为数据源,应用数据挖掘中的关联规则分析方法,对学生大学期间开设课程的顺序对学生成绩的影响进行分析评价,能够得出课程间的相关性。了解了课程的相关性,一方面,可为学生选课提供科学指导,帮助学生合理地进行课程选择,更好得为专业课程学习服务;另一方面,也可根据前沿课程的成绩情况,对后续相关课程的学习状况进行预测,起到警示作用。同时,也为教学管理者制定专业的培养方案和教学计划提供重要依据,辅助教学管理。

2.3 变化和偏差分析的应用

以学生的历年成绩库、选课记录为数据源,结合学籍异动信息,可将变化和偏差分析技术应用于学生在校情况分析和学习状态的预警。可对教务管理系统中存储的学生历年成绩库中的考试成绩情况、缺考记录、课程添加删除记录等信息进行分析提取,结合已有请假或学籍异动信息,分析出学生是否未请假离校,或是否处于不良的学习状态。进而更好地辅助教学管理者进行学生学籍管理,还可及时对不良学习状态的学生进行帮辅纠正。

3.总结

综上所述,将数据挖掘技术应用到高校教学管理中,可充分地利用教务管理系统中的大量数据,分析得出有用信息,为高校管理者制定相关决策提供正确有力的数据支持和保障。进而辅助教学管理者实现教学资源整合、管理体系的完善和革新,提高教学质量,为社会培养出优质的学生。

参考文献

[1]刘美玲,李熹,等.数据挖掘技术在高校教学与管理中的应用[J].计算机工程与设计,2013(5):1130-1133.

数据挖掘学习计划篇(10)

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)21-4778-03

成绩作为学生在校学习情况的主要表现形式,既是教学效果考核的核心指标,也是对学生学习效果和教师教学效果的检验和评定,更是反馈于教学活动、服务于教育决策、为教育科研提供参考资料的重要手段。在高职教育信息化发展的十多年间,各类管理信息系统相继投入使用,基于传统数据库应用技术的学生成绩管理系统在教务管理中取得了很好的效果,其中大量数据日积月累起来,已形成非常宝贵的信息资源。但在大多数院校中,这些数据的主要用途仍局限于提供简单查询和统计报表,反映了过去一段时间和当前的教学情况,对后续的教学及管理工作的指导意义不大,如何利用数据挖掘技术对这些数据进行深层分析,从大量数据中发现潜在规律和内在联系,以提高教师教学的针对性、教学管理决策的科学性,进而提高学校整体教学水平和办学质量,将是高职院校在今后的信息化建设和信息资源管理、开发和利用中的重要内容之一。

1 数据挖掘

1.1 数据挖掘的概述

数据挖掘(Data Mining,DM),又称为数据库中的知识发现,被信息产业界认为是数据库系统最重要的前沿之一。它是从大量的、不完全的、有噪声的、模糊的以及随机的数据中,提取人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘技术在应对各行各业出现的“数据爆炸、信息匮乏”的问题上发挥了很好的作用,该项技术最初多应用于金融业、保险业和商业领域,随着影响力的扩大,逐步扩展到医疗保健、运输业、行政司法、通信业等社会部门以及科学和工程研究单位。近十年间,数据挖掘技术在教育领域也受到越来越多专家和学者的关注,原因是教育领域信息化管理提供了大量的数据资源,但这些资源的利用非常有限,没有对后续教育教学工作发挥应有作用,因此越来越多的组织和大学把教育数据挖掘EDM(Educational Data Mining)作为研究对象,尝试将各种各样的数据挖掘方法应用于教育领域中,目的是从学校的数据中发现新的知识,帮助教师和管理人员改进方法、提高效能。

1.2 分析主题

本文基于实现对某高职院校学生进行成绩综合分析的目的,拟确定以下几个分析主题:

主题一、分析学生成绩与学生的录取专业、生源所在地、性别等学生信息之间的关联,为招生部门制定招生计划,为教学管理部门在设置专业及专业方向等方面提供决策帮助。

主题二、分析学生成绩与公共基础课、专业理论课和专业实践课之间可能存在的各种关联及关联的程度,为教学管理部门和各系制定人才培养方案提供参考依据。

主题三、分析学生成绩与授课教师年龄、学历、职称之间的关联,为各专业师资配置提供合理化建议,进而辅助学校人事和教学部门科学制定教师职业规划、教师培训等一系列师资队伍建设工作。

1.3 数据ETL

由于数据挖掘技术依赖于经过良好组织和预处理的数据源,数据源的好坏直接影响着数据挖掘的效果,因此构建纯粹用于数据挖掘分析的数据仓库的非常重要,该过程从各种数据源中根据分析主题抽取数据,并完成对数据的清洗和转换且最终加载到数据仓库中,为后续的数据挖掘提供了良好的数据环境。数据的这种预处理过程称为ETL(Extract/Transformation/Load),指根据分析主题,从单一或异种数据源中抽取出所需的数据,经数据清洗、转换等,按照预先定义好的数据仓库模型,将数据加载到数据仓库中,为数据挖掘提供数据平台。ETL的设计与实施占据整个工作量的70%,是工作量最大、费时费力最多的环节,这也显示了它在实现数据挖掘过程中的重要性。

本文以2007级各专业学生成绩和学籍信息,共计13个专业,22个班级,932名学生和287名教师的基本信息为分析对象,这些数据在未处理前存在一些问题:比如在教师基本信息中,有较多的外聘教师的学历、职称等信息不详,甚至有部分外聘教师的出生日期以录入的时间的形式存在等等,又比如教务管理系统中存在 “异名同义”的现象,例如课程名称为“计算机平面设计”和“PS图形图像处理”,事实上表示的是同一门课程。数据的清洗就是针对以上这些问题,对数据中的杂质、噪声、不一致、不规范、遗漏等情况加以处理。数据转换在数据预处理过程中也尤为重要,该文拟分析07级各个专业学生的成绩,因不同专业课程不同,且课程的性质、学分以及总学时的差异,在分析前必须进行相应的成绩换算,处理方法是将学生在校学习期间的所有课程分数乘以相应的学分数的求和除以所有课程学分的总和,得到该生的平均学分绩,以期达到客观比较学生在校成绩优劣的效果。

1.4 聚类K-means算法

聚类(Clustering)分析是数据挖掘技术的重要内容之一,它能从潜在的数据中发现有意义的数据分布模式,现已广泛应用于模式识别、数据分析、图像识别以及其他许多方面。聚类是指在事先不规定分组规则的情况下,将数据按照其自身特征划分成不同的群组。它的重要特征是“物以类聚”,即要求同一类的数据对象尽可能相似,而不属同一类的数据对象尽可能相异,随后观察每个类(一类数据集称为一簇)的特点,集中对特定的簇做进一步的分析。

K -means算法,也被称为K -平均或K -均值,是一种得到最广泛使用的聚类算法。它的核心思想是通过迭代把数据对象集划分到不同的簇中,以目标函数最小化为止,从而使生成的每个聚类内紧凑、独立。这一算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。

K均值算法流程:

1)随机取K个元素,作为K个簇的中心;

2)分别计算剩余元素到各个簇中心的相异度,将这些元素分别划分到相异度最低的簇中。

3)根据聚类结果,重新计算各个簇的中心(计算方法是取簇中所有元素各自维度的算术平均)

4)将全部元素按照新的中心重新聚类。

5)重复第4步,直到准则函数收敛。

6)输出结果。

2 系统设计

3 模型评价

4 结束语

本文首先阐述了将数据挖掘技术引入高职教育学生成绩分析应用的可行性和重要性,并详细介绍了一种常用的数据挖掘方法——聚类分析算法K -means算法。围绕分析主题,以某高职院校07级毕业生在校成绩,以及相关联的师资和综合学籍信息等数据搭建数据仓库,利用Microsoft SQL Server 2008 平台构建基于分析主题的学生成绩数据挖掘模型,最终评价分析模型,找出潜在规律和影响学生成绩的因素,提供有效的教学决策支持。

参考文献:

[1] 黄伟.基于数据挖掘的高校招生管理信息系统的研究[J].硅谷,2009(21):98.

数据挖掘学习计划篇(11)

中图分类号:G424文献标识码:A文章编号:1009-3044(2009)27-7591-02

Discusses the Application of Data mining Technology in the Colleges and Universities Education Informationization Shallowly

LI Yong

(The Computer Room of Bengbu College of Automobile Management, Bengbu 233011, China)

Abstract: As one kind of emerging data technology,the data mining obtains the widespread application in many domains.The article embarked from data mining's concept,has outlined the major function and the process of data mining,and expounded the application of data mining in the colleges and universities education informationization from the teaching management,the teaching appraisal,the curriculum,the teaching method choice and so on.

Key words: data mining; colleges and universities education; teaching management

现代计算机技术、信息通讯技术和网络技术在院校教育系统的整合应用,在一定程度上实现了教育教学、组织管理、校园生活服务等活动的数字化、网络化、自动化,提高了教育质量和效率,形成了适应信息社会要求的全新的教育和管理模式,即教育信息化。院校教育信息化带来的是信息量的急剧增长和对信息提取的更高要求,现在再依照传统方法在海量数据中寻找决策的依据是很困难的事情。数据挖掘是一个新兴的多学科交叉领域,利用数据挖掘技术可以帮助人们分析、理解存储在计算机系统中的海量数据,为决策提供支持,因此,可以借助数据挖掘工具去发掘院校教育数据中隐藏的规律或模式,为教育教学决策提供科学依据和更有效的支持。

1 数据挖掘

1.1 数据挖掘的定义

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、有用的信息和知识的过程。数据挖掘是对数据内在和本质的高度抽象与概括,是对数据从感性认识到理性认识的升华。它涉及对数据库中的大量数据进行抽取、转换、分析以及模型化处理从中提取辅助决策的关键性数据,因此数据挖掘就是深层次的数据信息分析方法。

1.2 数据挖掘的主要功能

具体来说,数据挖掘具有预测趋势和行为、关联分析、聚类、概念描述以及偏差检测等主要功能。

预测趋势和行为:数据挖掘可以自动在大型数据库中寻找预测性信息,以往需要由手工分析大量数据完成的问题如今可以通过数据挖掘迅速直接地得出结论。

关联分析:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。

聚类:数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。

概念描述:概念描述就是对某类对象的内涵进行描述,并对其特征进行概括。

偏差检测:数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例等。

总之,数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳出有用的结构,作为决策者进行决策的依据。

1.3 数据挖掘的过程

数据挖掘一般包括以下几个基本过程:

1) 确定和逐步理解应用领域。清晰地定义出业务问题,这是数据挖掘的重要一步。

2) 数据选择。搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

3) 数据预处理。研究数据质量,确定将要进行的挖掘操作的类型。

4) 数据编码、数据转换。将经过预处理的数据进行一定的格式转换,使其适应数据挖掘系统或挖掘软件的处理要求,形成一个分析模型。

5) 数据挖掘。利用各种数据挖掘方法对数据进行分析,挖掘用户需要的各种规则、趋势、类别、模型等。

6) 解释结果。将挖掘结果以可视化的形式展现在用户面前。

7) 管理发现的知识。

2 数据挖掘在院校教育信息化中的应用

院校教育信息化所产生和积累的数据,为我们进行数据挖掘提供了有效的数据。数据挖掘技术可以应用于院校教育信息化的多个方面,如教学管理,教学评价,课程设置,教学方法选择等等。

2.1 辅助教学管理

随着计算机在教学管理方面的广泛应用,学生和教师的学习、工作、奖励、处罚等。

信息被存储在教学管理数据库中,通过分别对师生数据库进行挖掘,利用得到的有价值的数据来制定正确决策。

2.1.1 合理制定教师培训、招聘计划

在院校教师管理中,传统方法是运用日常管理中积累表层信息实施决策,这样只能获得数据的表层信息,并不能获得内在属性和隐含的信息。如果转变理念,运用数据挖掘理论,采用新技术分析这些数据,就会使大量的数据信息得以有效利用。

利用分类算法对不同年龄、学历、职称级别的教师教学数据进行分析,确定哪些专业的人才可以通过内部培训产生,哪些专业人才短缺而且急需,需要通过引进解决,从而达到平衡内部人才和外部招聘人才的关系,进而制定教师进修、培训、招聘计划,以调整师资队结构,使专业教师分布均衡。

2.1.2 分析学生特征

学生入学后,在校学生管理数据库中存放有大量的学生档案,包括的内容有家庭情况、身体状况、入校前后的学习成绩、特长爱好、奖惩等信息。利用数据挖掘的关联分析和演变分析等功能,在学生管理数据库中挖掘有价值的数据,分析学生特征,掌握学生的状态,帮助学生修正自己的学习行为。通过对学生特征分析结果和事先制订的行为目标标准进行比较,使学生提高学习能力、完善人格,促进其综合素质的发展。

2.2 辅助教学评价

教学评价就是根据教学目标和教学原则的要求,系统地收集信息,对教学过程中的教学活动以及教学成果给予价值判断的过程。其内容主要包括对学生“学”的评价和对教师“教”的评价。目前,院校教育评价指标主要包括学生综合测评指标和课堂教学评价指标,这些评价指标多数是参考国内外相关评价指标体系并结合实际操作中的经验和调查问卷等制定的,对于各项指标之间的关系、重要程度以及指标存在的合理性等方面很难作出判断,将关联规则和粗糙集理论应用于各评价系统,可以对指标进行排序、约简等,在一定程度上对评价指标进行优化,可以找到比较合理且简单易行的评价指标体系。

首先,院校教育信息化产生了大量数据,如学生的学习成绩数据库、行为纪律数据库、奖励处罚数据库等。利用数据挖掘工具对这些数据库进行分析处理,可以及时得到学生的评价结果,对学生出现的不良学习行为进行及时指正。同时,还能够克服教师主观评价的不公正、不客观的弱点,减轻教师的工作量。

其次,将关联规则运用于教学评价数据中,探讨教学效果的好坏与教师年龄、职称之间的关系、学生各项素质指标之间的关系等,能够及时地对教师的教学和专业发展以及学生的学习和个性发展提供指导。

最后,将数据挖掘中的关联规则应用于分析试卷数据库,根据学生得分情况可以分析出每道题的难易度、区分度、相关度等指标,教师也可以据此对试题的质量作出比较准确的评价,进而可以用来检查自己的教学情况及学生的掌握情况并为今后的教学提供指导。

2.3 合理指导课程设置

院校的课程设置有其一定的规律性,先基础,后专业,学习是循序渐进的。如计算机专业的学生在学习数据结构这门课程之前,会先学习语言程序设计和离散数学等课程。如果先行课程没有学好,势必会影响后续课程的学习。此外,同一年级学习同一课程的不同班级,由于授课教师、班级文化的不同,班内学生的总体成绩也会有所差异。每学期安排课程的多少,也会影响学生的学习效果。我们可以利用学生的学习成绩数据库中存放的历届学生各门学科的考试成绩,结合数据挖掘的关联分析与时间序列分析等相关功能,从这些数据中挖掘出有用的信息,帮助分析这些数据之间的相关性、回归性等性质,得出一些具有价值的规则和信息,最终找到影响学生成绩的原因,并在此基础上对课程设置做出合理安排。

2.4 辅助选择适当教学方法

在教学过程中,教师通常采用多种教学方法完成对本门课程的教学任务,如讲授法、讨论法、案例法、演示法、实验对比法、参观学习法等等。这些大量的教学班次实践过的经验数据存放于教学数据库中,可以用数据挖掘的方法来挖掘数据库中的数据,判定当前的教学班应该采取什么教学方法才能满足教学需要,更有利于学生对知识的理解和吸收。课程结束后将每个学生的成绩和对教学方法的评价进行综合,运用回归线性分析、关联规则的方法来判断本次教学方法适合哪一类学生,对于分类、分层次教学具有推广和指导意义。

3 结束语

数据挖掘作为一种新兴的数据处理技术,在数据的利用和提取方面发挥着日益重要的作用。在教育领域的应用,为教学工作的决策、设计、实施以及评价等各项内容提供了新的途径和方法,随着数据挖掘技术在教育领域中应用功能及技术的不断发展和完善,必将发挥越来越大的作用。

参考文献:

[1] Insight into Data Mining Theory and Practice.范明,牛常勇,译.数据挖掘基础教程[M].北京:机械工业出版社,2009.