绪论:写作既是个人情感的抒发,也是对学术真理的探索,欢迎阅读由发表云整理的11篇挖掘技术论文范文,希望它们能为您的写作提供参考和启发。

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。
一、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
随着科技的进步,现代挖掘机一般都采用了机电液一体化控制模式,我们在排除一些故障时,解决的多是发动机、液压泵、分配阀、外部负荷的匹配问题。一般在挖掘机作业中,这几方面不能匹配,经常会表现为:发动机转速下降,工作速度变慢,挖掘无力以及一些常见问题。
1发动机转速下降
首先要测试发动机本身输出功率,如果发动机输出功率低于额定功率,则产生故障的原因可能是燃油品质差、燃油压力低、气门间隙不对、发动机的某缸不工作、喷油定时有错、燃油量的调定值不对、进气系统漏气、制动器及其操纵杆有毛病和涡轮增压器积炭。如果发动机输出动力正常,就需要查看是否因为液压泵的流量和发动机的输出功率不匹配。
液压挖掘机在作业中速度与负载是成反比的,就是流量和泵的输出压力乘积是一个不变量,泵的输出功率恒定或近似恒定。如果泵控制系统出现了故障,就不能实现发动机、泵及阀在不同工况区域负荷优化匹配状态,挖掘机从而将不能正常工作。此类故障要先从电器系统入手,再检查液压系统,最后检查机械传动系统。
2工作速度变慢
挖掘机工作速度变慢主要原因是整机各部磨损造成发动机功率下降与液压系统内泄。挖掘机的液压泵为柱塞变量泵,工作一定时间后,泵内部液压元件(缸体、柱塞、配流盘、九孔板、龟背等)不可避免的产生过度磨损,会造成内漏,各参数据不协调,从而导致流量不足油温过高,工作速度缓慢。这时就需要整机大修,对磨损超限的零部件进行修复更换。
但若不是工作时间很长的挖掘机突然变慢,就需要检查以下几方面。先查电路保险丝是否断路或短路,再查先导压力是否正常,再看看伺服控制阀-伺服活塞是否卡死以及分配器合流是否故障等,最后将液压泵拆卸进行数据测量,确认挖机问题所在。
3挖掘机无力
挖掘无力是挖掘机典型故障之一。对于挖掘无力可分为两种情况:一种为挖掘无力,发动机不憋车,感觉负荷很轻;第二种为挖掘无力,当动臂或斗杆伸到底时,发动机严重憋车,甚至熄火。
①挖掘无力但发动机不憋车。挖掘力的大小由主泵输出压力决定,发动机是否憋车取决于油泵吸收转矩与发动机输出转矩间的关系。发动机不憋车说明油泵吸收转矩较小,发动机负荷轻。如果挖掘机的工作速度没有明显异常,则应重点检查主泵的最大输出压力即系统溢流压力。如果溢流压力测量值低于规定值,表明该机构液压回路的过载溢流阀设定值不正确,导致该机构过早溢流,工作无力。则可以通过转动调整螺丝来调整机器。②挖掘无力,发动机憋车。发动机憋车表明油泵的吸收转矩大于发动机输出转矩,致使发动机超载。这种故障应首先检查发动机速度传感系统是否正常,检查方法与前文所述发动机检查方法类似。经过以上细致的检查与排除故障,发动机速度传感系统恢复正常功能,发动机憋车现象消失,挖掘力就会恢复正常。
4挖掘作业过程中的常见故障
挖掘机在施工作业中经常出现的一些普遍的故障,如:挖机行走跑偏,原因可能为行走分配油封(又称中心回转接头油封)损坏;两个液压泵流量大小不一;一边行走马达有问题。液压缸快速下泄则可能为安全溢流阀封闭不严,或缸油封严重损坏等等。多智网校诚招全国各地市独家线下商,共同开发网上教育市场。多智教育()!
5挖掘机的日常保养
随着科技的进步,现代挖掘机一般都采用了机电液一体化控制模式,我们在排除一些故障时,解决的多是发动机、液压泵、分配阀、外部负荷的匹配问题。一般在挖掘机作业中,这几方面不能匹配,经常会表现为:发动机转速下降,工作速度变慢,挖掘无力以及一些常见问题。
1发动机转速下降
首先要测试发动机本身输出功率,如果发动机输出功率低于额定功率,则产生故障的原因可能是燃油品质差、燃油压力低、气门间隙不对、发动机的某缸不工作、喷油定时有错、燃油量的调定值不对、进气系统漏气、制动器及其操纵杆有毛病和涡轮增压器积炭。如果发动机输出动力正常,就需要查看是否因为液压泵的流量和发动机的输出功率不匹配。
液压挖掘机在作业中速度与负载是成反比的,就是流量和泵的输出压力乘积是一个不变量,泵的输出功率恒定或近似恒定。如果泵控制系统出现了故障,就不能实现发动机、泵及阀在不同工况区域负荷优化匹配状态,挖掘机从而将不能正常工作。此类故障要先从电器系统入手,再检查液压系统,最后检查机械传动系统。
2工作速度变慢
挖掘机工作速度变慢主要原因是整机各部磨损造成发动机功率下降与液压系统内泄。挖掘机的液压泵为柱塞变量泵,工作一定时间后,泵内部液压元件(缸体、柱塞、配流盘、九孔板、龟背等)不可避免的产生过度磨损,会造成内漏,各参数据不协调,从而导致流量不足油温过高,工作速度缓慢。这时就需要整机大修,对磨损超限的零部件进行修复更换。
但若不是工作时间很长的挖掘机突然变慢,就需要检查以下几方面。先查电路保险丝是否断路或短路,再查先导压力是否正常,再看看伺服控制阀-伺服活塞是否卡死以及分配器合流是否故障等,最后将液压泵拆卸进行数据测量,确认挖机问题所在。
3挖掘机无力
挖掘无力是挖掘机典型故障之一。对于挖掘无力可分为两种情况:一种为挖掘无力,发动机不憋车,感觉负荷很轻;第二种为挖掘无力,当动臂或斗杆伸到底时,发动机严重憋车,甚至熄火。
①挖掘无力但发动机不憋车。挖掘力的大小由主泵输出压力决定,发动机是否憋车取决于油泵吸收转矩与发动机输出转矩间的关系。发动机不憋车说明油泵吸收转矩较小,发动机负荷轻。如果挖掘机的工作速度没有明显异常,则应重点检查主泵的最大输出压力即系统溢流压力。如果溢流压力测量值低于规定值,表明该机构液压回路的过载溢流阀设定值不正确,导致该机构过早溢流,工作无力。则可以通过转动调整螺丝来调整机器。②挖掘无力,发动机憋车。发动机憋车表明油泵的吸收转矩大于发动机输出转矩,致使发动机超载。这种故障应首先检查发动机速度传感系统是否正常,检查方法与前文所述发动机检查方法类似。经过以上细致的检查与排除故障,发动机速度传感系统恢复正常功能,发动机憋车现象消失,挖掘力就会恢复正常。
4挖掘作业过程中的常见故障
挖掘机在施工作业中经常出现的一些普遍的故障,如:挖机行走跑偏,原因可能为行走分配油封(又称中心回转接头油封)损坏;两个液压泵流量大小不一;一边行走马达有问题。液压缸快速下泄则可能为安全溢流阀封闭不严,或缸油封严重损坏等等。
5挖掘机的日常保养
(2)数据准备:首先,对于业务目标相关的内部和外部数据信息进行查找,从中找出可以用于数据挖掘的信息;其次,要对数据信息的内容进行全面细致分析,确定需要进行挖掘操作的类型;然后,结合相应的挖掘算法,将数据转化称为相应的分析模型,以保证数据挖掘的顺利进行。
(3)数据挖掘:在对数据进行转化后,就可以结合相应的挖掘算法,自动完成相应的数据分析工作。
(4)结果分析:对得到的数据分析结果进行评价,结合数据挖掘操作明确分析方法,一般情况下,会用到可视化技术。
(5)知识同化:对分析得到的数据信息进行整理,统一到业务信息系统的组成结构中。这个步骤不一定能够一次完成,而且其中部分步骤可能需要重复进行。
二、数据挖掘技术在水利工程管理中的实施要点
水利工程在经济和社会发展中是非常重要的基础设施,做好水利工程管理工作,确保其功能的有效发挥,是相关管理人员需要重点考虑的问题。最近几年,随着社会经济的飞速发展,水利工程项目的数量和规模不断扩大,产生的水利科学数据也在不断增加,这些数据虽然繁琐,但是在许多科研生产活动和日常生活中都是不可或缺的。例如,在对洪涝、干旱的预防以及对生态环境问题的处理方面,获取完整的水利科学数据是首要任务。那么,针对日益繁杂的海量水利科学数据,如何对有用的信息知识进行提取呢?数据挖掘技术的应用有效的解决了这个问题,可以从海量的数据信息中,挖掘出潜在的、有利用价值的知识,为相关决策提供必要的支持。
1.强化数据库建设
要想对各类数据进行科学有效的收集和整理,就必须建立合理完善的数据库。对于水利工程而言,应该建立分类数据库,如水文、河道河情、水量调度、防洪、汛情等,确保数据的合理性、全面性和准确性,选择合适的方法,对有用数据进行挖掘。
2.合理选择数据挖掘算法
(1)关联规则挖掘算法:关联规则挖掘问题最早提出于1993年,在当前数据挖掘领域,从事务数据库中发现关联规则,已经成为一个极其重要的研究课题。关联规则挖掘的主要目的,是寻找和挖掘隐藏在各种数据之间的相互关系,通过量化的数据,来描述事务A的出现对于事务B出现可能产生的影响,关联规则挖掘就是给定一组Item以及相应的记录组合,通过对记录组合的分析,推导出Item间存在的相关性。当前对于关联规则的描述,一般是利用支持度和置信度,支出度是指产品集A、B同时出现的概率,置信度则是在事务集A出现的前提下,B出现的概率。通过相应的关联分析,可以得出事务A、B同时出现的简单规则,以及每一条规则的支持度和置信度,支持度高则表明规则被经常使用,置信度高则表明规则相对可靠,通过关联分析,可以明确事务A、B的关联程度,决定两种事务同时出现的情况。
(2)自顶而下频繁项挖掘算法:对于长频繁项,如果采用关联规则挖掘算法,需要进行大量的计算分析,不仅耗时耗力,而且影响计算的精准度,这时,就可以采用自顶而下频繁项挖掘算法,这种算法是一种相对优秀的长频繁项挖掘算法,利用了事务项目关联信息表、项目约简、关键项目以及投影数据库等新概念与投影、约简等新方法,在对候选集进行生成的过程中,应该对重复分支进行及时修剪,提升算法的实际效率,从而有效解决了长频繁项的挖掘问题。结合计算机实验以及算法分析,可以看出,这种方法是相对完善的,同时也是十分有效的。不过需要注意的是,当支持度较大、频繁项相对较短时,利用关联规则挖掘中典型的Apriori方法,可以起到更好的效果。
(3)频繁项双向挖掘算法:这种算法是一种融合了自顶向下以及自底向上的双向挖掘算法,可以较好的解决长频繁项以及段频繁项的挖掘问题,主挖掘方向是利用自顶向下挖掘策略,但是结合自底向上方法生成的非频繁项集,可以对候选集进行及时修剪,提升算法的实际效率。
职业教育曾利用电视教育这种很先进的技术办学并取得了辉煌的成绩,时至今日,现代信息技术不断发展,不同程度的渗透到每一个领域,教育领域更是首当其冲。昨日先进的办学技术,已经远不能适应现代远程教育的发展需要,现代教学媒体开发是实现远程教育的重要环节之一。近几年,随着国外远程教育突飞猛进的发展,以及国内高中等院校多媒体课件的开发实践,我们应对现代教育媒体开发的应用前景,特别是对我院远程教育发展的重要性有一个充分的认识。
一、专业教学网络与现代教育技术媒体的开发
现代教育媒体的开发,从技术角度来看是可行的全球计算机网络和多媒体技术的进步导致了新一代知识智能媒体的发展,产生了网络大学(虚拟大学),这是远程教育的重要特点和今后的发展方向。承载教学媒体的信息可简单的分为实时性和非实时性两类。多媒体信息则非常适应非实时性的传输要求,且价格较低,利用非实时性传输中有一定的延时的特点。像文本、图片、声音、动画等形式的多媒体信息,就可以在低速网上通过电话进行传输。Internet和Intranet上大多采用这种非实时性信息传输方式浏览信息,这非常适合具有交互性的多媒体课件。
二、多媒体课件的应用前景以及精品课件的建立
煤炭的持续开采会受到地质条件的直接影响,过去国家投入众多的设施,使用至今均已出现老化,并且维修量非常大。随着矿井的不断延深,矿压极度强化,巷道的维修任务更是不断的增加,矿井的供电以及通风、提升与排水等都不能适应生产的需要。
1.2安全管理模式传统
与西方发达产煤国家相比较,我国的煤矿使用技术研究起步很晚。并且人力、财力非常缺乏,某些重大的安全技术问题,比如冲击地压以及煤和瓦斯的突出、地热以及突水等灾害不能进行有效的预测和控制。且受到以往传统运营思想的直接作用与影响以及各个企业的经济实力的约束,我国的煤矿生产装备和安全监控设施相对落后。井巷的断面设计以及支护强度的确定、支护材料的型号选择较小。生产设施功率以及矿井的供风量等富余参数非常低,极易出现事故。绝大多数的煤炭企业还是利用以往传统的安全管理模式,各种报表计算仍是靠人工劳动并且精确度很低。信息传送的时间较长,且速度较慢,管理者的工作重复性很大,资料查询十分困难,并且工作效率很低。安全检查以及等级鉴定等总是凭借主观意念以及相关的经验。
1.3安全信息管理体制不健全
安全信息可以说是安全管理工作的重要依据,它主要包括事故和职业伤害的有效记录与分析统计,职业的安全卫生设施的相关研究与设计、生产以及检验技术,法律法规以及相应技术标准和其变化的动态,教育培训以及宣传和社会活动,国内的新型技术动态以及隐患评估与技术经济类分析和咨询、决策的体系。信息体制的健全是安全体制工程以及计算机技术的有效结合,可促使安全工作转型为定性和定量的超前预测,不过大多数矿井还是处于起步与摸索阶段,并未呈现出健全的体制,真正的使用还有待进一步的发展。
2空间数据挖掘技术
数据挖掘研究行业的持续进展,开始由起初的关系数据以及事务数据挖掘,发展至对空间数据库的不断挖掘。空间的信息还在逐渐地呈现各类信息体制的主体与基础。空间数据挖掘技术是一项非常关键的数据,具有比普通关系数据库和事务数据库更丰富、复杂的相关语义信息,且蕴含了更丰富的知识。所以,虽说数据的挖掘最初是出现在关系数据挖掘以及事务的数据库,不过因为空间数据库中的发掘知识,这就很快引起了各个研究者的关注与重视。很多的数据挖掘类研究工作都是从关系型以及事务型数据库拓展至空间数据库的。在地学领域中,随着卫星以及遥感技术的不断使用,逐渐丰富的空间以及非空间的数据采集与储存在较大空间数据库中,大量的地理数据已经算是超过了人们的处理能力,并且传统的地学分析很难在这些数据中萃取并发现地学知识,这也就给现阶段的GIS带来了很大的挑战,急切的需要强化GIS相应的分析功能,提升GIS处理地学实际状况的能力。数据挖掘以及知识发现的产生能满足地球空间的数据处理要求,并推进了传统地学空间分析的不断发展。依据地学空间数据挖掘技术的特性,把数据挖掘的方式融进GIS技术中,呈现地学空间数据挖掘技术和知识发展的新地学数据分析理念与依据。
3煤矿安全管理水平的提升
3.1建设评价指标体制库
评价指标体制库是矿井的自然灾害危害存在的具体参数式的知识库。模型的组建务必要根据矿井的瓦斯以及水害等自然灾害危害呈现的不同指标体制和其临界值构建一定的指标体制库,危害的警报识别参数关键是采掘工程的平面图动态开采面以及相应的巷道。各种瓦斯的危害以及水害隐患和通风隐患均呈现一定的评价指标库。
3.2构建专业的分析模型库
依据瓦斯以及水害等诸多不同的矿井自然灾害类别构建相关的专业性模型库,比如瓦斯的灾害预测,应根据矿井的地质条件以及煤层所赋存的状况构建瓦斯的地质区分图,再根据采掘工程的平面图动态呈现的采掘信息以及相应的瓦斯分区构建关联并实行相应的比较分析,确定可以采集区域未来的可采区域是不是高瓦斯区域。
3.3构建以GIS空间分析为基础的方法库
GIS空间分析可以说是矿井自然灾害的隐患高度识别的关键性方式,并且还是安全故障警报的主要路径。比如断层的防水层的有效划分,关键是根据断层的保安煤柱来实行可靠的确定。断层的保安煤柱确定可以利用GIS缓冲区域的分析得到。空间的统计分析以及多源信息有效拟合和数据挖掘亦是瓦斯和水害等安全隐患监测经常使用GIS空间分析方式,如物探水文的异常区域确定以及瓦斯突出相应的危险区域确定。
3.4决策支持体制与煤矿管理水平评价指标
体制库以及模型库、方式库与图形库均是矿井的自然灾害隐患识别和决策的最基础。利用矿井的自然灾害隐患识别决策来支持体系具体的功能呈现矿井的自然灾害隐患识别以及决策分析,在根源处提高煤矿的安全管理水平。分类构建矿井的自然灾害实时监控体系,进行动态跟踪相应的灾害实时数据,并事实呈现矿井的自然灾害数据或是信息和自然灾害的指标体系库以及模型库与知识库、空间数据库的合理化比较,并运用图形库的数据再通过GIS空间分析方式来确定安全隐患的,矿井自然灾害的隐患实时警报并进行决策分析,以提交空间数据的自然灾害隐患识别以及分析处理的决策性报告。
2、基于模块化方法的课程内容分析
模块化教学模式是按照程序模块化的构想和原则来设计教学内容的一整套教学体系,它是在既定的培养目标指导下,将全部教学内容按照一定标准或规则进行分解,使其成为多个相对独立的教学模块,且各教学模块之间可以按照一定的规则有选择性的重新组合。该方法在20世纪70年代,由国际劳工组织引入教学之中,开发出以现场教学为主,以技能培训为核心的模块化教学模式,在很多国家得到广泛应用。由于该教学法具有针对性、灵活性、现实性等特点,越来越受到教育界的关注。模块化教学本质上是以知识点与实践的细化为出发点研究,本课程的知识点细化分为两个层次:一是从宏观角度,参考ACM的SIGKDD的数据挖掘课程建设建议,设计课程的基础内容模块和高级主题模块;二是从微观角度,针对较为复杂的算法进行的知识点划分。课程内容的一至五章属于基础内容模块,介绍本课程的基础理论和入门的数据挖掘技术;六至第八章介于基础内容与高级主题之间,介绍数据挖掘的核心算法,可以根据学生情况进行灵活处理,可强调应用,也可深化算法介绍;第九、十章为高级主题模块,可以作为扩展材料介绍应用,或为感兴趣同学提供算法介绍;课程实践模块包含数据仓库建设与数据挖掘算法的应用,难度居中,可以在引导学生思考的前提下给出实验步骤,并引导学生使用类似的方法处理不同的数据。
3、基于模块化方法进行重要知识点的模块化分析
重要知识点内涵较为丰富,一般体现在经典数据挖掘算法上,通常一大类算法下还分有多个算法,不同算法的在难度上有渐进层次,同一种算法也有很大改进研究空间,讲授弹性比较大。因此,适合使用模块化方法进行处理,并且需要在课程设计中明确一定课时量所要达到的内容和难度。基础部分为必选内容,介绍基本概念和基本原理;决策树作为数据挖掘分类算法的最基础算法也是必选内容,决策树算法有多种分类,需要进行按照难易程度进行选择;最后要根据难度选择其他分类算法进行介绍。
二、在部队食品采购系统中的应用以及其价值评价
在部队食品采购系统实际应用工程中,其实可以运用MicrosoftSQLServerAnalysisServices来对数据进行分析,并且在数据挖掘过程中对多维数据进行描述与查找起到一定作用。因为多维数据比较复杂,增长的也比较快,因此,进行手动查找是很困难的,数据挖掘技术提供的计算模式可以很好的对数据进行分析与查找。在建设部队食品采购仓库数据的时候,数据内容主要包括了人员的健康、兵员的饮食以及训练等,进行数据挖掘主要包括以下内容:第一,把每个主题信息数据进行收集、汇总、分析等,对人员情况、健康、饮食、训练等进行合理分析;第二,多维分析数据信息。根据部队的实际情况,利用数据挖掘技术对部队人员健康、饮食、训练等数据信息进行多维分析,其中包含上钻、切片、下钻等;第三,挖掘健康与饮食之间的内在关系。根据数据库中许多面向主题的历史数据,采用数据挖掘技术进行分析与演算得到部队人员的训练和健康情况与部队饮食之间内在关系,以便于为部队食品采购提供合理的、有效的保障,从而提高部队整体人员的健康水平、身体素质以及训练质量,对提高我国部队战斗力有着深远的意义。
(2)计算机网络病毒传播形式的多样性。计算机网络和网络病毒相互之间存在着很紧密的联系,网络电子邮件、网络系统漏洞以及不良网页都是网络病毒进行传播的重要途径,进而对计算机网络系统造成蓄意破坏。计算机网络系统的传播形式有很多种,网络病毒在网络系统漏洞中的传播就是常见的一种病毒传播方式,计算机网络病毒程序通过对Internet远程主机系统的搜索和扫描,利用系统漏洞到达控制对方计算机的控制。同时也有一种病毒通过对文件夹的搜索扫描,进行病毒复制,以到达入侵网络系统的目的。
(3)计算机网络病毒的针对性。在计算机网络技术发展初期,计算机网络病毒主要目标就是干扰网络技术人员的程序编写,随着计算机技术的快速发展,计算机网络病毒的开发技术和功能作用也发生了很多变化,如今,计算机网络病毒的设计和开发已经开始商业化,针对性地对计算机网络系统实施破坏,如通过盗用网银账号和密码等方式以达到非法获取利益的目的。
2数据挖掘技术简析
数据挖掘技术是通过对所处一定范围之内的所有数据进行数据收集、数据分类以及数据归类,进而来判断是否存在某种潜在的关系和数据规律,主要环节有3个,准备数据;寻找数据存在的规律;表现数据规律。数据挖掘模式设置好之后,技术系统中的挖掘引擎就会以数据库中的要求为依据,对准备好的数据进行数据分析和数据归类,找出各个数据之间存在的关系和相应的数据规律,以便成为之后数据分析的有利依据,数据挖掘技术是比较全面的挖掘技术和数据应用技术,工作过程比较繁杂,工作操作步骤较多,其中存在很大部分的准备环节和规划工作,数据挖掘技术的重点工作是对数据的预处理阶段,对数据的预处理阶段是数据挖掘技术的基础,是后期进行数据分析的必要条件。
3以数据挖掘技术为基础的计算机网络病毒防御分析
3.1数据挖掘技术的构成分析
数据挖掘技术在计算机网络病毒防御中的应用过程比较复杂,步骤繁多,为了便于日常操作应用,掌握每个环节的基本特征,可以对预处理模块、决策模块、数据收集模块、数据挖掘模块以及规则库模块进行分模块分析研究。
(1)数据预处理模块分析。简化数据挖掘技术中数据挖掘和数据分析之间的处理操作可以通过数据预处理模块来实现,利用数据预处理模块可以整体上提高数据挖掘效果,提高数据辨识度和准确度。在完成数据收集后需要把数据导入到预处理模块,实现数据的分析归类和数据变换,通过这样额方式把数据转换成可以被系统识别和处理的数据内容。以目标IP地址、源IP地址、端口信息等这些据数据包当中所包括的信息内容为依据,实施数据集合、数据归纳、数据处理等流程。
(2)决策模块分析。在数据挖掘技术中的决策功能模块中,通过对数据的挖掘从而对数据库进行构建,然后对数据进行匹配,同时数据库还要和规则库密切联系起来。如果数据库有与规则库存在高度联系的信息出现,证明在决策模块里有病毒特征存在,很可能会感染到计算机病毒。如果是结果数据库的数据信息和规则库的数据不能相互匹配,那也就是说该数据包中存在有带有新型特征病的毒带,也就是出现了新型的规则类,这样的情况下就需要把该带有新型特征的病毒导入到系统的规则库当中,规则库的一种较新型的规则类别也就形成了。
(3)数据收集模块分析。实现数据挖掘的基本要求是提供充分的数据信息,只有通过数据收集才能实现数据收集模块的功能。数据收集模块通过对计算机网络中数据包的抓取和收集来实现数据信息,数据信息被收集后就会具有一定的数据结构和比较重要的功能信息。
(4)数据挖掘模块分析。数据挖掘技术的一个最关键部分就是数据挖掘模块。数据挖掘模块中的事件库和数据挖掘算法是数据挖掘模块的关键部分。数据挖掘对相关数据的收集构成了事件库,通过对事件库中数据的分类和数据整理,进而可以获取较为准确的数据结构。
(5)规则库模块分析。规则库模块是数据挖掘技术的一个重要组成部分,可以帮助优化数据挖掘信息库,给系统提供需要的病毒分析数据。如果有网络病毒在计算机系统中出现,规则库模块就可以进行数据分析和数据识别,以及实现数据挖掘。在数据挖掘的过程中,网络病毒属性会被挖掘过程中获取的规则集调整和改变,并且把这个记录继续使用在数据挖掘中,这项记录可以帮助计算机系统对一些潜在的网络病毒进行分析,进而起到防御病毒的作用。
3.2以数据挖掘技术为基础的网络病毒防御系统
(1)数据挖掘技术中的关联规则分析。数据挖掘技术的关联规则就是指在同一类别的数据中有可以被发现的知识存在,通过对两个或者超过两个的变量进行取值,如果发现数据具有一定规律的话说明这些数据和数据之间存在着某种关联性。因果关联、及时序关联以及简单关联是存在数据挖掘技术中的几种主要关联关系。要找到数据库中的关联网,就需要进行关联分析,然后结合数据和数据之间的关联性进行数据挖掘,进而得到数据和数据存在的关联规则。
2、国内外文献综述
挑选中国知网数据库,以“知识管理”为主题关键词进行精确检索,共找到 31,324 篇文献,其中 2004 年至2014 年间共发表文献 24,895 篇,近十年是知识管理领域研究的高峰期。以“高校知识管理”或“大学知识管理”为主题关键字进行精确检索,得到 248 篇相关文献,可发现针对高校的知识管理研究较少。针对结果进行二次检索,增加主题关键词“数据挖掘”得到相关文献 3 篇,表明对高校知识管理与数据挖掘技术结合的研究较少,所得文献主要观点包括:1.数据挖掘技术可用于高校知识发现;2.数据挖掘对知识管理体系建设有推动作用;3. 高校知识管理成果可通过数据挖掘技术进行评价。对国外学者的研究情况进行分析,挑选 Web ofScience 数据库。以“knowledge management”为主题关键字进行检索,共得到 62,474 篇文献,以“knowledgemanagement of college”为主题关键字检索,得到 647篇文献,再结合关键词“Data mining”,共得到文献 5 篇。由此可见,国外相关研究比国内多出近一倍,并且研究的程度深、范围广。但关于高校知识管理与具体信息技术结合应用的文献仍较少,且发表日期多为 2010 年后。
3、知识管理与数据挖掘结合的软件要求
知识管理与数据挖掘技术的结合运用对高校相关设备提出了一定的要求,包括对服务器、客户端计算机的硬件要求以及对知识管理平台、数据挖掘工具的软件要求,本文中将重点叙述软件要求。
知识管理平台要求
知识管理平台是高校知识管理的实施基础,它为高校人员提供了可视化的操作界面,其应实现的基本功能包括:1.数据接口;2.工具接口;3.数据挖掘(内置或外接);4.知识仓库;5.知识索引、推荐;6.信息检索;7.组织内交流;8. 管理评价。一个知识管理平台应分为:表现层、服务层、处理层、存储层。表现层是面向用户的可视化界面,用于人机交互,接受用户的任务;服务层对任务进行调度、处理,直接执行无需数据挖掘的任务并反馈至表现层,调度需要数据挖掘的任务至处理层;处理层负责数据预处理、数据挖掘、知识发现等功能;存储层包括校方数据库及知识仓库。具体层次如图 1 所示。根据高校组织的特征,知识管理平台应在实现基本功能的前提下具有以下特点:1. 接口质量高。高校集行政、科研、社会服务等任务于一体,需要处理海量数据,应提供接口以使用专业处理工具处理复杂任务,保证数据处理的效率与深度;2. 内置数据挖掘功能。高校所含数据种类多、范围广,对结构简单、数据量小的数据可直接使用内置数据挖掘功能处理,节省时间;3. 交流功能强。高校为知识密集型组织,其学科、职能间存在交叉,优秀的交流功能保证了知识的共享及创新。4. 完善的激励体系。激励体系不仅体现在平台的评价功能中,更体现在管理人员的管理中,通过提高人员的积极性促进知识管理进程的实施。
数据挖掘工具要求
高校所含知识从相关对象分类可分为两类:1. 管理知识,指高校各部门(教学、后勤部门等)用于高校管理的知识;2. 科研知识,指各学科的专业知识。前者主要与高校行政、管理人员相关,后者则与高校学者、教授关系更大。针对不同的用户,知识管理与数据挖掘的结合运用对数据挖掘软件提出了不同的要求。高校行政、管理人员所面对的数据多来自高校各类信息系统的记录,如:校园卡消费信息、机房上机信息,具有量大、范围广、结构一致等特点。用于该类数据挖掘的挖掘工具可内置于知识管理平台中,便于数据存取,提高挖掘速度。常用功能为预测、分类、评价三项,主要方法可选用回归分析、趋势外推、特征分类、层次分析、模糊综合评价法等。结合使用者特点,该类挖掘工具应提供独立的、具有既定模式的工作界面,减少用户与算法的接触,挖掘结果应具有较强可视性,提供图、表界面,以便用户理解。高校科研知识主要来自于学者、教授的科学研究,包括:实验数据、主观推测描述等,具有专业性强、层次深、结构复杂等特点。针对挖掘要求较低的数据,可使用知识管理平台中的内置挖掘工具,而针对挖掘要求高的数据,可选用专业数据挖掘软件,如:Intelligent Miner、QUEST 等,通过知识管理平台的接口进行对接。
4、知识管理与数据挖掘结合的具体策略
知识管理的基本职能可概括为外化、内化、中介、认知四大部分,其中前三项职能对信息技术的依赖较强,可用数据挖掘技术进行辅助。数据挖掘的过程分为条件匹配、选择、激活、应用四部分,即对数据进行预处理后,选择相关数据记录,根据用户要求选择相应技术进行数据挖掘,得出并解释数据挖掘结果,最终将这些记录应用于实践中。两者的具体结合策略如下:
辅助知识管理体系建设
知识管理本质是一个周期性管理过程,在这一过程中实现组织知识共享、创新等,最终提升组织综合实力,其中知识管理体系建设是实现知识管理的宏观条件。知识管理体系建设是一个系统、全面的工程,包括组织结构调整、确定激励制度、知识管理文化培养、成效评估等任务。数据挖掘技术,可以为知识管理体系建设提供依据,保证相关决策的科学性。数据挖掘对知识管理体系建设的帮助主要体现在以知识主管为主的知识管理部门对高校的管理、决策当中。知识管理部门收集并预处理外校、本校知识管理体系建设的相关数据,完成辅助决策的数据仓库的建设。管理人员可根据要求,从数据仓库中选择数据,利用对应模型完成挖掘,通过挖掘结果对决策做出帮助。以制定激励制度为例,管理人员选择与高校人员喜好相关的数据,如至少包含“部门”、“喜好”、“性别”字段,利用关联算法对其进行计算,即可得出各部门工作人员的喜好,以此为据制定相应激励制度。
知识外化
知识外化是指组织从组织外部获取与本组织相关的知识、发现归集组织内部存在的知识并进行存储以备用的过程。完成知识外化的关键即知识发现,其较为常用的方法包括主观归纳、隐性知识外显等。目前学界中较为认可、使用较普遍的方法即数据知识发现(KnowledgeDiscovery in Database, KDD),指从数据集中识别出表明一定模式的、有效的、潜在的信息归纳为知识的过程。这是数据挖掘与知识管理结合应用的最重要部分。同时,数据挖掘技术只给定挖掘目标,不给出假设、前提,因此在使用数据挖掘的过程中可获取一些计划外的知识,为知识管理提供一个可靠的知识源。此处存在两个前提:第一,知识发现不能仅仅依靠信息技术,更需要人员对挖掘结果进行主观归纳,解释其语义以完成知识的推理;第二,挖掘对象需进行预处理,并转化成逻辑数据。利用数据挖掘技术进行知识发现有多种可用方法:利用分类和聚类分析可提供知识索引和发现特殊情况下的离群值和孤立点,知识索引可细化知识所属领域和确定挖掘范围,离群值和孤立点可为挖掘人员提供归纳的线索,若其存在一定规律则可得出模型、规则;使用模糊技术、统计方法可得出对高校决策的评测分析,判断方案的有效性,并得出模式,用于同类决策处理;使用粗糙集和主成份分析法定义知识发现中的主要特征,结合已有知识库对不确定、不精准的知识进行细化;使用关联规则发现大量数据集各字段中潜在的联系。以关联规则的使用为例,选择 Apriori 算法,挖掘目的是发现学生学习情况中的潜在知识。首先从数据仓库中选出与学生课程成绩相关的数据集,包括姓名、院系、性别、课程号、课程类别、成绩等字段,进行预处理,将字段中的取值转化为逻辑值,代表不同语义,如:性别字段,男设值 1,女设值 2。操作人员设置最小支持度、置信度,通过数据挖掘工具进行挖掘,得出关联规则并进行解释。若结果显示 XX 院系、男生、A 类别 => 成绩优秀构成管理规则,则表示XX院系的男生对于A类别科目较感兴趣,学习成绩优秀,可在归纳后存入知识仓库。
知识内化、中介
知识内化是发现特定人员知识需求,并为其提供相应知识的过程,内化的关键是对知识的聚类、对人员的兴趣挖掘。知识中介是指组织中存在一定量无法编码储存的知识,针对这些知识,通过一定手段,将知识的需求者与知识来源进行匹配,为两者提供交流的途径。数据挖掘在知识内化、中介中所起的作用主要是对高校人员特征的挖掘。在利用数据挖掘技术发现知识后,通过知识管理平台进行分类存储、添加索引,作为备选。对高校人员数据库中数据进行挖掘,可利用聚类分析、预测模型等,得出特定人员的特长领域、兴趣爱好,从而根据先前设置的知识索引为其提供信息。若定期对人员特征数据进行挖掘,并根据结果为高校人员推送相关知识、信息,即可实现个性化推送,其推送内容由人员特征数据决定。高校组织中拥有大量教授、学者,其所拥有的知识是一笔巨大财富,加强相关领域间人员的交流、沟通,可以促进知识共享、创新,提升组织综合实力,这正是知识管理中介职能的作用。通过上文中相同的挖掘方法,在对教授、学者特征进行挖掘后,对他们的研究方向进行聚类分析,由挖掘结果,为相关人员提供合适的建议、利用知识管理平台为特征相似或同一聚类中的教授、学者提供交流的途径,进而促进知识的共享。
数据挖掘技术推动图书馆管理
图书馆是高校组织中的特殊资源,含有大量精确或模糊、成型或不成型的知识,是一种实体的知识仓库。对图书馆的有效管理有助于高校知识管理的实施。目前,已有不少图书馆专家将数据挖掘技术引入图书馆管理,提出了针对图书馆的数据挖掘应用理论。图书馆数据挖掘对象主要包括三个:1.图书信息;2.读者信息 3. 读者借阅信息。通过对三者挖掘结果的综合,可为图书馆资源建设、读者服务、个性化服务提供帮助。根据挖掘结果分析,可做到客观、合理引入资源,做到让数据说话而不是让管理人员说话,减少了管理人员个体的主观影响,使高校图书馆经费发挥最大效用;提升读者服务质量,在读者进行检索时减少等待时间,改变以往被动检索的情况,通过用户数据挖掘为用户提供主动的信息推送;提供个性化服务,以挖掘结果为依据,针对不同用户提供不同服务,比如不同的图书馆系统管理界面。
充分发挥管理职能
知识管理是一个系统工程,包含平台开发、体系构建、文化培养等,其在实践中设计大量的数据操作。数据挖掘技术可在知识管理的实践过程中为各项信息处理工作提供支撑,从而为操作人员提供便利,间接缩短知识管理的周期时间。将高校知识管理与数据挖掘技术相结合可有效促进知识管理具体操作中的工作效率。两者的结合对高校人员管理具有积极作用,数据挖掘与知识管理在实践中相互影响,提升操作人员素养。数据挖掘需要专业人员进行操作,操作人员的综合素养将决定挖掘成果的质量。知识管理可有效促进数据挖掘人员对知识的认知,使操作人员对不同要求所对应的挖掘技术、模型的选择更为准确,提升挖掘成果的质量,使知识更加清晰、独立、可接受。
在毕业论文管理工作不断加强的情况下,注重管理模式的更新和合理选用,提高匹配算法的针对性,才能真正提高高校教务管理水平。因此,对深度挖掘匹配算法在毕业论文管理中的应用有比较全面的了解,才能为高校教务管理工作提供可靠参考依据。
1 深度挖掘匹配算法的相关分析
根据深度挖掘匹配算法在毕业论文管理中的应用情况进行全面分析来看,其主要包括如下两个方面:
1.1 志愿自动匹配算法的相关分析
对学生和课题的选择关系进行合理分析可知,两者的最优、最大匹配,最好是根据学生的实际情况量身定做,才能真正实现课题与学生的最完美匹配。因此,教师提出相关题目时,需要对学生的情况、特性和要求等进行全面分析,才能在学生对课题的特性、关联性等有一定了解的情况下,提高课题与学生的匹配概率,最终让学生选定最合适的课题。在实践过程中,志愿自动匹配算法的合理运用,需要根据毕业论文的管理流程,从教师出题开始。一般情况下,教师应该先提出大题让学生自由选择,在匹配学生确定好以后将大题分成几个小题,从而将每个小题分配给合适的学生。在这种情况下,教师设定的课题需要从修读课程达到的分数、难度、所属类别等多个方面确定,并从教务管理系统中获取学生的成绩和选题积分点等,才能根据分数线来判定学生是否符合相关选题。其中,选题的难度在简单、一般、难、很难和非常难几个等级,对应的成绩是及格、良好、优秀、极好。在实际进行选题时,学生可以根据自己的情况选择三个题目作为志愿,以在系统完成匹配后,自定将题目下发给学生。在实践过程中,初始化志愿显示的是学生的第一志愿,在经过while、if、else、break、continue等流程后,系统会将题目和学生进行适当分类,以确保题目与学生的匹配最合理、最科学。由此可见,志愿自动匹配算法是优先对具有课题相关能力的学生进行匹配的,在学生人数低于匹配数量的情况下,可继续为积分点高、能力稍差的学生进行匹配,对于确保课程成绩与积分点的完美结合有着极大影响。
1.2 调剂学生算法的相关分析
在经过上述算法进行匹配后,根据学生的实际情况进行深层挖掘,可以实现课题与剩余学生的完美调剂。因此,对上述阶段中匹配失败的学生志愿所选的教师、课题类别、难度等因素进行深度挖掘,并将搜索结果作为匹配课题的依据,才能在缩小搜索范围的情况下,找到与剩余学生最合适的课题。如果出现相近课题较多的情况,则需要有学生、工作人员共同协商,以确定最终和最适合学生的课堂。在实践应用中,调剂学生算法的运用需要对需要调剂的学生进行合理分析,并通过if、else、return、while、continue、else等多个流程,才能真正匹配出最适合学生的课题。
2 深度挖掘匹配算法在毕业论文管理中的实际应用
根据深度挖掘匹配算法的实际应用来看,在毕业论文管理中学生可以了解到最适合自己的课题信息,教师可以根据学生的积分点和成绩等确定课题,从而避免选择某一课题的学生过多或过少的情况出现,对于提高第一志愿自动匹配成功率有着极大作用。因此,在实际应用中,注重教师、课题类别、难度的合理设定,确保它们的排序科学,将课堂与学生的匹配关系看作是二分图,并且,每个学生可以选择的课题有三个,系统可以根据学生的实际情况进行自动匹配,最终深度挖掘与学生志愿匹配的课题。例如:志愿自动匹配和调剂学生的总数都为102人,通过深度挖掘匹配算法匹配成功的人数分别为72人和90人,成功率达到了70%、88%。在不使用任何算法进行匹配的情况下,两者的成功率是52%左右。由此可见,在毕业论文管理系统中,深度挖掘匹配算法在科学应用,可以为教务管理工作提供可靠参考依据,对于提高毕业论文管理工作人员的工作效率有着重要影响。
3 结语
综上所述,在深度挖掘匹配算法不断推广的情况下,其在毕业论文管理中的实际应用受到了很多教务管理工作人员的青睐。因此,充分发挥深度挖掘匹配算法的作用,提高深度挖掘匹配算法在毕业论文管理中的应用效果,才能更好的满足学生的选题需求。
参考文献
[1]冯丽慧,冯立智.数据挖掘在毕业论文成绩管理中的应用研究[J].电脑知识与技术,2012,30:7150-7153.
[2]徐章韬.用信息技术深度挖掘课程内容――以数学学科为例[J].教育发展研究,2015,12:29-33.
[3]连伊娜.深度挖掘高校档案文化内涵,更好为教育事业发展服务[J].黑龙江史志,2013,11:104-105.
作者简介