欢迎访问发表云网!为您提供杂志订阅、期刊投稿咨询服务!

数据挖掘技术探讨论文大全11篇

时间:2023-03-25 10:46:30

数据挖掘技术探讨论文

数据挖掘技术探讨论文篇(1)

从金·成无己于《伤寒明理论》中以君臣佐使研究张仲景方剂[1]至今,为了把握中医方剂应用历史嬗变的轨迹,寻找中医方剂的配伍方法及组方思路,人们利用哲学、数学等其他学科的方法或手段对方剂配伍规律的研究从未间断过。尤其是近年来,以大量经方、成方或个人临床经验组方中蕴含的配伍规律为分析对象,数据挖掘、人工智能等现代信息技术在中医方剂配伍理论研究中得到了广泛的应用,为拓宽中医理论现代化研究思路提供了一定的借鉴,但也暴露出一些问题。笔者现结合个人的研究体会对这些问题加以总结和探讨。

1 应用现状

目前,利用数据挖掘技术探讨方剂配伍规律的研究概括起来主要有以下3种模式:其一是以分类为主的数据挖掘研究,应用模式是运用不同的方法如判定树、贝叶斯网络、人工神经网络等,参考现行已知的方剂分类标准,将研究对象中的方剂按照组方药物的功效、性味或归经等分成若干类[2-6];其二是以聚类为主的数据挖掘研究,即按照相似性和差异性的分布,将数据对象按照不同的属性特征聚集为不同的类,然后结合领域知识对方剂的制方要素进行分析[7-12];其三是以关联规则为主的挖掘研究,即利用apriori算法、fp-tree及其变体,经过大量的预处理工作和谨慎的设计,把理-法-方-药之间的多维关系降维处理后,从药物与药物、药物与症状、症状与证型等不同属性之间的关联关系探讨方剂配伍模式[13-18]。上述不同方法对方剂配伍规律的研究取得了一定成绩,但挖掘层次多集中在药对、药组或药症、症证关联等局部信息的揭示上,从理-法-方-药整体层次对方剂的综合配伍规律进行探讨不多。同时,鉴于中医理论体系的“复杂性”与方剂配伍规律的“内隐性”,上述研究方法在信息提取的“准确性”、挖掘技术的“针对性”和挖掘方法的“适用性”等方面还存在一些共性问题。

2 问题探讨

2.1 方剂数据预处理

信息处理中有一个著名的“garbage in, garbage out”理论[19],即数据挖掘最后成功与否,数据准备起到了至关重要的作用。针对药名、功效、方名、症状、证候等数据有多种不同的表述方式的普遍现象,为了对方剂文本中存在的词义模糊、词义涵盖或多词义交叉的描述信息进行规范和统一,目前大部分研究者采取的方式是依据现有中医药教材或相对权威的工具书对原始数据进行相应的规范,如涉及药名的依据《中华本草》、涉及方名的依据《中医方剂大辞典》、涉及症状的依据《中医症状鉴别诊断学》、证型依据《中医证候鉴别诊断学》、剂量参考《中华人民共和国药典》中采用的国际单位制等,也有些研究者则根据个人研究方法的需要利用本体技术建立了相应的基础词表。事实上,除了《中医药学主题词表》外,上述工具书本身对症状或证型等名称的表达以及其中涉及的过程类、状态类或层次关联类语义信息的描述也是基于自然语言,因此,不同的人对药物名称、症状名称、剂量表示等制方要素进行表达方式的统一及对方剂内的药味配伍与其针对的相应症状之间的因果关系的“解析”和“映射”,或许可以满足一种方法应用时对数据“一致性”、“正确性”和“可靠性”的要求;但放大到其他方法,则存在数据源的融合度低、可扩展性差、共享程度不高等问题,不能为提高文献处理的准确性和一致性提供良好的支撑环境。

2.2 数据挖掘方法平台的构建

科学研究过程首先需要对未知领域进行分析和推测,明确研究目标和现实技术方法的内在联系,然后寻找最佳的方法进行检验。数据挖掘的不同算法都是针对应用中的具体问题提出的,一种建模方法只是对被研究问题某一方面的简化了的分析。中医方剂是一个复杂的信息系统,一味药物的多种药效在不同剂量和配伍下,药效的主次地位会发生变化,且不同药物的组合相互作用后会影响整个方剂功效的趋向,对类似的涉及药物之间联系和层次关系的认识和分析,都需要借助相应的技术和方法,才有可能实现对方剂处方规律进行较深层次的挖掘。而从应用情况来看,目前大部分学者还只是从各自专业的角度,通过特定的抽样技术或方法对被研究问题所有数据的一个区间进行了局部的探讨,针对同样数据对象、不同数据挖掘方法之间缺乏比较,针对整体数据,也缺乏不同方法的有机融合。如同样是对方剂信息进行挖掘,基于频集模式发现的关联规则可以从药物与药物、药物与症状、症状与证型之间的关联结果去揭示方剂配伍关系;而分类和模糊聚类分析的方法,则可以从聚类的最优个数以及变量的组成方面去解析方剂配伍关系。从表面上,这些方法所得的结果看似都有一定道理,但由于无法发现不同方法针对同一问题所得结果中的共性和差别,因而面对不同方法所得离散的、多点分布的挖掘结果,似乎依然无法把握同病异治的不同方剂或异病同治的某一类方剂配伍规律的脉络。

2.3 数据挖掘结果评价

数据挖掘应用特定方法对数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性。一般来说,数据挖掘所得到的信息应具有未知、有效和可用3个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,有时挖掘出的信息越是出乎意料,就可能越有价值。但在中医药领域,一方面目前的挖掘结果仍以验证性的居多,即大部分结果还是在用配伍的已知原则与理论和通过相对简单和固定的方法就能获得的结果在相互印证;另一方面,即使挖掘出了先前未知的信息,如何验证这些挖掘结果的有效性和可用性?一般情况下,对数据挖掘结果的评价,最直接的是将挖掘结果结合专业背景及专家意见通过临床或实验室验证。但面对医学数据的社会性和法律约束性等特点,不同的数据挖掘方法获得的结果对问题的实际解析有可能差之毫厘却谬以千里。因此,如何对医学数据挖掘结果进行有效性评价,已经迫切地摆在了我们的面前。

3 思考

生命系统研究当前的最佳支撑点是中医药学的整体性和系统性理论,在这样的理论指导下,越来越多的医学研究试图从多点的、局部的分散式研究走向系统的、整体研究阶段。以方剂配伍研究所积累的多方面的基础数据为对象,传统数据处理技术因处理数据之间各种联系和因果关系的局限性所呈现的相互独立的分析结果,已经不能满足人们对某一方面知识的整体性和关联性的需求。目前,中医界越来越多的研究者希望通过加强信息处理以及各种新技术的应用,从批量的信息或数据之间找到具有科学意义的关联,以便对方剂配伍规律做出层次性的解释,来提高临床和实验室研究体系的效率和产出。

近年来,国外以生命科学中积累的大量信息和巨量文献为对象,以知识发现为目的的数据挖掘技术,在基因、蛋白质、疾病、药物及其相互关系的研究中已取得显著成绩[20],并有研究结果得到临床和实验室的验证[21],给国内中医药的知识发现研究提供了思路和方法学的借鉴。

首先,在数据挖掘对数据的规范要求方面,美国国立医学图书馆自1986年开始研制的统一医学语言系统(unified medical language system,umls,由超级叙词表、语义网络、信息资源及专用词典组成),以其实时更新、面向互联网免费开放的应用方式,有效地克服了计算机生物医学信息研究领域的两个显著障碍:相同的概念具有不同的表达方式,有用的信息分散在不同的数据库系统中,在医学词汇的规范、统一、标准化、科技信息的交流以及深层次自然语言处理方面发挥了巨大作用。国内科技信息界虽在20世纪90年代后也相继进行了分类-主题词一体化词的研制工作,如中国医学科学院信息所图书馆编制的《中图法与mesh、中医药学主题词对照表》,在中文生物医学文献计算机标引和分类等方面提供了良好的支撑环境。但由于数据更新不及时、共享机制不完善,这些词表在满足医学数据挖掘对概念术语的名称、表达方式、语义类型统一规范的保障与支撑需求方面总显得力度不够。因此,一方面,中医数据规范依据的缺失是造成中医药语料处理困难的一个难以回避的瓶颈;另一方面,即使有了数据规范的标准,倘若不能象umls那样通过信息的无障碍传递而实现这些基础科学数据的共享,则依然会阻碍基于信息技术通过事物的共性研究而进行事物分类和知识发现的进程。

其次,国内针对中医药数据挖掘的研究,大部分是基于单一方法的应用,而国外生物医学领域的知识发现研究,在技术平台方面往往是机器学习、文本挖掘和网络信息技术等多种方法与技术的融和。在研究团队方面则是由临床、信息检索、数据挖掘等不同专业背景的研究人员共同构成。典型的案例如以pubmed数据库中积累的关于某一疾病的大量文献为分析对象,swanson[22]利用arrowsmith系统对镁缺失与偏头痛的关联关系的探讨、hristovski d等[23]利用bitola系统对多发性硬化病病因的分析、kristina m hettne等[24]基于medscan和pathwayassist软件对复杂性疼痛综合征的发病机制的推测等等。这种以专家群体、数据和各种信息技术有机结合的形式进行生命科学知识发现的研究模式,恰恰是1990年钱学森院士提出的“把专家体系、数据和信息体系以及计算机体系有机结合起来,从定性定量综合集成角度处理复杂问题”的综合集成方法体系[25]的体现。

中医理论体系的复杂性与临床诊疗的个性化决定了方剂配伍规律的“内隐性”,与方剂相关的症状证型、治则治法、药味组合、剂量剂型等各个环节的差异又造成了方剂信息的多样性和复杂性。可以设想,针对方剂配伍规律的知识发现研究,只能是由相宜的方法和技术组成的多模块的系统模型,既要反映中医学认识论整体、综合、联系的特点,符合中医定性模糊思维特征,又要能定量描述药物之间的配伍关系、药物配伍与病证的针对性。借助这种综合集成的技术平台的支撑,或许我们可以从经方或类方入手,对同病异治的不同方剂或异病同治的同类方剂之中蕴含的共性和差异性信息进行多层次的探讨,从而为方剂配伍规律知识地图的呈现提供线索与思路。

另外,在关于数据挖掘结果的评价方面,由于数据挖掘技术汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果,因此对其进行评测本身就是一种全新而富有挑战性的工作。关于中医药领域数据挖掘结果的评价方案,北京中医药大学的任廷革教授曾在针对名老中医的病案处方进行数据挖掘的研究中提出,可以围绕“方证”关系,从“方证一致性、法(治则治法)-效(处方功效)一致性、性(处方综合性味归经)-候(处方主治症候)一致性、处方药效释放率等方面对挖掘结果进行分析和评价”[26]。国外常见的模式是,一个研究团队利用一种技术平台进行的综合知识发现结果可以由其他团队利用另外的方法或平台进行验证。如hristovski d[27]利用bitola系统、weeber m等[28]使用dad (disease adverse drug reaction-drug)系统曾分别对swanson关于“雷诺氏病与鱼油”和“偏头痛与镁”的研究结论进行验证性研究。虽然目前还没有相对成熟的评价模式,但可以预见,随着数据挖掘方法和技术在医学领域应用范围的增多,如何对数据挖掘方法或产生的结果进行科学合理的评价也将成为一个有意义的研究课题。

4 总结与展望

数据挖掘是一个领域专家合作的过程,这一过程要反复进行,并在反复过程中不断地趋近事物的本质。根据钱学森院士提出的综合集成理论,可以想象,以开放的中医药统一医学语言系统为数据规范依据,构建面向方剂配伍知识发现的多模块综合集成数据挖掘支持系统是方剂配伍规律知识发现研究的努力方向。综合集成方法的实质是把专家体系、数据和信息体系以及计算机体系有机结合起来,从定性定量综合集成角度处理复杂问题[29]。在这样的集成系统支撑下,我们可以在最大限度地跨越语言表达的差异性和相关信息的分散性前提下,从不同角度对其中蕴含的相关性和规律性信息进行全面探讨,并将研究结果以知识地图的方式加以呈现,从而为方剂的临床运用以及实验研究提供线索与思路。

当然,要达到这样的效果,无可避免地要讨论中医方剂理论中现存的一些问题以及不同学派和专家的不同认识等,如方剂配伍君臣佐使之间如何分工?方剂配伍及其所主病证之间存在的君药对主证(症)和臣药、佐使药对兼证(症)之间的针对性如何界定?怎样将问题求解中所需要的专家知识、背景知识、领域知识进行确切的描述与表达?以及由此产生复杂系统知识组织的维护与理解等问题。然而,利用信息技术探讨、解决这些问题的过程,不仅是信息时代自然语言处理、人工智能等领域的创新成果应用于方剂配伍规律理论探讨和实践要面对的重要内容,也是复杂系统思想指导下方剂配伍规律的知识发现必须要面对的问题。这种实践不仅可以使中医方剂理论得以深化,使临证处方选药向标准化、规范化的方向发展,同时也是证候本质研究、方剂作用机制研究、方剂适用范围研究等领域找到突破口的希冀所在。

【参考文献】

1] 董正华.试论《伤寒明理论》的学术成就[j].陕西中医学院学报, 2002,25(3):1-2.

[2] 刘齐宏,唐常杰,李 川,等.基于属性归纳的中药方剂数据挖掘[j].计算机应用,2007,27(2):450-452.

[3] 彭 京,唐常杰,曾 涛,等.基于神经网络和属性距离矩阵的中药方剂功效归约算法[j].四川大学学报(工程科学版),2006,38(1):92-95.

[4] 雍小嘉,彭 京,韩佩玉,等.采用空间矢量方法判断方剂功效倾向新论[j].辽宁中医杂志,2005,32(7):660-662.

[5] 于润桥,危 荃,王建红,等.基于粗糙集理论的右归丸配伍研究[j].辽宁中医药大学学报,2007,9(2):3-6.

[6] 孙 燕,臧传新,任廷革,等.支持向量机方法在《伤寒论》方分类建模中的应用[j].中国中医药信息杂志,2007,14(1):101-103.

[7] 陈学进.数据挖掘中聚类分析的研究[j].计算机技术与发展,2006, 16(9):44-49.

[8] 王咏梅,马 红,刘苏中.方剂配伍的模糊数学特性研究[j].中国实验方剂学杂志,2000,6(6):59-61.

[9] 蒋永光,李 力,李认书,等.中医脾胃方配伍规律的数据挖掘试验[j].世界科学技术——中医药现代化,2003,5(3):32-35.

[10] 张晓杰.荨麻疹辨证论治规律的聚类分析[j].山东中医杂志,2003, 22(12):709-711.

[11] 张 静,徐忠恒,雷钧涛,等.逍遥丸的模糊聚类分析[j]. 吉林医药学院学报,2006,27(1):6-8.

[12] 周 鲁,唐向阳,付 超,等.解表类中药的模糊聚类分析[j].华西药学杂志,2004,19(5):339-341.

[13] 姚美村,艾 路,袁月梅,等.消渴病复方配伍规律的关联规则分析[j].北京中医药大学学报,2002,25(6):48-50.

[14] 杨雪梅,王 君,林端宜.明清脾胃湿热方用药关联规则挖掘[j].江苏中医药,2007,39(1):45-47.

[15] 周忠眉,林宝德,肖 青.古代方剂与新药方剂高频药组配情况分析[j].漳州师范学院学报(自然科学版),2004,17(1):19-21.

[16] 张万水,陈利国,黄运坤,等.数据挖掘技术及其在中医遣方用药规律中的应用[j].辽宁中医药大学学报,2006,8(4):62-64.

[17] 陈 波,蒋永光,胡 波,等.东垣脾胃方配伍规律之关联分析评述[j].中医药学刊,2004,22(4):611-613.

[18] 纪荣芳,牛建昭,许树强,等.从数据挖掘角度看中医药治疗健忘与痴呆[j].中日友好医院学报,2006,20(6):337-339.

[19] tamraparni dasu, gregg vesonder, jon r, et al. data quality through knowledge engineering, conference on knowledge discovery in data archive, proceedings of the ninth acmsigkdd international conference on knowledge discovery and data mining[c]. washington, d.c.2003.705-710.

[20] 周雪忠,吴朝晖,刘保延.生物医学文献知识发现研究探讨及展望[j].复杂系统与复杂性科学,2004,1(3):45-48.

[21] 董风华,兰小筠.基于文献的知识发现工具——arrowsmith[j].情报杂志,2004,(5):52-54.

[22] swanson d, smalheiser nr. an interactive system for finding complementary literatures:a stimulus to scientific discovery[j]. artificial intelligence,1997,91:183-203.

[23] hristovski d, peterlin b, mitchell ja, et al. using literature- based discovery to identify disease candidate genes[j]. int j med inform,2005,74(2/4):289-298.

[24] kristina m hettne, marissa de mos, anke gj de bruijn, et al. applied information retrieval and multidisciplinary research:new mechanistic hypotheses in complex regional pain syndrome[j]. journal of biomedical discovery and collaboration,2007,2(2):1-16.

[25] 黄志澄.以人为主,人机结合,从定性到定量的综合集成法[j].西安交通大学学报(社会科学版),2005,25(2):55-57.

[26] 任廷革.中医学术和临证经验的继承的技术和方法研究[c].名老中医思想临床经验传承高级研修班资料汇编.2007.119-123.

数据挖掘技术探讨论文篇(2)

0.引言

随着经济、科技和信息技术的飞速发展,特别是网络技术的发展,数据的产生和存储能力有了很大程度的提高。数据挖掘的出现,为人们提供了一条解决“数据丰富而知识贫乏”困境的有效途径Ⅲ。所以很多高校,包括世界上一些著名高校都开设了数据挖掘课程。课程的基础理论部分一般包括数据预处理、关联规则、分类、聚类、时间序列挖掘、Web挖掘等内容。该课程使学生学会分析研究数据挖掘中数据预处理、常用算法、结果的可视化等技术,并培养学生的数据抽象能力,帮助学生形成科学思维和专业素养,使他们毕业后在就业上有更多的选择。

笔者将探讨基于实例教学的数据挖掘课程的教学内容安排,强调淡化学科背景,加强算法的应用性训练,将实际的例子贯穿于教学中,并重新组织授课内容、安排实践环节,教会学生学以致用。

1.教学现状分析

1.1课程本质

数据挖掘原理与算法涉及的学科领域很宽泛。其最终目的是在数据中挖掘出可供人们利用的知识和信息,因此数据挖掘技术要从数据库技术、统计学、机器学习、神经网络、知识系统、信息检索、高性能计算和可视化等领域汲取营养。另外,每个学科都在进行着日新月异的发展变化,数据挖掘技术遇到的挑战也为相关学科领域的深入研究提供了新的契机。由于课程难度较大,很多高校把这门课程作为研究生的专业课程,也有院校将此课作为本科生高年级选修课开设脚。但是本科生开设这门课程的普通院校较少,我们能借鉴的教学经验有限。

1.2数据挖掘课程教学环节的弊端

①某些学校对本科生开设的数据挖掘课程,其教学过程对理论的探讨过多,与应用存在距离,没有体现出这门课程面向应用的特质,缺少对学生工程能力的训练,存在学生在学了这门课程后不知道能干什么的现象。

②教学形式呆板单一。传统的教师讲、学生听的教学模式,很难引起学生的探究兴趣,不利于发挥他们自身的能动性和创新动机。

2.选择恰当实例贯穿数据挖掘课程的教学过程

烟台大学计算机学院所开设的数据挖掘课程在教学上安排了6章内容,涉及3个实例(其中两个是实际生活中的项目课题):第1个是用于房产信息调查的房产客户关系管理系统;第2个是用于烟台大学督评中心评教文本分类的中文文本数据挖掘系统;第3个是用于国家葡萄酒检测中心的数据分析的葡萄酒成分数据挖掘系统。

2.1房产客户关系管理系统

在讲述房产客户关系管理系统时内容涵盖绪论、知识发现过程和关联规则3章,重点讲授内容包括:

(1)数据仓库。住房管理数据仓库中的数据是按主题组织的,可从历史观点提供信息。数据挖掘技术能按知识工程的方法完成高层次需求,可以发现蕴藏在数据内部的知识模式。挖掘后形成的知识表示模式可为企业决策提供支持。

(2)通过对客户信息进行分析,阐述关联规则的参数:support、confidence、expected confidence,并简单介绍关联规则中的多维、多层次等拓展知识。

(3)关联规则挖掘。①讲授关联规则挖掘的Apriori算法;②讲述布尔关联规则的概念,对处理后形成的交易数据库进行布尔关联规则挖掘,将问题转化为寻找以决策属性为结果的规则;③将关联规则挖掘应用于客户关系管理的最终目的是努力将潜在客户转变为现实客户,将满意客户转变为忠诚的终生客户,提高客户满意程度,降低市场销售及宣传成本,增加利润率。

(4)设minsup=10%,minconf=70%。在统计的各类人群中猎取咨询的渠道主要是杂志、报纸、互联网和电视。经试验统计后得到以下有关知识:①满足age>50 AND职业=“工人”的客户占所统计总人数的9.7%;其中满足age>50 AND职业=“工人”AND渠道=“TV”的客户占92%。②符合学历=“大专”AND职业=“工人”的客户占所统计总人数的24.8%,其中满足学历=“大专”AND职业=“工人”AND渠道=“newspaper”的客户占82%。③被统计人群中满足income=“5000-9000”AND职业=“教师、医生、公务员”的客户占所统计总人数的32.7%;其中满足income=“4000-6000”AND职业=“教师、医生、公务员”AND渠道=“杂志”的客户占83%。④被统计人群中满足学历=“本科”AND income≥“10000”的客户占所统计总人数的占11.6%;其中符合学历=“本科”ANDincome≥“8000”AND职业=“公司经理”AND渠道=“杂志”的客户占86.5%。

(5)教师要分析Apriori算法的瓶颈和改进,介绍Close算法和FP-树算法,并且要求学生们掌握这3种经典算法。

2.2中文文本数据挖掘系统

中文文本数据挖掘系统围绕评教分类模型的建立讲述特征选择和主要分类算法。根据烟台大学教学督评中心提供的学生对教师的中文评教文本,利用分类的方法找出其评价的倾向性,结合教材,重点讲授了以下内容:

1)特征选择。

①介绍有监督、无监督和半监督的特征选择方法。②介绍使用分词软件后,统计词频,去掉小于阈值的低频词。③对比词频率、IG值(信息增益)、期望值差异对分类结果的影响留取特征词。

部分数据示例如下:用特征选择的方法对重要的属性进行抽取,略去对分类影响不大的属性,达到降维的目的,把特征选择作为预处理。我们选用517条主观评价作为训练样本,其中233条留言是一般评价,采用以下3种方式进行特征选择:词频率、IG值(信息增益)、期望值差异。不同方式特征选择对分类准确性的影响如表1所示。

2)分类。

在介绍常用的分类基础知识和决策树、ID3、朴素贝叶斯分类、最近邻分类算法之后,又介绍了基于潜在语义分析的降维技术,讲授了支持向量机(SVM)适用于文本分类的原因。布置给学生的任务是用爬虫获取网评,作倾向性分析。

评教文本分类统计后的结论是:将降维技术和支持向量机算法结合在评教模型的建立过程中,研究讨论的主要内容有:①各个指标取不同值对分类的影响,这些指标主要集中在特征抽取和选择、保留词性和降维维数等几方面;②对分词后的文本进行特征选择,筛去了词频数小于4的文本;③降维至30维,并适当设置SVM中的可变参数,找到合适的训练一测试样本的比例,最后综合出一个现有条件下的最佳分类模型。

2.3葡萄酒成份数据挖掘系统

葡萄酒成份数据挖掘系统介绍数值数据的预处理和聚类2章内容。对葡萄酒成份的分析是根据所提供的酒中各成份的含量数据,采用聚类或分类的方法确定某种葡萄酒的种类,比如是红葡萄酒、白葡萄酒还是甜葡萄酒。围绕这个问题我们介绍了如下内容:

1)数值数据的预处理。

①介绍葡萄酒中各个属性的含义和取值范围;②讲授数据的离散化技术,如等深、等宽、聚类技术;③讲授本例中使用的m一估值计算对数值属,1生的离散化技术;④讲述本例中如何避免0值出现及去噪声技术。

葡萄酒中各成份的含量数据如表2所示。

2)聚类。

在介绍聚类的基本知识和常用算法(如k均值、k中心点、DBSCAN技术)之后,讲解了:①本课题使用的层次聚类算法。在测试结果时通过测试样本和分类样本的不同比例,对结果进行了对比。②讲述了用朴素贝叶斯分类计数对这一问题的分类处理,同时对比了聚类和分类算法在同一问题上的结论差异。利用朴素的贝叶斯分类器可以完成预测目标,根据训练样本建立分类器,对待测样本进行预测,准确率可达到90%以上。③引导学生思考对问题的处理可以联合使用各种算法,并分析各种算法对结果的影响,从而找出解决问题的最佳方案。

2.4利用已知算法和实例讲授Web挖掘技术

因特网规模庞大、结构复杂、动态变化性大,蕴含大量的信息。将Web上丰富的信息转变成有用的知识正是Web挖掘的意义所在。用之前中文文本分类的方法引导学生在一些购物网站中下载对商品评论的中文文本,抽取特征词,进行倾向性分析,使学生熟悉支持向量机的分类方法,分词软件的使用及文本挖掘的整个过程。

3.结语

文章在前期制定应用型本科生数据挖掘课程教学大纲的基础上,针对数据挖掘课程内容多学科交叉的特点,在教学中提出淡化学科背景,注重算法应用与实践,以客户关系管理、葡萄酒数据分析、中文评教文本分类等实例作为授课内容主线,让实例教学始终围绕着典型的算法和前沿知识展开的教学方式。在今后的教学工作中,我们还应该不断站在学科发展的前列,经常更新实例,使其更好地融入教学,将教与学有机统一,取得更好的教学效果。因此我们还有大量的工作需要探索研究。

参考文献:

[1]宋成,李晋宏,项目驱动的数据挖掘教学模式探讨[J],中国电力教育,2011(27):116-177.

[2]刘云霞,统计学专业本科生开设“数据挖掘”课程的探讨[J],吉林工程技术师范学院学报,2010(6),20-22.

[3]徐金宝,对应用型本科生开设数据挖掘课程的尝试[J],计算机教育,2007(7):27-29.

数据挖掘技术探讨论文篇(3)

关键词: Web挖掘;分类;模式分析;可视化;网络通信

Key words: Web mining, classification; pattern analysis; visualization; network communication

中图分类号:TP393 文献标识码:A文章编号:1006-4311(2010)08-0133-01

0引言

由于互联网在传播与交换信息方面的快捷与便利,互联网以惊人的速度作为商务和信息的平台持续发展。Internet用户群体表现出多样性的特点,全球互连网大约有数千万个Web网站,其访问用户具有不同的背景,不同的兴趣和目的,他们在访问过程中留下大量的Web访问和使用信息。分析这些数据能够发现有意义的隐藏访问模式规则,这对于分析和改善站点的使用情况及资源配置具有重要的意义。

1国内外的研究现状

目前为止,国外的挖掘研究己经从最初的可行性基础研究经历了试验性研究,文本挖掘应用在商业领域得到了应用。政府机构,通过Web挖掘进行数据评估和分析,同时完成其他的搜索任务。国内对Web挖掘的研究起步较晚,国内互联网业是从1997年开始迅速蓬勃地发展起来的。直到1999年,国内互联网用户达到一定数量后,国内学者才开始关注Web数据挖掘。

2Web数据挖掘概述

Web挖掘是将数据挖掘技术与互联网相结合的一项综合技术,简单地说,"Web挖掘就是从Web文档、Web活动中抽取感兴趣的、潜在的有用模式和隐藏信息怎样对这些数据进行复杂的应用成了现今研究热点,它面对的信息常常为文本、图形、图像数据等。

3Web挖掘的分类

web挖掘的研究主要有3种,即Web结构挖掘、Web使用挖掘和Web内容挖掘。①Web结构挖掘。Web结构挖掘主要是指挖掘Web上的链接结构,它有广泛的应用价值。②Web使用挖掘。Web使用挖掘主要是指对日志记录的挖掘。访问信息进行分析和发现找到日志中蕴藏的规律以识别潜在的客户、跟踪及侦探非法访问的隐患等。③Web内容挖掘。Web的内容主要是包含文本、声音、图片等的文档信息,以及Web的链接结构的链接信息。

4Web挖掘的处理流程

数据进行数据挖掘,必须经过如下处理流程。①查找资源。其任务是从目标文档中得到数据,包括电子邮件、文档、新闻组、或者网站的日志形成数据。②信息选择和预处理。其任务是从取得的Web资源中剔除无用信息将有用信息进行必要的整理。组成规整的逻辑形式甚至是关系表。③模式发现。自动进行模式发现。在同一个站点内部或在多个站点之间进行。④模式分析验证、解释产生的模式。这个过程可以是机器自动完成,也可以是与分析人员进行交互来完成。

5Web挖掘应用的成功案例分析

数据挖掘已经在许多领域得到了应用。①Web挖掘应用到NBA竞技中。IBM公司开发的数据挖掘应用软件被美国NBA大约20个队教练广泛使用。②Web挖掘应用到商业银行中。数据挖掘技术在银行和金融领域应用广泛。③Web挖掘应用到电信中。数据挖掘技术在电信行业也得到广泛应用。④Web挖掘应用到科学探索中。数据挖掘开始应用到尖端科学的探索中。

6Web挖掘存在的问题

Web数据挖掘方面还有很多工作要做,我们在探讨过程中看到需要进一步研究和完善的工作主要有以下几个方面:①错误数据的处理与过滤。在现实数据库中,往往存在一些明显的错误数据,这必然影响挖掘的精度。②数据格式的转换。虽然此方面的东西已经应用了不少,由于服务器的日志文件格式的复杂性,现在还没有一个能使多数人接受的转换工具。③用户访问事务的确定。这是一个Web数据挖掘中基本的也是最重要的,确定方法的好坏直接影响着以后的工作。④传统的数据挖掘技术应用到Web数据挖掘。数据挖掘技术在传统数据库上的应用应该说比较完善了,如何将其核心技术应用到各种新型数据库或Web结构上还需要继续研究。⑤数据挖掘的评估与可视化。挖掘得到的各种规则不仅需要证明其正确性,更需要证明其有用性和可理解性。合适的评估方法可以提高有用性,而可视化的研究可以提高可理解性,使挖掘结果更易为用户接受。⑥高度综合的网络信息。Web挖掘的研究对象是网络信息,由于网络信息涉及各个学科门类,因而内容具有较大的综合性,要在丰富的内容中挖掘有规律的知识,其难度相当大。⑦模糊、多样的用户目标。基于网络信息Web挖掘的用户类型较多,许多用户往往对所要挖掘的主题模糊的、粗浅的认识,不能提出明确的目标。这就需要基于Web挖掘的知识发现系统具有一定的智能性和学习机制,不断地发现和跟踪用户的兴趣,并且清晰地表示知识发现的结果,从而提高知识发现的可用性。

总之,Web挖掘已经引起了世界各国计算机科学界、信息产业界以及许多著名高科技跨国公司的高度关注,具有充分潜力和挑战性。

参考文献:

[1]韩家炜,孟小峰,王静,李盛恩.Web挖掘研究.计算机研究与发展,2001(4):405-414.

数据挖掘技术探讨论文篇(4)

在信息时代,计算机技术的快速发展对整个经济的发展具有重要的作用。如今的计算机互联网是人们交流的一个重要平台,人们可以在这里找到自己需要的信息,也可以在这里跟其他人进行交流沟通。但是随着信息的不断集中,如何迅速的在互联网上挖掘到有用的信息,成为人们关注的一个重要焦点。Web数据挖掘就是在互联网上,根据各种数据挖掘算法来收集有用的信息,并实现信息的自动化处理。但是传统的集中式挖掘方法已经不能够满足人们的需求,需要寻求新的数据挖掘方法。现在兴起的云计算技术给web数据挖掘提供了一个重要的方法。本文将先对云计算的概念和关键技术进行介绍,再讨论web数据挖掘,最后在云计算的基础上探讨web数据挖掘。

1 云计算概念及关键技术

云计算与普通的计算不同,它是一种超级计算,它的核心就是密集的信息数据。传统的计算速度不够快,计算机的功能也没有得到最大化的利用。这就好比电力的利用,最初的电力使用都是单独发电使用,这就类似于传统计算。后来进行集中发电,各个用户独立使用,用户想用时就可以快速获得电力,这就类似于云计算。云计算是新的网络技术和传统计算机的结合,是借助网络来提供可伸缩的更快捷高效的分布式计算能力。其中的关键技术主要有数据存储技术、虚拟化技术、数据管理技术以及并行编程模式等。

1.1 大量分布式存储技术

在云计算技术中,需要存储非常多的信息数据,能够有效解决这个的就是大量分布式存储技术。大量分布式存储技术具有很多的优点,它不仅提高了数据信息存储和处理的高效性、精确性和实用性,而且能够在一定程度上改善因为计算机硬件缺点造成的存储问题。大量分布式存储技术从经济性和实用性多个方面支持着云计算技术。

1.2 数据管理技术

大量分布式存储技术为云计算提供了信息数据存储的空间,而大量数据的处理就需要用到数据管理技术。云计算相对于传统计算从互联网上寻找和处理的信息数据量更加大,而数据管理技术能够快速的从互联网技中寻找需要的信息,并对信息进行分类和高效的处理。它是云计算中非常重要的一项技术。

1.3 虚拟化技术

在传统的计算中,硬件、软件以及存储等都是紧密联系在一起的,这降低了数据的处理效率,同时也使信息处理欠缺便捷性。虚拟化技术也是云计算中非常重要的一项技术,它独立了硬件、软件以及存储等,从而达到合理分配计算资源的目的。虚拟化技术中各个部分的独立,使信息的处理更加快捷方便。比如需要读取信息时,可以从各个网络接入点进入,从云网络中读取数据。现在虚拟技术发展的一个方向就是将各种软件放置于云网络中,当需要用到软件时,不必要单独安装,只需要通过网络在云网络中进行读取就可以了。

1.4 并行编程模式

云计算跟传统计算不同的一点就是使用了并行编程模式,它采用的是Map-Reduce编程。当新产生一个任务时,它可以将任务按照树枝形状一样将任务一级一级的分布下去,各级能够同时进行执行分布下来的任务。这时任务的完成更加的快捷和方便。

2 Web 数据挖掘

Web数据挖掘是将互联网技术和数据挖掘技术进行有效结合的技术领域,它又可以叫做网络挖掘。Web数据挖掘不仅仅是直接在互联网中寻找到有用的信息,而且能够在复杂的网络信息中找到规律,从而实现信息的快速查找。Web数据挖掘覆盖的技术领域非常宽,主要涉及到数据挖掘、计算机语言学、统计学以及数据获取技术等多个方面。

Web数据挖掘技术根据挖掘方向的不同主要可以分为内容挖掘、结构挖掘和使用挖掘。内容挖掘是指从互联网上的众多信息中对有用知识进行提取,根据信息提取方法的不同,内容挖掘可以分为信息提取法和数据库方法。结构挖掘跟内容挖掘不同,它不是直接挖掘信息,而是针对海量信息后面可能存在的结构模式进行挖掘,通过分析结构模式来获取有用的信息。使用挖掘就是挖掘出相关站点的浏览人数和用户数量,它是通过挖掘日志文件和相关数据内容实现的。

3 基于云计算的web数据挖掘

基于云计算的web数据挖掘借助云计算的关键技术,实现传统web数据挖掘技术的优化。基于云计算的web数据挖掘跟传统挖掘技术目的和大致过程都是一样。目的都是从互联网上海量数据中来发现有用数据和结构,挖掘过程也主要分为数据预处理、数据挖掘以及模式评价三个阶段。但是在具体的数据处理、存储上有所不同。

3.1 数据的收集和处理

在数据收集方面,传统的做法是在将互联网上的数据直接进行收集,然后存储在一个数据仓库中。一旦数据仓库发生问题,所有的数据都可能会丢失。基于云计算的数据收集则是先将互联网上的海量信息数据进行筛选、转化和统一,最后还可以将统一后的数据转化为半结构化的XML文件,将其保存在分布式的文件系统中。这样做一方面可以优化数据收集方法,另一方面可以避免机器设备发生故障而造成存储信息数据丢失。在处理数据时,基于云计算的处理方式借助了Hadoop的MapReduce思想,将整个控制工作交给任务主节点负责。任务主节点会将任务进行分类细化,然后交给互联网上其它比较空闲的计算机资源进行处理。最后将各个分散中心处理后的信息进行集中,然后汇报给任务主节点。这样的处理方式最大化的利用了计算机资源,提高了数据处理的效率。

3.2 数据存储

基于云技术的数据存储是将收集到的信息数据存储在分布式的文件系统中。传统存储就好比把所有鸡蛋放在自己专有的一个篮子中,一旦这个篮子损坏,所有鸡蛋都有可能破坏。而基于云计算的数据存储则是脱离了孤立的一个篮子,而将鸡蛋交给“鸡蛋银行”管理,自己的篮子坏了鸡蛋是没有损失的。需要用鸡蛋时可以马上在各个网点从“鸡蛋银行”中进行提取。基于云技术的数据存储极大的增强了数据的安全性,还使数据的提取变得更加快捷方便。

4 结语

将云计算技术融入web数据挖掘中,极大的提高了web数据挖掘的高效性和准确性,对于计算机技术的发展具有重要意义。本文阐述了web数据挖掘相关概念以及云计算的关键技术。web数据挖掘在云计算的基础上有了很大的发展,而云计算也存在一定的缺点。目前,继续优化云计算技术是提高web数据挖掘高效性的一个重要研究领域。

参考文献

[1]王鹏.走进云计算[M].北京:人民邮电出版社,2009.

[2]陈修宽.Web数据挖掘综述[J].山东轻工业学院学报,2009.

作者简介

数据挖掘技术探讨论文篇(5)

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2013)07-0065-01

随着信息呈爆炸式趋势增长,人们急需从不同角度对海量信息进行解读,使数据挖掘需求日盛。然而,传统数据挖掘方式各有弊端,云计算方式成为必然选择,基于云模型的数据挖掘技术研究也成为重要课题。

1 云计算与云模型

云模型模型数字特征示意图如图1。其中Ex能够代表定性的概念,反映云滴群的云重心。En可以反映概念的模糊度,以及一定程度上表明模糊度与随机性的关联度。He是直接反映云的集中程度,用以表示空间中所有点的凝聚程度,在云模型中称之为熵。

2 云模型数据挖掘分析

(1)云模型数据挖掘的特点优势。

(2)云模型下的可视化技术。

云模型始终属于较为抽象的概念,主要将模型具体化,利用图形、图像等形式,并通过一定技术手段表现出来。如图2所示,都可以表示数据的不确定性。

可视化是通过云发生器来实现的。发生器有正向与逆向之分,正向发生器基于三个特征数字来实现可视化,根据三个特征数字产生云滴,近而累积成云;逆向发生器基于数据开发挖掘云模型的三个特征数字,是定量到定性的映射,在此基础上进一步反映整个云滴的整体。

3 基于云模型的数据挖掘技术

通过以上对云模型特征数字的分析,可以通过参数的使用分析,构建特征空间和概念空间。概念空间是从同一属性角度来集合不同的概念,而特征空间则是通过集合不同的属性来描述实体。云模型中云滴的分布会形成一个空间,在概念空间里云滴会构成一个等势线,称其为概念层次。同样,在特征空间中也会有概念层次,代表着实体的等势层次。

在概念空间中,每个数据都会在云模型中形成一个云滴,众多云滴构成一个空间。但是每个数据的权重、影响力可能不一样,模型中从云滴的位置以及云滴的亮度来表征这个问题。云滴的位置越靠近云重心、云滴越亮则云滴的影响力越大。在概念空间中,可以选择不同的角度来分析空间数据,而选择角度不同就是选择不同的函数来计算点势。图3为概念空间的等势线与等势面举例。

概念空间基于对概念的分析归类。不同的概念之间应该有着众多关系类型,诸如包含、从属、等价、相似等等。通过数据场的交互作用而构成泛概念树。云模型中的泛概念树区别于一般意义上的概念树,可以拥有多个父节点。泛概念树的组成情况可以因为不同的属性集合、实体群组合状态等的不同而不同。

在特征空间中,其等势的思想方法与概念空间中相似,两者的区别就在于特征空间以实体为基本的空间点,概念空间则是从属性角度出发表达概念。当问题集中在讨论空间实体的特征时,常常用特征空间加以表示。从特征空间角度对实体进行研究,其空间粒度与空间范畴将变得更大。特征空间所描述的实体的特征将构成一个多维的空间。通过把实体的多种属性以某种方式投射到空间中,形成一个特征点,累积下来就完成了特征空间的构造过程。随后进行数据分析,通过数据空间点所呈现出来的特性进行数据挖掘,这些特征包括点的整体抱团聚类、势的特征等等。普通的分析方式对于数据聚类的分析往往采用练习数据集归类和测试方法的有效性两部分,但是两部分数据的选取原则与选取标准仍然不够完善,并且对数据的不同权重也没有足够的关注。因此在特征空间中得到数据分析聚类结果更可靠。

总之,基于云模型的数据挖掘,结合不确定性推理和云变换共同实现挖掘技术。通过云滴模型的构建,能够具备三个特征参数值,能够反映云模型的中心值、模糊度、离散度等模型特征。从模型特征又可以进一步对实体的定性问题、概念模糊度、随机度等进行分析。云模型技术能够很好地进行定性概念与定量数据间的映射。数据挖掘则可以通过不同势层的表征,结合不同观察角度来实现信息的过滤和提取。基于云模型的数据挖掘技术以其高存储性能和超强计算能力日益得到广泛的应用,技术上的深入研究也显得紧要而迫切。

参考文献

数据挖掘技术探讨论文篇(6)

1.高校节能监管现状

当今社会,节能减排已经引起人们的普遍关注,越来越多的政府单位、企业、组织机构和个人自发地投入到节能减排的工作中。高校在一个城市能源消耗中占很大的部分,大学生的在校能耗人均量明显大于全国城镇居民能耗人均量。据统计,国内在校大学生人均用水量是全国居民人均用水量的2倍,能耗是全国居民平均值4倍多。高等院校能源使用缺少科学的计算和管理。如何采用合适的技术手段,将高校能耗的数据信息进行科学处理,提取出有用的规则和知识,挖掘出隐含在这些数据背后有价值的规律和知识,为高校的节能监管工作提供系统、科学化的决策指导,从而提高节能管理水平,减少高校的能源消耗,塑造年轻一代的节能意识。

2.国内外相关研究

国外的高校在资金方、经费等原因在一定的程度上加速了节能监管的开发和研究的推进,所取得的成果也是比较大的,国外的高校在节能监管信息化比较的成熟。在经过长期的节能监管信息化建设历程中,国外的高校使用了成熟的技术框架,立足学校的实际情况对节能监管实现可视化的监管,很大的程度上提高了学校的能源使用率。美国高校建筑和设施的节能改造工程已经进行了十多年,这些学校中比较典型的是位于美国德克萨斯的A&M大学,校园节能监管项目改造工程的投入了不少的资金,节能监管平台的稳定运行,经实测的节能收益超过了平台建设的资金多倍。

我国重视校园节能监管的构建起始于上世纪九十年代,在经过了积极宣传节能监管概念、初期的示范性建设和全方位实行构建的几个阶段。政府以12所高校为首批试点建设节约型校园的学校,并于2009年制定了有关校园建设节约型校园的建筑节能监管系统构建和管理技术的一系列技术指导方法,并将作为今后院校建设校园能源监管平台的理论依据和技术指导。政府近些年加大了节能监管的投入力度,建设节约型校园在经过这些年的研究获得得了不少进步,启动了所节约型校园建设试点。

敖四江[1]等人对目前我国高校校园能源管理存在的问题进行了分析,提出了相应的解决方案,例如尝试引入市场的机制、建立相关机构管理能源、完善管理体系等。高彪[2]等人通过研究上海某综合型大学,对科研楼、图书馆、教学楼、办公楼、宿舍楼等校园典型建筑的用能特点及节能潜力进行了探讨。王旭东[3]通过对天津职业技术师范大学校园能源消耗现状的研究,提出在高等学校构建基于网络系统的能源管理平台是实现节能降耗的重要手段。李道洋、蒙艳玫[4]等以广西大学校园内40栋校园公共建筑为样本建筑,通过多元线性回归分析方法对建筑能耗和影响因子进行分析,得到影响样本建筑能耗的主要因子,并建立了相应的能耗预测模型。季文娟[5]、喻伟[6]等将神经网络模型应用于建筑能耗预测,建立了基于人工神经网络的建筑能耗预测模型,实现了对建筑能耗的预测。在校园节能监管的研究上,主要集中于相关理论和对策制定方面,结合校园节能监管实践的应用研究方面还不够深入,较多的研究集中在利用统计分析研究方法或者数学模型对建筑能耗数据进行分析、预测,结合数据挖掘技术对能耗数据进行分析的研究亟待提高与完善。

3.数据挖掘在高校能源监管中的应用

在数据的分析和处理上面,数据挖掘会发挥重要的作用,它能从数据中提取有价值的信息。从应用层面来讲,数据挖掘是一种决策支持过程,主要基于数据库、人工智能、数理统计技术,高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在模式,帮助决策者减少风险、做出正确的决策。以高校不同类型建筑能耗为例,围绕数据挖掘过程的主要步骤,探讨数据挖掘技术在高校节能监管中的应用。本文的数据挖掘目标为建立起高校建筑能效分析的聚类挖掘模型,通过模型分析,制定降低能耗的策略。

3.1 数据清理、集成与选择

从高校能源数据库中提取近五年来的建筑能耗原始数据,去除无效缺失数据,挑选出科学的、安全的、适用于数据挖掘应用的属性数据进行数据清洗。

3.2 数据预处理

对于高校建筑能耗历史数据,由于测量和记录的严重失误,或由于仪器仪表的突然波动,都会造成数据的缺失。对于有多个属性缺失值的记录,直接将其从样本中删除;缺失的水电能耗数据,用当月系统能耗平均值填补。在不影响数据挖掘结果质量的前提下,尽可能保持了原数据的完整性。数据清洗后,对某些原来没有的属性按需要进行生成,通过泛化、属性离散化处理将数据转换以构成一个适合数据挖掘的描述形式。

3.3数据挖掘应用

从数据挖掘角度看,高校建筑能耗是较好的数据挖掘对象。因高校建筑用能所受到的不确定因素干扰远小于商业、工业等行业,能耗数据表现出的规律性更强。数据挖掘应用一般围绕特定的数据主题进行,高校建筑能耗数据挖掘可应用的主题如下:

(1)能耗预测:高校建筑能耗与建筑地域、建筑类型、建筑年代、建筑面积、建筑用途、建筑材料等众多因素相关,可以使用分类或者回归分析的方法建立起能耗预测模型。

(2)基准评价:通过基准评价,校园管理者可以了解其建筑运行情况,对比本建筑与其它类似建筑的能源消耗差异,如果发现目标建筑比其它同类建筑能耗高,可以采取措施降低能耗;对样本建筑生成关联规则,然后将这些规则应用于待评价的目标建筑,从而对目标建筑的能耗状况进行评价。

(3)运行优化:高校建筑运行能耗的高低很大程度上取决于设备运行管理、维护水平的高低,可以运用关联规则挖掘各子系统之间的关系,也可采用聚类挖掘出不同的运行模式,从而为节能决策提供支持。

4.结束语

高校节能监管是一项长期的工作,更是一个刚刚起步的节能重点项目。数据挖掘技术在高校能耗数据分析方向的应用才刚刚起步。但随着节能监测系统的不断完善、能耗数据的不断丰富,数据挖掘技术的不断深化,必将会有广阔的应用前景。

参考文献:

[1]敖四江.高校能源管理的现状分析及对策探讨[J].能源研究与管理,2010(4):38-41.

[2]高彪,谭洪卫,宋亚超.高校校园建筑用能现状及存在问题分析一以长三角地区某综合型大学为例[J].建筑节能,2011(39):41-44.

[3]王旭东.试论高校校园能源管理网络平台之构建[J].职业教育研究,2011(3):17-19.

数据挖掘技术探讨论文篇(7)

中图分类号:TP181文献标识码:A文章编号:1009-3044(2009)35-9907-02

SQL Server-based Data Mining University's Teaching Quality

WANG Zhen-xi

(Department of Information Engineering, Hunan Urban Construction College, XiangTan 411100, China)

Abstract: Teaching Quality management needs to support data mining system. Introduced the data mining technology and commonly used data mining methods, how to design a SQL Server-based data mining system, the quality of college teaching were discussed. With decision tree method is based, SQL Server as a mining platform designed for the quality of teaching data mining module to achieve the quality of teaching data mining system.

Key words: SQL Server; teaching quality; data mining

随着教育事业的飞速发展,特别是高等教育的快速发展,教育管理信息化、现代化水平有了长足的进步。信息系统的成功实施为各高校的日常管理工作带来了很大的便利,提高了管理效率和水平,在日常的工作中也积累了越来越多的数据。随着网上评教、学生成绩管理、教学过程管理等系统的实施,教学过程中的数据不断增加,为进行高校教学质量信息的数据挖掘提供了基础信息。

数据挖掘研究如何从大量的数据中智能地、自动地提取出有价值的知识和信息,是当前相当活跃的研究领域。近年来,随着我国高等教育事业的飞速发展及教育信息化建设的快速发展,知识的自动获取己经成为制约高校进一步发展的“瓶颈”。因此,研究应用数据挖掘技术,开发高校管理教学质量数据挖掘系统,对提高教学管理水平和教学质量具有理论意义和重要的实用价值。

介绍了数据挖掘的相关概念,探讨了数据挖掘技术及其在SQL Server中的实现,研究了决策树方法在教学质量数据挖掘中的应用。探讨了教学质量评估数据挖掘系统的实现方法,将原始数据经过清理后导入SQL Server 2000,构建相应的数据仓库,然后调用SQL Server分析服务模块所提供的数据挖掘算法来构建数据挖掘模型。给出了教学质量评估数据挖掘系统的软件框架,并使用相关数据进行了关联规则算法的实验,对结果进行了初步分析。

1 数据挖掘技术

数据挖掘最早于1989出现,由于是一门新兴的来自各种不同领域的交叉性学科,数据挖掘(Data Mining, DM) 数据挖掘,就是从大型数据库的数据中提取人们感兴趣的知识。[1]这些知识是隐含的、事先未知的潜在有用信息,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式。数据挖掘确切地讲是一种决策支持过程,它主要基于人工智能、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,作出正确的决策。[2]

1.1 数据挖掘过程

数据挖掘过程一般由三个主要的阶段组成:数据准备、挖掘操作、结果表达和解释,如图1所示。

整个挖掘过程是一个不断反复的过程。比如,用户在挖掘途中发现选择的数据不太好,或使用的挖掘技术产生不了期望的结果。这时,用户需要重复先前的过程,甚至从头重新开始。

1.2 常用的数据挖掘方法

在选定了数据挖掘过程模型后,另一个需要着重考虑的是挖掘算法的选择。数据挖掘是从人工智能领域的一个分支一机器学习发展而来的,因此机器学习、模式识别、人工智能领域的常规技术,如聚类(Clustering)、决策树(Decision Tree)、统计等方法经过改进,大都可以应用于数据挖掘。人工神经网络方法、粗糙集理论方法、关联规则方法、遗传算法方法、决策树方法及统计分析方法是数据挖掘的常用方法。[3]

1.3 SQL Server中的数据挖掘技术

数据挖掘是SQL Server的一整套数据管理工具中的新增品种。数据挖掘和OLAP都是微软分析服务的组成部分,都是决策支持工具,但他们是为不同的用处而设计的。在数据挖掘模型上微软采用了特殊数据结构来存储数据挖掘模型,要浏览它需要使用微软Analysis Manager、采用OLE DB for Data Mining Servises的应用程序,或者诸如决策支持对象(DSO)的COM接口。所有这些工具允许创建、复制、改变和删除新的数据模型。通过OLE DB可以与各种数据源建立直接的数据连接。[4]

服务器端的Analysis Services体系结构提供可以建立和操纵OLAP立方体、数据挖掘模型的核心程序。除了本地安全访问外,服务器还要管理对原始数据源地连接。处理立方体和模型时,服务器要管理数据存储的机制。他要维护微软SQL Server 2000 Meta Data Services存储和使用的元数据存储区。Analysis Manager中提供的用户界面包含了Data TransformationServices(DTS),这是SQL server 2000的一项服务,它在数据源之间传输和清理数据。Analysis Manager是Analysis Services的主要接口,它还有其他的一些编程接口允许用户前端应用程序与控制服务器借口的 COM对象模型相互作用。

2 决策树方法在教学质量数据挖掘中的应用

决策树一是一个类似于流程图的树结构,其中每个节点表示在一个属性上的测试,每个分枝代表一个测试输出,每个树叶节点代表类或类分布。建立决策树的目标是通过训练样本建立目标类变量关于各输入变量的分类预测模型,全面实现输入变量和目标变量在不同取值下的数据分组,进而用于新数据对象的分类和预测。

建立决策树的经典算法是ID3算法,它可以被描述成一个递归的过程:首先,选择训练样本的一个属性作为节点,对该属性的每种可能的取值创建一个分枝,并据此将训练样本划分为凡个子集。然后,对每个分枝采取相同的方法,训练样木是其父节点划分的若干子集中的对应于该分枝取值的那个样本子集。

3 数据挖掘在教学质量评估中的应用

3.1 基于纯SQL Server的数据挖掘系统实现方法

随着OLE DB For DM规范的,使得数据挖掘和关系数据库以及数据仓库的集成成为可能,因此微软公司在其数据库产品SQL Server中包含了数据挖掘特性,由SQL Server的分析服务(Analysis Services)模块提供数据挖掘服务。分析服务是一整套的决策支持引擎和工具,分析服务的访问是通过图形用户界面土具,并且通过微软管理控制台接口运行。它可以访问两种形式的决策支持机制:数据挖掘和联机分析处理。在对教学质量评估数据进行数据挖掘时一,可以直接使用分析服务提供的数据挖掘功能。[5]

首先,将教学质量评估中的数据导入SQL Server,对数据进行相关处理,创建星型结构的数据仓库,为数据挖掘模型准备好数据源。然后,启动Microsoft SQL Server 2000 Analysis Services,利用系统提供的“挖掘模型向导”,构建数据挖掘模型,直接选择其中的数据挖掘算法(如微软决策树方法Microsoft Decision Tree)对数据源进行数据挖掘。

3.2 SQL Server与外部模块结合的数据挖掘系统实现方法

虽然基于SQL Server分析服务本身的数据挖掘算法可以构造数据挖掘解决方案,但是SQL Server分析服务提供的算法有限。将数据挖掘模块外挂于SQL Server进行数据挖掘,在算法的选择上具有足够的灵活性,同时该算法也可以与SQL Server分析服务结合使用。这种方式下SQL Server不仅可以提供完善的数据管理服务,同时通过使用SQLServer提供的DTS等工具对数据进行预处理,构建数据仓库,将整个数据挖掘解决方案构建在数据仓库之上,这在一定程度上提高了数据挖掘的质量和效率。[6]

在基于SQL Server构建数据挖掘模块时,整个系统采用C/S结构,将数据挖掘数据源组织存储在服务器端数据库,而数据挖掘模块运行在客户端应用程序。实现数据挖掘算法外挂于SQL Server来构建数据挖掘解决方案的关键,是解决数据挖掘算法与数据库的数据交互问题。

首先,将源数据(学生评教数据、教师相关数据)经过抽取、转换加载存储到服务器端SQL Server数据库,SQL Server的DTS工具可以完成大部分数据的转换和清理工作,这样不同源数据就可以统一有序的存储在服务器端的SQL Server数据库中,为数据挖掘做好数据准备。其次,利用某种高级语言实现数据挖掘算法,编制相应的外挂数据挖掘模块。最后,与服务器上的数据库进行数据交互。在这种利用外挂模块实现数据挖掘的方案中,不同的数据库的访问技术有所不同,微软公司的主要的数据访问方法是ADO,它是一个简单的对象模型,在应用程序中使用该模型可以方便的与SQL Server数据库进行数据交互。

3.3 数据挖掘模块的实现过程

教学质量评估数据挖掘模块包括数据清洗、生成事务库、生成频繁项集、生成关联规则库共四个子模块。它们的主要功能分别为:对学生评教数据进行清冼并从教师档案库以及清洗后的学生评教数据库中提取数据挖掘对象、对数据挖掘对象进行编码并将关系表转换为事务库、根据给定的最小支持度在事务库的基础上生成频繁项集、根据给定的最小置信度由频繁项集生成关联规则并显示。数据挖掘模块的实现过程如图2所示。

4 总结

本文介绍了数据挖掘的基本概念,探讨了常用的数据挖掘技术及其挖掘算法,结合实例研究分析了决策树方法中ID3算法的实现过程。本文探讨了教学质量评估数据挖掘系统的实现方法,给出了基于SQL Server的两种数据挖掘的解决方案。当前,对数据挖掘技术的研究与应用正方兴未艾,随着技术的不断成熟,未来的应用领域会更加广泛,在教育领域内的应用也会更加深入。

参考文献:

[1] 黄解军,潘和平,万幼川.数据挖掘技术的应用研究[J].计算机工程与应用,2003,(2):45-47.

[2] Seidm C.SQL Server 2000数据挖掘技术指南[M].北京:机械工业出版社,2001.

[3] 黄容,党齐民,欧建雄.基于连锁超市的数据仓库开发模型[J].计算机与现代化,2003,90(2):21-24.

数据挖掘技术探讨论文篇(8)

数据库论文国外参考文献:

[1]艾孜海尔江·艾合买提.基于Web数据库的数据库挖掘技术分析[J].科技致富向导,2012,24(27):217——219.

[2]刘霞,赵鑫,吕翠丽.数据库挖掘技术在网络安全防范中的应用[J].动画世界,2012,20(06).

[3]尚世菊,董祥军.多数据库中的副关联规则挖掘技术及发展趋势[J].计算机工程,2009(05).

[4]吕安民,林宗坚,李成明.数据库挖掘和知识发现的技术方法[J].测绘科学,2010(04):123——130.

[5]曾霖.基于Web数据库的数据库挖掘技术探究[J].软件,2013,27(02):174——176.

数据库论文国外参考文献:

[1]宋安,习勇,魏急波.基于μCLinux的NAT设备的设计与开发[J].电子工程师,2005-05-15.

[2]徐叶,袁敏,李国军.嵌入式Web服务器远程监控系统的设计与实现[J].计算机与现代化,2013-02-27.

[3]王俊,郭书军.嵌入式Web服务器的实现及其CGI应用[J].电子设计工程,2011-11-05.

[4]高建国,崔业勤.ARTs-EDB的内存数据存储管理[J].微计算机信息,2010-01-25.

[5]陈嘉.嵌入式主存数据库索引机制的研究与改进[D].湖南师范大学,2006:278-282.

[6]刘志东.基于嵌入式Web技术的远程射频识别系统的设计与实现[D].西北民族大学硕士论文,2012-04-01.

[7]贺永恒.基于IAIDL的信息家电体系结构研究[J].中国科技信息,2009(04):154-156.

[8]陈一明.嵌入式数据库的智能家居网关设计[J].微计算机信息,2009-04-15.

数据库论文国外参考文献:

[1]余明辉,胡耀民.基于SQLServer2008决策支持系统模型的研究和应用[J].微计算机信息,2010,26(2-3):178-180+192.

[2]张克友.基于SQLServer财务数据库安全技术的探讨[J].信阳师范学院学报(自然科学版),2008,21(4):587-590.

[3]胡家汉,李景峰.对SQLServer数据库的安全和管理策略探讨[J].计算机光盘软件与应用,2012,(2):101-102.

[4]胡登卫.高校实验室信息化管理系统SQLServer数据库安全策略研究与实施[J].商丘师范学院学报,2009,25(3):96-99+106.

数据挖掘技术探讨论文篇(9)

一、引言

网络技术、数据库技术、软件工程方法等快速发展和改进,医院已经上线了门诊挂号系统、医学影像管理系统、病历档案管理系统、药房管理系统、病房管理系统等,这些系统保存了海量的病例信息[1]。

目前,医院在开展诊断、治疗过程中,已经开始实施精准化治疗模式,因此利用支持向量机、BP神经网络、遗传算法、K近邻算法等数据挖掘技术总结、分析病例中诊断治疗成功的信息显得尤为重要,已经成为医院信息化发展的趋势和方向[2]。

二、数据挖掘技术及应用分析

数据挖掘技术经过多年的研究和改进,已经提出了许多先进的算法,伴随着多媒体、云计算、互联网等技术的发展,数据挖技术已经在医疗卫生等多个领域取得了显著的应用,为人们提供了丰富的数据内容和有价值的信息。在医疗诊断、治疗过程中,医院已经在主治医师自动化推荐、医学图像识别分析等领域取得了显著的成效,开发了智能医疗专家系统、医院发展智能决策库系统等,归纳起来,医院诊疗过程中常用的数据挖掘算法主要包括支持向量机、K近邻算法、BP神经网络,利用这些算法可以从宏观、微观等多维度挖掘医院信息数据中潜在的有价值信息,指导医院开展诊疗工作和行政管理,具有重要的作用[3]。

2.1支持向量机

支持向量机是一种基于分类的大数据挖掘技术,该挖掘技术可以针对非线性、高维空间的样本数据实现挖掘分析,能够利用核函数等优化数据挖掘过程,从海量的医院信息数据中挖掘高价值信息,并且能够为医疗诊断提供病灶定位、图像识别等决策知识。支撑向量机可以与遗传算法、模糊数学、粒子群等思想集成在一起,实现算法优化,挖掘更多的信息知识。

2.2 BP神经网络

BP神经网络是一种自适应和自组织的大数据挖掘技术,其可以从海量数据中挖掘样本数据特征,把数据划分为多个类别,以便能够获取有价值的潜在信息。目前,BP神经网络数据已经具备数据分布式存储、并行处理和较强的容错能力等特点,并且具备非常强大的抗干扰能力。神经网络主要包括输入层、学习层和输出层,每一层都可以设置不同的权值,并且这些权值可以自适应调整,提高算法的自适应能力和优化能力。

2.3 K近邻算法

K近邻算法采用线性统计分类算法,已经数据挖掘算法中得到了广泛的普及,是一种非常成熟的算法。K近邻算法的思路如下:给定一个样本数据,计算该样本与K个样本相似程度,选择相似程度最大的一个类别,将该样本划分为这个类别中[4]。

三、数据挖掘在病例分析中的应用

数据挖掘在病例分析中的应用主要包括以下三个关键内容:

3.1基于病例分析结果为患者推荐医师

患者在就诊过程中,为了提高患者参与的积极性、主动性和精确性,利用数据挖掘构建一个模型,该模型可以录入患者的病历信息,然后模型自动与数据库保存的病例进行对比分析,寻找治疗措施最优的医师推荐给患者。

3.2构建智能病例信息专家库

医院在开展诊断、治疗业务时,难以避免误诊,误诊的原因很多,比如患者自身体质、患者隐瞒病史、医师判断不准确等,为了提高医院诊断、治疗的精准化,可以构建智能病例信息专家库,自动化的分析诊断失败、治疗不成功的原因,从而全面提升医院救治水平。

3.3构建远程会诊推荐系统

目前,医院通过互联网可以与上级医院、科研结构合作会诊,会诊过程中,利用数据挖掘技术可以更加清晰地识别核磁共振、CT等医学图像中的病灶部位,提高诊断的准确性,便于设计治疗方案。

四、结束语

随着医院信息化水平的提升,医院信息化系统运行积累的海量数据资源是一座非常宝贵的财富,与BP神经网络、遗传算法等先进的挖掘技术相整合,可以从中发掘潜在的指导救治知识,有利于提高医院科研、治疗水平,更好的救死扶伤,保护人们的生命健康。

参 考 文 献

[1] 陈晓琛. 医院病案信息系统的数据挖掘在医院中的重要意义[J]. 当代医学, 2014, 31(25):8-9.

数据挖掘技术探讨论文篇(10)

[1]董西明.客户关系管理及其应用[J].学术交流,2004(8)

[2]王光玲.CRM—企业管理理念新发展[J].经济论坛,2003(9)

[3]崔京波,陈颖.论CRM及应用[J].科学与管理,2005(6)

[4]田丹.浅析供应链环境下的客户关系管理(CRM)[J].商情(教育经济研究),2008(3)

[5]左臻.浅谈客户关系管理[J].科技情报开发与经济,2005(5)

[6]徐辉.浅析客户关系管理[J].商业经济,2008(10)

[7]姚德全,于冬梅.客户关系管理在企业发展中的重要性[J].科技创新与应用,2013(8)

参考文献

[1]郭愈强,樊玮.数据挖掘技术在民航CRM中的应用[J],计算机工程,2005(31):169-171.

[2]刘彬,白万民.浅析数据挖掘技术在CRM中的应用[J].电子世界,2014,01(17):16-17.

[3]杨虎猛,朱汝岳.金融业分型CRM系统探索与应用[J].计算机应用与软件,2013,07(30):259-261.

[4]徐国庆,段春梅.数据挖掘技术在CRM中的应用研究[J].网络安全技术与应用,2012,02(12):38-40.

[5]王一鸿.体检中心CRM构建及数据挖掘的应用研究[D].华东理工大学,2011.

[6]潘光强.基于数据挖掘的CRM设计与应用研究[D].安徽工业大学,2011.

参考文献:

[1]廖雯.基于客户生命周期的CRM策略研究[J].商,2015(17):15-15.

[2]陈杭.电子商务的营销资源在CRM策略中有效分配探讨[J].现代商业,2015(11):42-43.

数据挖掘技术探讨论文篇(11)

【关键词】 肺纤维化;中药复方;用药规律;数据挖掘

Abstract:Objective To study the regularity of compound herbal formulae for pulmonary fibrosis. Methods Compound herbal formulae published on journals for the treatment of pulmonary fibrosis were searched and collected. A database was established for data mining using frequency count, cluster analysis and association rule analysis. Regularity of key herbs and a pair (group) of herbs was summarized. Results There were 64 prescriptions (totaling 114 herbs and 584 counts of frequency) in the compound herbal formulae for pulmonary fibrosis. The herbs which were used for more than 5 times included 36 herbs (totaling 431 counts of frequency). They were cluster analyzed and classified into 6 clusters including tonic, hemorheologic agent, apophlegmatisant, drugs used to disperse and lower the qi of the lung, heat-clearing drugs and antiasthmatic. The rules in pair of herbs were 19, and rules in group of herbs were 25 by association analysis. The rules consisted mostly of compatibility of qi-reinforcing drugs and hemorheologic agent. Conclusions It was feasible that study the regularity of Chinese compound prescription for the treatment of pulmonary fibrosis by data mining.

key words:pulmonary fibrosis;compound herbal formulae;regularity;data mining

间质性肺疾病(interstitial lung disease,ILD)是众多具有不同程度炎症和纤维化的急、慢性肺病,其最终病理结局是肺纤维化。近10年来,多数学者尝试用中医药治疗本病,虽然目前处于探索阶段,但已显示出了良好的前景,涌现出了一批治疗肺纤维化的中药复方。虽然组建处方的中医师受不同学术流派的影响,处方用药因个人经验而不同,但不同处方中可能隐含着许多很有价值的规律,而数据挖掘能够自动地发现隐藏在数据中的规律,更能偶然地发现一些非预期但很有价值的知识[1]。因此,采用数据挖掘方法探索这些复方的用药规律,可以对众多中医专家治疗肺纤维化的宝贵经验加以整理和挖掘,以期比较全面地获得对中医基础理论和临床实践规律的统一认识。

1 资料与方法

1.1 数据收集

首先以“肺纤维化”为主题词检索中国生物医学文献数据库(CBMDISC,1978年1月-2010年8月),通过阅读标题及摘要,初步获得有关中医药治疗肺纤维化的文献,仔细阅读全文,按组方符合中医理论、药味完整、剂量准确、主治明确、临床例数至少20例等标准,选取中药复方;将符合标准的64个复方按照编号、方名、药名、参考文献等依次输入Microsoft Excel 中,分别建立相应的数据库,各数据库间通过数据编码在不同数据间形成关联。

1.2 数据清洗

选取中药数据库进行数据清洗,主要工作是将药名规范化,如将“山萸肉”统一为“山茱萸”,“浙贝”统一为“浙贝母”。组合概念拆分,如药味“味甘辛”拆为“味甘”、“味辛”;如归经“归肺脾经”拆为归“肺经”、“脾经”;如功效“清热化痰”拆为“清热”和“化痰”等。在新得到的中药数据库中,按《中华本草》所载,输入每味药物的性、味、归经和功效,并将其数字化。其中寒、热、温、凉等药性按蒋氏方法[2]赋值;对于酸、苦、甘、辛、咸等药味及归经、功效主治等,某药的描述与其某一项相符则记为1,无则记为0。由2个人分别输入数据,完成后交叉核对,不一致处,讨论解决。

1.3 数据挖掘

1.3.1 描述性分析

采用频数分析方法,计算药物的种类及每味药的使用频次。

1.3.2 聚类分析

对使用频次超过5次以上的药物,按药物的性味、归经、功效主治以分层聚类法进行聚类分析。

1.3.3 关联规则分析

采用关联规则挖掘药对配伍规律,设最小支持度20%,最小可信度50%。

1.4 数据挖掘工具

描述性分析和关联规则分析由STATISTICA8.0软件完成,聚类分析由SPSS17.0软件完成。

2 结果

2.1 描述性分析结果

64个复方中使用114种药物、共584频次。其中出现5次以上的有36种,由高到低为:黄芪(48)、当归(37)、丹参(34)、川芎(27)、甘草(22)、麦冬(21)、党参(16)、沙参(15)、杏仁(12)、生地黄(12)、黄芩(12)、五味子(11)、红花(11)、半夏(11)、瓜蒌(9)、蛤蚧(9)、桑白皮(8)、桔梗(8)、浙贝母(7)、熟地黄(7)、地龙(7)、川贝母(7)、白果(7)、郁金(6)、鱼腥草(6)、水蛭(6)、人参(6)、金银花(6)、莪术(6)、赤芍药(6)、白芍药(5)、枳壳(5)、全蝎(5)、麻黄(5)、茯苓(5)、冬虫夏草(5),共431频次。

2.2 聚类分析结果

36味常用药物共分为6类,根据每类药的主要功效加以归类,并将每味药在治疗肺纤维化中所应用的主要功效进行整理,结果见表1。

表1 36味药物聚类结果

2.3 关联规则分析结果

药对共得关联规则19条,获得药对13对:党参、黄芪;沙参、丹参;黄芪、丹参;川芎、丹参;当归、丹参;甘草、当归;麦冬、当归;黄芪、当归;川芎、当归;川芎、黄芪;甘草、黄芪;麦冬、黄芪;甘草、麦冬。见表2。药组(每组3味药以上)共得关联规则25条,共获得药组5个:川芎、丹参、黄芪;当归、丹参、黄芪;川芎、黄芪、丹参、当归;川芎、当归、丹参;川芎、当归、黄芪。见表3。表2 药对关联规则 表3 药组关联规则

3 讨论

数据挖掘技术应用于中医药研究,成为促进中医药科研发展和实现中医药现代化的重要组成部分[3]。数据挖掘只是人类认识和探索世界的一个工具和方法,它可以发现一些潜在的现象,但不会告诉你为什么。数据挖掘的结果必须在相应目标领域专家的指导下进行解释和评价[4]。

3.1 主要药物分析

聚类分析是根据事物本身潜在的特性研究对象分类的方法。通过聚类把一个数据集合中的个体按照相似性归成若干类别,使其“物以类聚”,将数据库中的记录划分为一系列有意义的子集[5]。对于36味主要的药物按性味、归经、功效主治进行聚类分析后,获得的分类基本与临床实践相符,但也有部分出入:①白果归到补益药类;②白芍药归到活血药类;③茯苓与人参、五味子归为补益药亚类;④浙贝母、川贝母、瓜蒌与沙参、麦冬归到一类。

经过研习文献,我们发现,以上分类具有合理之处:①白果,虽然归到化痰止咳平喘中,但《本草纲目》中指出“熟食温肺益气、定喘嗽,缩小便”,《本草再新》中说“补气养心,益肾滋阴”,而临床上常配伍五味子、胡桃肉等补肾纳气,配伍熟地黄、山茱萸等补肾固涩,说明其有补、涩之功效。②白芍药常归为补虚药中,然芍药在《神农本草经》中赤、白不分,至陶弘景始分,但后世不少医家认为白芍药具有活血之功效,如《本草求真》明确指出“赤芍药与白芍药主治略同”、《药品化义》云“白芍能补复能泻,专行血海”、《开宝本草》认为芍药“白者止痛散血”等。③茯苓虽然归到淡渗利湿药中,但因其补气健脾之功而常作为补药来使用,自明清始,医家更将其作为补脾阴之药,如《本草化义》中说“甘淡属土,用补脾阴,土旺生金,兼益肺气”,说明与人参、五味子等具有补气生津的共同功效。④浙贝母、川贝母、瓜蒌归为化痰药,而沙参、麦冬归为补阴药,实际上沙参“养肺阴、清肺热、祛痰止咳(《中药志》)”、麦冬“下痰饮(《本草拾遗》)”,可见,此5味药不但有清肺化痰的相同功效,而且均可润肺止咳。综上所述,以现代数理方法所得到的药物分类反而与古人的认识更相近。

从主要的药物选用频次、药物性味归经、主治功效等来看,体现出大多数医家对肺纤维化的病机认识[6-7]:①病位在肺而与脾肾关系密切;②病性属本虚标实,肺脾肾气(阴)亏虚为本虚,痰浊、瘀血、热毒为标实,二者互相影响,互为因果。因此,治疗以补脾肺、补肾精等扶正为主;以活血祛瘀、化痰、清热等以治其标;同时针对肺主气、司呼吸及主宣肃等生理功能,采用宣肺气、降肺气等药以调畅气机,针对喘息选用地龙等药,均符合临床实践。自笔者等提出“本病的病位在肺络,基本病机为肺络痹阻,以通补肺络法治疗肺纤维化”的观点[8]以来,得到了不少同道的赞同,并且从不同的侧面进一步加以发挥和丰富[9-16],而数据挖掘得到活血通络药频次最多,也体现了通肺络的治法已得到众多医家的认同。

3.2 药对(组)分析

关联规则挖掘就是通过关联分析找出数据库中隐藏的知识,利用这些知识可以根据已知情况对未知问题进行推测[17]。在探索药对或药组时,应结合关联规则中支持度、可信度、提升度来考虑。支持度反映了关联是否是普遍存在的规律,可信度反映了关联规则的预测强度,同时满足用户定义的最小可信度和最小支持度阈值的关联规则被认为是有趣的,而提升度反映了关联规则中元素关系的密切程度,>1才有意义。在获得的药组关联规则中,均是有趣的;而在获得的药对关联规则中,“甘草与当归、麦冬与当归、甘草与黄芪、麦冬与黄芪”等不都满足3个条件,因此可以认为是无趣的;同时因甘草“和诸药”,与其他药同时出现的可能性很大,如果出现了关联规则应该视为已知的,所以“甘草、麦冬”也应该视为是无趣的。

结合主要药物使用频次,以补益药和活血药为主,通过对有趣的药组关联规则判读发现,大多数医家喜用益气药黄芪配伍丹参、当归、川芎等活血通络药;而药对关联规则中,益气药黄芪与党参配伍,益气药黄芪分别与丹参、当归、川芎等活血药配伍,而活血药丹参、当归、川芎两两配伍,说明益气活血通络法是众多医家治疗肺纤维化的共识。实际上这些药物经实验证实均有一定的抗纤维化作用,提示我们应将此法作为治疗肺纤维化的基本大法。

由于中医方剂理论体系极其繁杂,充满海量信息,并且方剂的效应评价具有多靶点的特征,因此在方剂研究领域,数据挖掘技术的应用应该引起重视;同时,对挖掘所得到的知识进一步分析和应用验证更为重要。本文作为引玉之砖,质之博雅斧正。

参考文献

[1] 姚美村,袁月梅,艾路,等.数据挖掘及其在中医药现代化研究中的应用[J].北京中医药大学学报,2002,25(5):20-23.

[2] 蒋永光,李力,李认书,等.中医脾胃方配伍规律的数据挖掘试验[J].世界科学技术-中医药现代化,2003,5(3):33-37.

[3] 张万水,陈利国,黄运坤,等.数据挖掘技术及其在中医遣方用药规律中的应用[J].辽宁中医药大学学报,2006,8(4):62-63.

[4] 张俊美,王娜娜.数据挖掘技术在方剂文献研究中的应用现状[J].甘肃中医,2008,21(1):5-7.

[5] 张颖,杨钧,刘建平.数据挖掘在中医药研究中的应用[J].辽宁中医药大学学报,2008,10(3):153-154.

[6] 张娟,闰永建.中医药治疗肺纤维化研究进展[J].山东中医药大学学报, 2009,33(1):81-85.

[7] 赵兰才,武维屏.肺间质纤维化的中医研究进展述评[J].北京中医药大学学报,2000,23(4):70.

[8] 张天嵩,吴银根.通补肺络法治疗肺纤维化理论探讨[J].中医杂志, 2002,43(11):808-810.

[9] 崔红生,邱冬梅,武维屏.肺间质纤维化从络病辨治探析[J].中医杂志, 2003,44(12):946-947.

[10] 蒋宁,武维屏.中医络病学说与肺间质纤维化病机关系初探[J].中国中医基础医学杂志,2003,9(5):21-22.

[11] 陈金亮,王殿华.络病理论与肺纤维化的关系探析[J].中医药学刊, 2004,22(3):407-408.

[12] 翟华强.络病理论与特发性肺纤维化[J].中国中医药信息杂志,2005, 12(10):91-92.

[13] 翟华强.从“肺络”探讨肺纤维化的防治[J].中医杂志,2007,48(5): 457-458.

[14] 崔红生,武维屏,姜良铎.毒损肺络与肺间质纤维化[J].中医杂志, 2007,48(9):858-859.