数据通信的概念大全11篇

时间：2023-06-30 16:01:39

数据通信的概念

数据通信的概念篇（1）

[分类号]G250.76

1　引言

语义是指“数据(符号)”所指代的概念的含义以及这些含义之间的关系，是对数据的抽象或者更高层次的逻辑表示。语义通过两种途径产生：①人类赋予；②通过计算模型产生。通过第二种方式产生的语义可以被计算机理解和处理，可以被获取、传递、共享。根据实体资源(如文本和图像)来产生语义或挖掘出信息所蕴含的隐性语义是一个挑战性的任务。基于统计的聚类分析、共词分析、信息抽取和挖掘技术可以帮助实现语义的自动抽取。实现的关键在于建立一个语义模型，该模型既适用于显式语义，又适用于通过显式语义挖掘推导出隐含语义。语义模型是通过模型作为媒介来实现数据语义关系形式化描述的一种方式。基于本体的语义模型是通过以本体为核心的模型作为媒介，实现数字资源语义关系形式化描述的一种方式。本文基于本体构建了语义模型，并基于该语义模型探讨数字图书馆知识组织过程中信息抽取策略。

2　信息抽取与本体

信息抽取是从分布的、异构的文本中提取出特定的事实信息，将其中隐含的语义提取出来并以更为结构化、更为清晰的形式表示，为用户使用提供便利。信息抽取与语义标注总是融合在一起、互相支持的；信息抽取需要在语义标注的基础上进行，语义标注的内容是经过信息抽取提取出来的。因此，目前对于信息抽取研究离不开对抽取对象的语义分析和描述。语义分析与描述技术的研究热点是本体技术。

本体是对面向计算机语言的、已被组织的知识的描述，而信息抽取是面向自然语言，分析文档表达的事实和从这些文档中提取相关信息片段。信息抽取和本体是相辅相成的：作为抽取相关信息的理解程序，本体被用于信息抽取，是信息抽取的语义知识依据；信息抽取可以丰富本体，因为信息抽取出来的文档可以作为设计和丰富本体的知识资源。

这两方面的任务被结合在循环中(见图1)。本体可以有效地、准确地、解释信息抽取出来的数据，而信息抽取从文档提取出来的新知识可以整合进入本体从而丰富本体。

2.1本体对信息抽取的支持

在抽取过程中，本体知识对文档的语义解释具有重要作用。

本体对领域概念以及概念的多种形式进行了规范性说明，因此在信息抽取中可以用来进行字符串的语义分析，进而进行概念识别；在信息抽取过程中，需要领域本体对文档中实体名称进行识别与分类。本体中的类可以对信息抽取文档进行概念识别、语义标注和概念规范。

本体的概念层次结构。传统信息抽取的重点是使用同义词集而不是层次关系。例如，在wordNet中，同义词集可以用于语义标注和消歧，但上下类关系还需要本体参与。本体中包含的语义类型或语义的层次关系，有助于通过抽取内容进行推理和忠实释义。

更先进的信息抽取系统也需要利用领域本体的概念节点、概念节点的属性和相互关系予以描述。本体中的概念与属性值能够清楚地描述信息抽取对象的本质。对于文档中抽取对象的分析既能提高自然语言处理，又能指导概念框架的实体构成，而相应的规则即是基于短语模型，更多是基于语义分析的。

领域概念模型。领域概念模型本身用于推理，它能合并不同表现形式的同一概念，并且能够揭示出隐含的语义。

2.2信息抽取对本体的丰富

本体构建一直是公认的语义进程中的瓶颈，而信息抽取有助于本体构建。已经提出各种方法用于语料库的建设以利于本体构建，如基于规则的信息抽取即是对本体构建方法的补充。基于推理规则抽取出基本数据，通过已有本体对该数据进行概念及概念关系分析，在此基础上将数据中新的概念或概念间的新关系整合到本体。

实体命名抽取：实体命名通过在本体中以实例的形式表示。从这个角度看，需要自动地不断地为本体增添一些热门领域的实体名称。而信息抽取被广泛应用于识别和分类文档、网页、数据库等中的实体。

关系抽取：在结构化本体中，概念与概念之间存在着语义关联。目前从文档中获取本体关系的方法主要有三种：基于共词分析方法、基于知识库方法和基于信息抽取模式方法。信息提取模式方法提升了前两种方式：第一种方法需要对基本关系类型进行解释，而信息抽取中的规则就是特色化关系；第二种方法原有的知识可以帮助设计一个提取规则。

信息抽取通过本体进行基于领域的语义分析，提升信息的语义性，为智能检索打下基础；本体通过信息抽取不断学习，不断演化，解决本体构建的瓶颈问题。鉴于此，本文基于本体构建数字图书馆知识组织语义互联的语义模型，利用语义模型探讨语义互联实现过程中各个重要环节的策略，进而最终完成数字图书馆知识组织的语义互联。

3　数字图书馆互联的语义模型

语义模型是对内容语义、语义类型及语义关系进行描述和组织的机制，它试图在用户的信息需求和信息资源之间搭建一座桥梁，将两者灵活而有机地结合起来，从语义的角度来解析信息资源，进而从互理解的角度来提升用户检索的准确度和召回率，更好地满足用户的信息需求。语义模型是影响数字图书馆知识组织语义互联的核心要素。本文构建了以元数据、领域本体、桥本体和本体解析体系为组成要素的语义模型，利用语义模型实现数字图书馆知识组织过程中的数字资源、用户需求表达的语义解析，完成数字图书馆用户交互层、内容管理与功能层、内容层之间的语义映射。其中，元数据进行资源的标准化描述，领域本体进行概念以及概念之间关系的语义标注，桥本体用于资源之间语义聚合，本体解析主要解决本体的具体效用发挥的方式，如图2所示：

3.1元数据

元数据是数字图书馆用来解决语义互联的重要基础工具。数字图书馆由资源构成，而资源是可以被标识的。元数据提供了对资源各种属性的描述。元数据通过定义数字图书馆中资源的信息结构以及定义由数字对象构成的资源库的组织结构，决定着数字图书馆知识组织和知识服务方式。元数据发展比较成熟，已经形成完整规范的元数据体系，包括元数据格式、元数据标准、元数据方案、元数据应用纲要、元数据注册系统等等，这些为数字图书馆知识组织语义互联打下了基础。

3.2领域本体

领域本体是知识组织体系中重要组成部分，其目标是捕获相关领域的知识。领域本体是对领域内共享概念模型的明确的形式化的规范说明；概念以及概念之间的关系是经过精确定义的，提供了对领域知识的共同理解与描述，能够为计算机所使用并可用数学方

式表达。在领域本体技术驱动下，信息资源以全新方式进行组织，组织原理发生如下改变：①从用户可理解到机器可理解；②从信息描述到知识表现；③从语义隐含到语义揭示；④从“以概念为中心”到“以概念一关系为中心”；⑤从信息表示到智能推理。这些变化要求知识组织理论、形式、方法、技术、体系以及知识组织过程都要随之改变，实现对资源从语法层面向语义层面深入，最后直至语用层面的组织，在获取、表示、加工、存储、重组、提供、共享、利用、控制等知识组织过程中，充分体现语义性，在数字图书馆系统的各层之间，在用户、资源、服务之间，形成语义互理解和互操作。

3.3桥本体

桥本体是一种特殊的本体，完成不同领域本体概念之间关系的映射，进而实现本体整合，形成领域内的共享本体。桥本体记作Obridg。，可以用一个六元组表示：

Obridge={cb，Acb，Rb，Arb，hb，xb}(1)

其中，cb表示桥本体概念的集合，Acb表示桥本体概念所对应的属性集的集合，Rb表示桥本体之间关系的集合；Arb是桥本体之间关系所对应的属性集的集合，Hb代表了概念的层次结构，xb是一系列公理集合。

在概念上，桥本体具有四层树形结构(见图3)：第一层是最普遍的概念，标记为T；第二层具有概念桥和关系桥两个概念，它们分别表示了两种不同的桥关系；第三层由10种不同类型的子类桥组成；第四层是一系列动态创建概念的集合，它们的属性描述了不同本体之间关系的信息。其中上面三层是固定的，称之为静态层，第四层的概念是根据已知的多本体动态产生的，为动态层。

3.4本体解析体系

数据存储模式的选择直接影响使用的效率。本体是系统多层之间语义联系的纽带，因此本体、桥本体的存储方式影响数字图书馆知识组织和知识服务的质量。本文选用的本体描述语言为W3C推荐的OWL，将其存储到关系数据库。关系数据库存储本体既有缺点，对本体含有的丰富语义缺乏精准的表现，又有无可比拟的优点。已有文献对本体到关系数据库模式映射进行了详尽的阐述，在此仅谈及桥本体的解析。

根据桥本体的概念结构和关系数据库的形式化定义，下面给出它到关系数据库模式的映射规则。

以桥本体建立数据库，取名为database-brid―geO。

桥本体中的十个桥关系分别为桥本体的子类，分别以这十个桥关系建立十张表，表名为table―Bcequal、table_BCdifferent、table_BCisa、table_Bcinstan―ceof、table BCoverlap、table BChasa、table_Beopposed、ta-ble_BCconnect、table_BRsubsume和table_Brinverse。

将桥本体的属性映射为各个表的属性，属性类型为字符型；各表属性个数并不相同，主要包括三类：一类表示具有该种桥关系的两个领域本体的名称；一类表示具有该种桥关系的领域本体的类名称；一类属性代表该类所对应表的地址。

属性值分别取值为领域本体名、领域本体中类名和类对应的表名。

不同领域本体概念之间的关系构成表中的记录。

表中的主键为复合主键，由不同领域本体名称和不同概念名称组合而成。

4　基于语义模型的信息抽取策略

抽取对象是异质的、异构的、多语种的、半结构化甚至是非结构化的，并且可能存在着语义模糊、语义缺失，因此对抽取对象实体命名识别、实体间关系的识别变得更加困难，需要多种技术协作完成。语义模型能有效协助信息抽取：利用元数据对数字信息资源和用户信息资源进行规范化描述，利用领域本体集和桥本体实现数字资源和用户信息资源语义关系形式化描述，而语义模型中本体解析体系为信息抽取为利用本体提供了途径。因此，利用语义模型可以有效地进行实体命名识别和信息抽取规则制定。基于规则进行信息抽取能有效过滤掉噪声，增加新的结构信息。大体过程如图4所示：

4.1数据采集和数据清洗

通过各种数据采集工具对数据库、文档和网页进行数据采集。数据库中的数据是结构化的，采集相对简易；而文档和网页结构各异，先将它们抓取入系统；数据清洗目的是对有信息价值的各种数据通过处理产生纯文档。首先对抓取的原始数据进行结构分析，去除噪声，分析数据是表结构、文档结构还是网页结构，网页结构是内容型网页还是表单型网页，并对各种结构进行识别剥离；然后进行内容分析，例如网页中的广告、图像、版权信息等等；最后对用户关心的信息内容进行提取，产生待处理的纯文档，如图5所示：

4.2文档预处理

文档预处理的任务是自然语言处理，将文档处理切分为待处理的词汇和信息单元。首先将待处理的纯文档进行词语切分和词性标注，取出分词结果中的名词和动词；然后按标点符号进行短句分割，作为信息单元，并以此作为信息抽取的粒度；最后对短句进行语法词法分析，并实施初次筛选，保留其中至少包含两个名词和一个动词的信息单元。该过程需要相关领域知识的术语表、词汇表、主题词表等，对分词系统中的词表进行二次加工。语义模型中的领域本体可以提供规范化的概念及概念中所涉及术语的多种形式，可以对词表进行丰富和规范，如图6所示：

4.3规则生成

信息抽取规则的生成利用了本文构建的语义模型。语义模型中的领域本体描述了概念、属性、实例以及本体内部概念与概念之间的关系，桥本体描述跨本体的概念之间的多种关系。领域本体和桥本体用OWL描述，将OWL本体映射到关系数据库，形成语义模型数据库；数据库中含有若干个表，通过表、表的属性、表的主键与外键以及属性之间的约束对本体进行解析。信息规则在此基础上生成：首先从语义模型数据库抽取类、抽取属性、抽取实例、抽取关系，对于桥本体还需要抽取表名；然后通过其解析出的本体中描述的概念、关系、层次结构等来生成三元组，再将此三元组作为信息抽取的规则存入规则库。如图7所示：

4.4实体抽取

信息抽取主要是对信息单元进行解析后，对信息单元中的名词基于语义模型中的概念和实例进行实体命名识别，充分利用本体对概念规范描述的优势，提高实体命名识别的准确性；再对信息单元重新规范，形成具有主、谓、宾三元关系的分析树。将该分析树与抽取规则三元组进行匹配，如果匹配成功则将该三元关系存入数据库中，完成信息抽取；如果匹配不成功，对该三元关系的概念与语义模型进行语义相似度计算，根据计算结果，形成本体中的新概念或新关系，添加到语义模型中，完成本体学习，丰富领域本体，如图8所示：

数据通信的概念篇（2）

文章编号:1004-373X(2010)18-0114-04

Ontology Metadata Mode of Business Credit Based on Descriptive Logic

LI Guang-ming, ZHOU Huan

(School of Information Management, Shanghai Finance University,Shanghai 201209,China)

Abstract: To solve the problem that members from commercial credit business can not effectively share information, aiming at the deficiency of existed method in solving concept expression and semantic extension, the information flow structure and content between participants to commercial credit business based on the detailed analysis of commercial credit is described. The descriptive logic original language is used to abstract concept and relation from some problem field to build ontology model, and integrated ontology representation is combined with metadata to build expanded and inferable ontology metadata model according to business requirement. This method is used to describe heterogeneous information, and is expected to provide effective solution to share heterogeneous information from heterogeneous sources.Keywords: business credit; descriptive logic; ontology; metadata

0 引言

商业信贷管理信息系统是连接征信系统,贷款提供者,贷款需求者,第三方工具提供者等商业信贷参与方的信息链条。建立无歧义的,能够让系统成员都能够理解的数据是十分重要的。为了加强信息的表示,建立┮恢知能够映射系统参与方所使用的数据,并根据业务变化可扩展和推理的标准化的数据组织方式是十分必要的。本体是应用于信息管理领域中的重要方法,它将问题领域中的对象抽象成概念和概念间的关系,使用形式化的方法表示这些概念,使得计算机能够接收并处理,加强异构系统用户对数据的共享[1]。描述逻辑利用概念和规则符号将问题领域中的原子概念和规则表示出来,定义良好的语义和表示能力,并具有基于逻辑的推理能力,是目前应用比较广泛的本体描述原语,成为OWL-S等标准本体描述语言的语义基础。本文将引入可以跨平台,并且可根据用户需求,扩展语义的基于本体的元数据表示模型,表示贷款业务参与方之间交互的异构信息。

1 商业信贷管理系统结构

商业信贷系统包括核心业务功能和辅助业务。核心业务包括接收贷款申请,抵质押品管理,贷款合同的签订,贷款档案的管理,归还贷款本息等内容。辅助业务为核心业务提供支持,以规避贷款拖欠风险,提高贷款效率为目的。辅助业务包括信用审核,还款能力的审核,用款活动开展情况的检测,抵质押品价值的评估,还贷催收,还贷风险评估,行业分析等内容。辅助业务的执行需要同信贷机构以外的相关单位发生数据的交换。比如,评估还贷意愿,需要查看银行等征信机构的信用信息,还需要从工商,税务,电信,等部门获取贷款者的信用经历信息。为了最大限度的发挥核心业务,信贷机构从第三方服务提供者处获取服务,如信用等级评价,不同行业的贷款风险评估,抵质押品管理等。

2 基于描述逻辑的本体表示

2.1 本体的表述

基于面向对象的思想,本文将本体表述为:

Ontology=Q{C,CP},{CE,CEP},{R,RP},{RE,REP},H,XR,

式中:C表示由问题领域中的名词概念抽象出来,具有相同属性和行为结构的概念类的集合;CP表示类的属性声明,属性为类的静态特征;CE是问题领域中概念类的实例的声明,实例的属性用CEP表示;R表示问题领域中的关系,类与类之间可以具有某种关系,关系也可以成为新的类,即关系类,关系是由问题领域中与名词概念在同一层次的动作概念抽象而来,关系也具有相应的属性,用于描述关系的特征;RP表示描述关系的属性;RE表示关系的实例;REP表示关系实例的属性;H表示问题领域中所使用的计算工具,公里,定理等内容;X表示属性的约束和限制。

2.2 基于描述逻辑的本体元数据表示

(1) 基本的逻辑符号。

在描述逻辑中提供了基本的逻辑原语用于表示复杂的概念和关系。如:“∧”逻辑与、“∨”逻辑或等为基本的逻辑关系符号;“”逻辑蕴涵、“”逻辑等价、“≤”上限基数、“≥”下限基数、“M”包含于等扩展的逻辑关系符号;PartOf,InstanceOf,SubclassOf等表示组合等逻辑关系。

(2) 原子类和复合类。

问题领域中,类可以分为原子类和复合类。原子类是指不可以再分的类,用符号{C}表示,复合类由原子通过逻辑连接符号连接而成。如,C,D表示原子类,复合类MC∧D,表示原子式C和D通过“∧”操作形成复合类M。

(3) 类的属性。

在问题领域中,类的特征是通过属性表述出来的,一个类可能具有多个属性。类的属性之间通过“逻辑与”符号链接,表示属于同一个类。Q{C},{C.p1∧C.p2}R,式中C表示概念类,p1,p2表示类具有的属性。如果C是由多个原子类复合而成,则原子类的属性自动变成C的属性。

(4) 类的实例及其属性。

为了更清楚的表示概念类的实例,可以使用C(E)表示概念类C的E实例,可将类的实例形式化为:Q{C},{C.p1∧C.p2},{C(E1),C(E2)},{C(E1).p1∧C(E1).p2 ,C(E1). p1∧C(E1). p2}R,其中,C(E1), C(E2)表示对象类C的E1,E2实例。实例同对象类一样,也可以通过逻辑联结符合进行扩展或组合。如C(E)=(M∧N)(E),其中,概念类C是由M和N复合而来。

(5) 定义关系及其属性。

在问题领域中,类与类之间的使动行为用关系来表示。对象类之间的关系用小写的字符表示,如:Q{P M Q∧r1,Q M Z∧r2.a}R,表示概念类P与Q之间的关系为r1,Q与Z之间的关系为r2,r2具有属性a。关系实例为对象类之间联系的具体实现。其定义方法同对象类实例的定义方法相同。关系的实例表示具体的关系。比如张强是张红的父亲。

(6) 定义属性约束和限制。约束主要包括域约束和范围约束,域约束是指该属性仅对什么类有效,而范围约束则是指该属性的取值属于哪个类的实例、或哪种类型的数值等。

3 本体元数据在商业信贷系统中的应用

3.1 建立商业信贷系统数据模型

商业信贷系统数据模型的分析是建立本体元数据的第一步,可以明确指示出参与商业信贷活动的各个行为主体,以及主体间交换的数据。通过对数据模型的完全解析,对于问题领域中相关概念的提取和概念类的抽象,有着重要的作用。商业信贷系统的数据模型可描述如图1所示。

图1 商业贷款一级数据模型

由于篇幅限制,本文所只列出的商业信贷系统一级数据模型。商业信贷管理可以分为贷款申请提交和审核,签订贷款合同,贷款档案管理,业务检查,还款等父霆阶段。在贷款申请审核中,需要审核贷款者基本信息,信用信息,还款能力评价,贷款申请提交和审核阶段,需要审核贷款者家庭信息,财务信息,工作信息,信用信息等内容;款审核通过后,将签订贷款合同,建立贷款档案;签订贷款后,将根据行业信息观察用款情况,催收余款。

3.2 从问题领域的抽象出相关概念类

经过对商业信贷管理系统问题领域的分析,按照其所承担的业务角色,可以将其分为参与人,关系,信贷机构,规则,单据,抵质押品,信用,报表,工具,贷款产品等概念类,以及提供,处理等关系类。参与人是指除信贷机构以外的信贷活动参与者,如贷款个人,贷款企业等;关系是指贷款人之间,参与贷款活动的成员之间,或贷款人与贷款机构之间的关系;信贷机构是指贷款的提供方,信贷机构需要对参与人提供的信用信息,抵押制品,身份材料,报表等进行审核。规则是由信贷机构所制定的规范贷款人行为的各项规章制度,如拖欠还款的惩罚措施等。表单是指贷款人为取得贷款和保证按期返款所提供的各种材料,如贷款申请等。抵质押品是由贷款人或担保人所提供的房屋等有价担保品。信用是来源于银行,税务,信贷机构等单位的能够证明贷款人信用履历的材料。报表包括行业分析,业务分析,财务报表等用于预警贷款风险的数据分析材料。工具包括用于信用评价,抵质押品价值评估,风险控制,行业与业务分析等活动所使用的方法与工具。贷款产品是信贷机构根据贷款人特点所设计的各种贷款策略。处理关系类是参与人与信贷机构等概念类之间所发生的各种关系,包括贷款申请的审核,抵质押品评估,贷款能力评价,业务状况评价,贷款者分类等各项活动。提供关系类是参与人所提供的各种申请,材料,报表所进行的操作。商业信贷管理问题领域的概念抽象如图2所示。

图2 商业信贷管理问题领域的概念抽象

3.3 基于描述逻辑的信贷本体构建

根据问题领域中抽象出来的概念,结合描述逻辑的逻辑原语,将商业信贷领域中的概念类和关系类,及其属性和关系分配集声明如下:

(1) 概念类和关系类的声明。

参与人概念类可以声明为:Q参与人{(贷款人) ,(担保人)}R,贷款人,担保人为参与人的子类。贷款人和担保人还可以派生出贷款个人和贷款企业,担保个人和担保企业。如果A企业是贷款人,则可将其声明为概念类贷款企业的实例Q贷款企业(A)R。

关系概念类可声明为: Q关系{(担保),(家庭成员),(机构成员)}R。担保类可派生出担保人,担保机构;家庭成员可派生出妻子,父母,子女等亲属;机构成员可派生出股东,总经理,法人代表等机构职位。

信贷机构可声明为:Q信贷机构{(银行),(贷款公司)}R,因为在商业信贷系统中,信贷机构主要指提供贷款的银行,贷款公司等机构。

表单概念类是商业信贷管理系统中重要的本体元素之一。表单类可声明为:Q表单{(申请),(合同),(档案),(单据)}R,申请类可派生出Q{(贷款申请),(还款申请)Q{(全额还款申请,提前还款申请,部分还款申请)}RR等子类,合同类可派生出贷款合同子类,档案类可派生出贷款档案等子类,单据类可派生出Q{(抵质押品单据),(业务调查单据),(还款记录)}R等子类。

规则概念类声明为:Q规则{(信用等级评价规则),(贷款分类评价规则),(担保方式),(还款方式),(贷款检查规则),(档案管理规则)}R等。

报表概念类可声明为:Q报表{(行业分析报表),(业务分析报表),(还款能力分析报表)}R

工具概念类可声明为:Q{(信用评估工具),(风险控制工具),(行业分析工具),(业务分析工具)}R。

抵质押品类的声明,将最常见的抵质押品单独声明,而其他形式的抵质押品归为其他类。如:Q抵质押品{(房屋),(汽车),(其他)}R。

处理关系类是发生与概念类之间的关系。主要发生于信贷机构类和参与人类之间,处理关系类可声明为:Q处理{(审核),(评估),(检查),(预警)}R等处理。审核类可派生出贷款申请审核,信用审核,业务审核的子类;评估类可派生出抵质押品评估,还款能力评估,业务绩效评估等子类;检查类可派生出业务检查,还贷检查等子类,评估可派生出信用评估,还款能力评估,风险评估等子类,预警类可派生出拖欠还贷预警,风险预警等子类。

(2) 属性的声明。

属性是描述对象特征的重要元素。每个概念类和关系类都具有相应的属性。子类除了继承了基类的属性之外,还会派生出新的属性。统计属性的工作量比较大,本文不可能一一举例,现仅以贷款个人为例说明,其属性可声明如下:

Q{贷款个人.个人信息∧贷款个人.家庭信息∧贷款个人.教育信息∧贷款个人.健康信息∧贷款个人点居住信息∧贷款个人.联系方式.贷款个人.经济信息}R

其中个人信息,家庭信息,健康信息等是描述贷款个人特征的属性集合。根据需要,也可声明为概念类。因此可知,类的某种概念类可声明为另一种概念的属性。

(3) 公理与工具。

公理与工具的声明同概念类声明集中的工具概念类不同。工具概念了是商业信贷系统,根据自身特点和业务属性所定义的工具。而公理与工具声明是信贷系统所使用的,已经被广泛采纳的,具有一定标准的通用的公里和计算工具。

(4) 概念类间的逻辑表示。

通过对信贷问题领域的分析,可以抽象出原子概念类,在实际应用中,原子类不可能表示出所有问题,有时需要与其他原子类逻辑连接,来表示更复杂的概念。我们以贷款流程的本体描述为例来说明概念类间的逻辑表示。已知原子概念类和关系类声明为:人员(Person)、表单(form)、报表(paper)、机构(unit),规则(rule),提供与审核(offerandaudit),处理(Handle)等关系类。其业务关系为:贷款人(persion(loanperson))向信贷机构(creditunit)提供(applyto)贷款申请(Form(apply)),被信贷机构(creditunit)使用面向相关业务的工具或方法(Method)审核(Handle(audit))申请,签订贷款合同(Form(Contract)),贷款人按照合同规定,向信贷机构(creditunit)支付(pay)利息(interest),在规定的期限内归还(repay)贷款,信贷机构(creditunit)对业务进行审核(Handle(audit)),控制风险。

源元数据中的原子类总结为术语和关系的集合。{(Loanperson,Creditunit,Form(Contract),Method,Mortage),(Handle( applyto,credit),pay}

则术语之间的关系可表示为:

{(Person (Loanperson)M .applyto Form(apply),Person M .apply mortage,Creditunit .audit Form(apply) ∧Method,Person(loanpersion)M.pay interest∧.repay Mortage}}};

(5) 本体间推理的描述。

本体的一个最重要特征就是推理。通过逻辑符号,可以表示本体元素间的推理。在信贷本体中,概念类间可以通过关系类结合,形成新的类,来表示业务逻辑。如上文所述,商业信贷问题领域中包含关系类处理中包含有审核关系类。具有审核贷款申请,评价信用和还款能力等逻辑功能。将贷款申请审核关系声明为Doapply,信用评价关系声明为Docredit,评价还款能力声明为Dorepayability。贷款申请Doapply具有布尔类型的属性“是否通过”,声明为Ispass,如果没有通过则为SIspass;信用评价关系需要借助规则类中的信用评价等级规则,即ruleauditclass,信用评价关系可声明为Docredit∧RuleAuditClass.value(n),value表示信用评价等级的值,括号中的数值表示等级数。还款能力评价表示为Dorepayabilit∧RuleRepayAbityClass.value(n),RuleRepayAbilityClass表示还款能力评价等级。因此,对于某贷款人贷款申请的批复可声明为Loanpersion∧Doapply.IsPass{Docredit∧RuleAuditClass.value(≥3)∧Dorepayabilit∧RuleRepayAbityClass.value(≥2)},表示贷款人如果获得贷款申请通过,必须信用等级评价超过3级,还款能力评价在2级以上。

通过上式可以把概念类之间的逻辑关系转化成逻辑推理公式,可以通过逻辑推理运算,完成商业信贷问题领域中的逻辑推理。

4 结语

通过以上的形式化描述,即将商业信贷系统资源元数据的概念术语,术语的属性,术语类间的关系描述出来,通过形式化元数据的交互,实现资源数据信息的共享。同理,可将其他数据资源形式化描述出来,在商业信贷成员间无歧义的共享供业务信息。

参考文献

[1]COYL Karen. Unerdstand metadata and its purpose[J].ManagementTechnology, 2005.4:160-163.

[2]张宇,蒋东兴,刘启新.基于元数据的异构数据集整合方案[J].清华大学学报,2009(7):1037-1041.

[3]林小晶,杨立,左春.支持动态标准的政务元数据管理的研究与应用[J].计算机工程与设计,2008,29(3):109-112.

[4]Giunipero Larry C. Purchasing supply chain management flexibility: moving to an entrepreneurial skill set [J]. Industrial Marketing Management, 2005(3): 602-613.

[5]MOVVA Sunil, RAMACHANDRAN Rahul. Syntactic and semantic metadata integration for science data use [J].Computers & Geosciences, 2005(5):1126-1134.

[6]HUA Zhong-sheng. Impact of demand uncertainty on supply chain cooperation of single-period products [J]. International Journal of Production Economics, 2006(10):268-284 .

[7]WY Yan-ni. Extending metadata with scenarios in adaptive distributed system [J].Journal of Network and Computer Application, 2007(5):1283-1294.

[8]史春景.基于本体的车间业务流程知识分析及表达[J].东北大学学报:自然科学版,2010(3):422-427.

数据通信的概念篇（3）

1 数据元素基本理论

1.1 数据元素及相关定义

在数据元素理论研究中，下面的术语是很重要的，理解好这些术语是理解数据元素的基础。

①数据元素(Data Element)：用一组属性描述定义、标识、表示和允许值的一个数据单元。

②数据元值（Data Element Value）:数据元能许值集合中的一个值。

③数据项：数据元的一个具体值。

④同义名称: 与给定名称有区别但表示相同的数据元概念。

⑤限定词：帮助定度和呈递唯一性概念的术语。

⑥域：一种属性的可能数据值的集合。

⑦值域：允许值的集合。

⑧域名：将数据元的值域及度量单位利用一个统一的名称来表示。

⑨对象类：对象集，现实世界中的想法、抽象概念或事物集合，有清楚边界和含义，并且特性和其行为遵循同样的规则面能够加以标识。

⑩对象：可要想象或感觉的世界的任一部分。

(11)特性：对象类的所有个体所共有的某种性质。

(12)表示：值域、数据类型的组合，必要时也包括度量单位或字符集。

(13)对象类词：数据元名称的成分，用于表示其所属的对象类。

(14)特性类词：数据元名称的一个成分，用于表述对象类的特性，（数据元名称的一个成分，表述数据元所属类别）。

(15)表示类词：数据元名称的成分，用于描述数据元的表示形式。

(16)数据模型：以反信息结构的某种方式对数据组织的某种描述。

1.2 数据元素规范与标准化框架

1.2.1 数据元素的组成

数据元由对象类、特性和表示三部分组成，其中对象类用于收集和存储数据的事物，例如，人、井、岩芯、管线、储罐都是对象类等；特性是用来区别和描述对象的，例如，颜色、性别、年龄、收入、地址、价格等均为特性；数据的表示部分中最为重要的方面是值域，值域是数据元允许(或有效)值的集合。对于值域，数据元中存在两种类型的值域，一种是所谓取值是固定的，即取值是可枚举的，例如，人眼睛颜色这个数据元，其取值可能包括：Brown、Gray、Green、Hazel、Blue，另一种是概括的，即数据元取值是有定义域约束的，其取值可能是有限的，但是无法列出全部值，例如人的年龄，其取值范围可能是1-200，并且每位要求是十进制表示。

1.2.2 数据元结构模型

(1)数据元概念（DEC）：对象类与特性联合在一起形成数据元概念,数据元概念在数据分类中是非常有用的,一般来讲，数据元概念是一个抽象意义上的数据元，但这类数据元的对象类已经限定，只有经过对数据元概念中的各个要素再进一步的限定，才使数据元概念变成真成有意义的应用数据元素。所以，数据元概念本身具有抽象性与分类性。

(2)通配数据元：特性与表示联合在一起形成通配数据元，通配数据元素也具有抽象意义，对于这类数据元来讲，它的特性与表示已经确定，所以它具有通配性，如果将这类数据元与具体的对象类联系在一起，那么该类数据元就可以具体化为有意义的应用数据元。

(3)数据元类型：数据元概念与通配数据元形成数据元类型。

数据元是由数据元概念和表示两部分组成。当一个表示被联合到一个数据元概念上时，就能够产生数据元。数据元和数据元概念间存在多对1的关系，也就是一个数据元必须对应一个数据元概念，而一个数据元概念可以有多个数据元，换句话说，多个数据元可以共享一个数据元概念。

数据元与表示之间的关系是一对一的关系，也就是一个数据元需要一个表示。当数据元的概念模型相同而表示不同时就是两个不同的数据元，数据元中的表示是描述数据元中的数据元概念中的特性，即数据元中的特性有且仅有一个表示。

在数据元概念中对象类和特性之间是一对一的关系，一个对象类需要只需要一个特性（或者特性类），一个特性（特性类）只描述一个对象类，当一个特性和一个对象类建立关联时就产生了一个数据元概念。

同实体关系类的数据模型相比，模型中的实体相当于数据元中的对象类，而实体的属性本当于数据元中的特性和表示。

1.2.3 数据元素的属性

数据元素本身也是一个事物，既然是事物那么就需要属性来描述这一事物，通常我们也将描述属性称为描述数据元素的元数据。

1.2.4 数据元结构模型

经过对数据元理论的深入研究，我们抽象出图2的模型，该模型反映出了数据元概念、表示、基本数据元以及应用数据元间的关系。

1.2.5 值域基本模型

按照数据元素理论，给出了数据元的值域模型。该模型将数据元素的值域抽象为概念域，即所谓的“域名”，一个概念域可能会与多个值域有关系；概念域可能是枚举类型的，也可以是非枚举类型；同样，值域可能是枚举值域，也可能是非枚举值域。

2 数据元的元模型

经过对数据元理论与实际数据规范化应用的研究，我们提出了数据元的元模型。

该框架模型是将对象类、特性类、分类模式由此演生的基本数据元和应用数据元、值域以及数据标准值、实例标准值以及标准实体有机的关联在一起。揭示了数据元与应用的紧密关系。整个模型高度概括了数据标准化的核心工作。

3 数据元素与信息编码间的关系

有些学者讲过，信息标准化实质是信息代码化的过程，周知，信息分类与编码在整个企业信息标准化中占有基础的不可替代的地位。因此如何对企业的各种信息进行有效的分类，并对其进行编码这是信息化过程中一个非常重要的过程。其实数据元素与信息分类及编码有着密不可分的关系，在表1中给出了数据元素分析方法与信息分类与编码的对应关系。

4 数据元应用的领域

数据元素理论属于信息标准化的基础理论，即是数据规范化理论基础。数据元分析在信息分类、数据的集成参考模型、数据模型优化设计、数据元字典以及制订数据交换标准等方面得到应用。

数据通信的概念篇（4）

[分类号]G250.73

知识检索的产生与发展一方面来源于用户对知识检索的需求；另一方面来源于信息检索理论与实践的发展与完善。知识检索模型和知识检索呈现方法是知识检索的重要研究方面，以本体作为知识组织的方法，能实现基于语义的知识检索。

1　知识检索技术的研究与发展

在讨论区中呈现了如下的关于知识检索的介绍：①知识检索的基本思想就是模拟扩展人类关于知识处理与利用的智能行为和认识思维方法；②知识检索通过挖掘其深层含义，充分精确地表达知识资源和用户需求，进而在各类异构的数据库、数据仓库、知识库中进行检索，返回最相关的结果的检索机制；③基于Ontology的知识检索可以阐述为：在领域专家帮助下建立领域Ontology，把收集来的数据按规定格式存储在关系数据库、知识库等的元数据库中；④查询转换器按照Ontology把查询请求转换成规定的格式，从元数据库中匹配出符合条件的数据集合，检索的结果经过定制处理后返回给用户；⑤知识检索的基本特征有：支持自然语言检索；支持语词、语义内容的处理，实现同义词扩展检索和关联检索；具有概念推理和学习功能；具有强大人机交互接口。

知识检索是一种全新的信息检索方式，是在现有的信息检索技术以及模型上发展而来的。搜索引擎是当前检索信息的主要方式，它们能在短时间内反馈给用户大量的信息，但反馈信息中的信息噪音过大，其中包含了太多的无用信息；目录分类的数据库规模较小，以致某些主题下收录的范围不够全面，检索到的信息数量有限。可以看出，传统的信息检索缺点在于没有从语义层次上对信息进行标引，不能够满足用户在语义和知识上的需求。而知识检索是综合运用信息管理科学、人工智能、认知科学及语言学等多学科的先进理论与技术，基于知识和知识组织，融合知识处理与多媒体信息处理等多种方法与技术，充分表达和优化用户需求，能高效存取文本、图像、视频、声音等媒体类型的知识源，并能准确精选用户需要的结果。知识检索是将信息或知识按照一定的方式组织、存储，并根据用户的需求找出相关信息和知识的过程。在这个过程中，被检索的对象是知识资源、知识库。知识检索就是采用一种从语义上标引文章的技术，形成知识库，再从知识库中查询用户所需的信息。

知识检索和信息检索的不同，在于知识检索强调了语义，它从文章的语义、概念出发，能够揭示文章的内在含义，而不像信息检索只是基于字面的机械匹配。知识检索提高了查全率和查准率，减轻了用户的负担。表1从检索语言、检索模型、组织方式、搜索方式和检索效率方面进行了归纳。

与主题词表或分类表不同的是，本体是领域知识规范的抽象和描述，可以构造丰富的概念间的语义关系，能够准确描述概念含义以及概念之间的内在关联；形式化能力最强，同时具有高度的知识推理能力，能通过逻辑推理获取概念之间的蕴涵关系。因此，本体是一种知识组织体系。以本体作为知识组织的技术和方法，能实现基于语义的知识检索。知识检索是传统信息检索的发展，随着人工智能、系统信息管理等相关高新技术的运用，提供个性化、智能化的主动信息服务也将是知识检索的发展方向。当前，图书情报档案的知识检索系统更加注重文本挖掘的功能，如大规模实例描述的汉语分词排歧知识库，具有主题词典和内容相似性检索功能，自动分类、聚类和自动摘要功能，文本数字理解和新词学习功能等。

2　基于本体的知识检索模型

2.1　信息检索模型的发展

经典的信息检索模型包括布尔检索模型、向量空间模型和概率检索模型，目前大多数检索系统往往综合上述各种模型，以达到认为最佳的检索效果。这些检索模型的不足是：在文献的组织与描述上，采用词切分和单汉字或两者结合标引文献，将关键词作为描述文献的基本元素，文献之间是相互独立的；在检索操作上，是基于关键词的无结构查询，难以反映词语问各种语义联系，查询能力有限，误检率和漏检率很高；在模型约束方面，索引项之间独立性的要求不符合实际情况，计算查询和文档之间的相似度的方法也有局限；虽经不断完善，也难以从根本上适应网络巨量信息的检索。

由此，一些学者从不同角度提出了基于知识的检索模型，如分类检索模型、多维认知检索模型、分布式检索模型、概念检索模型等。特别是概念检索模型克服了以往检索模型中以词及其权值为中心建立相关性而忽略了语义关联的缺点，以概念词典为辅助，采用人工智能技术，增强搜索引擎概念分析理解能力，从概念层面上来处理用户的查询请求，从而实现特定领域的概念检索。上述检索模型由于没有知识组织体系的支撑，没有实现对检索对象的语义标注，也没有对其语义进行解析，因此被解释为基于知识的信息检索模型。

2.2　基于本体的知识检索

基于本体的知识检索模型在资源对象的组织、描述、表示、检索和模型约束等方面都具有自己的特征，主要表现为：

在检索对象的组织上，知识检索模型利用领域本体作为组织资源的基础。首先构建一个涵盖相关领域概念及概念间关联的领域本体库作为资源描述和知识表示的工具与模型，如各学科领域的主题词表、分类表，在此基础上确定领域知识本体的主要概念和概念间的各种关系，构筑领域本体的概念模型。

在检索对象的描述上，知识检索模型借助语义标引工具，按照领域本体的概念及关联，对资源对象进行概念分析、分类、标引、描述和处理，形成机器可以理解的带有语义信息的元数据。

本体概念的优化检索依赖于本体检索语言的功能。在支持本体检索的诸如RQL，DQL，0WL-QL，SquishQL，RDFQL，RDFPath和Versa等知识语言中，以RQL作为知识检索模型的检索语言可以满足知识检索的需要。

知识检索模型提供了特定领域可控的概念语义体系，并建立与概念体系相对应的具有层次结构的自然语言术语体系，能对自然语言提问和本体概念库的术语进行语义的理解、分析和匹配，依据本体概念问的语义关系，实现知识检索。

在模型约束上，知识检索模型的约束比较少，但要求概念和关系构成一个有向图，关系必须是有方向的；另外，要求每一个概念／实例都需要有一个唯一的标识。

2.3　Ont-KRM：基于本体的知识检索模型

基于上述约束和所建立的本体原型，笔者设计了的基于本体的知识检索模型Ont-KRM(Knowledge Retrieval

Model 0n Ontology)。Ont-KRM分为人机交互部分、知识源部分、检索匹配和本体库等部分，如图1所示：

人机交互部分主要是分析用户提交的检索请求，返回整理检索结果。检索请求的分析主要是依据本体知识，分析用户的真实检索意图，形成规范、准确的检索请求，提交给检索匹配模块。检索请求的分析主要分为以下步骤：①对检索请求进行预处理，提取需要检索关键字(词)；②借助本体并在必要时通过和用户再次交互，判断检索请求中关键字(词)的领域、相关概念等等，确定用户的真实意图；③将用户的真实意图形成统一、规范的检索请求提交给检索匹配部分；④在对用户意图进行分析和交互的基础上补充和完善本体库中的相关知识；⑤对检索匹配部分返回的检索结果进行处理、合并后返回给用户。

知识源部分主要对知识源进行收集、并对收集的知识源根据本体库中的知识进行标注和分析，对从知识源中抽取的知识进行转换，对本体库中的相关部分进行补充和完善，建立对应的索引信息，放入索引库。

检索匹配部分主要是从人机交互部分收集统一的检索请求，并依据本体库中的相关知识对检索请求和索引库进行语义与语法层面的匹配，并将检索结果返回给人机交互部分。

本体库部分应该说是整个模型的核心部分，从对检索请求和检索结果的处理，到对检索请求和索引的匹配，再到对知识源的标注、索引的建立都基于本体库中的相关知识。同时，上述各个过程又可以对本体库中的知识进行补充和完善。当然，对本体库中知识的任何修改都要经过领域专家和系统的双重认定。

3　基于本体的知识检索呈现

3.1　知识组织体系及本体的语义标注

所谓知识组织体系，是对资源内容概念及其相互关系进行描述与组织的机制。目前图书情报界公认的知识组织体系是主题词表和分类表，但本体是领域知识规范的抽象和描述，可以构造丰富的概念间的语义关系，能够准确描述概念含义以及概念之间的内在关联。本体是一种知识组织体系，以本体作为知识组织的方法，才能实现基于语义的知识检索。因此，本文的知识检索模型和方法都建立在本体基础之上的。

目前信息机构中采用的元数据方案大多源自于对馆藏进行长期保存的目的，并不能够完全满足知识组织的要求。通过元数据的描述，可以充分揭示元数据的元素及元素揭示内容的语义含义，达到进行元数据互操作和对内容进行知识组织的目的，笔者重点研究以下问题：

标注元数据元素的语义。元数据互操作常见的困难是元素问同名异义和异名同义，RDF的思路是如果不同元数据中的元素指向同一个资源，那么这些元素具有同一语义。根据信息机构数字资源的特点，选用DC元数据作为元素语义的最终解释。也即如果说不同元数据中的元素都可以使用DC元数据中的同一个字段进行解释，那么这两个元素就认为在语义上相等。操作时将元数据与DC元数据元素之间的映射关系放在数据提供者方，当数据提供者在进行注册或者使用的元数据发生变化时，由其管理人员对映射进行定义。

标注元数据元素内容的语义。在解决了元数据元素的语义以后，采集回来的元数据应该用什么方法进行组织，与元数据元素内容的语义相关，因此还需要揭示元数据元素内容的语义。笔者通过RDF的描述方式来对元数据元素内容的语义进行揭示，框架中定义了一个关于元数据元素内容的ontology，并通过URI建立元素与ontology中的条目之间的关系，以此来标注元素的语义。

标注知识组织的内容。在对数据源的元数据进行描述时，数据源的管理人员可以根据元数据元素的功能对其进行区分，只提供标注内容的元素。这样，既减少了进行元数据描述的工作量，也为知识组织能够更有效的进行提供了方便。另外，对知识的组织还需要根据系统的实际需要有所选择，在进行元数据采集时，可以通过定义对DC元数据的哪些元素内容进行组织，然后再反向定位到与其相关的元数据元素来确定知识组织的内容。

3.2　知识检索呈现

知识检索呈现要解决的问题就是知识提供的形式和检索结果显示的形式。常见的知识呈现方式主要有概念图(concept map)、思维导图(mind map)、认知地图(cognitivemap)、语义网络(semantic network)、思维地图(thinking map)等。信息检索和知识检索呈现之间虽在呈现方式上存在着相互借鉴，但它们之间的区别还是很大。表2从呈现对象、呈现目的、呈现方式和交互类型等方面加以区别：

从呈现对象看，信息检索呈现的对象是信息，而知识检索呈现的对象是知识，包括知识本身和检索结果中的知识；从呈现目的看，信息检索呈现一是从大量信息中发现新的信息；二是将检索结果直观的呈现给用户以提高检索效率。而知识检索呈现则在于促进知识的传播和创新，方便用户更好的认识和获取知识；从呈现方式看，信息检索呈现的方式通常是图形、图像，而知识检索呈现的方式包括知识图表、视觉隐喻等；从交互类型看，信息检索呈现的交互是人机交互，而知识检索呈现的交互是人人交互。

资源的显示方式取决于资源的组织方式。信息组织线性的、无结构的方式，决定了信息的提供与获取是以关键词和分类目录及索引等途径来实现的，检索结果显示的是一组基于关键词层面上的没有语义的文献集合。而知识组织基于领域本体，是对概念关联的组织，所以知识检索显示的应是反映知识内容和概念关联的知识网络(或称知识地图)。简单地说，知识网络是对领域知识结构的展示，是对已获取的知识以及知识之间的关系的可视化描述。

3.3　基于本体的知识检索呈现技术

基于本体的知识检索呈现，是指通过一定的知识表示技术，将领域知识按照一定方式，清晰有序地在一个统一的界面上展示出来，以供检索者方便地查询与获取知识。基于领域本体的知识网络具有三个特征：①定位知识，给出任何一个概念，都可以显示该概念在知识体系中的位置；②揭示知识关联，知识网络不仅要确定概念的位置，还要揭示此概念和其他概念间的语义联系，描述知识网络中各种关联；③可视化展示，通过直观、形象的模式、模型、图形、图像等方式，展现知识地图。

下面以笔者开发的知识集成原型系统中的“知识检索系统”为例，来说明知识检索的呈现方式。

该系统是一个基于与鲁迅相关资源知识的领域本体原型的知识检索系统。这个领域本体原型的构建以分类／主题一体化词表为基础。由于分类和主题表达的对象都是主题概念，两者之间存在着隐含的概念对应关系。与鲁迅相关资源知识的领域本体概念网络的显示以及对知识的获取，是通过概念浏览和概念检索实现的。

页面布局。用户界面分为概念导航区和概念检索区两个部分，概念导航区是领域本体中各类概念的分类导航，点击具体的分类之后就可以在右侧的知

识导航区，显示概念的网络关系图。概念检索区在输入需要检索的概念，并进行进一步细化之后，就可以看到以相关的网络概念图和相关的概念实例。

概念浏览。概念浏览主要实现经济本体概念的分类导航和主题导航，可循着学科等级和概念间的语义关系进行浏览，起到知识导航作用。分类导航可对领域本体的分类知识树进行逐次浏览，选择一个分类概念，即可同时显示与该分类概念对应的主题概念关系，包括等同关系、等级关系和相关关系。反之亦然，可通过音序对领域本体的主题概念树进行层层浏览，选择一个主题概念，即可同时显示与之对应的学科类目(可以是一个类目或多个类目)。例如，在“分类导航”目录树中选择“阿Q正传”，主题概念浏览区便显示“阿Q正传”概念关系，点击概念关系就可以显示属于“阿Q正传”概念的文献实例，如图2所示：

数据通信的概念篇（5）

在国外，对本体的研究较早，本体已经应用到各个领域。相比国外，国内对本体的研究起步较晚，尤其是在电子政务方面，缺乏一致的本体模型，相关的应用也少。目前，本体技术很少在电子政务信息化建设中应用，因此，如何把本体技术应用到电子政务异构数据管理集成中，采取何种策略进行构建，消除电子政务各信息系统异构数据库模式的语义冲突，从而解决电子政务中异构系统导致的信息孤岛问题，构建统一的数据平台，以便提高政府管理效率，就显得尤为重要。

1电子政务与本体

1.1电子政务与本体概述

电子政务是政府机构广泛深入地应用现代信息和通信技术，将政府内部和外部(社会)的责权与职能通过计算机网络硬件和软件技术进行集成、整合、优化、重组，做到跨越时间和空间，突破部门分割和传统组织、工作方法与工作流程的限制，力求全方位地、有效地施行与提供安全、高效、优质、规范和符合国际水准的管理与服务。本体是为了某种目的描述世界时的一组抽象化概念，并且该组概念是得到广泛认可的、以规范化形式描述的。根据定义描述本体时目的的不同，本体可以分为多种类型，依照领域依赖程度，可以细分为顶级(top—leve1)、领域(domain)、任务(task)和应用(application)，这里研究的是领域本体，领域本体由属性、对象、关系和子领域本体组成。引入本体的思想，借助本体对领域知识进行详细描述，以抽象出概念化的语义层次，为进一步研究语义化的信息交互提供了基本的语义层次2J。从形式上来说，本体由概念、关系、函数、公理和实例5种元素组成。本体中的概念可以是一般意义上的概念，也可以是任务、功能、行为、策略推理过程等；关系表示概念之间的关联；函数则是一种特殊的关系；公理用于表示一些永真式；实例是指属于某种概念的基本元素，即某概念类所指的具体实例。

1.2本体在电子政务中的应用案例

美国印第安纳州电子政府建设是很多文献介绍的典范，其成功之处在于利用本体方法建设电子政府数据库J。美国印第安纳州电子政府IndianaFamilyandSocialServicesAdministration(FSSA)本体，属于最上层的域本体设计，它在“家庭与社会服务”这一本体下定义了9个本体(即低收入、处于危险的儿童、精神病与吸毒、弱智、区域健康与人性化服务、医疗补助、政府机构、法律实施及财政)，建立了最上层的概念关系，并用图形和箭头形式标示出了各下层本体之间的关系以及在一个专业本体里所包括的术语。

1.3电子政务中本体的核心概念及抽取方法

目前，大多数本体学习方法和本体学习系统都是直接将术语识别为概念。术语的抽取被认为是进行本体自动构建的关键。针对术语抽取的研究主要有基于语法规则的方法、基于统计的方法、ICT—CLAS系统法J。利用语法规则的方法来进行术语抽取具有提取术语准确度较高、处理过程简单、计算量较小、能够有效提取低频术语等多项优点。但是，由于语言学规则本身难以掌握，尤其是针对开放性的语料，语言学的规则更是难以准确应用，利用人工来研究语言学的规律越来越难以实现；使用统计的方法来抽取术语可以高效地识别领域术语，只要一个词在文本集中出现的频率高，就可以被有效抽取出来，可移植性较好。但是，这种方法计算量大，在处理低频术语的时候，效果较差；ICT—CLAS系统法主要采用ICTCLAS系统对内容进行分词处理，然后对分词进行抽取处理，这样抽取的优点是抽取内容比较全面，但效率比较低，并且需要人工手动处理。

以上抽取方法都有优缺点，在本体抽取中单独地使用其中一种方法都不能达到最优的效果，笔者把以上多种方法混合起来，采用程序自动分词合并方式，加入TF—IDF算法，增加对领域术语的相关度的计算，筛选出与领域相关度低的术语，从而提高领域术语抽取的正确率。基本步骤如下：

1)采用语法规则的方法提取相关候选术语；

2)采用程序自动处理方式，对相关候选术语进行分词；

3)采用统计法对分词进行统计，根据频度提取术语；

4)使用TF—IDF算法对提取的词进行相关度计算，求出每个候选术语在政务领域文本中的相关性，抽取出政务领域独占性强的词作为政务领域术语。

2电子政务公共数据平台架构

为了确保异构数据获取和更新的准确性，同时又不改变原有硬件设施和人力资源，要想实现真正意义上的异构数据库间信息资源的共享，集成后的数据必须保证较高的集成性、一致性和完整性，这是公共数据平台建设的重要环节。

2.1本体模型构建

电子政务中大量不同的应用系统，其异构是普遍存在的，要想向下屏蔽异构数据，建立数据中心，向上提供公共数据平台，就必须构建本体模型对元数据进行抽象概念化处理。电子政务本体构建中的2个核心问题是概念抽取和概念关系的获取，概念抽取是对数据源进行分析，抽取出概念集合和每个概念的属性集合。概念抽取本体有很多方法，可以由领域专家手工进行，也可以利用领域概念词典，自动抽取数据源中的概念。概念关系的获取可以通过2种方法实现，即基于语言规则的方法和基于统计的方法。在对所有数据源进行分析的基础上，找出其中所涵盖的术语，进行概念抽取，定义共享的词汇表，根据相关本体规则进行本体抽象和语义处理。

2.2公共数据平台架构

使用公共数据平台的好处在于所有的共享数据被存储在中心数据库，可以向上层提供统一的数据，便于资源共享和集中管理，而电子政务网内各应用系统中异构数据库就拥有了完全的自治性，这样首先需要对底层异构数据库进行本体抽象处理，向下屏蔽异构数据，然后采用数据交换技术和数据同步技术保持中心数据库数据和底层异构数据库数据的实时同步。

电子政务公共数据平台架构分为应用层、异构数据集成层、本体模型层和异构数据本体库层，如图2所示。异构数据本体库层主要包含各大应用系统异构数据库，通过不同的连接器及适配器向本体模型层提供本体的元数据；本体模型层对元数据进行概念化，按照本体规则进行抽象处理和语义处理；异构数据集成层在本体模型之上利用AGENT同步模块对数据进行交换、同步而实现数据集成，公共数据都集中到中心数据库，向上层提供公共数据平台；应用层主要是用户访问层，针对不同用户提供统一身份认证，实现单点登陆。

3电子政务公共数据平台设计

3.1构建电子政务领域本体的方法步骤

W3C组织推荐的在语义网上应用的标准本体表示语言是OWL，目前本体的构建方法主要有TOVE法、骨架法、KACTUS工程法、SENSUS法、IDEF5法、七步法等。这些方法大多数是以不同领域为背景，从个案的开发过程中通过逆工程总结出来的J。例如：TOVE专用于构建TOVEOntology，是关于企业建模过程的知识本体；骨架法专门用来构建企业本体；KACTUS是指“关于多用途复杂技术系统的知识建模”工程，目的是要解决技术系统生命周期过程中的知识复用问题-l；SEN。SUS法是开发用于自然语言处理的SensusOntolo。g)r的方法路线¨；IDEF5法是用于描述和获取企业本体的方法-l。；七步法是斯坦福大学医学院开发的，主要用于领域本体的构建_l。这些方法各有特点，但都不是针对电子政务领域的，没有充分考虑电子政务领域的特点。笔者结合电子政务领域特色，提出基于电子政务业务模型，抽取概念，建立电子政务领域知识本体的方法，步骤如下：

1)需求分析，确定电子政务领域本体应用的目的、范围、表示方法和用途等。电子政务领域本体建设要以应用需求为牵引，要对人类在认识世界过程中形成的不同“本体”(知识体系)进行认真分析，最终达到需求分析的定位准确、涵盖得当。

2)概念化及抽取，通过各种渠道获得电子政务领域本体的主要概念，确立概念间等级关系，并用精确无歧义的语言加以描述，形成该领域本体的核心语义内容。获得领域信息最根本的方法应该是考虑复用已有本体的可能性。通常的也是最行之有效的方法是复用已经广泛使用于各个学科领域的主题词表和分类表。

3)概念间联系，确定电子政务领域本体概念间联系，如属性、种属关系、总体与部分关系、领域中的特有关系；对所收集的名词术语进行规范，罗列重要的词和短语，并将其归类。还要确定概念间结构，定义类别和等级结构。

4)本体生成，采用SFCA算法，对概念之间的关系进行分析，自动生成局部本体，再采用PROMPT算法，把局部本体合并，生成全局本体，存放在本体管理器中。

5)本体编码，利用形式化描述语言对“概念化”的电子政务领域本体进行编码，使机器易于处理，尽量将相关领域已存在的本体集成到要构建的政务领域本体中，既避免重复建设，又可以形成领域内共享的本体。

6)确认、维护与评价。对电子政务领域本体按照一定的标准进行确认和评价，包括本体的清晰性、一致性、可扩展性等；随着电子政务领域知识的增加，本体要不断更新、不断进化，增加本体概念，完善本体概念间的语义关系。

3.2电子政务公共数据平台设计

数据通信的概念篇（6）

数据：是载荷或记录信息的按照一定规则排列组合的物理符号。它可以是数字、文字、图像，也可以是声音或计算机代码[2]。数据本身不具有语义内涵，只有通过对数据背景和规则的解读才能获取信息。

信息：信息有多个层次的定义，从信息哲学的角度，有本体论层次的信息定义和认识论层次的信息定义。某事物的本体论层次信息，就是该事物运动的状态和状态变化方式的自我显示[3]。认识论层次的信息，是指主体所感知或表述的关于该事物的运动状态及其变化方式的形式、含义和效用，其中形式因素的信息部分称为“语法信息”，含义因素的信息部分称为“语义信息”，效用因素的信息部分称为“语用信息”，把同时包含语法、语义、语用信息的认识论信息称为“全信息”[4]。在信息链中，信息＝数据＋背景[5]，即信息是数据被赋予现实意义后在信息媒介上的映射。

知识：从认知哲学的层面看，知识是事物运动状态和状态变化的规律[6]。从信息链角度看，知识是对信息加工、吸收、提取、评价的结果[7]。信息转换成知识的条件是信息和实践结合，并经过人类大脑的思维、整理、评价和实践检验，可用“信息＋经验＝知识”[8]来表达。由于知识是与实践经验相联系的信息，因此，知识有显性和隐性知识之分。

智能：信息链中的智能和情报被视为同一概念，我们认为情报和智能是既有区别又有联系的两个概念，在此我们首先解释智能概念：智能是解决问题的一种能力和方略，是在一定的环境下针对特定的问题和目的而有效地获得信息、处理信息形成知识和策略、利用策略来解决问题，从而成功地达到目的的能力[9]。智能是被目的所激活的知识，是知识在一定条件下的运动方式。

从以上数据、信息、知识、智能的基本概念出发，可以认为数据是信息的原材料，其外延涵盖范围最广；信息是知识的上位概念，信息的外延大于知识；知识来源于信息，知识是智能策略的上位概念，知识的趋向是要成为人们决策的智能方法。数据、信息、知识、智能之间存在包含关系，如图1所示：

附图

图1　数据、信息、知识、智能概念关系示意图

在信息链中，数据、信息、知识、智能策略之间还存在一种层递关系，表现为数据在一定的背景和规则下，通过解读，转换为可接受的信息；信息只有结合人的实践经验，通过学习、评价、筛选才能上升为知识；而知识被目的激活后才能成为智能策略，如图2所示：

附图

图2　数据、信息、知识、智能层递关系示意图

2　情报术语及其与信息链的关系

学科术语的成熟与稳定，反映了该学科发展的完善程度。在情报学领域，情报是最基本的术语，同时也是争议最大的术语，其争议不仅反映在术语的词语表达上，同时也反映在其概念界定上。情报学的这种术语不稳定表现，说明了该学科的发展还不够完善。

2.1　情报的概念诠释

关于情报的概念，国内外学者们主要是从数据、信息、知识、智能等角度来定义的。

(1)从数据角度定义的情报概念。如美国乔治亚工业学院的斯拉麦卡教授认为“情报就是有用的数据或被认为有用的数据”[10]；情报决策学派的代表人物——美国俄亥俄州立大学的约维茨提出“情报是对决策来说具有价值的数据资料”[11]；学者罗爵认为“情报是消除不确定性保证高效行为的数据”[12]。

(2)从信息角度定义的情报概念。如维克利认为“情报是有意发出的改变接受者知识结构的信息内容”[13]；刘植惠提出“情报是能解决问题的社会信息”[14]。

(3)从知识角度定义的情报概念。如英国著名的情报学家布鲁克斯认为：“情报是使人原有知识结构发生变化的那部分知识”[15]；国内情报学家严怡民教授提出：“情报是作为交流传递对象的知识”[16]。

(4)从信息角度定义的情报概念。如勃拉特、霍肖夫斯基等人认为“情报是发生在人脑中的智能过程的表现”[17]；其它类似的观点还有：“情报就是逻辑的、推理的表达本领；情报就是形成、修改和使用的智力模型”[18]，等等。

上述四类定义情报的角度，都只侧重了情报的某一方面的特性，但从这四个角度的情报定义可以看出，情报与数据、信息、知识、智能有密切联系。基于这样的认识，我们认为：情报是针对一定的主体对象被激活了的有用的信息或知识。

数据通信的概念篇（7）

中图分类号：F270.7文献标识码：A文章编号：1672-3198（2008）02-0126-02

1 引言

从国际上关于数据标准化所经历的历程可以看出：企业信息系统建设的核心是数据。按照James Martin信息工程理论：数据是稳定的、处理是多变的。所以从这一理论可以看出企业信息系统建设的核心之核心是数据资产。国际上的数据建设也是从一个无序向有序逐渐过渡的，一直将数据“孤岛”向数据集成化发展。

2 数据元素基本理论

2.1 数据元素规范与标准化框架

(1)数据元素的组成。

(2)数据元结构模型。

① 数据元概念（DEC）：对象类与特性联合在一起形成数据元概念,数据元概念在数据分类中是非常有用的,一般来讲，数据元概念是一个抽象意义上的数据元，但这类数据元的对象类已经限定，只有经过对数据元概念中的各个要素再进一步的限定，才使数据元概念变成真成有意义的应用数据元素。所以，数据元概念本身具有抽象性与分类性。

② 通配数据元：特性与表示联合在一起形成通配数据元，通配数据元素也具有抽象意义，对于这类数据元来讲，它的特性与表示已经确定，所以它具有通配性，如果将这类数据元与具体的对象类联系在一起，那么该类数据元就可以具体化为有意义的应用数据元。

③ 数据元类型：数据元概念与通配数据元形成数据元类型。

数据元是由数据元概念和表示两部分组成。当一个表示被联合到一个数据元概念上时，就能够产生数据元。数据元和数据元概念间存在多对1的关系，也就是一个数据元必须对应一个数据元概念，而一个数据元概念可以有多个数据元，换句话说，多个数据元可以共享一个数据元概念，数据元结构模型见图1。

同实体关系类的数据模型相比，模型中的实体相当于数据元中的对象类，而实体的属性本当于数据元中的特性和表示。

3 数据元的元模型

经过对数据元理论与实际数据规范化应用的研究，我们提出了数据元的元模型，见图2。

图2 数据元元模型

4 数据元素与信息编码间的关系

如何对企业的各种信息进行有效的分类，并对其进行编码这是信息化过程中一个非常重要的过程。其实数据元素与信息分类及编码有着密不可分的关系，在表2中给出了数据元素分析方法与信息分类与编码的对应关系。

5 数据元应用的领域

数据元的研究，目前在国际上相当流行，而在国内的研究还处于起步阶段。通过几年的研究，目前，我们已经将这一方法论用于石油上游的数据规范化中，并取得了良好的效果，目前，正在将这一方法论用于中石油的ERP数据平台中的数据规范化中。相信，随着这一方法论的在石油石化领域的不断应用，必将为石油石化信息化建设起到科学的指导与推动作用。

数据通信的概念篇（8）

随着信息时代的飞速发展，互联网己成为人们获取信息的重要途径。网络作为信息资源平台，为人们的日常生活提供了便利快捷的服务。然而，在大量的网络信息面前，如何不被淹没，如何从海量信息中及时发现提取有价值的信息，成为互联网信息检索面临的首要问题。面对这一挑战， Web数据挖掘技术提供了一种比较好的解决方法。Web数据挖掘技术包括数据库、计算机网络和人工智能技术，Web数据挖掘技术使用了很多数据挖掘技术，但是它并不是传统数据挖掘技术的一个简单应用，它是一个新的研究领域。Web数据挖掘技术一般分为Web结构挖掘、Web内容挖掘、Web日志挖掘三类。Web内容挖掘是指利用某种算法策略对网络资源进行抽取，以期发现有用的知识，常用的策略有总结、分类、聚类和关联分析等。Web页面内部结构挖掘与外部结构（链接分析）是Web结构挖掘的两个主要研究方向，内部结构挖掘应用于信息抽取、网站结构模式提取和页面分类，链接分析则主要应用于搜索引擎领域。Web日志挖掘主要通过识别用户浏览模式，并通过改进Web站点结构，达到用户能够更加方便浏览的目的，以此来吸引更多的用户访问站点。

Web数据挖掘与搜索引擎联系紧密，校园网搜索引擎除了使用传统搜索引擎相关的理论和技术方法外，还需要新的方法和技术来满足学校师生要求，Web数据挖掘的很多技术可以应用在校园网的搜索引擎中，Web内容挖掘能对互联网上海量的网页信息进行总结、分类、集群、关联分析和趋势预测等。通过对网页内容的挖掘，可以实现网页的聚类和分类，能够对网络信息进行分类浏览和检索，从而提高网络信息的标引准确度，提高检索效率。

根据数据挖掘的一般方法和相关理论，可以得出Web数据挖掘的流程图，如图1所示。

网络数据的收集主要是从Web站点上的数据信息中提取一个数据子集，主要包括页面数据、超链接信息和用户的访问历史记录等，为数据挖掘提供资源支持。数据的预处理主要是对数据源进行组织重构和加工处理，并以此构建主题数据库，为Web数据挖掘提供相应的平台。模式发现及分析是Web数据挖掘最核心的部分，它主要是通过运用各种数据挖掘技术，从数据对象中发现潜在的、能被人所理解的知识模式，并最终发现描述性模式和预测性模式。

2.校园网搜索引擎系统架构设计

2.1 整体框架模型设计

校园网搜索引擎系统设计以智能化为目标，最大程度上满足学校师生不同需求的查询。系统首先收集海量的网页信息，然后搜索引擎程序会自动对收集到的网页内容进行分析，并通过分词程序得到语句关键词，再利用索引来构建索引数据库。当用户通过Web页面来查询索引数据库时，系统就会返回所有与检索关键词相匹配的网页。一个搜索引擎系统主要由以下四部分组成，分别是：页面采集模块、页面分析模块、索引数据库模块和信息检索模块。从功能上来说，四部分内容既相互独立，又相互联系，形成一个有机的整体。搜索引擎系统架构如图2所示。

2.2 系统模块设计

本文设计的校园网搜索引擎系统与传统搜索引擎系统的主要不同之处是搜索引擎被分解为多个任务不同的专业搜索引擎，每个专业搜索引擎只搜索特定相关的信息。该搜索引擎系统主要包括5个模块。

（1）信息抓取模块：搜索引擎系统首先收集用户所要查询关键词和搜索引擎返回的查询结果，并对收集到的数据进行预处理。

（2）概念提取模块：系统从收集到的搜索结果中选取前100条数据，进行概念提取，然后将提取到的概念存入相应数据库。最后，搜索引擎系统计算概念联系度并将计算结果存储到数据库中，为后面的概念聚类做好准备。

（3）用户建模模块：系统针对用户的搜索关键字进行概念提取，从而获得用户感兴趣的相关概念，然后，根据已经建立的概念联系，确定与用户搜索关键字有联系的概念。

（4）查询概念聚类模块：系统根据用户兴趣模型建立查询概念二分图，然后使用基于查询概念的二分图聚类算法对查询和概念分别进行聚类。

（5）查询优化模块：聚类形成相似的查询和相似的概念，相似的查询用以优化查询语句，优化后的查询语句由系统提交给搜索引擎。相似的概念以搜索建议的形式提供给用户，系统根据用户兴趣模型产生聚类结果。

3.Web数据挖掘技术在数字化校园中的应用

在数字化校园建设中，主要以教师和学生为主体，如何更好地协调教师和学生的关系是数据挖掘首要考虑的问题。本文以学生的数字化校园中的基本信息作为基础信息，通过对学校的各个子库的个人信息进行加工处理，运用简单的统计方法对每个子库信息进行聚合，从而得到进行数据挖掘的基本信息。

搜索引擎系统首先需要将不同的数据源集中到统一的数据仓库中，执行数据的清洗和转换操作。为了方便不同数据仓库之间的数据交换，采用统一的数据挖掘元数据模型。Web数据挖掘技术利用统一的驱动程序存取数据仓库中的数据，并且采用统一的结果模型表示形式，应用程序通过统一的接口访问数据挖掘服务。数据挖掘应用程序构架如图3所示，其中Data是待挖掘数据，存放在关系数据库或文件中。Data Access获取文件、数据库或视图中的数据，并将数据保存到数据仓库。数据源可以来自分布式和远程数据库。Data Warehouse用来存放待挖掘的数据，Driver提供统一的数据库驱动程序，DMT提供不同的算法为应用程序服务。数据挖掘算法（DMM）在数据上应用所得的结果，不同DMT之间可以相互调用数据挖掘模型，用于结果应用、评估和可视化。Application是客户端应用程序，调用一个或多个数据挖掘服务，得到数据挖掘的结果模型，从而获得决策需要的信息。

Web数据挖掘中，应用关联分析技术寻找网页信息库中的值的相关性，应用分类方法分析进行网页信息库中的web数据的分析，这样能够为每个类别实现数据模型建立、分类规则挖掘、从而对数据类别做出准确的描述，另外应用聚类方法对网页信息库中的记录数据进行分析，也就是对记录集合进行合理的规划并对每个记录所在的类别进行确定。这样就能精炼出一个集成度高、易于使用、冗余度地的索引数据库，方便师生的信息检索和查找。

数据通信的概念篇（9）

Abstract: based on the mechanic colleges and universities and related course curriculum present situation, from the basic knowledge system, solve the students in this course, the difficulties encountered in the actual learning process of perspective, discussed the mechanic colleges and universities related in the process of single-chip computer courses teaching as communication way of basic knowledge in this paper, the defects, leading to some of the problems, and according to the characteristics of the mechanic colleges and universities student put forward a solution.

Key words: single chip microcomputer; Communication; Data transmission; The data frame format

中图分类号：C41文献标识码：A文章编号：2095-2104(2013)

正文:

1 概述

单片机课程中涉及到部分通信基础知识，对于这部分知识的阐述在各类单片机教材中都各不相同。笔者结合自身的教学经验，对各类教材在关于这部分知识的阐述特点深入研究，发现大部分教材在阐述通信基础知识时并没有足够地考虑到当前技工院校学生在学习单片机课程之前普遍没有系统全面地学习过通信专业相关知识的特点。同时，由于当前技工院校学生在学习过程中普遍比开设类似课程的本、专科院校的学生在学习上困难更多，更需要循序渐进地引导，在教学过程中对抽象专业知识的学习需要更多时间的特点。笔者认为，在讲解单片机课程中涉及到的通信基础知识的过程中，应该充分考虑到这些特点，在教学方法上作出改进。有些内容的阐述方式也许对于本、专科院校或基础较好，学习能力强的学生来说显得有些累赘，但根据笔者自身的教学经验，这些略显累赘的阐述方法能在教学过程中解决很多在后续学习中才能显现的问题，并在学习过程中能起到增加学生信心的作用。本文主要针对单片机课程中涉及到的数据传输方式和数据帧格式这两个问题的阐述方法作出分析并提出新的阐述方案。

2 相关专业开设课程现状及学生相关知识体系现状

有些专业开设了通信方面的专业课，但往往晚于单片机课程，有些则根本没有相关的专业课程。现行的技工院校单片机教材，无论是采用传统教学方法还是模块式的教学方法，虽然在相应章节对这部分内容也有简单概念的说明，但有相对比较零散或是深度不够的问题，而单片机原理及接口技术课程中不可避免地要用到这些知识，尤其在接口技术这部分还需要学生对相关通信方面的知识有较为深入的理解。所以应该在单片机课程的教学中对这部分通信知识做系统地、有足够深度的讲解，以避免将问题积累在后续教学过程中，给教师和学生都造成不必要的困难，使得单片机这门本身比较难学的课程显得更加晦涩难懂，相当一部分学生正是由于本文提到的问题在学习单片机课程的中途选择放弃，给后续其他相关专业课的教学也带来了很大的困难。

3 分析由于基础知识不完善导致的问题

对于数据的传输方式，部分教材只有简单地分类说明，没有深入阐述，如果能有直观地图形辅助说明学生理解起来会更加容易。同时也缺乏相应的练习题，使得学生在读了一遍概念之后用起来仍然不太理解。

对于数据的帧格式，部分教材讲解过于简单，缺乏例子，学生理解起来普遍感到困难。后续的学习中，学生容易把单片机的串行口工作模式与数据帧格式混淆，以至于在学习串行口工作模式时用到帧格式的情况下甚至无法分清到底在学什么，这种情况下往往要回过头来对帧格式的概念重新进行讲解，再加以区分。这就给学生的学习造成了很大困扰，同时教师在反复强调二者区别时也浪费了很多教学时间，并且效果不佳。

所以，如果能在第一次接触到这些概念时就针对以后可能会出现的问题做一些有针对性的讲解和练习，就能在很大程度上避免这类问题的出现。

4 解决方案

基于以上分析，如果能在第一次接触到这些概念时就针对以后可能会出现的问题做一些有针对性的讲解和练习，就能在很大程度上避免这类问题的出现。所以，笔者对提到的两部分内容提出以下阐述方案。

4.1通信的概念及通信方式的分类

计算机与外界的信息交换称为通信。

通信按照通信方式分为并行通信和串行通信。并行通信是指数据的几个位同时发送或接收。串行通信是指数据的位按顺序逐位依次发送或接收。单片机与上位机或设备的通信方式普遍采用串行通信的方式。

例1：数据10110101B从A端发送到B端，若采用并行通信的方式，发送过程示意图如图1所示，八位数据同时从A端发往B端，B端同时接收这八位数据；若采用串行通信的方式，发送过程示意图如图2所示，八位数据按从低位到高位的顺序逐位依次从A端发往B端，B端也按从低到高的顺序逐位依次接收。

图1

图2

引导学生思考以下问题：

1）上例中完成数据传输，用并行通信方式与用串行通信相比哪种方式所用的时间多?

2）图1中要实现数据同时传送，需要几条线？图2中数据逐位传送，需要几条线？

基于技工院校学生的学习特点，对于基础概念的解释应尽可能地详细并浅显易懂，同时要有一定的深度。把并行通信和串行通信的概念用示意图表示，使得学生在学习的过程中对这两个概念有更形象、具体的理解，避免由于没有明确理解两个概念而无法理解单片机的通信方式。

在以上联系的基础上再对并行通信与串行通信进行比较，阐述方式如下：

1）并行通信的速度比串行通信的速度快；

2）并行通信的线路铺设费用高，需要铺设与同时传输的数据位的位数相等的连接线，适用于近距离数据传输。串行通信的线路铺设费用相对较低，只需一条发送数据的线和一条接受数据的线，也可以发送和接收共用一条连接线，适用于远距离数据传输；

3）并行通信线路的铺设相对复杂，系统可靠性相对较差，适合于近距离数据通信；串行通信线路的铺设相对简单，系统可靠性相对较高，适合于远距离数据通信；

串行通信又可分为同步通信和异步通信。异步通信从传输方式的角度又分为单工、半双工及双工。MCS—51系列单片机采用的是串行异步双工的通信方式。

4.2 数据的帧格式

对于单片机通信中的四种帧格式，大部分教材都有详细的描述，但普遍缺乏图示和例题。在此仅以其中的模式1为例提出新的阐述方案。

模式1

在串行通信模式1中，一帧数据共有10位，其中包括1位起始位（低电平信号），8位数据位和1位停止位（高电平信号），结构如图3所示：

图3

例2：假设有一组数据：10010011B要从A发往B，帧格式采用模式1，请将数据发送时一帧数据的具体内容填入下面的表格中：

对于模式0、模式2及模式3也采用相同的方法阐述。

5 新方案解决问题的效果

通信概念及分类方式的阐述方案中，针对技工院校学生的学习特点，对通信的概念和分类通过循序渐进、辅以图示的方式做了阐述。这话阐述方式的特点是针对技工院校部分专业学生在学习单片机课程之前并没有接触过通信相关课程的情况，在阐述通信的概念和分类时能辅以浅显易懂的例题，在实际教学过程中使得学生在学习这些概念时能及时清晰地理解概念的含义，避免了在后续的诸如单片机串口读写操作等涉及到其它较复杂概念的问题中还要一并解决阐述通信基本概念时遗留的问题，在一定程度上可以避免学生在学习串口操作时的才意识到之前的通信基本概念还没搞清，胡子眉毛一把抓，增加学习难度，给后续概念的学习造成困难。

数据帧格式的阐述方案中，由于引入示意图，使得学生对于单片机串行通信采用的帧格式中四种模式的理解更加直观。及时补充的相应例题也起到了引导学生在接受概念的同时主动思考的作用，加深学生的理解。另外，笔者在实际教学过程中发现，由于单片机的串行口工作模式也有四种，分别是模式0、模式1、模式2和模式3，四种模式的命名方式与数据帧格式的四种模式一模一样，使得部分学生在学习时对两组概念发生混淆。而对数据帧格式的阐述采用新方案后，也能在很大程度上起到避免两组概念混淆的作用。

参考文献：

数据通信的概念篇（10）

中图分类号： TP311

文献标志码：A

0 引言

在数据挖掘研究领域中，关联规则（association rules）是一个重要的研究方向，其作用是从数据集中发现属性间存在的、隐藏的、新颖的、有趣的关联或相关关系，从海量数据中获取信息和知识。然而，一般方法却无法将数据间存在的频繁模式和关联模式以可视化的形式展现出来，不能帮助用户获取更为完备的信息。作为知识的一种可视化表示形式，概念格（concept lattice）已经被人们应用到很多研究领域。概念格将哲学的概念进行数学化的描述，实现了概念的一种形式化描述，其表达数据的基本形式是形式背景。在大量数据库应用中，对于数据的分析并非都是单值属性的形式背景——单值背景[1]，更多的是复杂多值属性的形式背景——多值背景[2-3]。Bal等[4]给出了基于形式背景分析的频繁项集搜索与关联规则提取的可视化方法，但该方法无法处理多值属性数据。Cassio等[5]采用着色和变形技术从概念格提取多值数据并对其进行树形可视化展示，该模式能够表示数据项之间的概念关系，不足之处是展现形式灵活性较差，不支持用户交互性操作，用户无法动态分析数据之间频繁模式和关联关系。Julien等[6]利用可视化后处理方法进行交互式关联规则挖掘，主要对一对一形式的关联规则进行展示，但无法展示一对多、多对一和多对多形式的关联规则。Michael等[7]介绍了关联规则的分层展示形式，该形式不利于用户对挖掘结果进行多层次关联分析，并且展示结果容易出现部分重叠现象。Dario等[8]对8类关联规则的可视化展现方法进行了综合分析，这些方法一般适用于布尔类型数据，而不利于处理多值属性数据，无法满足用户分析与展现多值属性项之间关系的需求。

目前，多数关联规则可视化研究工作主要集中于挖掘结果的可视化展示，大都存在以下不足：所采用的方法不利于展现多值属性数据的频繁模式与关联关系[9]、缺少挖掘过程的交互性与可视化[10-11]、用户无法动态分析规则信息[12]。最重要的是关联规则表示形式比较单一，无法对频繁项集进行可视化展示及关联规则多模式展现，用户难以动态地分析数据项之间的频繁模式和关联模式。

本文提出一种新的基于概念格的多值属性关联规则可视化方法，结合概念格理论对多值属性数据进行了重新定义和分类，给出了频繁项集和多值属性关联规则可视化表示算法。通过引入概念格结构把数据项有机地组织起来，使数据之间的关系通过概念格节点的特化关系与例化关系生动简洁地表达出来，不仅便于用户对频繁项集进行可视化展示和动态分析，而且实现了一对一、一对多、多对一、多对多以及概念分层的多模式关联规则可视化展示。

利用概念格理论提出了多值属性关联规则可视化的完整解决方案，通过数据源可视化、可视化数据挖掘过程及交互式参数调整、挖掘结果的可视化等机制，使用户可代替领域专家直接进行数据挖掘，大幅提高了规则的展现效果和挖掘结果的可用性。

1 多值属性关联规则的概念格表示

1.1 项目集的概念格表示

在实际应用中，全员人口数据库的育龄妇女人口记录通常以形式背景（formal context）表示对象集的基本形式，为了更好地将事务集以概念格的形式进行表示，这里将项集与概念格相结合，研究概念格与频繁项目集之间的关系。

1.2 多值属性数据分类

所谓多值背景[16]就是事务（记录）和属性之间不能仅仅用布尔型关系来表示，而是在原有的形式背景中出现了属性值的集合，并用具体的属性值来表示。比如，在某省全员人口数据库中，“学历”、“文化程度”、“年龄”、“户口性质”等均称为多值背景，即事务与属性之间的关系无法只用“1”或“0”表示。为了便于挖掘任务的实现，本文提出适合多值属性关联规则可视化挖掘的多值背景定义，根据属性的类别分为三类，具体介绍如下。

在多值属性集中，对于“年龄”“世代间隔[17]”等这样的表示数量化的属性项，其属性值都是用具体的数值来描述事务与属性之间的关系，则称该多值背景为数值型多值背景，其定义如下：

3 关联规则可视化挖掘过程

3.1 源数据可视化

源数据可视化阶段，运用可视化技术将数据库中的数据以“第二语言”——图形的形式进行展示，通过选择数据集和多种数据展示工具帮助用户进行专业的数据分析，以便挑选针对性和关联性更强的数据来进行分析和研究，使其不再局限于通过关系表来分析数据信息，而且能够以更直观的方式观察数据及其结构关系。

3.2 频繁项集可视化

频繁项集可视化挖掘阶段运用概念格结构展示频繁项集，具有表示形式清晰、挖掘过程灵活、用户交互性强等优点，使得频繁项集更容易被人们理解。该阶段主要包括：点支持度（MinSup）或区间（[MinSup， MaxSup]）查询，频繁项集个数（KItem）或区间（[K_min， K_max]）查询，动态调整KAF参数与CHF参数，指定频繁查询模式，分层挖掘，上卷、下钻和附属信息分析功能。例如：将支持度区间设置为[78，92]，查询支持度在区间内的所有频繁项集，让用户从量上对挖掘出来的频繁项集进行科学分析，从中发现有价值的信息。

3.3 关联规则可视化

关联规则可视化挖掘阶段，主要采用概念格结构对关联规则进行展示。通过设置minConf、KAF参数和CHF参数，构建不同模式关联规则，形成多模式可视化展示。同时，允许用户对同层间、跨层间、不同概念层间的规则进行分析和挖掘，极大地满足了用户的不同需要。该阶段功能包括：附属信息展示，点置信度（MinConf）或区间（[MinConf， MaxConf]）查询，KAF和CHF参数调整，设置规则前件（LHS）和后件（RHS）的个数及包含项，一对一、一对多、多对一、多对多和概念分层关联规则展示形式。

某省全员人口库中的人口记录包含大量的多值属性字段，例如：文化程度、户口性质、人口所属地区和育龄妇女世代间隔等，这些数据项或属性所隐含的概念具有层次关系，在低层或原始抽象层的数据项之间很难找出强关联规则，而在较高的抽象层发现的强关联规则可能提供更具有价值的信息。本文将概念分层纳入到关联分析中，采用离散化方法对数据库的多值数据进行处理，方便用户分析不同概念层或跨层间的数据关系。如某省全员人口数据库中：文化程度{初级{小学，初中}，中级{高中，大专}}；地区{盆地{柳江，宣化}，高原{沽源，康保}}。用户可以对其进行概念分层形式的可视化展示，并针对不同概念层的数据进行关联性分析，从中挖掘有用的信息，制定科学合理的决策。

4 关联规则可视化应用实例

本文以某省全员人口数据库为数据源，对源数据、频繁项集和规则可视化进行了具体实现。下面是对育龄妇女世代间隔的大小与育龄妇女的文化程度、年龄、所属地区和户口性质之间的频繁模式和关联关系进行了具体分析。

4.1 育龄妇女数据的源数据可视化

人口数量的增减是由子女一代人数与父母一代人数的比例决定的。当子女一代人数与父母一代人数相等，形成一个静止人口时，平均生育年龄愈低，两代人时间间隔愈短，在平均预期寿命相同的情况下，同时存在的人口数目就会愈多[13]。针对某省全员人口数据的特点，从库中分别选取人口所属地区为山地、平原、丘陵、盆地和高原的育龄妇女信息，对妇女世代间隔进行分析。首先，以年龄树的形式展示女性年龄分布情况，从图3中可得到育龄妇女人口数量，运用正态分布函数对所选择记录的世代间隔进行分析，得到这些地区的育龄妇女世代间隔集中分布在22～24，如图4所示，以便对其进行深入分析和研究。

实现了对多值属性数据的频繁项集和关联规则挖掘，方便用户动态分析不同类型字段项之间的关系和频繁模式；实现了频繁项集可视化展示，可对挖掘结果进行上卷、下钻以及分层查询操作，另外支持KItem、支持度区间查询和附加信息展示；实现了一对一、一对多、多对一、多对多和概念分层的多模式关联规则可视化，且不对所展示规则信息的前件与后件的项的数量进行限制，可查询多对多对模式的规则；规则前后件信息区分明显，可解释性较好；规则之间不易重叠，避免出现界面混乱的现象；用户可灵活选择各种感兴趣的规则展示模式，完成不同层次间的规则分析。

5 结语

通过对多值属性数据的分析与研究，本文提出一种新的基于概念格的多值属性关联规则可视化方法，实现了对多值属性数据的频繁项集可视化展示与一对一、一对多、多对一、多对多和概念分层的多模式关联规则可视化展示，便于用户动态分析多值属性数据之间的频繁模式和相关关系。通过运用某省全员人口数据对算法进行了具体实现和分析，实验结果表明本文所提出的关联规则可视化表现形式具有良好的显示效果和用户交互性，在很大程度上提高了用户体验，实现了多值属性关联规则可视化挖掘。

在下一步的工作中，将研究如何利用频繁项集和关联规则中所含数据项之间的语义联系与应用背景，把频繁项集和规则转换为领域知识进行可视化知识展示。

参考文献：

[1]GANTER B， WILLE R. Formal concept analysis： mathematical foundations [M]. Berlin： SpringerVerlag， 1999：17-35.

[2]GUGISCH R. Manyvalued context analysis using descriptions [C]// Conceptual Structures： Broadening the Base， LNCS 2120. Berlin： SpringerVerlag， 2001：157-168.

[1]GANTER B， WILLE R. Formal Concept Analysis： Mathematical Foundations [M]. Berlin： SpringerVerlag， 1999：17-35.

[2]GUGISCH R. Manyvalued context analysis using descriptions [C]// ICCS2001： Conceptual Structures： Broadening the Base Conceptual Structures： Broadening the Base Lecture Notes in Computer Science. Berlin： SpringerVerlag， 2001：157-168.

[3]NGUYEN T T， C HUI S C， CHANG K Y. A latticebased approach for mathematical search using formal concept analysis [J]. Expert Systems with Applications， 2012， 39（5）：5820-5828.

[4]BAL M， BAL Y， USTUNDAG A. Knowledge representation and discovery using formal concept analysis： an HRM application [C]// WCE 2011： Proceedings of the World Congress on Engineering. London： Newswood， 2011：1068-1073.

[5]CASSIO M， LEGRAND B. Extracting and visualising treelike structures from concept lattices [C]// IV11： Proceedings of the 2011 15th International Conference on Information Visualisation. Washington， DC： IEEE Computer Society， 2011：261-266.

[6]JULIEN B， FABRICE G， HENRI B. Interactive visual exploration of association rules with rulefocusing methodology [J]. Knowledge and Information Systems， 2007， 13（1）：43-75.

[7]MICHAEL H， CHELLUBOINA S. Visualizing association rules in hierarchical groups [C]// Interface 2011： Statistical， Machine Learning， and Visualization Algorithms. Cary， North Carolina： SAS Institute， 2011：1-11.

[8]DARIO B， CRISTINE D. Visual mining of association rules [C]// Visual Data Mining： Theory， Techniques and Tools for Visual Analytics， LNAI 6208. Berlin： SpringerVerlag， 2008：103-122.

[9]BILAL A， ERHAN A， ALI K. MODENAR： Multiobjective differential evolution algorithm for mining numeric association rules [J]. Applied Soft Computing， 2008， 8（1）：646-656.

[10]PACHON A V， VAZQUEZ J. An evolutionary algorithm to discover quantitative association rules from huge databases without the need for an a priori discretization [J]. Export Systems with Applications， 2012， 39（1）：585-593.

[11]MARTINEZ B M， RIQUELME J. Analysis of measures of quantitative association rules [C]// HAIS11： Proceedings of the 6th International Conference on Hybrid Artificial Intelligent Systems. Berlin： SpringerVerlag， 2011：319-326.

[12]SHAHARANEE M， HADZIC F， DILLON S. Interestingness measures for association rules based on statistical validity [J]. KnowledgeBased Systems， 2011， 24（3）：386-392.

[13]SAMUEL Y， MEKITIE W， MULUMEBET A， et al. Duration and determinants of birth interval among women of child bearing age in Southern Ethiopia [J]. BMC Pregnancy and Childbirth， 2011， 11（38）：1-6.

[14]SONG S J， KIM E H， KIM H E， et al. Querybased association rule mining supporting user perspective [J]. Computing， 2011， 93（1）：1-25.

数据通信的概念篇（11）

问题一：数据库该如何定义

案例1：某一年江苏省高中信息技术优质课评比获奖教学视频（数据库教学第一课时）。一位获奖者在授课时直接向学生引出了数据库概念。其中对数据库是这样定义的：数据库是存放数据的仓库，只不过这个仓库是在计算机的存储设备上。

我们十分认同授课者把数据库形象地比喻为仓库，使学生能够很自然地建构起数据库这个信息技术术语。但如果把数据库视作是计算机产生后出现的技术，是有歧义的。相信有很多教师在课堂上给学生定义数据库概念时，也会不经意地和计算机挂钩，因为在我们的生活经验中，数据库就是和计算机紧密相联的。在近几年的数据库教学调查中，我们发现有许多教师主要是通过教授如何使用Access数据库管理软件来进行数据库字段、记录等基本要素的教学。在调查中我们还发现，即使教师在教学过程中强调Access只是数据库管理软件，不是数据库，但一谈到数据库，学生总是马上反应到Access软件的使用。

我们在学习我校国际部新大预科计算机课程教学用书《计算机学习》和由英国CGP出版社出版的英国高中《计算机与通讯技术》学习用书时，发现这两本书中的数据库教学内容——数据库基础概念与Access软件的实践操作之间的教学层次非常分明。学生在学习数据库基础知识时，完全不涉及进入具体的某一数据库管理软件。案例2中呈现的是我们在新大预科信息技术课堂随堂听课记录的教学片段。

案例2：新大预科的数据库教学第一课时。

教学内容：databases（数据库）。

授课对象为已通过当地高中入学考试，同时英语水平达到新大预科要求的学生（层次相当于国内普高一年级的学生）。

外籍教师在课堂教学中设计了一个任务，由学生通过小组活动（Group Activity）讨论生活中的数据库应用实例并填入教师设计的表格中（如下页表1），并概括出数据库的概念。

令人振奋的是26位学生中有89%列出了至少5个在生活中遇到的数据库应用实例，其中有学校图书馆图书管理系统、火车票实名购票、QQ网上注册、百度音乐库、飞机航班信息实时查询、银行ATM取款等。学生讨论并完成表格填写后，授课教师在教学PPT上呈现了两组图片，一组是耶鲁大学史特林纪念图书馆借书大厅图片，同时提出了一个概念：Paper-based Database；另一组来自于任教学校图书馆借阅大厅图片，并提出了另一个概念：Computerized Database。（我们对以上两个术语是这样翻译的：纸质化数据库、数字化数据库）。随后，在教师的引导下，学生开始提炼数据库概念。学生是这样提炼出数据库概念的。学生甲：数据库像仓库，用来存储数据；学生乙：数据库中存储的数据是有一定规律的；学生丙：通过一定的规则，人们能使用数据库中存储的数据；学生丁：通过计算机使用数据库，能大大节约使用者的时间。

教师十分肯定学生对数据库概念的提炼。同时，在最后总结学生提炼的概念时，他特别纠正了许多人的错误认识，即数据库是计算机的产物。

从案例2，我们可以看得出来，数据库概念的提炼完全可以依托学生的知识背景，把握其认知规律，由学生通过生活实例的观察与思考，用自己的语言进行描述，而不应由教师直接下定义进行填鸭式的概念灌输。同时，在教学过程中如果我们仅凭一时的臆想把数据库的产生与发展放入计算机的发展中去认识，将会导致部分教师和学生在概念理解上出现偏差。因此我们认为，教学中进行数据库概念提炼时，应该与“计算机”这个名词保持一定的距离，从而构建出准确的数据库概念。

问题二：数据表、字段、记录一定要在Access等数据库管理软件中实现吗

学生能够正确理解数据库中记录、字段等术语，会进行表结构的设计是建立数据库的关键。许多教师在为学生构建这些知识的时候，总是借助Access数据库管理软件来进行。其目的是为了能让学生理解数据库中的表、字段、记录。这种教学方法的最大优势在于其直观性强，便于学生实践操作。然而，存在的问题是学生把数据库的基本要素误认为是Access数据库管理软件有的要素，而产生了概念上的混淆。

案例3：接案例2新大预科课堂。

在完成了数据库概念的提炼后，教师创设了一个问题情境：列出了Libby6个朋友的信息（如表2）。

在分析表2内容的过程中，教师把记录、字段的概念向学生进行了解释。然后请学生完成一项任务：利用给出的朋友信息，其中包含他们的全名、地址、出生日期，设计一个名为“Libby”的数据库，完成数据表“friends”的《数据字典》的相关内容的填写；同时强调：考虑建立哪些合适的字段才能够高效地显示和查找该数据库中的信息。

《数据字典》设计如下（如表3）。

在当时听课时，我们心中有一种担心，认为学生肯定不能胜任这项任务。没想到，当教师汇集了学生的表格在实物投影仪上进行评价时，我们意识到刚才的担心是多余的。大部分学生都能完成教师给出的《数据字典》的表格填写。其中，还有一个学生在《数据字典》中添加了“朋友ID号”。

我们认为，正如在信息技术程序设计的教学中，通常先和学生讨论算法的概念，让学生在理解算法后进入某一种程序语言的编程一样。同理，数据库教学中如果能够借鉴案例3中的教学方法，把Access数据库管理软件中建立表结构的实际操作进行抽象化，利用《数据字典》构建数据表结构，将能引导学生从数据库学习一开始就建立起正确的数据库各项基本元素的理解，正确厘清数据库与数据库管理系统之间的关系。

问题三：“数据库应用体验”该如何“体验”

案例4：某中学开设的大型公开课现场。

授课教师开设了《走进数据库》的对外公开课。在课堂的前一半时间，她创设了一个保护濒危树种的场景，让学生体验了濒危树种数据库应用系统实例。在该活动中，教师抛出了一个个小问题：如何查询现有濒危树种的信息？发现了一个濒危树种的信息，如何添加进信息库？如何删除一条信息？从而为紧接着的数据库建立等技术的学习内容打下伏笔。整堂课的教学设计是学生先体验濒危树种数据库应用系统实例，然后教师引导学生使用Access进行表结构、字段、记录的建立操作。

案例4中数据库应用实例与地理学科内容的有效结合非常具有时代特色，学生从中了解到了这个数据库管理系统的基本设计思路。然而，我们观察到学生在整个体验活动中，似乎是被教师“牵着鼻子”进行的。数据库体验仅仅定位在了某个数据库管理系统的操作使用上，体验的过程仅是完成教师设定的一个个教学步骤。而数据库在数字化时代已悄然深入到了每个人的学习生活中，教师却回避学生实际学习生活中能够感受到的数据库应用实例，而特意设计某个数据库应用系统让学生进行体验，显然忽视了教学设计应该以学生为主体的原则。

在本文的案例2教学中，新大预科的学生在对身边数据库举例的同时，“感受利用数据库存储、管理大量数据并实现高效检索方面的优势”得到了充分实现。同时，我们能够感觉到学生对数据库的了解程度已经超越了国内信息技术课程标准中的相关内容。数据库技术与人们的生活息息相关，已不像十年前那样还局限在某些行业了。当“云存储”等先进的数据库管理术语已经进入学生的生活中，数据库课堂教学如果依旧停留在教师举例、学生“被动体验”的年代，将会与发展迅速的信息技术形成隔阂。

我们认为，课程标准提出的“体验数据库应用”教学要求，不应该仅仅让学生在教师指定的数据库应用系统中实现被动体验。放开学生，让他们的思维走出课堂，与时代握手，实现信息技术社会中各种形式数据库的真体验，如淘宝购物、机场航班查询、图书馆图书借阅，等等。学生将能够体验到数据库已无处不在，也能够对数据库应用形成自己的见解与反思。

问题四：数据库应用除了“优势”，还存在其他影响吗

《普通高中信息技术课程标准（实验）》必修部分的内容标准其中一条是：感受利用数据库存储管理大量数据，并实现高效检索方面的优势。我们认为：数据库的利用优缺点并存。新课标的课程目标中强调：能辩证地认识信息技术对社会发展、科技进步和日常生活学习的影响。很多教师在分解课标内容的时候，明显忽视了这一点。

返回列表