人文主义的基本特征大全11篇

时间：2023-11-19 15:59:55

人文主义的基本特征

人文主义的基本特征篇（1）

DOI：10.3969/j.issn.1008-0821.2013.11.023

〔中图分类号〕G254 〔文献标识码〕A 〔文章编号〕1008-0821（2013）11-0100-08

图像检索是信息检索的重要组成部分，从20世纪70年代开始，很多学者都对图像检索技术进行研究，先后提出基于文本的图像检索、基于内容的图像检索以及基于语义的图像检索技术。传统的文字搜索主要是以关键词匹配为基础，着重优化搜索路径算法，加强建立学习和反馈模型，比如百度和谷歌都取得了巨大的成功。但图像检索与文字检索存在很大的区别，存在很多问题，如图像内容描述、语义理解鸿沟、特征提取复杂等。这些问题制约着图像检索研究领域的进一步发展，也是图像检索研究的热点问题。

本文以CNKI近十年来发表的图像检索文献为研究对象，以文献关键词为研究载体，以共词分析方法为研究基础，采用聚类分析、多维尺度分析、社会网络分析等方法，结合可视化软件Ucinet，绘制近十年来图像检索研究图谱。笔者研究目的在于通过这篇研究论文，图像检索研究领域的学者或者是对图像检索感兴趣的人可以很清晰的发现近十年来图像检索研究领域过去的关注点、现在的热点以及未来的发展趋势。

1 文献来源及研究方法

1.1 研究文献来源

为了确保检索的文献符合笔者的分析需求，笔者检索条件设置为：数据来源为CNKI（中国学术文献网络出版总库），检索时间为2003-2012年，关键词中包含“图像检索”，检索策略为“精确”进行检索，共检索出期刊2 477篇。

1.2 基于研究样本的文献计量情况

论文载文量的变化，在一定程度上反映该学科的理论水平和发展速度[1]。笔者对国内图像检索相关的2 477篇文献进行统计，并利用Excel软件绘制出图像检索文献年代分布折线图，如图1所示。图1的数据表明，图像检索论文数量从总体上来看，是成上升趋势，在2008年达到顶峰。论文增长曲线呈现“S”型。根据普莱斯逻辑增长曲线规律，笔者发现图像检索研究是逐步发展的，并逐渐走向成熟的过程。图1 2003-2012年图像检索研究期刊发文量

1 通过文献计量软件SATI 2.2软件，对检索的2 477篇文章的文章进行统计分析，得到作者的总人数为3 917人（包括第一作者、第二作者等）。经过计算，笔者发现西安电子科技大学多媒体研究所的周利华教授和河南理工大学的孙君顶教授发表的文章最多，同为33篇，根据普莱斯计算公式，核心作者发文数m≈4.31，因此将文章数量为5篇及以上的著者定为核心著者，统计得到核心著者有153人，占全部作者总数的3.9%。笔者筛选出发文数量排名前20的作者及其单位，如表1所示。从表1中，我们发现图像检索研究机构以高校为主，并且相对集中。西安电子科技大学、西北大学、西北工业大学、河南理工大学等。高校是图像检索的主要研究机构，这也表明，图像检索的研究目前以理论研究为主，实际应用并不广泛。

表1 2003-2012年图像检索期刊发文量前20位作者及其单位

1.3 期刊分析

期刊载文分析主要反映学科研究文献的期刊分布情况，期刊的分布也可验证布拉德福定律。由于核心期刊的载文量水平较高，更能反映学科研究水平，因此本文的期刊分析，都以核心期刊为主。表2是排名前20位发文量超过15篇的核心期刊。

表2 载文前20种核心期刊表

1.4 研究主题分析

研究主题变化通过关键词词频变化来揭示。本文对2 477篇图像检索的关键词进行统计，在统计过程中，对一些关键词进行合并处理，如“基于内容的图像检索”、“基于内容”和“CBIR”；“纹理”和“纹理特征”等。为了能够清晰的揭示出研究主题的变化，笔者对每一年的论文关键词分别进行统计，统计结果见表3。

表3 2003-2012年论文关键词词频变化表

随着时间的推移以及研究的深入，图像检索领域的研究热点也在不断的变化中。笔者参考安徽大学储节旺教授将热点关键词进行分类的研究方法，将图像检索领域的热点关键词分为3种类型：恒星关键词、流星关键词和新星关键词[2]。（1）恒星关键词指的是那些一直处于研究热点的关键词，如“图像检索”、“基于内容的图像检索”、“相关反馈”、“特征提取”、“颜色直方图”等，这类关键词也是图像检索的核心内容。（2）流星关键词指的是那些研究一段时间后缺乏持续研究的关键词，如“图像数据库”、“医学图像检索”、“数字图书馆”等。这类关键词研究的内容深度不够，没有涉及到图像检索的核心内容，研究的是图像检索应用研究。图像检索研究本身存在很多技术有待突破，目前主要停留在理论研究层面，这些基于图像检索技术的应用研究明显研究深度和热度。（3）新星关键词指的是那些总体增长比较平稳并且在未来会受到重点研究的关键词，如“图像分割”、“小波变换”、“支持向量机”、“灰度共生矩阵”等。这类关键词涉及到图像检索的核心技术，也是未来提高图像检索速度和效果的关键所在。

1.5 高频关键词的确定

通过文献计量软件，统计得出2 477篇文章中共有关键词3 463个。通过对关键词进行认真分析，将一些表述相近意思的关键词进行合并，如“基于内容的图像检索”、“CBIR”和“基于内容图像索”；“纹理”和“纹理特征”进行合并，取词频大于20的关键词作为高频关键词，共有48个，如表4所示。表4 高频关键词表（部分）

关键词频次关键词频次图像检索1 190直方图48基于内容的图像检索488基于内容44相关反馈261灰度共生矩阵43特征提取210MPEG-743颜色直方图130数字图书馆37纹理特征94相似度37支持向量机86医学图像检索36颜色特征72图像特征35小波变换71图像32图像分割65检索31形状特征58信息检索30相似性度量56图像语义30图像数据库54图像分类29颜色52颜色空间28聚类49不变距27

为了进一步的分析关键词内部之间的联系，对48个高频关键词进行两两检索，形成48×48的共词矩阵，如图2所示。图像检索基于内容的

图像检索相关反馈特征提取颜色直方图纹理特征纹理图像检索1 18910129104814942基于内容的图像检索103876341161916相关反馈12963261238310特征提取1044123210599颜色直方图81168513001图2 高频关键词共现矩阵（部分）

1.6 构造相关矩

通过对共词矩阵进行卡方检验，发现共词矩阵不符合正态分布规律，为了能够用更多的统计方法对数据进行统计分析，需要利用Ochiia系数对共词矩阵进行转换，构造相关矩阵和相似矩阵。用Ochiia系数将共词矩阵转换成相似矩阵，如图2所示。但是相似矩阵中的0值过多，统计时容易造成误差，为了方便进一步处理，用1与全部相关矩阵上的数据相减，得到关键词相异矩阵，部分数据如图3所示[3]。

图像检索基于内容的

在相似矩阵中，数值的大小表明了两个关键词之间距离的远近，数值越大表明关键词之间的距离越近，相关程度越大；数值越小则表明关键词之间的距离越远，相关程度越小。图像检索基于内容的

在相异矩阵中，数值越小表明关键词之间的距离越近，相关程度越大；数值越大则表明关键词之间的距离越远，相关程度越小。

1.7 知识图谱分析

科学知识图谱是显示科学知识的发展进程与结构关系的一种图形。它的悄然兴起，一方面是揭示科学知识及其活动规律的科学计量学从数学表达转向图形表达的产物，另一方面又是显示科学知识地理分布的知识地图转向以图像展现知识结构关系与演进规律的结果。基于社会网络的Ucinet软件，通过构建行动者节点及其联系网络的互动关系，解释社会网络的层次性、等级性、结构性等，并以网络图谱的形式揭示该研究领域的主题热点[4]。图5 关键词共现图谱

分析显示，网络密度为10.95%，中间中心度为19.62%，一致性指数为0.962，上述3个指数表明，关键词共现网络集聚程度不高。其中，图中节点大小由关键词频次决定，线条的粗细，由两个关键词共现的次数决定。线条越粗，表明共现次数越多，反之，表明共现次数越少。节点围绕图像检索、基于内容的图像检索、相关反馈、特征提取形成相对密集的圈层。图5，点的中间中心度排名前15位的分别是图像检索（982.269，1）、基于内容的图像检索（529.658，2）、相关反馈（365.832，3）、特征提取（343.531，4）、颜色直方图（160.999，5）、纹理特征（108.175，6）、支持向量机（95.334，7）、颜色特征（78.884，8）、小波变换（73.287，9）、图像数据库（57.513，13）、形状特征（46.640，11）、相似性度量（45.965，12）、聚类（44.494，15）、医学图像检索（40.030，22）、图像分割（34.788，10），括号内为关键词的中间中心度及频次排序。网络连线的粗细能反映节点的关联度，是识别意义类团的重要特征，如“图像检索——基于内容的图像检索——图像分割——相关反馈——纹理特征”、“图像检索——颜色直方图——颜色特征——兴趣点——颜色量化——特征匹配”、“图像检索——聚类——语义鸿沟——高层语义——图像索引”、“图像检索——特征提取——纹理特征——相似度——图像数据库——医学图像检索——图像检索系统”等。

1.8 多维量表分析

多维量表分析（MDS）是将一组个体间的相异性数据经过MDS转换成空间的构形，且尽可能保留原始数据的相对关系。在SPSS 19中文版中，选择“分析——度量——多维尺度（ALSCAL）”，得到空间二维图，如图6所示。图6 多维尺度分析结果图

从图6可以看出，关键词大体可以分为六大类。第一类，语义图像检索、多媒体数据库、纹理检索、图像匹配、空间关系、高层语义、主色调、纹理谱、位平面、粗糙集、纹理图像检索、商标图像检索、环形颜色直方图；第二类，纹理分析、边缘检测、图像检索技术、图像检索系统、兴趣点、搜索引擎；第三类，视觉特征、半监督学习、相关反馈、流形学习、多示例学习支持向量机、图像检索；第四类，图像特征、不变距语义、语义鸿沟、相似性度量、相似度、图像分类；第五类，数字图书馆、聚类、形状特征、颜色特征、特征提取；第六类，医学图像、图像数据库、医学图像检索、灰度共生矩阵、颜色距、图像语义、MPEG7、图像分割、颜色空间、图像标注等。

2 研究热点分析

通过上文对图像检索研究领域的多维计量分析（知识图谱分析、多维尺度分析）以及关键词词频的变化分析，笔者发现目前国内对图像检索的研究领域比较集中，主要集中在图像检索的算法研究、图像特征研究（如颜色特征，纹理特征，形状特征等）、图像语义研究等。具体分为以下几个方面：

2.1 图像算法研究

图像算法研究是图像检索的研究热点之一，不同的学者从不同的角度提出不同的图像检索算法，来提高图像检索的效果。鲁珂等提出基于支持向量机的理论提出了一种用于图像检索的半监督学习算法[5]。许相莉等提出一种基于粒子群的图像检索相关反馈算法，使得用户对检索目标的理解逐渐清晰，能够有效全面的搜索图片库，同时避免多次反馈造成的算法效率和检索效果之间的矛盾[6]。王崇骏等在IPSM模型对图像的语义分类特征进行描述和提取的基础上，提出并实现了基于高层语义的图像检索算法以及基于高层语义的相关反馈算法[7]。李健提出一种以曲波变换为基础，综合香农熵与频域子带能量特征的图像检索算法。该方法用香农熵进行预分类，用子带图像的能量特征进行相似度度量，并加入检索者的反馈信息，实现图像的精确检索[8]。牛蕾等回顾了早期的启发式相关反馈算法和近期的最优相关反馈算法，对现有的相关反馈算法进行了分析、总结和对比，并提出了今后相关反馈算法的发展方向[9]。因限于篇幅，不一一列举图像检索算法。

2.2 图像特征研究（颜色特征、纹理特征、形状特征、空间关系特征等）特征提取是计算机视觉和图像处理中的一个概念，是图像检索的核心内容。它指的是使用计算机将图像信息进行分解、匹对，决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集，这些子集往往属于孤立的点、连续的曲线或者连续的区域。目前，特征提取算法各种各样，算法计算复杂性和可重复性也非常不同。颜色特征是一种全局特征，描述了图像或图像区域所对应的景物的表面性质，由于颜色特征不能反映颜色信息的空间分布等特点，因此基于颜色特征的图像检索存在一定的缺陷，影响图像检索效果。王向阳等提出一种鲁棒的多特征彩色图像检索新方法，实验结果表明，该方法不仅能够准确、快速的检索出用户所需图像，而且对光照、锐化、模糊等噪声攻击均具有较好的鲁棒性[10]。纹理特征也是全局特征，它和颜色特征不同，纹理特征不是基于像素点的特征，它需要在包含多个像素点的区域中进行统计计算，这样提高了模式匹配的成功率，但光照、反射情况对图像检索存在一定干扰。安志勇等在构造了具有旋转、平移和尺度不变的纹理特征的基础上，提出基于纹理特征的图像检索算法，该算法具有旋转、平移和尺度不变性，与其它方法相比，具有较高的检索率[11]。形状特征有两类表示方法：一类是轮廓特征；另一类是区域特征。图像的轮廓特征主要针对物体的外边界，而图像的区域特征则关系到整个形状区域。形状特征可以比较有效地利用图像中感兴趣的目标来进行检索，但图像形状本身存在容易出现变形的情况，而且人的主观意识对图像形状的判别也存在影响。何姗等提出一种基于兴趣点的图像检索新方法ACSM，利用兴趣点的位置信息，提取兴趣点周围局部区域的颜色矩特征和区域形状不变矩特征，由于将颜色和形状特征有机结合，ACSM算法有效提高了图像检索的准确性[12]。空间关系，是指将一幅图像进行分割，分割出来的多个目标之间的相互的空间位置或相对方向关系（邻接、重叠等关系）。空间关系特征的使用可加强对图像内容的描述区分能力，但空间关系特征常对图像或目标的旋转、反转、尺度变化等比较敏感。张伟等构造了在平移缩放旋转下保持不变的基于度量矩阵特征值的图像空间关系描述子。研究表明这种描述与人的主观视觉心理相一致，在平移缩放旋转下以及小噪声下具有较强的鲁棒性，具有较好的类别可分离性[13]。

2.3 图像语义研究

图像语义研究是图像理解的重点和难点，在现实生活中，人的视觉特征因人而异，人对同一副图像的情感认知也不尽相同，导致不同的人对同一副图像特征提取出现天壤之别。如何对一幅图像的特征（颜色、纹理、形状等）描述与视觉特征相吻合，进行客观的语义描述，实现基于语义的图像检索是国内学者研究的热点之一。图像语义研究包括语义鸿沟、高层语义、底层特征语义等角度。语义鸿沟是图像检索系统广泛存在的问题之一，它是人对图像相似性的判别依据与计算机对相似性的判别依据之间的不同，造成了人所理解的“语义相似”与计算机理解的“视觉相似”之间的“语义鸿沟”的产生。张菁等针对相关反馈和感兴趣区检测在弥补语义鸿沟时存在主观性强、耗时的缺点，提出了视觉信息是一种客观反映图像高层语义的新特征，基于视觉信息进行图像检索可以有效减小语义鸿沟[14]。高层语义主要涉及图像的场景语义、行为语义和情感语义。一般而言，高层的图像语义往往建立在较低层次的语义获得的基础上，并且层次越高，语义越复杂，涉及的领域知识越多，也是图像语义描述的难点之一。吴楠等利用图像的高层语义信息来进行图像检索，在深入研究图像高层语义的低层特征描述的基础上，提出了图像语义的层次划分，并对每个高层语义层提出了语义抽取和检索算法。该检索算法可以有效地对图像高层语义信息进行提取，并可作为新型高效图像检索系统的一个模型[15]。袁薇等指出了应用图像的高层语义特征和底层颜色特征作为图像检索的综合指标，将图像文本和视觉信息融合起来，给出了一种综合语义和颜色特征的图像检索系统的体系架构，以填补多媒体底层特征和高层语义之间的差异[16]。

2.4 图像检索技术研究

图像检索技术的发展是一个不断进化的过程，最初是基于文本的图像检索。基于文本的图像检索是首先对图像的特征进行文本描述，然后利用关键词进行检索图片，费时费力，而且检索效率低下，容易出现错误。为了克服基于文本的图像检索的局限性，提出了基于内容的图像检索系统，通过特征提取和高维索引技术进行检索，通过比较视觉特征的相似度来获得检索结果。洪俊明总结了图像数据库检索技术的发展轨迹和特点，针对基于内容的图像检索技术中的局限性，从计算机底层硬件的角度提出了基于内容检索的流水索引法[17]。但在现实生活中，人们往往习惯于对图像的语义进行检索，而不是图像的特征，如何建立从图像的低层特征到高层语义的映射，获取图像的语义概念，并在此基础上进行语义检索，是图像检索技术的一个新的方向，即基于语义的图像检索技术。陈久军等提出图像语义检索整体框架，系统采用XML技术，将图像内容层式描述、图像语义对象自动获取、图像语义相似测度等功能模块加以融合，实现语义层面的图像检索[18]。

3 结语

国内对图像检索的研究热点主要集中在图像检索的算法研究、图像特征研究（如颜色特征，纹理特征，形状特征等）、图像语义研究等。当然，国内针对图像检索研究的热点还有，比如基于流行学习的图像检索技术、遗传算法、粗糙集理论在图像检索中的应用以及医学图像检索相关技术的研究等等，因限于篇幅，笔者主要列出国内学者研究比较集中的热点问题。通过共词分析法来展现国内图像检索研究的学科热点问题，这类文献基本没有。笔者的目的在于通过这篇研究论文，图像检索研究领域的学者或者是对图像检索感兴趣的人可以很清晰的发现近十年来图像检索研究领域过去的关注点、现在的热点以及未来的发展趋势。本文在研究过程中，也存在不足。在介绍图像检索研究热点问题，因限于篇幅，很多相关热点没有一一展示；在文献选取时，以期刊为检索源，忽略了硕博士论文，对研究结果会有一定的影响；高频关键词的设定、多维量表分析、知识图谱分析等都具有一定的主观性，这些问题是笔者下一步需要完善的地方。

参考文献

[1]张玉双.我国高校图书馆知识管理研究的文献统计分析[J].晋图学刊，2008，（5）：45-48.

[2]储节旺，王龙.近十年国内知识管理研究热点——基于CSSCI数据库的词频分析[J].情报科学，2011，（9）：1425-1429.

[3]Manfred Wettler.Reinhard Rapp Computation of Word Associations Based on the Co-occurrences of Words in Large Corpora[EB/OL].2005-10-09.

[4]（美）林顿·C·费里曼.社会网络分析发展史[M].张文宏，刘军，王卫东，译.北京：中国人民大学出版社，2008：2-3.

[5]鲁珂，赵继东，叶娅兰，等.一种用于图像检索的新型半监督学习算法[J].电子科技大学学报，2005，（5）：669-671.

[6]许相莉，张利彪，刘向东，等.基于粒子群的图像检索相关反馈算法[J].电子学报，2010，（8）：1935-1940.

[7]王崇骏，杨育彬，陈世福.基于高层语义的图像检索算法[J].软件学报，2004，（10）：1461-1469.

[8]李健，牛振山.基于曲波的纹理图像检索系统的设计与实现[J].计算机工程与科学，2011，（3）：62-66.

[9]牛蕾，倪林.基于内容的图像检索中的相关反馈算法[J].计算机工程与应用，2004，（32）：65-70.

[10]王向阳，芦婷婷.一种鲁棒的多特征彩色图像检索新方法[J].中国图象图形学报，2007，（10）：1757-1760.

[11]安志勇，曾智勇，赵珊，等.基于纹理特征的图像检索[J].光电子·激光，2008，（2）：230-232.

[12]何姗，郭宝龙，洪俊标.基于兴趣点颜色形状特征的图像检索方法[J].微电子学与计算机，2006，（3）：40-43.

[13]张伟，何金国，桑佩罗布.基于度量矩阵特征值的图像空间关系描述[J].计算机应用研究，2010，（11）：4376-4378.

[14]张菁，沈兰荪，David Dagon Feng.基于视觉感知的图像检索的研究[J].电子学报，2008，（3）：494-499.

[15]吴楠，宋方敏.一种基于图像高层语义信息的图像检索方法[J].中国图象图形学报，2006，（12）：1774-1780.

人文主义的基本特征篇（2）

相对而言，由于中文语言结构的独特性和语义的复杂性，中文实体关系抽取研究整体上与国外的研究还存在一定差距，常用的基于浅层语法分析获取特征的方法已经达到瓶颈。本文也将采用 SVM模型训练语料，但于以往不同的是，该方法扩展了实体关系特征的选择范围，除了传统的词法特征、实体原始特征外，又选择了句法特征、语义特征等作为实体关系特征，主要包括语义角色标注、依存句法关系、核心谓词特征等，并依据中文的语法特点对这些特征进行有机整合，得到二元实体对之间的丰富关系特征，最后交由SVM 进行训练和测试。

一、本文的主要研究方法

（一）SVM的实体关系与句法语义特征抽取方法过程

研究方法依据LTP-Cloud对原始语料进行简单的初步处理，利用LTP-Cloud对原始语料的词、句法作为分析结果的基础，之后生成二元实体对，将实体对的特征数据采集起来，转化成训练文本，然后再将训练文本交给SVM进行强化训练。这不仅是本文的创新内容还是最主要的核心部分，因为LTP-Cloud主要以单个句子为研究对象，这就需要我们获取命名实体信息，将实体句子相互结合，形成实体对，假如说只有一个实体或者是没有实体，那就说明不存在真正的实体关系，就需要我们将其去掉。

（二）实体关系的基本特征

常规的实体关系特征主要从词法分析结果来获取，以往的研究已经表明了这些特征的有效性。面向句子中所有实体组成的二元实体对，本文选择的基本实体关系主要特征如下：

1.实体种类。目前LTP-Cloud能够识别的实体种类有人名、地名、组织机构名。

2.实体长度。根据命名实体结果的标识信息中，获取多词实体的边界，并根据其首尾词的位置来计算实体长度。

3.实体内容。这里采用词袋机制将实体内容由字符转换为数字。

4.实体中各词的词性标注。

5.实体的上下文环境。包括实体前后两个词的内容以及词性标注信息。

（三）句法语义的主要特征

本方法对处理结果再进一步的深入研究，可以得到更多的句法语义特征。

1.句法依存关系。将获取实体对中每一个实体在原句中所属的句法依存关系值。

2.实体与核心谓词的距离。根据实体首词在句中的位置和核心谓词的位置，计算出每一个实体与核心谓词的距离。

3.语义角色标注。LTP-Cloud的初步结果中包含了针对所有谓词的语义角色标注结果，但是只有基于核心谓词的语义角色标注的覆盖度是最广的，所以这里也仅选择基于核心谓词的语义角色标注结果作为这一特征来源，获取实体对中每一个实体所属的语义角色成分，将其作为实体关系的一种特征。

每组实体对的实际特征个数会随着实体长度的不同而不同；这些特征之间的相对位置并不是任意的，需要根据一定的规律合理安排。

二、试验方法与结果分析

（一）实验结果评价标准

预设了4种实体关系种类：人名实体与组织机构实体之间的雇佣关系、组织机构实体与地名实体之间的位于关系、属于同一种实体类型的同类关系和无关系。由于本文亦将实体关系抽取过程看作是分类的过程，所以这里的评价方式也采用常规的准确率、召回率和F1值。

因为分类标注问题不同于信息检索问题，所以应计算所有实体关系种类的准确率和召回率的平均值，以此作为整体抽取结果的准确率和召回率，并由此得出整体F1值。

（二）实验设计思路

本方法用1998年1月份的《人民日报》所有版面内容作为语料，共含有4万多个中文句子。由于LTP-Cloud需要以句子为基本处理对象，所以还需采用基于规则的方法将语料内容进行分句。将上述语料通过LTP-Cloud处理后，可得到含有约8.5万个唯一实体的处理结果，由此可得到约3.6亿个二元实体对，将其中的80%作为训练语料，20% 作为测试语料，进一步分析出实体对中句法语义特征数据，并人工添加实体关系分类标注，最终形成训练语料。采用libSVM作为辅助工具，在SVM的训练过程中，选择RBF作为核函数，采用交叉验证法，得到最优参数c=2.0， g=0.5， CV rate=73.1905。实验程序采用Python语言编写实现。

（三）实验结果分析

为了与传统研究方法进行比较，对比组选取传统的基本特征，实验组在原有传统基本特征的基础之上加入句法语义特征。

通过以上的统计结果研究显示，实验组的抽取效果很明显的优越于对照组。同时位于关系、同类关系和无关系的效果更加明显一些，所以说本研究方法是有一定的实际意义的。

但是其中也存在一个明显的问题，从局部来看，部分实体关系抽取的效果相对较差，例如，人名实体与组织机构实体之间的雇佣关系。在实体对中，并不是只要存在一个人名实体与一个组织机构实体，就应认定他之间存在雇佣关系，只是在句中的位置、具体的词不同，所以这就容易导致分类错误。

三、结束语

人文主义的基本特征篇（3）

中图分类号：TN919-34； TP391 文献标识码：A 文章编号：1004-373X(2011)24-0103-04

Research on Image Semantic Extraction

WEI Han LI Bi-cheng ZHANG Rui-jie TANG Yong-wang

(Depart. of Information Science, Information Engineering Institute, Information Engineering University, Zhengzhou 450002, China)

Abstract： The current image semantic extraction method is researched to find a solution to eliminate the "semantic gap" between low-level visual features and high-level semantic features of images. The image semantic level model is simply introduced. According to the semantic information extracted from different sources, the information extraction methods based on processing region, machine learning, man-machine alternation and external information source are summed up. The above work provides a valuable reference for image semantic extraction and retrieval.

Keywords： semantic extraction; local operator; SVM; semantic annotation

收稿日期：2011-07-10

基金项目：国家自然科学基金资助项目（60872142）

随着多媒体和互联网技术的迅猛发展，网络图像资源与日俱增，图像已经成为一种非常重要的信息资源，其包含的信息量远远大于文字，因此如何充分理解图像中所包含的语义内容、如何真正有效地利用语义进行图像资源的检索，如今已成为一个重要的课题。计算机对图像内容的理解一般指图像的低层视觉特征，如颜色、纹理、形状等；而实际上，人类对图像的理解即图像语义信息表达的内容要远远多于图像的视觉特征。这种从图像低层视觉特征与图像高层语义特征之间存在着的较大差距，即“语义鸿沟”［1］。现在，图像语义提取已成为解决图像低层视觉特征与人类高级语义之间“语义鸿沟”的关键技术，许多学者在此方面也进行了大量的尝试性工作和研究。

1 语义层次模型

图像语义模型是图像语义直观形象的描述形式。通过语义模型，能使用户了解和掌握如何从图像中提取语义特征，对于更好地理解和应用图像的语义信息具有重要作用。根据图像中各语义要素间组合的抽象程度，图像语义按图像语义层次模型大致可分为特征语义、对象语义、空间关系语义、场景语义、行为语义和情感语义等6个层次，用以对不同层次的图像内容进行描述，这个模型称为图像层次化语义模型。

图像的语义层次可用图1来简单描述，其中的每一部分对应于图像的一个语义层次，并相应于人对图像的理解层次。图中的箭头表示语义的级别，下一个层次通常包含了比上一个层次更高级更抽象的语义，而更高层的语义往往通过较低层的语义推理而获得。

考虑到图像语义的模糊性、复杂性、抽象性，图像的语义模型主要包括以下几种语义特征：

（1）视觉特征语义（如颜色、纹理、结构、形状、运动等），与视觉感知直接相连，称为低层语义；

（2）对象语义（如人、物等）和空间关系语义（如人在房前，球状草地上等），这需要进行一定的逻辑推理并识别出图像中目标的类别，它们合称为对象层；

（3）场景语义（如海滨、旷野、室内等）、行为语义（如进行图像检索、表演节目等）和情感语义（如赏心悦目的图像、使人兴奋的视频等），合称为概念层，由于涉及到图像的抽象属性，需要对所描述的目标和场景的含义进行高层推理。

2 图像语义提取方法

按照语义层次模型划分，人们正在研究的语义提取主要包括：对目标类别和目标空间关系语义的提取，这常需借助领域知识；对场景和行为语义的提取，也就是对图像和场景理解和解释；对情感语义的提取，这目前主要在艺术图像领域。

另外根据语义信息的来源不同，图像语义提取方法又可以分为4类，即基于处理范围的方法、基于机器学习的方法、基于人机交互的方法、基于外部信息源的方法［1］。下面以这种分类方法对图像语义提取方法进行详细的介绍。

2.1 基于处理范围的方法

按照对图像提取特征范围的大小来分一般分为2类：基于全局的提取方法和基于区域的提取方法。基于全局的提取方法一般是从全局角度对图像进行描述和分析，如图像的颜色直方图、纹理特征，形状特征等，它们反映的是图像整体特性，在早期研究图像语义时用得较多；基于区域的提取方法是在图像分割和对象识别的前提下进行，利用对象模板、场景分类器等，通过识别对象及对象之间的拓扑关系挖掘语义，生成对应的场景语义信息［1］，或者是利用一些局部算子来提取图像语义，是现阶段主要的研究方法。这些局部特征提取算子主要有：Harris算子、SIFT算子、LBP算子、SURF算子等，它们能够很好的表示图像的语义信息。

Harris算子［2］是一种简单的局部算子提取方法，它对旋转、尺度、光照变化以及噪声均有不变的特性。其检测原理为：当一个窗口在图像上移动，如果窗口位于图像区域中灰度值的平坦区域，窗口的各个方向上都不会有特别明显的变化；如果窗口位于图像的边缘区域，窗口沿图像的边缘方向上没有明显变化，在与图像的边缘方向垂直的方向，灰度变化会相当明显；如果在角点处，窗口的各个方向上都有变化。Harris角点检测就是利用这个物理现象，通过判断窗口在各个方向上的变化以决定其是否为角点。实际上，Harris角点检测就是对于一幅图像，提取与自相关函数的曲率特性有关的角点特征。Harris算子中只用到了图像灰度的一阶差分与滤波，操作比较简单，提取的特征点均匀且合理，在纹理信息丰富的区域，Harris算子能够提取大量有用的特征点，而在纹理信息少的区域，Harris算子提取的特征点则较少，这是由于在它的计算过程中，只用到了图像的一阶导数，所以即使存在有图像的旋转、灰度的变化、噪声的影响以及视点的变换等，Harris算子对角点的提取也是比较稳定的。

David G.Lowe［3］于2004年提出了一种SIFT（Scale Invariant Feature Transformer）图像局部特征描述算子。SIFT算法的本质就是从图像中提取SIFT关键点的过程，该过程为：尺度空间极值点的检测，即初步确定关键点位置和所在尺度；特征点位置的精确确定，即去除低对比度的关键点和不稳定的边缘相应点，以增强匹配稳定性、提高抗噪能力；特征点方向参数的确定，即使算子具备旋转不变性；特征点描述子的生成，即生成SIFT特征向量。SIFT算子匹配能力强，能提取比较稳定的图像特征，可以处理2幅图像之间发生平移、旋转、仿射变换、视角变换、光照变换情况下的匹配问题，甚至在某种程度上对任意角度拍摄的图像也具备较为稳定的特征匹配能力，从而可以实现差异较大的2幅图像之间的特征的匹配。后来Y.Ke提出了对SIFT的特征描述符用PCA代替直方图的方式，进行降维，并取得了更好的效果。

LBP(Local Binary Pattern)是一种描述图像局部空间结构的非参数算子。芬兰奥卢(Oulu)大学的ojala et a1．最早提出了这个算子并且描述了它在纹理分类中的强区分能力［4］。LBP算子定义为一种灰度尺度不变的纹理测量，是从局部领域纹理的普通定义得来的。LBP算法的本质就是利用图像中每个像素点与其邻域内其他各点的灰度值的差异，描述图像纹理的局部结构特征，该局部结构用一个二进制的数字来量化。这种以邻域为单位的局部结构可以看作是一个纹理单元，该纹理单元在整幅图像中有规律的出现就构成了一定的纹理，而对整幅图像中纹理单元的统计就表达了整幅图像的纹理特征，LBP算法一般可以分为基本LBP描述、旋转不变量的LBP描述和uniform模式的LBP描述。

SURF(Speeded Up Robust Features)算法是Bay等人［5］于2006年提出，是一种新的快速兴趣点检测与描述方法，它的性能超过了SIFT且能获得更快的速度。SURF算法主要包括2个部分：利用快速Hessian检测子检测兴趣点和用SURF描述子去描述兴趣点。SURF算法的计算速度可以比SIFT 快3倍，它对图像的旋转、尺度伸缩、光照、视角等变化保持不变性，尤其对图像严重的模糊和旋转处理得都非常好，但是在处理图像光照和视角变化时不如SIFT算法。SURF是非常新的局部不变特征方法，国外也只是仅有一些SURF的应用研究。

2.2 基于机器学习的方法

机器学习方法就是对图像低层特征进行学习，挖掘图像特征与图像语义之间的关联，从而建立起图像特征到图像高层语义的语义映射关系，主要包含2个关键步骤：一是低层有效特征的提取，如颜色，纹理，形状等特征；二是映射算法的运用，目前，应用于图像语义映射的技术已有很多，主要包括：贝叶斯、神经网络、遗传算法、聚类、支持向量机等。

贝叶斯学习算法是基于参数估计(Parameter Estimation)的方法，是一种监督学习(Supervised Learning)方法，贝叶斯 (Bayes)模型具有很强的实用性。文献［6］提出利用混合贝叶斯网络进行医学图像的语义检索，这种模型结合了支持向量机，用6个支持向量机将医学图像特征离散化，并提取出6个中间语义层，然后利用贝叶斯网络从而得到高层语义特征即关于肌瘤的恶化程度。对比结合K-NN的贝叶斯网络，这种结合SVM的贝叶斯网络的分类效果更好，这对于缩小语义鸿沟也是不错的尝试。

人工神经网络(简称神经网络)是人们从模仿脑细胞结构和功能的角度出发建立的一种信息处理系统，它能智能地对信息进行表示、存储和处理，并具有一定的学习、推理能力，在模式识别、优化计算、智能控制、专家系统等众多领域得到了广泛的应用并取得了引人瞩目的成果，另外神经网络结合其他算法，如模糊算法，遗传算法等一起使用，能使结果更加优化。文献［7］利用遗传算法训练的RBF神经网络来建立图像的颜色、纹理、形状等低层视觉特征到高层语义特征的映射，最后识别出了山脉、草原、鲜花和度假区等4类高层语义场景，最低的查准率为82.5%。

支持向量机(SVM)是在统计学习理论基础上发展起来的一种新的通用学习方法。与传统统计学相比，统计学习理论（Statistical Learning Theory)是一种研究有限样本情况下机器学习规律的理论，它在解决小样本、非线性以及高维模式识别中具有显著的优势，是一种非常有效的映射方法，是近年来的一个研究热点，在获取图像语义方面也取得了很多的成果。文献［8］提出一种改进的SVM即聚类引导的SVM，简称CGSVM，它利用聚类结果选择最好的图像样本进行标注并且优化处罚系数，并且能够得到比一般的SVM更高效的图像分类且使图像语义检索拥有更高的准确度。

2.3 基于人机交互的方法

对图像语义的提取，现已提出的方法主要侧重将低层的图像视觉特征映射到高层语义，以填补所谓的语义鸿沟（Semantic Gap）。基于人机交互的语义提取方法一般是系统使用低层特征，而用户则加入高层知识，提取方法主要包括图像预处理和反馈学习2个方面。早期一种简单的图像预处理方式是对图像库中的图像进行人工标注，现在人们更多的是用一些自动或半自动的图像语义标注方法。反馈学习是在提取图像语义的过程中加入人工干预，通过用户与系统之间的反复交互来提取图像的语义，同时建立和修正与图像内容相关联的高层语义概念。

文献［9］介绍了一种基于图像区域对象本体的语义标注算法。该算法首先建立语义区域描述子模型，根据区域的相似特征完成相似语义标注，然后，建立图像区域目标标注描述模型与图像语义标注描述子模型的对应关系，把空间关系描述子与语义对象，对象语义关系描述子相对应。文献［10］提出了一种新的自动提取图像的原始标注的方法，系统包括3个步骤，首先是把数据库中的所有图像分成规则的小块，融合不同的低层内容描述子，然后在基于块构件的对象语义概念，最后依据对象语义概念形成候选标注并得到一幅图像的最终标注结果。

2.4 基于外部信息源的方法

当前图像识别和理解的技术水平还比较低，如果完全依靠图像的视觉特征来获取网络图像的语义还相当困难。同时，对于海量的网络图像而言，人工交互的语义提取又显得微不足道，并且网络图像的最大特点是嵌入在HTML文档中，且现在文本提取语义信息的技术相比图像语义提取成熟很多，并且HTML文档中的文本内容作为网络图像的外部信息源与其语义信息有着紧密的联系。那么，考虑外部信息源，利用自然语言处理技术来提取网络图像语义信息是将会是一种非常有效的策略。文献［11］给出了一种www 图像语义表征模型和图像语义词典的建设方法，提出利用图像语义词典，用嵌有www 图像的HTML网页的相关外部文本信息来提取网络图像高层语义信息的方法。网页中的图像包含3个方面的属性：文件属性、视觉属性和语义属性。根据图像语义表征模型，分别建立了图像主题词分类词典、图像主体词分类词典、图像主体属性词典和图像主题词对照词典，然后利用自然语言文本提取技术从www图像所在网页的相关外部文本信息中提取图像的主题词、主体词及其属性词等高层语义信息。

3 结语

图像语义提取方法涉及到多个学科和技术领域，需要研究的问题还很多。本文依据语义的不同信息来源，详细介绍了基于处理范围的语义提取方法、基于机器学习的语义提取方法、基于人机交互的语义提取方法和基于外部信息源的语义提取方法。虽然已经有许多方法来实现图像语义提取，但由于各种理论和相关技术的限制，效果好的、鲁棒性强的方法还很难实现，因此仍有许多问题有待下一步去学习、解决和深入研究。

参考文献

［1］ EAKINS J P. Automatic image content retrieval: are we getting anywhere [C ]// Proc. of 3rd Int. Conf. on Electronic Library and Visual Information Research. Milton: [s. n. ], 1996: 123-135.

［2］ HARRIS C，STEPHENS M．A combined corner and edge detection [C ]// Proc．of 4th Alvey Vision Conf. Alvey: AVC, 1988：189-192.

［3］ G.LOWE D. Distinctive image features from scale-invariant keypoint [J ]. International Journal of Computer Vision, 2004, 60 (2): 91-110.

［4］ OJALA T, PIETIKINEN M. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns [J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24 (7): 971-987.

［5］ BAY H，TUYTELAARS T，COOL L. SURF：speeded up robust features [C ]// Proceedings of the 9th European Conference Computer Vision. [S. l. ]: UCCV, 2006: 404-417．

［6］ LIN Chun-yi, YIN Jun-xun, GAO Xue, et al. A semantic modeling approach for medical image semantic retrieval using hybrid bayesian networks [C ]// Proceedings of IEEE Sixth International Conference on Intelligent Systems Design and Applications. Jinan, China: IEEE, 2006: 482-487.

［7］伍小芹，温小斌，康耀红.基于神经网络生成图像语义的算法研究［J］.计算机工程与应用,2007,43(31):61-63.

［8］ GAO Ke, LIN Shou-xun, ZHANG Yong-dong. Clustering guided SVM for semantic image retrieval [C ]//. Proceedings of 2007 2nd International Conference on Pervasive Computing and Applications. Birmingham: ICPCA, 2007: 199-203.

［9］ SHI Lei, GU Guo-chang, LIU Hai-bo, et al. A semantic annotation algorithm based on image regional object ontology [J ]. IEEE Computer Science and Software Engineering, 2008，4: 540-543.

［10］ LIU Zheng, MA Jun. Refining image annotation based on object-based semantic concept capturing and WordNet ontology [C ]// Proceedings of IEEE Fifth International Conference on Fuzzy Systems and Knowledge Discovery (FSKD) [S. l. ]: IEEE, 2008 (4): 96-100.

［11］张华,张淼,孟祥增.基于外部信息源的WWW图像语义提取研究［J］.计算机科学,2006,33(4):211-214.

作者简介: 魏晗女，1982年出生，河南郑州人，硕士研究生，讲师。研究方向为图像视频处理。

人文主义的基本特征篇（4）

当前学者对社会主义和谐社会本质的理解及其缺陷

当前学者对社会主义和谐社会本质的理解主要是围绕社会主义和谐社会六个方面的特征，有两种主要认识：一是把某一（些）特征看作是社会主义和谐社会的本质，如以人为本说、公平公正（社会平等）说、协调社会关系说、民主法治说；一是把从某一（些）特征引申出来的外延看作社会主义和谐社会的本质，如制度创新说、社会均衡说、利益关系和谐说、伦理精神说、政治和谐说、人的全面发展说等等。学者们力图论证和确定社会主义和谐社会的本质，为构建社会主义和谐社会出力献策。然而，由于没有深刻把握马克思主义实践哲学思维，使得这些认识没有从总体和根本上揭示真理的本质。

第一，把社会主义和谐社会六个方面特征其中的某个（些）方面（包括引申出来的外延）看作是社会主义和谐社会的本质，就会突出特征而忽视了本质，在一定程度就会犯以偏概全、本末倒置的错误。社会主义和谐社会的本质相对稳定单一，而社会主义和谐社会的特征是变化多样的，在社会主义和谐社会发展的不同阶段上会呈现不同的特征或是程度的不同。如公平公正只是和谐社会所表现出来的一种行为、状态，但它不是和谐社会的本质。公平公正说强调社会公正平等在构建社会主义和谐社会中的重要作用和意义，却并没有说明同为基本特征，为什么公平公正这一特征就比其它特征更重要，而成为社会主义和谐社会的本质。六个方面特征我们不能说孰重孰轻，它们在构建社会主义和谐社会中都是必须重视和解决的问题，是同等重要的。这些观点同样也没有说明作为本质的这个特征与其它特征的关系是怎样的。因此，把六个特征中的某个（些）当作社会主义和谐社会的本质，是不准确的。

第二，在论述社会主义和谐社会的本质中，实践作为方法论缺失显而易见。马克思主义超越了以往的旧哲学，就是马克思主义实现了实践的转向。因此，只有以实践思维方式才能理解社会主义和谐社会的本质。但当前许多学者在认识社会主义和谐社会本质时，却弱化了实践方法论，这也是他们为什么只强调特征，不能从实践整体把握社会主义和谐社会本质的原因。

第三，从具体实践来看，各种纷繁的观点不利于指导人们的实际活动。由于每种观点对社会主义和谐社会认识不尽相同，繁杂众多的理论指导实践时，会造成思想的混乱，使得人们感到迷惘，不知道究竟用哪种理论来指导行动。

从实践理解社会主义和谐社会的本质

社会主义和谐社会的民主法治、公平正义、诚信友爱、充满活力、安定有序、人与自然和谐相处六个特征中，前五个特征都是关于社会关系的，指的是人与人、人与社会之间的关系，最后一个是关于人和自然之间的关系。由此可以看到，社会主义和谐社会应该是人与人、人与社会、人与自然和谐相处的社会。构建社会主义和谐社会，就是如何处理好人与人、与自然、与社会的关系。实践是马克思主义哲学的根本特征，实践观作为马克思主义哲学首要的基本观点，是我们正确认识社会主义和谐社会理论，正确地界定社会主义和谐社会本质的根本方法论原则。以实践思维方式解读社会主义和谐社会的本质就是在社会主义实践过程中实现人与人、人与社会、人与自然对立面的和谐统一。

实践是社会主义和谐社会的本质。首先，人与人和谐的实践本质。人与人的和谐包括个体的人之间和人自身存在和发展的和谐。每一个人在实践中形成自身独特的个性，使得他与他人区别开来，造就了每个个体之间的差异性，个体之间关系的对立性在实践中产生。与此同时，个体之间又通过现实的实践活动彼此影响和渗透，消除异化，达到统一。在实践过程中，人的本质力量对象化于外部世界，使人的天赋和能力得到显现和发展，同时人又从外部世界获得新的本质力量，使人的自身得到发展和提升。其次，人与社会和谐的实践本质。马克思指出：“人的本质并不是单个人所固有的抽象物，在其现实性上，它是一切社会关系的总和，而社会生活的本质是实践的。”①一切社会关系都是在实践的基础上存在和发展的，个人与社会在实践中形成了相互制约、相互依存的对立统一关系。一方面，人是社会的人，人的根本属性是社会性，离开了社会实践中形成的社会关系，人就不成其为真正的人，只有存在于一定的社会关系中的人才是具体的人、社会的人和历史的人。另一方面，社会是由每个个体组成的、在实践中相互联系的个人和集体，脱离了人的实践交往，就不可能有社会的出现，社会在人的创造性的实践活动中不断运动变化发展。人与社会在实践中不断地实现互为条件、相互依存、有机统一的和谐整体。最后，人与自然和谐的实践本质。马克思说：“环境的改变和人的活动是一致的，只能被看作是并合理地理解为革命的实践”。②人与自然是在实践基础上生成的矛盾的统一体。一方面，实践生成了人与自然的对立。人通过实践从自然分化出来，摆脱了纯粹的自然性。人必须改造和利用自然才能生存和发展，而自然又以自身的规律制约着人的活动。另一方面，实践又消除了人与自然的对立，使二者达到统一。通过实践，人把自己的本质力量注入到自然，使自然按照一定的方式发生改变，使自然更适合人类的生存。而人也在改造利用自然的实践中把自然的力量转化为自身的能力，人不断地得到发展。在人化自然和自然人化的转化过程中，人不断地剔除同自然界的原始的、同一的顺从关系，逐渐地实现在实践基础上的双重对象化的统一（即和谐）的关系。因此，人与自然的和谐，只能是在实践实现。

从实践理解社会主义和谐社会本质的意义

从实践出发分析社会主义和谐社会的本质，对于准确深刻地理解和把握社会主义和谐社会理论，以及指导社会主义和谐社会的建设具有重要的意义。

第一，正确地解决了社会主义和谐社会的本质与特征的关系。社会主义和谐社会六个方面基本特征，不是社会主义和谐社会的本质。社会主义和谐社会的本质是实践，表现为实践对立面的统一。在这里，实践具有本体论方法论意义，也即是说人自身以及与人一切的关系都是通过实践产生、存在和发展的。六个方面基本特征只是社会主义和谐社会的本质在经济、政治、文化、社会等诸方面的体现。如果把外在表现出来的特征看作是本质，在理论上就不能完整准确地把握社会主义和谐社会的本质，指导具体的实践活动，就会犯本末倒置、以偏概全的错误。

第二，统一了人们对社会主义和谐社会本质的认识。社会主义和谐社会是一个有机的系统，系统内部的各个子系统之间彼此平衡协调融洽，它涉及经济、政治、文化、社会等各个领域，每个领域、每个特征都是同等重要的。和谐社会一方面表现在经济、政治、文化、社会各个系统、领域内部的和谐统一；另一方面表现在各个子系统、领域之间的和谐、协调发展，表现为物质文明、精神文明、政治文明和社会文明的和谐统一与协调发展。社会主义和谐社会并不只是某一系统、某一领域方面的和谐统一，正是把实践看作是社会主义和谐社会的本质，才能从宏观上把握我国社会主义初级阶段方方面面的复杂关系，从而制定具体有效的方法，促进各个方面的和谐统一。

第三，社会主义和谐社会的实践本质决定了构建社会主义和谐社会是一个漫长而又复杂的过程。从总体上看，现阶段我国社会生产力水平还比较低，科学技术水平与民族文化素质还不够高，社会主义制度还不够完善，在经济、政治、文化和社会生活多方面存在着种种矛盾，实践对立面关系错综复杂。通过实践要解决的不是某个（些）方面的关系，而是全方位的复杂关系。因此，实现所提出的社会主义和谐社会还需要很漫长，而且是充满艰辛挫折的过程。

人文主义的基本特征篇（5）

中图分类号：TP3-05文献标识码：A文章编号：16727800（2012）009000303

1文本情感研究的背景

所谓文本情感分析（Sentiment Analysis），就是对说话人的观点、态度和情感倾向性进行分析，即分析文本中表达的主观性信息。根据立场、出发点、个人态度和喜好的不同，人们对各种对象和事件表达的信念、态度、意见和情感的倾向性不可避免地存在差异。在论坛、微博等反映人们观点的网络媒体上，尤其表现出了这种差异。

文本情感分析在实际生活中有着广泛的应用，可以应用于产品推荐系统、有害信息过滤、社会舆情分析、产品在线跟踪和质量评价、影视评价、Blogger声誉评价、新闻报道评述、事件分析、股票评论、图书推荐、敌对信息检测、企业情报系统等方面。

在已有研究中，文本情感分析也被称作观点鉴别（Opinion Classification）、流派分类（Genre classification）、情感的极性（Sentiment polarity）、语义倾向（semantic orientation）、观点挖掘（opinion mining）、观点抽取（opinion extractive）等，为了表述的一致性，本文中将其统一表述为情感分析。

文本情感分析通常包含4个子问题：①确定文本情感的类别有多少；②文本的主客观区分，即区分出文本内容是主观评论还是客观陈述；③文本的极性分类（Polarity Classification），又称为正负面倾向性分类，即判别文本内容是肯定赞赏的，还是否定批判的；④文本情感强度分类，即判定文本情感倾向性的强弱程度，如强烈贬义、一般贬义、客观、一般褒扬、强烈褒扬5个类别，这一问题通常又被称为等级推理（Rating Inference）。

2文本情感分析整体研究现状

目前，公认的关于文本情感分析的研究工作开始于Pang在2002年提出的基于文本的N元语法（Ngram）和词类（POS）等特征，分别使用朴素贝叶斯（Naive Bayes），最大熵（Maximum Entropy）和支持向量机（Support Vector Machine，SVM）将电影评论文本的倾向性分为正向和负向两类。此外还有Turney在2002年提出的基于无监督学习（Unsupervised Learning）对文本情感倾向性分类的研究。同时他们在实验中使用的电影评论数据集目前已成为广泛使用的情感分析的测试集。

如今，国内外都已经掀起了文本情感的研究热潮，很多研究团体、科研院校、公司已经对文本情感展开了研究。把这些相关的研究分为4个阶段：①语料阶段；②文本的预处理阶段；③特征标注与特征选择阶段；④情感分类阶段。

2.1语料阶段

目前绝大部分语料都来自博客、专业的评论站点、新闻站点、电子商务站点。而其中影评资料、产品的用户评论、Web 2.0博客文章是研究者的首选。

康奈尔大学的电影评论数据集以及Theresa Wilson等建立的MPQA库是目前研究者广泛使用的两类情感分析数据集。

2.2文本的预处理阶段

文本情感分析的预处理包括：停用词、词缀修剪、N元词、词性标准、简化替换（如书替换为NOUN、照相机替换产品名）等，但这些有意“美化”的处理都会降低情感分析的准确率。

此外，主观句识别也属于文本情感分析的预处理阶段。该研究的目标是需要提取文本的真正表达情感的句子。Pang于2004年提出基于文本中的主观句的选择和Wilson等人于2005年开创了在短语层进行主观性分析的研究工作，提出基于文本中中性实例（Neutral Instances）的分析，他们根据28个混合特征训练了一个分类器，都是为了能够尽量获得文本中真正表达情感的句子。Abbasi于2008年提出通过信息增益（Information Gain，简称IG）的方法来选择大量特征集中对于情感分析有益的特征。

2.3特征标注与特征选择阶段

情感特征的标注方法目前主要包括：

（1）监督机器学习的方法，由已有的电子词典或词语知识库扩展生成的情感倾向词典。情感词就是指具有情感倾向的词语以名词、动词、形容词和副词为主，包括人名、机构名、产品名、事件名等命名实体。其中，部分词语的褒贬性（或称为极性，通常分为褒义、贬义和中性）可以通过查字典获得，其它的极性与情感倾向性的强烈程度都无法直接获得。

使用情感词作为特征的研究有：

朱嫣岚等人提出了基于知网的两种词汇语义倾向计算方法，即基于语义相似度的方法和基于语义相关场的方法。

娄德成和姚天昉也是通过计算文本中词汇与知网中已标注褒贬性词汇间的相似度，来获取词汇的语义倾向性。

目前，依靠语料或字典语料结合构建意见词典成为主流。由于目前用于情感分析的中文标注语料较少，即当目标领域不存在标注语料时，Xiaojun Wan通过谷歌翻译等机器翻译服务，利用英语标注语料和中文未标注语料弥补中文标注语料不足的问题。此外，还有Danushka Bollegala等提出算法可以通过其它领域标注语料和目标领域的未标注语料生成意见挖掘所需的情感敏感词典。

（2）无监督机器学习的方法。Turney在2002年基于点互信息（PMI）计算文本中抽取的关键词和情感基准词（Excellent， Poor）的相似度来对文本的情感倾向性进行判别（SOPMI算法）。实现方法简单，此算法得到了很多研究者的推荐。

Yuan等人在Turney的研究工作的基础上，对汉语极性词的自动获取进行了研究，发现采用一个字符的汉语情感词比汉语情感词的效果要好。

（3）情感特征的选择方法。目前很多情感分析的研究基于机器学习，那么特征选择就是一个很重要的问题，N元语法等句法特征是使用最多的一类特征，Wilson等人于2009年提出混合单词特征、否定词特征、情感修饰特征、情感转移特征等各类句法特征的情感分析，Abbasi等人于2008年提出混合句子的句法（N元语法、词类、标点）和结构特征（单词的长度、词类中单词的个数、文本的结构特征等）的情感分析。Melville等人于2009年提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感倾向性共同判断文本的情感倾向性。

另外，传统的文本特征选择方法有监督特征选择方法CHI、IG、MI和无监督特征选择方法DF、TS、TC、En。这些方法应用到这些情感特征选择上的效果如何还有待实验验证。

2.4情感分类阶段

（1）情感建模的方法。基于监督学习算法的情感分析仍然是主流，Zhang等人于2009年提出基于非负矩阵三分解（Nonnegative Matrix Trifactorization），Abbasi等人于2008年提出基于遗传算法（Genetic Algorithm）的情感分析之外，使用最多的监督学习算法是朴素贝叶斯、k最近邻（KNearest Neighbor，KNN）、最大熵和支持向量机等。

此外还有基于规则和无监督的建模方法。娄德成等人于2006年利用句法结构和依存关系对中文句子语义进行了情感分析，Zagibalov等人于2008年在SOPMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制在很大程度上提高了无监督学习情感分析的准确率。

（2）情感分析的其它研究点。除以上介绍的情感分析关注情感的分类以外，还有评论对象的识别、情感倾向性论述的持有者识别、抽取句子中评价词语和目标对象之间的关联关系、评价倾向极性的强度等研究方向等等。

（3）目前已有系统。目前很多系统已经问世，例如：日本富士通公司开发了从中、日、英三国语言的博客和论坛中提取对企业及其产品的评价信息的技术，根据从万维网上抓取的大量用户的评论得到产品的整体信誉度。

上海交通大学开发了一个用于“汉语汽车论坛”的意见挖掘系统。目的是在电子公告板、门户网站的各大论坛上挖掘并且概括顾客们对各种汽车品牌的不同性能指标的评论和意见，并判断这些意见的褒贬性和强度。然后，通过对文本处理的综合统计，给出可视化的结果。该系统仍需要在特征获取、权重计算等方面进行完善。

综合以上研究现状，对比国内外的研究进展，对于国内来讲，中文文本情感分析可以说刚刚起步，与国外的主要差距表现在：①在基础资源建设方面，还没有建立起一个公开、公用、权威、标准的词典资源和具有一定规模的标准语料资源；②在研究方案方面，从词语、短语、搭配、句子到文本，主要跟踪借鉴国外研究思路与技术路线进行尝试。

3中文文本情感分析亟待解决的问题

相比传统的文本分类，情感分类有先天的困难和挑战，主要表现在：①自然文本中表达方式的多样化：比喻、附和、讽刺、正话反说等；②句式的复杂性：比较型的句子、各种不同的习惯用语、句式的不同搭配等；③训练数据的稀疏性和不均衡性。这些都造成了目前较为狭窄的应用领域，不能同时获得较高的准确率和召回率。

中文文本情感分析研究方兴未艾，仍然存在很多问题亟待解决，未来的研究将主要围绕以下几个方向展开：

（1）建立标准的中文文本情感词库及标准的文本情感测试语料库。标准完善的数据库是验证算法的有力工具。因此创建更大规模且更标准的中文文本情感数据库是下一步工作的重中之重。

（2）选择最优文本情感特征集。文本情感特征是中文文本情感分析研究的第一步，在很大程度上影响最终的列表识别结果。一个词存在多维度的情感，因此，单纯依靠情感词并不能准确判定所有情况下的情感和意见。所以，对于情感特征集选择技术需要我们进一步的研究和完善。

（3）选择合理有效的文本情感分类方法。情感特征的权重简单累加并不意味着情感表达能力的累加，紧致有效的特征表达方法是跨越“语义鸿沟”的重要手段。人们往往通过各种手段多渠道地获取各种各样的情感特征，并通过不同分类器的融合表示它们。但这方法需要在更多的情感分析领域进行实验验证，未来还需要开展融合多方面文本情感特征的工作。

（4）可靠性研究。文本情感中评论的真实性通过信用评价来衡量，不真实甚至是混淆视听的评论称为意见垃圾（Opinion Spam）或虚假评论，也将是未来研究的方向之一。

参考文献：

[1]LIU B. Web data mining： exploring hyperlinks， contents [M].Usage Data. Springer，2011.

[2]PANG B， LEE L， VAITHYANATHAN S. Thumbs sentiment classification using machine learning techniques[C]. EMNLP，2002.

[3]TURNEY P D. Thumbs up or thumbs down semantic orientation applied to unsupervised classification of reviews[C]. ACL，2002.

[4]PANG B， LEE L. A sentiment education： sentiment analysis using subjectivity summarization based on minimum cuts[C]. ACL，2004.

[5]WILSON T， WIEBE J， HOFFMANN P. Recognizing contextual polarity in phraselevel sentiment analysis [C]. HLTEMNLP，2005.

[6]ABBASI A， CHEN H， SALEM A. Sentiment analysis in multiple languages： feature selection for opinion classification in Web forums[C].ACM Transaction on Information Systems，2008.

[7]朱嫣岚，闵锦，周雅倩，等.基于HowNet的词汇语义倾向计算[J].中文信息学报，2006（1）.

[8]娄德成，姚天昉.汉语句子语义极性分析和观点抽取方法的研究[J].计算机应用，2006（11）.

[9]XIAOJUN WAN. Bilingual cotraining for sentiment classification of Chinese product reviews[J]. Computational Linguistics，2011（3）.

[10]CLIFTON， ANN AND SARKAR， ANOOP. Combining morphemebased machine translation with postprocessing morpheme prediction[C]. ACL HLT，2011.

[11]YUAN R W M， CHAN T Y W， LAI T B Y， KWONG O Y. Morphemebased derivation of bipolarsemantic rientation of chinese words[C]. COLING.2004.

[12]MELVILLE P， GRYC W， LARENCE R D. Sentiment analysis of blogs by combining lexical knowledge with text classification [C]. KDD，2009.

[13]ZHANG T L Y， SINDHWANI V. A nonnegative matrix trifactorization approach to sentiment classification with lexical Prior knowledge[C]. ACL，2009.

人文主义的基本特征篇（6）

党的十七大报告指出:“中国特色社会主义道路之所以完全正确、之所以能够引领中国发展进步，关键在于我们既坚持了科学社会主义的基本原则，又根据我国实际和时代特征赋予其鲜明的中国特色。”

中国特色社会主义是指中国特色社会主义道路和中国特色社会主义理论体系的辩证统一，深入探讨中国特色社会主义在实践和理论上的中国特色，有助于人们更深刻地理解和把握有中国特色的社会主义理论体系，有助于人们在实践中自觉地坚持社会主义道路。

一、从理论体系上看，坚持科学社会主义的基本原则，立足于中国实际，形成了中国特色社会主义理论体系

党的十七大报告对中国特色社会主义理论体系作了科学概括，“中国特色社会主义理论体系，就是包括邓小平理论、‘三个代表’重要思想以及科学发展观等重大战略思想在内的科学理论体系。”这一理论体系既坚持了科学社会主义的基本原则，又根据我国实际和时代特征赋予其鲜明的中国特色。概括起来，主要表现在以下几个方面。

第一，理论渊源的承续特色

从理论渊源上看，中国特色社会主义理论体系表现出承续性特征。这首先表现在中国特色社会主义理论体系与马克思列宁主义一脉相承。马克思列宁主义是科学的世界观、方法论和价值观，其基本立场、基本观点和基本方法是中国特色社会主义理论体系形成和发展的理论根基。中国特色社会主义理论体系的形成和发展，从根本上看，是坚持和运用上述基本立场、观点和方法的必然结果。

其次，表现为中国特色社会主义理论体系与毛泽东思想一脉相承。毛泽东思想作为马克思列宁主义与中国实际相结合第一次理论飞跃的成果，无疑是马克思列宁主义的基本立场、观点和方法在中国科学运用的理论结晶。以毛泽东为核心的第一代中央领导集体，在社会主义改造基本完成之后，探索适合中国国情的社会主义建设道路，并取得了一系列重要理论成果，为后来中国特色社会主义理论体系的创立提供了宝贵的经验借鉴和现实启迪，成为中国特色社会主义理论体系的直接理论来源。

最后，中国特色社会主义理论体系是邓小平理论、“三个代表”重要思想和科学发展观等重大战略思想的有机统一体。其三个组成部分即邓小平理论、“三个代表”重要思想和科学发展观是在新时期，我们党坚持马克思主义的思想路线，立于中国实际，围绕处于初级阶段的中国社会主义发展这一理论主题，对人类社会发展规律、社会主义建设规律与共产党执政规律的认识不断深化和系统化的结果，体现出鲜明的相承性特征。

第二，理论品格的创新特色

中国特色社会主义理论体系作为马克思主义中国化的最新成果，在与马克思列宁主义、毛泽东思想一脉相承的基础上，又充分体现出创新的特征。

邓小平以超人的胆识和巨大的理论勇气，针对“两个凡是”的束缚，在坚持毛泽东所倡导的“实事求是”的同时，特别强调“解放思想”的极端重要性，围绕“什么是社会主义，怎样建设社会主义”这个问题，明确提出“走自己的路，建设有中国特色的社会主义”的命题，并阐明了社会主义初级阶段论、社会主义市场经济论、社会主义本质论等相关重大理论和实践问题，形成比较完备的中国特色社会主义理论。

以江泽民为主要代表的中国共产党人在新的实践基础上形成的“三个代表”重要思想，进一步回答了“什么是社会主义、怎样建设社会主义”的问题，创造性地回答了“建设什么样的党、怎样建设党”的问题。阐明了十三届四中全会以来我们党在改革发展稳定、治党治国治军、内政外交国防等方面的基本理论、基本路线、基本方针、基本经验，形成了比较完备系统的理论形态，实现了马克思主义中国化的新发展。

以胡锦涛为总书记的党中央和中国共产党人，提出了科学发展观理论，并就如何落实科学发展观、构建社会主义和谐社会、建设社会主义新农村、建设创新型国家、树立社会主义荣辱观、推动和谐世界建设、加强党的先进性建设等问题形成了一系列创新性的重大战略思想。科学回答了“实现什么样的发展、怎样发展”这一关系到中国现实和前途命运的重大问题，从而把对“什么是社会主义、怎样建设社会主义”和“建设什么样的党、怎样建设党”的认识提高到了一个新的高度。

可见，中国特色社会主义理论体系既坚持马克思列宁主义、毛泽东思想的基本原则，又大力推进理论创新。

第三，理论风格的民族特色

“马克思主义必须和我国的具体特点相结合并通过一定的民族形式才能实现。”[ 1 ]中国特色社会主义理论体系是马克思主义基本原理与中国优秀历史文化有机融合的产物，是具有中国特色、中国作风、中国气派的当代中国马克思主义的最新成果。

这种民族性首先表现在中国特色社会主义理论体系在坚持马克思主义基本原理和方法的前提下，从中华民族优秀传统文化和民族精神中汲取理论资源。例如，“三个代表”重要思想以总体的形式融会了中华民族的优秀思想，渗透着民族传统文化的人文精神。诸如民为邦本，本固邦宁的民本思想，天下为公的大同思想，“忧劳兴国，逸豫亡身”，“生于忧患，死于安乐”等居安思危的忧患意识。

其次，表现在对中华民族的优秀传统文化和民族精神加以创新，提出了具有时代特色的理论概括。邓小平理论对传统文化中“藏富于民”的思想加以运用和发展而做出的“共同富裕”是社会主义本质的论断;“三个代表”重要思想对传统文化中“苟日新，日日新，又日新”的与时俱进思想加以运用和发展而做出的马克思主义具有“与时俱进”理论品质的论断;科学发展观对传统文化的民本思想加以运用和发展而得出的“以人为本”的科学发展观理论，都是既源于中华民族优秀传统文化，又高于上述优秀传统文化的理论创造，更好地做到了民族性与时代性的统一。

最后，就是中国特色社会主义理论体系具有中华民族的形式，具有“新鲜活泼的、为中国老百姓所喜闻乐见的中国作风和中国气派”。第四，理论体系的开放特色

马克思主义“是发展着的理论，而不是必须背得烂熟并机械地加以重复的教条。”[ 2 ] 。

党的十七大报告明确指出，“中国特色社会主义理论体系是不断发展的开放的理论体系。”这个提法实际上概括了中国特色社会主义理论体系的开放性特色。

这一特色主要表现在，从理论自身来看，中国特色社会主义理论体系本身是一个开放的系统。这不仅体现于它是在借鉴与吸收中国传统文化和西方近现代文明精华的基础上，把马克思主义的基本立场、基本原理、基本方法与我国的具体实际日益结合的结果，而且体现在这一思想体系在以后的发展过程中，不断融入着蕴涵有实践和时代精华的要素。

一方面，这个理论体系是在以往的实践过程中不断发展的，党的三代中

央领导集体和以胡锦涛为总书记的党中央都做出了重要贡献。以毛泽东为代表的第一代中央领导集体所创立的毛泽东思想，从理论上提出并初步分析了我国社会主义条件下的一系列新矛盾、新问题，为中国特色社会主义理论体系的形成提供了宝贵的思想财富。以邓小平为代表的第二代中央领导集体，继续探索中国特色社会主义的发展道路问题，创立了邓小平理论。以江泽民为代表的第三代中央领导集体，在改革开放的新的实践条件下创立了“三个代表”重要思想，使得这一理论继续丰富和发展。党的十六大以来，以胡锦涛为总书记的党中央，肩负起既坚持这个理论、又顺应客观实际的变化创新发展这个理论的历史责任，提出了科学发展观，将这一理论继续推向前进，体现了这一理论日益发展和丰富的内在规定性。

另一方面，随着改革开放和现代化建设实践的新发展，中国特色社会主义理论体系还将得到进一步完善和发展。

二、从制度上看，中国特色社会主义的基本经济制度和民主政治制度大异于传统社会主义模式

中国特色社会主义是中国共产党人和中国人民基于中国国情自主探索的结果。相对于社会主义的传统模式而言中国特色社会主义是一种新型的社会主义，主要表现在以下几个方面。

第一，在经济体制上，与苏联模式的高度集权的行政性计划经济体制不同，中国特色社会主义实行社会主义市场经济体制，在资源配置上由市场机制发挥资源配置的基础性作用。

首先，中国特色社会主义实现了社会主义与市场经济的有机结合。建设有中国特色社会主义的一个伟大创举，就是把社会主义基本制度同市场经济结合在一起，把建立社会主义市场经济体制作为我国经济体制改革的目标模式，把运用市场机制优化资源配置、提高经济效率的功能同社会主义保证社会公平、促进共同富裕的目标有机地结合在一起，实现了社会主义与市场经济的内在统一。

其次，中国特色社会主义建立了独特的所有制结构。在不断巩固和发展公有制经济的前提下，毫不动摇地鼓励、支持和引导非公有制经济的发展。

再次，在社会主义分配制度方面，“有中国特色的社会主义”突破了社会主义分配制度只能是按劳分配的传统观念，确立了以按劳分配为主体、多种分配方式并存的新观念。

第二，在政治体制上，与苏联模式高度集权和集中的政治体制不同，中国特色社会主义实行社会主义的民主和法治。

我国《宪法》规定:“中华人民共和国是工人阶级领导的、以工农联盟为基础的人民民主专政的社会主义国家。”实行人民民主专政，体现了民主与专政的辩证统一，突出了不断发展社会主义民主，切实保护人民的利益，坚决维护国家的主权、安全、统一和稳定的职能。与人民民主专政的国体相适应，我国实行民主集中制的人民代表大会制度的政体。人民代表大会制度是符合中国国情、体现中国社会主义国家性质、能够保证中国人民当家作主的根本政治制度和最高实现形式，也是党在国家政权中充分发扬民主、贯彻群众路线的最好实现形式，是中国社会主义政治文明的重要制度载体。共产党领导的多党合作和政治协商制度是符合我国国情、经得起实践检验的正确有效的政党制度，我国政治制度的一大特点和优点。

坚持党的领导、人民当家作主和依法治国的统一，坚持依法治国和以德治国相统一，不断完善人民代表大会制度、共产党领导的多党合作和政治协商制度、民族区域自治制度以及基层群众自治制度，在坚持四项基本原则的前提下积极稳妥地推进政治体制改革，这是中国特色社会主义政治建设的主要内容。

第三，在文化体制上，中国特色社会主义采取在坚持马克思主义主流意识形态前提下保证文化多样性发展的体制。

坚持指导思想一元化、文化发展多样化，是中国特色社会主义在思想文化方面的基本特征。马克思主义是我们立党治国的指导思想，是全国各族人民团结奋斗的共同理论基础。反对和抵制指导思想的多元化，是中国特色社会主义在思想文化发展中必须坚持的一个重要原则。在坚持指导思想一元化的同时，要发展多样化的文化。人民的文化需要具有广泛性、多样性的特点。不断满足人民日益增长的多样性文化需要，是中国特色社会主义文化建设的一个立足点、着眼点。弘扬中华民族的优秀文化传统，发展民族的科学的大众的多样性文化，坚持“二为”方向和“双百”方针，繁荣文化艺术，构建社会主义核心价值体系，增强社会主义意识形态的吸引力和凝聚力，是中国特色社会主义文化建设的重要内容。

三、从实践上看，找到了一条实现现代化、实现中华民族伟大复兴的道路

中国特色社会主义实践是党在中国特色社会主义理论指引下领导人民开拓中国特色社会主义道路的实践活动及其成果的总称。这一实践始于1978年党的十一届三中全会。所谓中国特色社会主义的实践特征，就是中国特色社会主义实践形态的总体概括和外在表征。

在实践中，中国特色社会主义形成了顺应人类社会发展潮流、符合时展要求的新的发展格局。20世纪80年代以来，特别是伴随冷战结束和经济全球化的加速，中国发展面临的国际环境发生深刻变化;另一方面，国内经济社会发展和现代化进程进入新的历史阶段，中国共产党人深刻认识到这种变化及其引发的新的阶段性特征，逐步改变了中国社会主义的整体发展格局。

一是适时启动和加快对外开放进程，改变了过去的封闭发展格局，经济社会发展乃至整个社会主义建设出现了对外开放、全面融入经济全球化进程的全新格局。二是改变了过去平均主义的分配格局，让一部分人和一部分地区先富起来和先发展起来，形成了差异化、差序化的发展格局，整个社会的发展建立在分工、协作、竞争、专业化和社会化的基础之上，社会主义的发展因此建立在竞争和效率的基础之上。三是改变了过去经济部门和社会部门、公共部门和私人部门不分的格局，适时推动社会部门与公共部门的建设，整个社会开始呈现出公共部门与私人部门分野、经济领域效率提高、社会领域迅速发展并开始承担社会整合和维护社会公平职能的局面。四是逐渐从外延式、粗放式发展向内涵式、集约式发展转变，经济发展开始更多地依赖于技术进步和劳动生产率的提高。

以中国特色社会主义理论为依托，结合考察中国特色社会主义的实践历程，我们就能清晰地发现中国特色社会主义的实践特征。

第一，科学性特征

中国特色社会主义的实践历程是一个理论与实际相统一的过程，它既坚持了科学社会主义的基本原则，又根据我国实际赋予其鲜明的中国特色，具有浓郁的科学性，这是中国特色社会主义最根本的实践特征。

首先，坚持科学社会主义的基本原则。马克思主义本身是科学的。坚持马克思主义基本原则的关键在于坚持马克思无产阶级和全人类解放的基本价值取向和坚持马克思主义的世界观、方法论及由此而来的立场、观点、方法和科学精神。在中国特色社会主义实践中，我党始终坚持代表中国最广大人民群众的根本利益，中国特色社会主义的发展就是要做到“发展为了人民、发展依靠人民、发展成果由人民共享。”发展中国特色社会主义，坚持了马克思主义基本价值取向，从根本上保证了中国特色社会主义的科学性。

其次，立足现实建设中国特色的社会主义，这是中国特色社会主义实践科学性特征的重要标志。邓小平认为，“真正的马克思列主义者必须根据现在的情况，

认识、继承和发展马克思列宁主义。”[ 3 ]对于中国特色社会主义的客观现实条件，邓小平有过精辟的论述:“我们党的十三大要阐述中国社会主义是处在一个什么阶段，就是处在初级阶段，是初级阶段的社会主义。社会义本身是共产主义的初级阶段，而我们中国又处在社会主义的初级阶段，就是不发达的阶段。一切都要从这个实际出发，据这个实际来制订规划。”[ 4 ]建立在这一科学的认识基础上，邓小平提出了社会主义初级阶段论和经济建设中心论，从而把中国特色社会主义置于一个现实的基础上，明确了奋斗的方向和任务，使我们对社会主义的认识得到了升华。

再次，在发展步骤和发展规划方面，坚决纠正了战略目标超越历史阶段的急性病和战略措施不按经济规律办事的政治化的失误，坚持战略目标的现实可能性与战略措施的可行性的统一。邓小平根据我国社会主义初级阶段的国情，参照世界上其他国家和民族实现现代化的经验，精心设计了中国特色社会主义道路的战略目标以及实现战略目标的战略步骤。提出用100年左右的时间基本实现现代化、把我国建设成为中等发达国家的战略目标。为了保证战略目标的实现，邓小平提出了循序渐进的“三步走”的战略步骤。实践证明，这是完全正确的。

第二，开放性特征

正如胡锦涛同志所说，新时期最鲜明的特点是改革开放。中国特色社会主义实践的科学性决定了它也必然是开放性的，开放性是中国特色社会主义的重要实践特征。

首先，中国特色社会主义实践是融入世界发展中的，本身已成为世界的一部分，它既是世界社会主义运动的一部分，也是世界发展的一部分。

其次，从内容上看，中国特色社会主义实践十分注重对各国经验、模式、手段的借鉴与吸收。在分清社会主义本质与社会主义实现手段基础上，邓小平指出:“我们要向资本主义发达国学习先进的科学、技术、经营管理方法以及其他一切对我们有益的知识闭关自守、故步自封是愚蠢的。”[ 5 ]

第三，渐进性特征

中国特色社会主义的实践是在探索和不断深化认识的过程中得以前进的，它是一个与时俱进的过程，渐进性正是中国特色社会主义实践历史性表征的概括。

首先，中国特色社会主义实践是循序渐进的。中国特色社会主义实践，是一个逐渐加深对“三大规律”认识的过程，是一个在摸索中前进、巩固中提高的过程，具有内在的逻辑发展理路。邓小平说:“社会主义是一个历史发展过程，我们现在处在社会主义的初级阶段，消灭剥削，消除两极分化的问题，什么时候突出地提出和解决这个问题，在什么基础上提出和解决这个问题要研究。”[ 6 ]这实际上就是他对中国特色社会主义实践的循序渐进性的深刻理解。

再次，中国特色社会主义实践是循序渐进的。中国特色社会主义实践是一个不断发展、不断创新的过程，既有量的变化，也有质的飞跃，既有形式的改变，也有内容的更新。

第四，全面性特征

按照历史唯物主义观点，人的全面发展，一定意义上就是人的社会关系的全面发展。不断培育、完善和优化人的社会关系，客观要求我们坚持以人为本的理念，全面贯彻落实科学发展观，按照“四位一体”的总体布局建设中国特色社会主义。因此，实施“四位一体”的总体布局，既是实现人的全面发展的必要条件，又是人的全面发展的历史的具体的标志，也是中国特色社会主义实践全面性的发展特征。

对于中国特色社会主义建设的整体布局，邓小平提出“两个文明都搞好了，才是有中国特色的社会主义”，江泽民提出了“物质文明、政治文明和精神文明三位一体的社会主义建设理论”，而胡锦涛同志在上述基础上发展为经济建设、政治建设、文化建设和社会建设“四位一体”全面发展的中国特色社会主义实践结构。这一探索过程，正是中国特色社会主义实践追求全面性特征的充分体现。

综上所述，中国特色社会主义本质上是在马克思主义的指导下，走自己的路。这条道路的基本轨迹就是从照搬“苏联模式”到走出“中国特色”。可见，只有真正弄懂中国特色社会主义的创新性，才能真正高举这面当代中国进步发展的旗帜。

参考文献

[ 1 ]《毛泽东选集》第二卷[M ]. 北京: 人民出版社，1991: 534.

[ 2 ]《马克思恩格斯选集》第四卷[M ]. 北京:人民出版社， 1995: 681.

[ 3 ]《邓小平文选》第三卷[M ]. 北京: 人民出版社，1993: 291.

[ 4 ]《邓小平文选》第三卷[M ]. 北京: 人民出版社，1993: 252.

人文主义的基本特征篇（7）

党的十五大是一次极为重要的大会，是在世纪之交，承前启后、继往开来、保证全党继承邓小平同志遗志，坚定不移地沿着十一届三中全会以来正确路线胜利前进的大会。这次大会不仅全面论述了邓小平理论的历史地位和指导意义，而且还在社会主义初级阶段理论、经济发展理论、党的建设理论等方面丰富和发展了邓小平理论。本文拟就党的十五大对社会主义初级阶段理论的丰富和发展进行探讨。

社会主义初级阶段理论是邓小平理论的基石，是我们党和国家在社会主义建设中制定一切方针政策的基本出发点。我们以往发生的失误，制定的有些方针政策所以不符合生产力和经济社会发展的要求，归根到底就是对我国社会主义事业所处的阶段认识还不清楚，不明确。诸如“一大二公”、“急于求成”、“大干快上”、“急于过渡”等等，都与对我国社会主义事业还处在初级阶段这个问题认识不太清楚有密切联系。小平同志领导我们所以成功卿 F创了建设有中国特色的社会主义道路，科学地确立了党的“一个中心，两个基本点”的基本路线，形成了邓小平理论，归根到底，就是由于全党同志对我国还处在社会主义初级阶段的基本国情，这个最大的客观实际，有了清醒的、科学的和坚定的认识。正是从这个根本实际出发，展开对各种问题的思考和探索，来确立和确定同这个发展阶段相适应的基本路线、基本方针和基本政策，这才有了十一届三中全会以来我们取得的一切理论和实践上的伟大成果，才有了我国社会主义事业发展的生机勃勃的新局面。因此，正确认识党的十五大对初级阶段理论的丰富和发展，全面贯彻十五大精神，与党中央保持一致，把建设有中国特色社会主义事业全面推向二十一世纪，具有重大的现实意义。那么，党的十五大在哪些方面丰富和发展了初级阶段的理论呢?

一、进一步丰富和发展了社会主义初级阶段的含义

二、进一步丰富和发展了社会主义初级阶段的基本特征和历史进程

社会主义初级阶段是我国社会主义发展过程中一个不成熟的、特定的历史阶段，它除了具有一般社会主义所固有的基本特征外，还具有自身的特征。江泽民同志在党的十·五大政治报告中，总结十三大以来的实践经验，在十三大对社会主义初级阶段基本特征概括的基础上，对社会主义初级阶段的基本特征和历史进程作了进一步的概括和论述:①这个阶段，是逐步摆脱不发达状态，基本实现社会主义现代化的历史阶段。这是一个总的概括;②这个阶段，是由农业人口占很大比重，主要依靠手工劳动的农业国，逐步转变为非农业人口占多数，包含现代化农业和现代化服务业的工业化国家的历史阶段;③这个阶段，是由自然经济半自然经济占很大比重，逐步转变为经济市场化程度较高的历史阶段;④这个阶段，是由文盲半文盲人口占很大比重、科技教育文化落后，逐步转变为科技教育文化比较发达的历史阶段;⑤这个阶段，是由贫困人口占很大比重、人民生活水平比较低，逐步转变为全体人民比较富裕的历史阶段;⑥这个阶段，是由地区经济文化很不平衡，通过有先有后的发展，逐步缩小差距的历史阶段;⑦这个阶段，是通过改革和探索，建立和完善比较成熟的充满活力的社会主义市场经济体制、社会主义民主政治体制和其他方面体制的历史阶段;⑧这个阶段，是广大人民牢固树立建设有中国特色社会主义共同理想，自强不息，锐意进取，艰苦奋斗，勤俭建国，在建设物质文明的同时努力建设精神文明的历史阶段;⑨这个阶段，是逐步缩小同世界先进水平的差距，在社会主义基础上实现中华民族伟大复兴的历史阶段。上述九条系统、全面地概括和论述了社会主义初级阶段的基本特征，科学描绘了它的整个历史进程，阐述了什么是社会主义初级阶段以及这个阶段的历史任务，使我们能够更正确地认识和把握我国的基本国情，明确努力的奋斗目标;使人们懂得要搞清楚“什么是社会主义、怎样建设社会主义”，就必须从中国国情出发，搞清楚“什么是初级阶段的社会主义，在初级阶段怎样建设社会主义。”这九个方面的概括，与十三大的概括相比，不仅更具有科学性，如对社会主义初级阶段总的概括方面，目的性更明确;把“商品经济”改为“经济市场化程度较高等，而且还增添了许多新的内容，由十三大五个方面的概括增加到十五大的九个方面概括。

三、第一次提出社会主义初级阶段的基本纲领

江泽民同志在党的十五大报告中，概括邓小平理论和党的基本路线首次提出了社会主义初级阶段的基本纲领，它是我国社会主义现代化建设在几十年实践中正反两方面丰富经验，特别是近二一i一年实行改革开放的新鲜经验的总结。为了把我们的事业全面推向二十一世纪，围绕建设富强、民主、文明的社会主义现代化国家的目标，必须进一步明确什么是社会主义初级阶段有中国特色社会主义的经济、政治、文化，并明确怎样建设这样的经济、政治、文化。

建设有中国特色社会主义的经济，就是在社会主义条件下发展市场经济，不断解放和发展生产力。这就要①坚持和完善公有制为主体、多种所有制经济共同发展的基本经济制度;②坚持和完善社会主义市场经济体制，使市场在国家宏观调控下对资源配置起基础性作用;③坚持和完善按劳分配为主体的多种分配方式，允许一部分地区一部分人先富起来，带动和帮助后富，逐步走向共同富裕;④坚持和完善对外开放，积极参与国际经济合作的竞争。保证国民经济持续快速健康发展，人民共享经济繁荣成果。

人文主义的基本特征篇（8）

文本挖掘主要完成从大量的文档中发现隐含知识和模式的任务，一般处理的对象都是海量、异构、分布的文档。传统数据挖掘所处理的数据是结构化存储于数据库当中，而文档都是半结构或无结构的。所以，文本挖掘面临的首要问题是如何在计算机中表示文本，使之包含足够的信息反映文本的特征。目前的网络信息中80%是以文本的形式存放，Web文本挖掘是Web内容挖掘的重要内容。

文本的表示与特征提取是文本挖掘领域中的基本问题。目前通常采用向量空间模型生成文本向量来表示非结构化的文本数据。但直接通过分词与词频统计得到的高维度文本向量作为文本表示，不仅给文本理解等后续任务，比如：文本分类、聚类等，带来巨大的计算开销，且精确也会受到影响。因此，研究有效的文本特征选择与压缩方法来进行降维处理，是十分必要的。

目前有P文本表示的研究主要集中在文本表示模型方法与特征选择算法方面。用于表示文本的基本单位通常称为文本的特征或特征项。在中文文本中，采用字、词或短语作为表示文本的特征项。目前大多数中文文本分类系统都采用词作为特征项。（但考虑到文本挖掘的不同具体任务，有时也会将字或者短语作为特征项。）如果把所有的词都作为特征项，那么其特征向量的维数将非常高，要高性能地完成文本分类、聚类等文本理解任务将非常困难。特征提取与压缩主要是为了保持文本核心信息表达的同时，尽量降低特征向量的维度，从而提高文本处理的效率。

特征提取主要有如下四种思路：一是用映射或变换的方法把原始特征变换为较少的新特征；二是从原始特征中选取一些最具代表性的特征；三是根据专家知识选取最有影响的特征；四是用统计方法找出最具分类信息的特征，这种方法适合于文本分类任务。下面将从文本特征评估方法、文本特征选择方法、以及基于领域语义理解的文本特征提取方法等方面，对文本表示与特征提取研究领域现有的研究成果进行综述，然后再展望未来文本特征表示与提取技术可能的研究热点。

1 主流基于统计的文本特征评估方法

1.1 词频（TF： Term Frequency）、文档频度（DF： Document Frequency）与TFIDF

（1）词频（TF： Term Frequency）：即一个词在文档中出现的次数。将词频小于某一阈值的词删除，从而降低特征空间的维数，完成特征选择。该方法是基于出现频率小的词对文本表达的贡献也小这一假设。但有时在信息检索方面，频率小的词可能含有更多信息。因此，不宜简单地根据词频来选择特征词。

（2）文档频度（DF： Document Frequency）：即统计在整个数据集中有多少个文档包含该词。在训练文本集中对每个特征词计算其文档频度，并且根据预设阈值去除那些文档频度超高或超低的特征词。文档频度的计算复杂度较低，适用于任何语料，常用于语特征降维。

考虑到文档频度超高或超低的特征词分别代表了“代表性弱”或“区分度低”这两种极端情况，故而需要删除。DF 的缺陷是有些稀有词可能在某一类文本中并不稀有，即可能包含着重要的类别信息，如果舍弃将可能影响分类精度。

（3）TFIDF：它是由Salton在1988 年提出的。其中IDF称为反文档频率，用于计算该词区分文档的能力。TF*IDF 的基本假设是在一个文本中出现很多次的单词，在另一个同类文本中出现次数也会很多，反之亦然；同时考虑单词含有的类别区分能力，即：认为一个单词出现的文档频率越小，其类别区分能力越大。

TFIDF算法用于特征词权值估计就是为了突出重要单词，抑制次要单词。但IDF的假设认为文本频数小的单词就越重要，文本频数大的单词就越无用，并不能有效地反映单词的重要程度和特征词的分布情况，使其无法很好地完成对权值调整的功能，导致TFIDF算法法的精度并不是很高。特别是，TFIDF算法中没有体现出单词的位置信息对其重要性的影响，对于Web文档而言，权重的计算方法应该体现出HTML的结构特征。特征词在不同的标记符中对文章内容的反映程度不同，其权重的计算方法也应不同。因此如何对于在网页不同位置的特征词分别赋予不同的系数，然后乘以特征词的词频，以提高文本表示的效果，成为了研究者关注的热点。

1.2 统计词与类别信息相关度的文本特征评估方法

互信息：互信息用于衡量某个词和某个类别之间的统计独立关系。

互信息作为计算语言学模型常用分析方法，原是信息论中的概念，用于表示信息之间的关系，即两个随机变量统计相关性测度。它被用于特征提取是基于如下假设：在某个特定类别出现频率高，但在其它类别出现频率比较低的词条与该类的互信息比较大。考虑到无需对特征词和类别之间关系的性质作任何假设，非常适合于文本分类的特征和类别匹配工作。

特征词和类别的互信息体现了特征词与类别的相关程度，被广泛用于建立词关联统计模型。它与期望交叉熵不同，它没有考虑特征词出现的频率，使得互信息评估函数更倾向于选择稀有词而非有效高频词作为文本的最佳特征。以互信息作为提取特征值的评估方法时，最终会选取互信息最大的若干特征词构成文本向量。互信息计算的时间复杂度平均值等同于信息增益，它不足之处在于权重受词条边缘概率影响较大。当训练语料库没有达到一定规模的时候，特征空间中必然会存在大量的出现文档频率很低（比如低于3 次）的词条，而较低的文档频率必然导致它们只属于少数类别。但是从实验数据中发现，这些抽取出来的特征词往往为生僻词，很少一部分带有较强的类别信息，多数词携带少量的类别信息，甚至是噪音词。

二次信息熵：将二次熵函数取代互信息中的Shannon熵，形成基于二次熵的互信息评估函数。它克服了互信息的随机性。作为信息的整体测度，比互信息最大化的计算复杂度要小，可提高分类任务征选取的效率。

期望交叉熵：也称KL距离。反映的是文本某一类的概率分布与在某特征词的条件下该类的概率分布之间距离，特征词w的交叉熵越大，对文本类的分布影响也越大。它与信息增益不同，它没有考虑单词未发生的情况，只计算出现在文本中的特征项。如果特征项和类别强相关，即：P （ Ci | w ）就大，而P（ Ci）又很小，则说明该特征词对分类的影响大。交叉熵的特征选择效果都要优于信息增益。

信息增益方法：用于度量已知一个特征词在某类别的文本中是否出现对该类别预测的影响程度。信息增益是一种基于熵的评估方法，用于评估某特征词为整个分类所能提供的信息量，即：不考虑任何特征词的熵与考虑该特征后的熵的差值。根据训练数据，计算出各个特征词的信息增益，删除信息增益很小的，其余的按照信息增益从大到小排序。某个特征项的信息增益值越大，对分类也越重要。

信息增益最大的问题是：它只能考察特征词对整个分类系统的贡献，而不能具体到某个类别上，这就使得它只适合用来做所谓“全局”的特征选择（指所有的类都使用相同的特征集合），而无法做“本地”的特征选择（每个类别有自己的特征集合，因为有的词，对这个类别很有区分度，对另一个类别则无足轻重）。

其它的文本特征评估方法：比如卡方统计量方法、文本证据权、优势率等，这些方法也都是用于评估特征词与文本类别的相关性。其中，在卡方统计和互信息的不同在于，卡方统计其评估权重只对在同类文本中的词是可比的，另外，它对低频词评估实用性不高。

2 主流的文本特征选择方法

2.1 N-Gram算法

其基本思想是将文本内容按字节流进行大小为N的滑动窗口分段，形成长度为N的字节片段序列。每个字节片段称为一个N-Gram单元，对全部N-Gram单元的出现频度进行统计，并按照事先设定的阈值进行过滤，形成关键N-Gram列表，作为该文本的特征向量空间。由于N-Gram算法可避免中文分词错误的影响，适用于中文文本处理。中文文本处理大多采用双字节进行分解，即：bigram。但是bigram切分方法在处理20%左右的中文多字~时，会产生语义和语序方面的偏差。而对于专业领域文本数据，多字词常常是文本的核心特征，处理错误将导致负面影响。于是有研究者提出改进的基于N-Gram文本特征提取算法，即：在进行bigram切分时，不仅统计bigram的出现频度，还统计某个bigram与其前邻bigram的共现情况。当共现频率大于预设阈值时，将其合并成为多字特征词。该算法，较好地弥补N-Gram算法在处理多字词方面的缺陷。

2.2主成分分析算法

该算法通过搜索最能代表原数据的正交向量，建立一个替换的、较小的特征集合，将原数据投影到这个较小的集合。主成分分析（PCA）按其处理方式的不同，又分为数据方法和矩阵方法。矩阵方法中，所有数据通过计算方差-协方差结构在矩阵中表示出来，矩阵的实现目标是确定协方差矩阵的特征向量，它们和原始数据的主要成分相对应。考虑到矩阵方法的计算复杂度随着数据维度n的增加，以n的二次方增长，有研究者提出了使用Hebbian学习规则的PCA神经网络方法。

2.3遗传算法与模拟退火算法

（1）遗传算法（Genetic Algorithm， GA）：是一种通用型的优化搜索方法，它利用结构化的随机信息交换技术组合群体中各个结构中最好的生存因素，复制出最佳代码串，并使之一代一代地进化，最终获得满意的优化结果。如果将文本看作是由若干个特征词构成的多维空间，那么将文本特征提取问题就转化为了文本空间的寻优过程。有研究者已经将遗传算法应用于这个寻优过程中。首先对文本空间进行编码，以文本向量构成染色体，通过选择、交叉、变异等遗传操作，不断搜索问题域空间，使其不断得到进化，逐步得到文本的最优特征向量。

基于协同演化的遗传算法使用其它的个体来评价某一特定个体。个体优劣的标准是由在同一生存竞争环境中的其它个体决定。这种协同演化的思想与处理同类文本的特征提取问题相吻合。同一类别文本相互之间存在着相关性，各自所代表的那组个体在进化过程中存在着同类之间的相互评价和竞争。因此，每个文本的特征向量（个体）在不断的进化过程中，不仅受到其母体（文本）的评价和制约，而且还受到其它同类个体的指导。基于协同演化的遗传算法不仅能反映其母体的特征，还能反映其它同类文本的共性，从而有效地解决同一类别的多个文本的集体特征向量的提取问题，获得反映整个文本集合最佳特征向量。

（2）模拟退火算法：将特征选取看作组合优化的问题，因而可以使用解决优化问题的方法来解决特征选取的问题。模拟退火算法（Simulating Anneal，SA）就是其中一种方法。将模拟退火算法运用到特征选取中，理论上可以找到全局最优解，但在初始温度的选取和邻域的选取时，需要找到有效的策略来综合考虑解的性能和算法的速度。

3 词向量（word embedding）

深度学习（Deep Learning）中一般用到的词向量是用词向量（Word Embedding）或分布式表达方法（ Distributed Representation）所表示的一种低维实数向量。维度以 50 维和 100 维比较常见。这种向量的表示不是唯一的。词向量的提出，为的是将相关或者相似的词，在距离上更接近。向量的距离可以用最传统的欧氏距离来衡量，也可以用 cos 夹角来衡量。比如：用这种方式表示的向量，“麦克”和“话筒”的距离会远远小于“麦克”和“天气”。可能理想情况下“麦克”和“话筒”的表示应该是完全一样的，但是由于有人会把英文名“迈克”也写成“麦克”，导致“麦克”一词带上了一些人名的语义，因此不会和“话筒”完全一致。该方法很好地解决了传统的文本特征向量用于文本挖掘任务时可能出现的维数灾难问题，因而被很多研究者广泛地用于各类文本挖掘的任务当中。

4 基于领域语义理解的文本特征提取方法

4.1基于语境框架的文本特征提取方法

有研究者发现，单单依靠统计无法完成语义分析。没有考虑句子的语义以及句子间的关系的情况下，无法提取准确的文本特征向量来表达文本语义。因此，研究者提出将语义分析与统计算法相结合的语境框架算法，并获得了丰富的研究成果。可以将语境框架看作是一个三维的语义描述框架，即：把文本内容抽象为领域（静态范畴）、情景（动态描述）、背景（褒贬、参照等）三个模块。在语境框架的基础上，从语义分析入手，实现了四元组表示的领域提取算法、以领域句类为核心的情景提取算法、以对象语义立场网络图为基础的褒贬判断算法。该算法可以有效地处理语言中的褒贬倾向、同义、多义等现象，表现出较好的特征提取能力。

4.2基于本体论的文本特征提取方法

有研究者提出了应用本体论（Ontology）模型，有效地解决特定领域知识的描述问题。比如：针对数字图像领域的文本特征提取问题，可以通过构建文本结构树，给出特征权值的计算公式。算法充分考虑特征词的位置以及相互之间关系的分析，利用特征词统领长度的概念和计算方法，能够更准确地进行特征词权值的计算和文本特征的提取。

4.3基于Z义网络的概念特征提取方法

文本挖掘，特别是中文文本挖掘，处理的对象主要有字、词、短语等特征项。但字、词、短语更多体现的是文档的词汇信息，而非语义信息，因而无法准确表达文档的内容。目前的大多数关于文本特征提取的研究方法只注重考虑特征发生的概率和所处的位置，缺乏语义方面的分析。向量空间模型（VSM）最基本的假设是各个分量相互正交，但事实上，作为分量的特征词间存在很大的相关性，无法满足模型的假设。基于概念的特征提取方法是在VSM的基础上，对文本进行部分语义分析，利用英文的WordNet或中文的知网等语义网络获取词汇的语义信息，将语义相同的词汇映射到同一概念，进行概念聚类。用概念作为文档向量的特征项，这样就能够比一般词汇更加准确地表达文档内容，减少特征之间的相关性和同义现象，从而有效降低文档向量的维数，减少文档处理计算量，提高特征提取的精度和效率。

5 总结与展望

本文对近年来文本特征提取研究领域所取得的研究成果进行了全面的综述。随着人工智能深度学习技术的发展，在未来几年中，将可能从以下几个方面取得突破：（1）文本特征提取及文本挖掘在专业领域，比如：金融领域、军事领域等的应用研究。（2）新的文本特征表示模型，比如考虑使用层次结构的向量对文本进行建模，关键词向量能快速定位用户的兴趣领域，而扩展词向量能准确反映用户在该领域上的兴趣偏好。结合领域知识，采用概念词、同义词或本体来代替具体的关键词成为特征词，体现语义层面的需求和分析。（3）改进分词算法。比如针对特征提取的需要，应用深度学习算法框架，建构高性能的分词系统。（4）改进特征评价函数。比如考虑将表达文本结构的特征提取与表达文本语义的特征提取进行交叉解码，即对特征词的权重从表达文本结构与文本语义两个层面进行评价。

责编/魏晓文

参考文献

[1] Bengio Y， Schwenk H， Senécal J， et al. Neural Probabilistic Language Models[J]. Journal of Machine Learning Research， 2003， 3（6）：1137-1155.

[2] Salton G， Buckley C. Buckley， C.： Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management 24（5）， 513-523[J]. Information Processing & Management， 1988， 24（5）：513-523.

[3] 刘健，张维明. 基于互信息的文本特征选择方法研究与改进[J]. 计算机工程与应用， 2008， 44（10）：135-137.

[4] 成卫青，唐旋. 一种基于改进互信息和信息熵的文本特征选择方法[J]. 南京邮电大学学报（自然科学版）， 2013， 33（5）：63-68.

[5] Cavnar W B， Trenkle J M. N-Gram-Based Text Categorization[C]// In Proceedings of SDAIR-94， 3rd Annual Symposium on Document Analysis and Information Retrieval. Las Vegas， US. 1994：161--175.

[6] 陈素芬，曾雪强. 中心修正增量主成分分析及其在文本分类中的应用[J]. 中文信息学报， 2016， 30（1）：108-114..

[7] 郝占刚，王正欧. 基于潜在语义索引和遗传算法的文本特征提取方法[J]. 情报科学， 2006， 24（1）：104-107.

人文主义的基本特征篇（9）

一

中国现代文学整体走过的是一条从破毁到建设的道路，在这个过程中，从破毁力量的源泉到发展参考坐标的选择都有着浓厚的西方文学背景。所以我们在对中国现代文学诸多现象进行研究时，西方文学的影响总是被放在一个前景式的位置上，这种研究思路无疑会忽略中国文学自身的现实性语境在对西方文学接受过程中所起到的选择、遮蔽、转化、生成等一系列的隐性影响。

朱光潜曾说：“一个文化是一个有普遍性与连续性的完整的生命……诗也是如此。一个民族的诗不能看成一片大洋中无数孤立底岛屿，应该看成一条源远流长的百川贯注的大河流。”中国现代新诗是以与传统彻底决裂的姿态开始的，但在具体的历史语境考察中我们会发现，在白话新诗的冲击下，中国传统诗学体系和其确立的诗歌美学范畴并没有被击碎，只是不再以一种独立的姿态和明确的影响实体存在，而是夹裹在传统文化的暧昧气息里，作为中国现代诗歌现实性语境的稳定性存在，成为一种影响中国现代诗歌发展的隐性力量。

具而言之，传统诗歌所体现出的中国化的哲学思想、感悟世界的方式，表现出的文化认同、美感特征、审美趣味等等，这些复杂的传统因子以一种约定俗成的方式内化为现代诗歌创作者和接受者的深层心理接受机制；这种心理机制在一种强势的时代话语面前往往趋于潜在和边缘，但在新诗实践的现实性语境中，它就会发挥将不同的文学思潮进行转换性生成的作用。这种转换性的生成，一方面使现实性语境中的传统因子得以现代性的转化，而不被主流的文学话语所摒弃甚至排斥；另一方面它又使新的诗歌潮流与传统取得联系，使新的诗歌实践具有历史的纵向延续性，使得新的诗歌因着历史的气息而天然具有了亲切感，并使新诗的接受过程更加顺畅。在对西方象征主义的接受过程中，传统诗学的隐性影响正是扮演着这种转换性生成的作用。

二

象征，从普泛意义上来说，是人类感知世界的一种共通性的方式，是主观感知客观的过程。因此梁宗岱说：“象征主义，在无论任何国度，任何时代底文艺活动和表现里，都是一个不可缺乏的普遍和重要的原素。”但象征主义作为诞生于法国十九世纪末期的一种文学思潮，有着它特定的所指。查尔斯·查德维克在他的象征主义研究著作《象征主义》中，就将象征主义区分为作为人类经验层次的“人性象征主义”和这一层次之外的“超验象征主义”；同时指出，从本体论的角度看，象征主义的基础是“超验”的。

在波德莱尔那里真实世界只是对理想世界的一种不完满体现，在现实世界之外还有一个理想世界存在。所以诗人的任务不是表达自身的思想感情，而是要借助于诗歌暗示一个彼岸的世界，诗歌只是“一个彼岸的天国的象征符号”。这种诗歌的“超验本体论”源于西方二元对立的世界观和哲学思想，在康德那里现实世界只是“理念”世界的虚幻的投影，真实只存在于“理念”中。这种“超验本体论”集中体现在象征主义诗学体系核心范畴：“契合”论里。波德莱尔的《契合》就是“象征派的”，他认为，诗歌就是要着力营造一个自然和人充满神性契合的“象征的森林”。而要实现这种人性和神性的契合必需具备一个沟通的媒介物，这个媒介物就是象征。在象征主义者那里，“象征所承载的正是生成着的文本的诗学结构同时又与文本的超越性意义相结合的艺术功能”。这要求诗人“立足于具体感性事物同时又不满足于纯粹具象的摹写，这种具象性与超越性的辩证关系集中体现在象征的诗学结构中。”象征主义诗人对于诗歌超越性意义的寻求，直接决定了他们对于万物契合的理解，同时也直接催生了象征主义诗歌独特的美学特征：暗示性、蒙胧性、复义性。

三

具体到我们对于象征主义的接受，情况就复杂的多。中国的现代诗人和理论家在对象征主义的引入和接受过程中，对于象征主义的“超验”层面进行了遮蔽。这种遮蔽并不意味着中国的诗人和理论家无法理解或接受象征主义的超验性，事实上包括李金发在内的很多象征主义的译介和传播者都深知象征主义的个中三昧。这种遮蔽在有些时候可能是显在的，如穆木天在20年代后期对象征主义的彻底否定；但更多时候是一种隐性的存在，更多的体现为诗歌的创作者、理论的建构者和批评者甚至包括诗歌的接受者在共同的文化心理机制的隐性支配下的合谋。

人文主义的基本特征篇（10）

中图分类号：D61 文献标志码：A 文章编号：1002-7408（2012）08-0053-03

总书记在纪念中国共产党成立90周年大会上的重要讲话中第一次正式、明确地使用了“中国特色社会主义制度”这一概念，这是对改革开放30多年来中国特色社会主义及其实践认识的进一步深化和总结，为我们未来的改革指明了方向。过去，我们讲过中国特色社会主义的基本经济制度、中国特色社会主义的政治制度，甚至还讲过中国特色社会主义的文化制度等，但没有用一个总的概念把这些内容概括起来。另外，过去讲中国特色社会主义，更多的是把它作为现阶段的指导思想、一种理论体系、一条社会主义建设道路、一种经济社会发展模式、全国各族人民在现阶段要实现的一个共同理想等去讲，很少把它作为一个相对独立的、比较完整的社会主义制度去讲。今天，我们把它视为一种社会主义制度，这在认识上就比较全面，比较深入，上了一个新台阶。我们现在有了道路、制度、理论、纲领、理想等方面的更为系统的、总体上的认识；也明确了今后改革的方向，就是要进一步发展和完善中国特色社会主义的社会制度，力争到全面建成小康社会的时候，形成比较完善的、相对独立的、有中国特色的社会主义制度。为建党一百周年献上一份厚礼。本文试对中国特色社会主义制度的基本特征和本质属性及两者的内在关系作一分析和论述，并从总体上对中国特色社会主义制度的特征作出评析。

一、中国特色社会主义制度的基本特征

中国特色社会主义作为一种社会主义制度，既具有社会主义基本制度的共性，又具有中国自己的个性，即中国特色。其当前的特色主要表现在社会主义初级阶段基本纲领所阐述的四个方面的内容上：

人文主义的基本特征篇（11）

1 大数据的含义及特征

大数据即人们常说的非结构化数据，它借助计算机网络，可以存储大量数据，并保证数据的真实性。体量、速度和多样性是大数据定义中的关键内容。其基本特征主要有：第一，大数据数据总量增长规模非常大。同种类型的数据在传输过程中处于快速增长状态。第二，数据增长的速度非常快，以指数级持续增长模式为主。第三，新的数据来源渠道越来越多，新的数据类型也不断丰富。第四，大数据的价值不断上涨，大数据可以为企业发展带来更多商机，是现代企业发展过程中必不可少的内容。

2 相关研究现状及存在的问题

情报关键词是表述某个文件或者论文中重要内容的词语。本文中介绍的大数据时代基于统计特征的情报关键词是指以网页为主的关键内容，提取关键词的主要目的是分析语义和对核心词语进行统计。网页关键词在自动摘要、信息检索以及自动问答等形式中都存在较多不确定因素，导致大数据时代基于统计特征的情报关键词提取方法问题重重。

3 大数据时代基于统计特征的情报关键词提取方法

3.1 关键词提取方法的分类关键词提取方法分四类：第一，基于语义的方法。以词典为依据，对词和句子进行分析，对词和句子进行分类标注，满足计算机对多重信息片段的实际需求，通过计算获得情报关键词。第二，基于机器学习的方法。利用机器对训练语料库进行训练，结合各项系数的实际状况，确立相关的参数、建立准确的模型。第三，基于复杂网络的方法。明确候选特征词之间的关系，以既定的规则为出发点，构建一个复杂网络，通过相关数据计算出节点权重系数和介数，最大的综合值即为关键词。第四，基于统计的方法。词语具有相关统计信息，以统计信息为基础，提取相关关键词。

3.2 关键词提取方法的构造

3.2.1 中文词语的特征及自动分词。中文词语通常由两个或者两个以上的汉字组成，句子具有连续性，要求研究人员利用大数据对中文句子进行分析之前，将句子划分为若干小部分。目前已经有自动标注词性的系统，可以自动过滤词和通用词语。

3.2.2 网页文本的结构特征及词语统计特征。MTML是一种标记语言，该标记语言的证书的目的是描述网页文档内容，以成对的标记符号为依据，明确显示网页的各个部分。词语统计的特征主要有：如果某篇文章中某个词语出现的频率比较高，在其他文本中出现的频率偏低，那么，这个词语即可作为候选关键词；同一词语在不同标记符号中对文章内容的反映结果不一样，也就是说词语出现的位置对关键词的选择有至关重要的作用。

3.2.3 词语过滤。文本中通常会存在大量噪声词。噪声词与文章的内容联系不大，噪声词在文本中和文本集合中出现的频率均比较高，噪声词通过词频和文本频率乘积的离散系数自动过滤。不同内容的文本长度不一样，噪声词在文本中出现的频率数受文本长度的影响，离散系数是指某个词语在文本中的波动程度，词语的离散系数与该次在文本中出现的稳定性成正比，也就是说，离散系数越大，该次在文本中的稳定性越差。

3.2.4 中文关键词提取流程图。本文以TfDf指标为依据，采用离散系数的方法将文本中存在的噪声词过滤除去，对候选关键词共现概率分布进行分析。确定TFIDF和候选关键词的位置信息，以TFIDF-SK为计算方法，以函数TFIDF-SK值作为关键词重要性的衡量标准。TFIDF-SK算法系统流程图如图1所示。

■

图1 TFIDF-SK算法系统流程图

TFIDF-SK算法将输入文本集合进行处理，处理工作中必须将文本集合中的噪声词过滤除去，做好词语统计特征；将收集到的信息计入特征计算模块，该模块的主要功能是计算TFIDF值、词语位置信息和偏度；进入关键词重要性衡量模块，计算出TFIDF-SK值；判断关键词重要性度量大小，输出文本中的情报关键词。

4 结束语

目前，国内外对大数据时代基于统计特征的情报关键词的提取方法均有统一评价，在实际发展过程中强化统计特征情报关键词的提取方法显得尤为重要。因此，研究人员必须在了解大数据含义及特征的前提下，针对大数据时代基于情报关键词提取方法存在的问题，对相关方法进行深入研究，保障情报关键词的稳定性。

参考文献：

上一篇社区医疗行业前景下一篇艺术领域教育建议

返回列表

人文主义的基本特征大全11篇

人文主义的基本特征篇（1）

人文主义的基本特征篇（2）

人文主义的基本特征篇（3）

人文主义的基本特征篇（4）

人文主义的基本特征篇（5）

人文主义的基本特征篇（6）

人文主义的基本特征篇（7）

人文主义的基本特征篇（8）

人文主义的基本特征篇（9）

人文主义的基本特征篇（10）

人文主义的基本特征篇（11）

推荐精选

推荐范文

相关期刊