欢迎访问发表云网!为您提供杂志订阅、期刊投稿咨询服务!

大数据分析论文大全11篇

时间:2022-08-23 02:22:39

大数据分析论文

大数据分析论文篇(1)

[分类号]G306

1、导言

科学知识可视化图谱是在信息技术的推动下发展出来的一个新领域,当前已经成为科学计量学的一个新热点。陈悦和刘则渊认为科学知识图谱是显示科学知识的发展进程与结构关系的一种图形,它是揭示科学知识及其活动规律的科学计量学从数学表达转向图形表达的产物,是显示科学知识地理分布的知识地图转向以图像展现知识结构关系与演进规律的结果。Katy Borner等综述了知视可视化历程,对引文分析领域进行了可视化研究。安伟峰、熊润芝、周云平等、徐佳宁等、刘艳苏等以及叶协杰众多学者也利用不同的中文数据库、不同的方法以及不同时期对我国的引文分析研究状况进行了研究。虽然中外学者都从不同角度研究了引文分析领域,但是中文引文分析领域的可视化研究几乎还没有开展。本文拟对中文引文分析这个领域运用可视化工具来做一个清晰的描绘。

2、数据及方法

本论文研究所用的数据来源于CSSCI数据库。笔者于2008年4月24日以“引文分析”为检索词在CSSCI中检索到1998-2007年间527篇文献,共得到3 328条引文。

下载这些检索记录,通过对数据进行仔细辨认和合并,利用大连理工大学刘盛博编的中文处理软件对CSSCI数据进行格式转换,变为Bibexcel、UcinetCitespace等软件可处理格式,然后利用这些软件对记录中的关键词、作者、来源期刊、被引作者、被引期刊等进行分析或绘图。

3、统计结果与分析

3.1关键词分析

527篇论文中,共有2133个关键词,对出现3次以上的97个关键词进行共现分析,利用Ucinet,计算中心性,再利用Netdrw绘制这些关键词共现网络,得到图1。通过对关键词的分析,可得出我国引文分析领域的主要研究内容。

从图1可以看出,节点越大,表示中心性越高。中心性较高的一些词有引文分析、SCI、CSSCI、文献计量学、影响因子,期刊评价等。两个节点之间的连线粗细代表关键词共同出现的次数,连线越粗,就是共同出现的次数越多。与引文分析共同出现次数较多的词有文献计量学、期刊评价、载文分析、作者分析等。

3.2作者分析

在527篇论文中,共有682名作者,表1是发表4篇以上的作者及其工作单位。

从表l可以看出,引文分析领域发文4篇以上的作者有29人,其中24人是与图书情报信息有关的,1人与医学有关。南京大学有9人,中国科学技术信息研究所4人,中国科学院文献情报中心有2人,北京大学有2人,浙江大学科技部2人,其余各1人。

3.3来源期刊分析

527篇论文分布在106种杂志中,发表在前20种杂志中的论文数为390,占总论文的74.7%,也就是说20%左右的杂志中包括了大约80%的有关引文分析的论文,基本符合“二八”律,可以认为这些杂志是发表引文分析论文的核心期刊。可以看到前20种期刊大都是图书馆学、情报学的核心期刊。表2显示出引文分析领域的文章除了多数发表在图书情报类的杂志上外,还有很多发表在与科学学、科技管理有关的核心期刊上。

3.4被引作者分析  对527篇论文的3 328条引文进行分析,发现有1280位作者被引证,平均每位作者被引频次2.6次。在这庞大的作者群中,被引频次最高的30位作者的总被引频次为731次,占总被引频次的21.97%,平均每位高被引频次作者被引频次24.37次。利用Citespaee软件绘图,得到图2,显示了我国引文分析领域的高频被引作者情况,图3显示了引文分析领域的重要文献。

从图2和图3中可以看出,较大节点的作者是在引文分析领域有突出作用的作者。影响最大的是武汉大学中国科学评价研究中心的邱均平,其主要代表作是1988年出版的《文献计量学》一书。王崇德、罗式胜、丁学东三人也出版了有关文献计量学的专著。庞景安《科学计量研究方法论》一书,详细介绍了引文分析在科学计量学中的应用。梁立明、蒋国华也出版了有关科学计量学的专著。有些集体作者,如中国科学技术信息所、中国社会科学索引课题组、中国科技论文统计与分析课题组、南京大学中国社会科学研究评价中心,这些课题组对我国的引文分析研究也有极大的影响和促进。金碧辉、武夷山、孟连生、朱献有、马费成等人也有突出的贡献,他们的单篇论文的被引频次也很高。姜春林、邹志仁、程刚、袁培国、钟旭、党亚茹、崔雷的研究也各有特色。

3.5被引期刊分析  3 328条引文分别来自918种杂志和其他类型文献,包括专著、报告、网页等。但是被引前20种杂志中的引文有1 346条,占总引文的40.4%,表3显示被引前20种期刊大多都是图书馆、情报学的核心期刊。《科学学研究》、《科学学与科技管理》等杂志的被引用说明科学学也对引文分析有较大的影响。有380条外文引文,占总引文的11.4%;有160条网页引文,占总引文的48%,其中680条引文都只被引一次,以上说明引文分析对别的学科的知识吸收还是相对较少,吸收较多的还是图书情报学、科学学、科学计量学、管理学、编辑学的知识。

4、我国引文分析存在问题及对策

4.1 中国引文分析存在问题

4.1.1 引文分析研究缺乏核心作者 引文分析在我国的研究历史只有30多年,还没有引文分析的核心作者,虽然有许多专家学者,也有很高的被引频次,但是他们都是图书情报领域的先贤,而引文分析则是依附于文献计量学存在的,大部分的著作都与文献计量学和科学计量学研究相关。因此,表现出引文分析理论研究少,应用研究多,方法简单;方法研究上简单统计多,指标模型少;应用研究用于评价的多,管理的少;研究图情、医药领域较多,其他领域少。

4.1.2数据样本的选择缺乏科学性引文分析是力图根据统计特征找出文献生产、传播等规律,从而进行更深入的研究,为决策提供量化依据。统计特征的出现要求有足够的样本量,足够明确的研究对象,足够大的时间跨度。而国内正式发表的有关引文分析的论文普遍存在着样本量小、时间跨度短、学科代表性差等问题。

4.1.3 中文引文分析可视化困难我国的引文分析可视化的进展不大,虽然近年来掀起了引文分析可视化的热潮,但是大多是对来自Web of Science数据的可视化,而以中文出现的知识图谱则不是太多。

4.1.4 中文的引文数据局限性 中文引文数据库有一定的局限性,如CSSCI中的数据从格式到录入出现了很多不统一及错误,如有的引文写错著者姓名、发表年份、出版社等等。在本研究中对这些现象作粗略的统计,其中年份写错或不写的占总引文的3.1%,不写出版社或期刊的占6.2%,不计算其他格式不统一,引文的错误总计在数据库中几乎达到10%。这样就给研究的统计工作带来很大的困难。

4.2 中国引文分析现状成因

4.2.1 理论基础薄弱首先,引文分析起初是当作文献计量学的一种方法被引入的,由于其使用起来简单易行,大多数学者只是把其当作一种工具来使用,究竟其包括什么样的原理,其使用的前提条件、使用原则、形成机制,并没有人去深入地探究;其次,引文分析理论在国外也进展不大,到目前为止,大多数的引文分析还是以传统的文献数理统计和共引理论为基础进行研究,没有更进一步突破;第三,我国的研究者重视应用研究、忽略理论研究。

4.2.2 中文引文数据库不完善为了更好地发展我国的图书馆事业和文献研究工作,我国科研人员不断努力,开发了许多相关的引文数据库,如CSCD,CST―PC,CSSCI等。这些数据库与SCI数据库相比,不论是在数据套录功能还是数据收录年代或期刊收录范围上都有所欠缺。为了进行引文分析,用户不得不把需要的文献记录和它们引用的参考文献题录一一手工摘取,再导入自建的小型引文库中通过编制计算机程序才能获得需要的统计数字。这无疑极大地阻碍了研究人员利用国内引文数据进行分析的积极性。

4.2.3 没有适合的分析软件 由于我国引文分析发展的较晚,一些引文分析的技术都是来自于国外。国外有很多专家学者利用计算机编程,开发了许多文献计量学软件,进行引文分析。例如:Bibexcel就是OllePersson为文献计量学专门编制普遍适用的、统一格式的数据处理软件,可以处理来自Web of Science等数据库的数据,不但能够进行统计处理,还可以分析数据,形成所需要的关系矩阵。而我国文献计量学、科学计量学的学者目前还没有开发出普遍适用中文数据格式的软件,对于一些不懂数学、计算机编程的学者,要靠最原始的手工来进行计数,所以他们花费在数据处理上的功夫可想而知。

4.2.4不规范的引文行为 目前我国的科技论文在引文规范上普遍存在着一些问题,主要表现在以下三方面:“用而不引”和“不用而引”;对参考文献的标注不规范;“引文复制”与“引而不注”;著录失误。此外,一些由于情报交流的障碍,如语言障碍、编译代码转换的障碍、检索工具的障碍、理解水平与能力的障碍等等,都是造成引文错误的直接客观的原因。

4.3 中国引文分析的对策建议

4.3.1 加强引文分析的理论建设首先,大力开展引文分析的理论研究,对引文分析的原理、规律、研究对象以及与引文分析相关的概念假设、环境、适用范围进行深入和系统的讨论,力图形成引文分析的研究范式;其次,加强和国外同行的合作交流,力图自主创新,发展适合我国学者的引文分析方法和理论;再次,引文分析有很强的交叉学科的特点,交叉学科的特点就是容易吸取其他学科的先进理论,要想在理论上有所突破,可以借鉴其他学科的理论方法;第四,提倡研究者进行理论研究,改变研究作风;第五,提高研究者和使用者综合素质,使他们能够敏锐地发现引文分析的问题,合理利用引文分析进行科研评价,提高科研活动的效率。

大数据分析论文篇(2)

[分类号]G352.1

1 领域分析数据集界域思想

学科情报研究工作是针对特定主题,收集、积累相关文献、数据等信息,并加以整理、分析和研究,最终根据用户的需要提出分析研究结果或报告的全过程。学科情报研究对象随着科学发展的交叉、汇聚、融合,从传统的边界清晰的物理、化学、数学、地理等领域逐步向新能源、海洋、纳米、人口与环境、现代农业等综合化、横向化、交叉化科技领域发展。这些领域有的是因为学科自身发展导致研究内容的相互交叉融合;有的是因为某项重大研究课题的开展形成专门的研究领域;有的则是由于某个大型设备的研制触发一个新的研究领域的产生。

于是,在针对这些领域开展情报研究时,构建分析所使用的数据集就必须要解决对于领域的界定问题。界定并不是要研究领域的具体概念,而是应该提出一个可转换的、标准化的定义,即可以被情报研究人员在面对不同领域选择描绘领域的数据时所使用的领域边界的定义,使领域分析的对象在进行数据集构建时可以被情报研究人员所理解。

基于领域分析目标的领域分析数据集界域思想主要来自于情报研究工作流程中,数据集、领域分析需求和分析目标三者之间存在的互动关系(见图1)。领域分析需求作为领域分析数据集构建的起点,它直接对构建的数据集提出要求,决定着构建过程中数据集应该涵盖哪些因素,揭示哪些问题,才能满足领域分析的需求。领域分析数据集位于领域分析目标的前端,它是联系需求和目标的纽带,直接作用于分析目标,限定构建什么样的数据集就可以实现什么样的领域分析目标。同时,领域分析目标位于领域分析的下游,本质上是对领域分析需求的一种回答,它可以根据实现的目标直接将产生的新需求进行反馈,这样,就又开始了一次新的互动。

基于上述互动关系,笔者从领域分析需求和领域分析目标两个角度提出领域分析数据集的界域思想,界定数据集中应该包含哪些文献型数据才足以揭示欲分析领域的状态和特征,期望解决领域分析数据集的边界和疆域问题。具体而言,需求通过数据集具体表现为目标,明确分析需求的属性,按照分析需求的要求选取代表领域的数据,就可以正向确定领域分析数据集的边界;反过来,位于数据集另一端的分析目标,它是数据集的真实写照,清楚分析目标,就可以逆向确定领域分析数据集的边界。下面就从位于数据集两端的分析需求与分析目标的类别人手,按照不同属性类别对数据集的要求,研究领域分析数据集的边界。

2 基于分析需求的领域分析数据集界域

从领域分析需求的基本属性来看,以时间的角度来划分,可以区分为对领域过去、领域现状以及领域未来发展趋势的分析,对应的领域分析数据集就应该满足揭示领域产生、发展;客观规律、特点以及与其它领域的联系或影响;前沿预测和优先领域确定三种状态。从宏观、中观和微观三个层面可以将其分为以下几类。

2.1 宏观层面

宏观层面的领域分析需求是指从横向角度揭示领域演化关系,即领域间的渗透、推广、转移和综合关系等,是从整体角度剖析领域间的横断面。领域范式的演化,使得知识体系内知识元素相互渗透日益突出,科学整体化趋势愈加强烈,于是表现出领域问的联系日益增强。宏观层面需求正是满足这一目的,从横向考察领域间的变化情况。领域分析数据集的边界应该确定在以反映领域的发展基础、来源、演化进程、领域之间相互作用等范围内,进而满足揭示、协调和组织领域间关系的需求。由于领域宏观层面的需求是分析领域问的情况,只有分析了个体领域,才能横向比较、揭示领域间的联系和差异,因此,宏观层面的需求实际上是以中观和微观层面的需求为基础,通过后两者才能更好地得以反映。

2.2 中观层面

中观层面的领域分析需求主要是从纵向角度揭示领域内的产生、发展、现状、未来发展趋势、客观发展规律与特点等,是对领域内宏观状态的一种描绘和勾勒,是相对于宏观层面的一种具体选择过程。具体而言,中观层面是立足于某一领域内部关系,从上到下解析领域结构,领域分析数据集应该反映的内容有:

・领域的现状结构:将领域按核心属性划分若干分支子领域,并从演化关系的层面分析领域的结构和变化情况等;

・领域研究关键问题:从领域的现状结构中,提取反映领域演化过程中的核心、热点问题等以及领域内知识结构的关联和关联强度;

・领域内的可能发展:根据领域的现状结构和关键问题,分析领域未来的可能发展,作为宏观层面需求的基础。

2.3 微观层面

微观层面的领域分析需求主要是反映领域分析的产生、发展、现状、未来发展趋势、客观发展规律、特点以及它与其它事物的联系的具体细节和要素,此层面研究将领域的中观层面的需求在微观层面予以放大,是对领域内的纵向研究和深入分析,也是针对中观层面需求开展领域分析的入口。具体包括的研究内容可以用5w进行解释,即what、who、which、how、where等。例如:

What does this domain look like?

Who are the main actors in this domain?

Who may be responsible for a particular change?

Who are conducting this research?

Which actors contribute to these developments?

How does the expertise relate to that of others?

How are the domain and topics distributed over coun-tries ?

Where does the program be developed and conduc-ted ?

在领域分析时,无论是宏观层面需求还是微观层面需求都可以归结为对这些具体问题的一种回答。相应地,构建的领域分析数据集中必须可以找到对应上述问题的确切答案,才能满足微观层面的需求。

2.4 三者之间的关系

根据上述三个层面的主要内容,基于领域分析需求的领域分析数据集可以表示为图2。从图中可以看出,三个层面需求之间存在着紧密的联系。宏观层面需求需要中观层面和微观层面的支撑,通过分析中观和微观可以寻找宏观层面领域间的关系;微观层面是中观层面需求的再放大,微观层面的各种需求累积起来就构成中观层面需求。

根据三者之间的关系,在领域分析数据集边界确定时,若要满足宏观层面的分析需求,可以从中观层面和微观层面人手;若要满足微观层面的需求,可以从中观层面深入到具体细节要素。具体地说,宏观层面和微观层面数据集的边界都可以以中观层面的数据集边界为参照,中观层面的数据集边界应该包含领域现状结构、关键问题以及可能的发展的数据,这些数据分别可以与按照时间属性划分的分析需求相对应。基于此,通过中观层面的数据集确定可以相应找到具体回答微观层面数据集的答案;通过若干个体中观层面的数据集可以确定整体宏观层面的数据集。

3 基于分析目标的领域分析数据集界域

领域分析目标本质上是对领域分析需求的一种具体回答,下面从分析目标一端,通过领域分析目标的类别来考察对领域分析数据集边界的要求,如图3所示:

3.1 产出分析

科技论文是科学研究活动的重要产出形式,论文产出量是衡量其科技产出的重要指标之一。特别是被世界权威检索系统收录的国际论文的数量和质量更能反映该国科技论文的国际地位。对科技论文产出的系统分析,可以揭示出该国的科研优势领域、科技发展趋势、与国际先进水平之间的差距。

对于领域分析数据集而言,满足产出分析的数据集应该包含从时间维度、主体维度和主题维度反映领域文献数量变化的数据。以时间为维度,可以反映领域的产生、发展过程,如各领域产出年度变化、各主体产出年度变化以及领域内各主题产出年度变化等;以主体为维度,可以反映领域内主要从事该领域的研究机构和人员,同时粗略反映出各主体在领域内承担的责任,比如主体各领域产出分布、主体领域内各主题产出分布等;以主题为维度,可以反映领域内具有国际竞争力或国内先进水平的主题领域分布状况,比如领域内各主题产出分布、领域内各主体的主题产出分布等。

3.2 影响力分析

产出分析是从数量上看领域的态势发展变化过程,而科技论文的影响力分析则是衡量一个国家、地区、行业科技论文质量和国际影响的重要指标。

分析影响力的领域分析数据集包含的数据以引文数据为基本单元,数据集必须要可以测度被引频次、篇均被引频次等侧重数量的数据,还应该提供用于评估诸如核心机构、核心研究人员的内容。

3.2.1 侧重数量的数据在数量方面主要包括被引频次、篇均被引频次、国际1%顶尖论文等。

论文被引频次指在若干年内收录关于某领域发表的论文在某年被引用的次数,该指标反映领域内科技论文国际影响力的增强或削弱趋势。

篇均被引频次即每篇论文平均被引用的次数,SCI论文篇均被引频次是指SCI在若干年内收录领域内发表的论文的平均被引用次数,反映各领域整体的竞争力,同时从各领域的对比中可以反映领域间影响力水平差距。这个数据主要是确定科技论文开始被引用时间与最后检索到文献的截至时间,利用论文的被引频次除以时间差即为篇均被引频次。

SCI国际1%顶尖论文亦称高被引论文,是ESI将国际过去10年各学科的论文数量被引频次进行统计,并根据各领域论文被引频次由高到低排出处于前1%的论文,即各领域过去10年中各年论文被引用次数超过指定阈值的论文。从领域内各主题的国际1%顶尖论文数量的国际位次可以看出真正具有影响力的领域分布状况。这个数据可以根据SCI提供的被引频次数量获得。此外,通过此项数据的主题分析,还可以获得研究热点、核心机构、核心作者等。

这些数据指标同样可以以时间、主体、主题为维度进行相应的指标细化。由于都是关于数量上的问题,因此对于数据集的要求同产出分析中的数据集要求相一致。

3.2.2 侧重评估的数据 在评估方面主要包括核心机构、核心研究人员、领域居前1%的机构分布、领域居前1%的科学家分布。

核心机构或核心研究人员是指领域内从事该领域研究的活跃机构或人员,这类机构或人员通常在领域内的研究中占有主导地位,他们对于领域发展的贡献举足轻重,并且起到至关重要的影响作用和引领作用。

领域居前1%科研机构是按照ESI对国际近10年各领域论文的机构数量及各机构论文被引频次进行统计,并根据各科研机构总被引频次由高到低排出处于前1%的科学机构,反映某领域具有国际竞争力的核心创新单元的发展态势。领域居前1%科学家是按照EsI将近10年学科论文的著者数量及各著者论文被引频次进行统计,并根据各著者论文总被引频次由高到低排出处于前1%的科学家,反映某领域具有国际竞争力的科学家的分布和发展态势。

3.3 结构布局分析

结构布局分析是指通过科技领域的主题内容来反映领域内的知识流动、知识扩散、知识关联,并且还反映领域间的相互作用。分析结构布局的数据集应该以文献数据的主题为基本单元,包含寻找新主题、研究热点、论文关联以及领域间合作的数据。

寻找新主题主要是指以时间为维度从研究主题分布中发现突现主题;与之相反的指标是寻找削弱主题,主要是以时间为维度从研究主题分布中发现逐渐减少甚至消失的主题。

研究热点主要是指有关领域的科技论文研究中相对集中的主题。发展趋势是指领域内尚不明确或只是模糊制定的遥远目标持续发展的主题运动,这些主题表现出的特点是,它们并不是人们还一无所知的主题内容,而是对那些已经显露出一线曙光的研究主题内容进行的评估,相对于研究热点的状态而言,它可以表现出集中状态,也可以表现出离散状态。

论文关联是指根据领域论文的引文关系及各种共现关系(合著、机构合作、主题共现等),进行聚类形成的相关子领域的集合及其相关关系图。

大数据分析论文篇(3)

1 机构内科研竞争力分析的意义

随着我国科研的发展,科研资源的配置越来越受到关注,各种科研竞争力评估也应运而生。众多评估案例从不同角度、采取不同的指标来评价机构间的科研实力,也产生了很多版本的高校排名。目前常见评估案例的内容以机构间的对比评价为主,主要为部级别的资源配置提供信息。但对于单个的科研机构而言,其管理部门还经常需要在机构内部的各子机构之间配置资源,因而迫切需要全面了解院系等子机构的科研发展情况,识别出较有潜力的领域和科研团队。在这种情况下,针对某一机构及其子机构的科研竞争力分析报告,将有助于管理部门准确把握各机构目前在国内外所处的位置,科学判断机构所面临的竞争态势,合理分配科研资源。

2011年北京大学发展规划部为编写“十二五”规划,委托北京大学图书馆对本校的科研实力进行评估。为此,图书馆信息咨询部逐步探索了兼顾机构内外,全面反映机构本身及其子机构的科研现状及发展趋势的评估方法,对北京大学学术论文方面的科研竞争力进行了量化评估,最终完成《北京大学科研实力分析报告》。报告通过客观的数据分析,帮助北京大学的科研管理人员更为准确地了解目前的竞争优势与劣势,并为科研决策提供可靠的信息支撑。

2 机构内科研竞争力的评价思路

2.1 评价角度

科研的评价角度非常多,如:学术论文产出情况、著作产出情况、获奖情况、科研项目情况、科技会议参与情况、经费的获取与投入产出比情况等。无论从何种角度出发,都要在同行评议的同时,提供一个基于客观数据的量化评估体系作为基准和参考,才能实现公平客观、科学合理的科研评估。文献计量学分析将提供有关学术活动的一般特征信息,还是一个保持同行评议过程诚信的工具。因此,本文从文献计量的角度,探讨如何依据事实数据,客观评估机构、尤其是其子机构(院系)在学术论文方面的科研竞争实力。

本次评估从机构科研决策的需要出发,主旨在于帮助管理者发现机构的优势、劣势和突破口,因此既需要评估机构的整体科研实力和影响力,也会涉及各院系及个人的科研情况。此外,由于国内外不同机构的院系设置差异较大,难以实现真正院系级别的比较,只能通过学科评估作为院系评估的参考。因此,本文的科研竞争力评估主要包含三个层次:其一,北大整体科研实力以及与国内外知名高校的横向比较;其二,北大各学科的发展情况及其在国内外的地位;其三,北大各院系及研究人员的科研实力。

2.2 评价标准

在机构整体科研竞争力方面,主要分析机构论文被web of Science(WOS)等著名数据库收录和引用的情况,并将其与国内外知名高校进行对比,客观衡量当前的科研实力水平;考察特定时间段内机构论文的收录及被引数量变化,分析机构科研竞争力的发展趋势。考虑到科研人员在领域内著名期刊或影响因子较高的期刊上发表成果通常被视为科研绩效的一种指标,本次评估增加了机构通讯作者、JCR核心期刊、《Nature》、《Science》等的发文量统计;另外,鉴于人文社科领域国内发表的作品较多,将CNKI、CSSCI等中文数据库的收录引用情况作为参考。

在学科科研竞争力方面,主要分析不同学科的活跃程度;分析在全球有一定影响力的学科的及被引情况,并与国内外相关机构进行比较;此外,鉴于人文社科领域的特殊性,将此领域内各学科的论文收录情况与国内人文社科重点院校进行比较。

在院系的科研竞争力方面,主要考察各院系论文的收录及被引情况,并分析特定时间段内院系论文被收录及被引用的数量发展趋势;进行JCR核心期刊、《Nature》、《Science》、ESI的论文统计,识别出院系科研影响力较高的论文及其作者;此外,对多院系合作的论文进行单独分析,考察多院系合作论文的影响力和优秀率,以及学科交融情况。

2.3 数据来源

本文的评估数据主要以WOS数据库的SCI、SSCI、A&HCI数据为主,并参考基本科学指标数据库(Essential Science Indicators,ESI)、期刊引证报告(Journal Citation Reports,JCR)、《Nature》、《Sci-ence》的部分数据。人文社科领域以中国社会科学引文数据库(CSSCI),中国期刊网(CNKI)作为补充。

数据由北京大学图书馆信息咨询部成员按照作者署名、地址等从上述数据库中提取。由于短期的数据难以全面反映机构的科研实力和变化情况,因此本次评估提取了北京大学从2000年到2010年的科研产出数据,包括SCI中的2.5万余篇,CSSCI中的1.9万余篇,CNKI中的2.3万余篇,ESI中的近300篇文章。

由于数据库中作者、地址等字段的数据信息经常会出现不够规范和准确的情况,因此本次评估对提取出的数据库信息进行了人工清理,保证数据具有一定的准确性后再进行下一步的科研竞争力分析。

3 机构科研竞争力评价方法

3.1 整体科研竞争力评价方法

北京大学的整体科研竞争力主要从WOS总收录论文数、总被引次数、篇均被引次数进行分析,评价了2000~2010年北京大学被SCI、SSCI、A 8LHCI数据库收录的论文数量、总被引用次数、平均每篇论文被引次数。为降低国外合作对评估机构真实科研竞争力的影响,进一步分析了北京大学科研人员作为通讯作者的论文占总论文数的比重。同时,将北京大学被SCI、SSCI、A&LHCI数据库收录的论文数量和篇均被引次数与哈佛大学、牛津大学、香港大学、清华大学等国内外知名高校进行对比,衡量北京大学整体科研竞争力在国内外的地位。

考虑到不同学科在期刊论文的发表和引用方面有着很大的差异,我们采取分学科的方式选取优秀期刊,具体做法为:以JCR的特征因子指标为主要参考依据,按照2010年JCR自然科学版和JCR人文社科版的学科分类,选取各学科下特征因子排序前10名的期刊作为优秀期刊。自然科学版分为173个学科,选出1376种优秀期刊;JCR人文社科版分为55个学科,选出462种优秀期刊;两部分去重后共有1759种期刊。最后统计出北京大学在2000-2010年被SCI、SSCI、A~HCI收录的全部论文中发表在JCR优秀期刊上的比例。此外,还统计了北京大学在2000—2010年间每年在《Nature》和《Science》上的数量。

此外,在人文社科领域,我们统计了北大发表的中文论文被CSSCI、中国期刊网人文社科领域核心期刊的收录情况,并与人民大学、复旦大学等国内人文社科重点院校进行对比。

3.2 各学科科研竞争力评价方法

北京大学各学科科研竞争力评价包括根据WOS的SCI、SSCI、A&HCI数据,分析2000-2010年机构发文量最活跃的排名前10位的学科,分别统计理工科和人文社科发文量排名前10的学科。鉴于不同学科之间论文的情况存在显著差异,机构、学科、院系、个人等各个层次的评估都尽量避免不同学科间的比较,主要与国内外同学科的机构、子机构或国际平均水平进行对比。

根据ESI数据分析北大进入全球1%的学科中,WOS收录的论文篇数和篇均被引次数,从每个学科选取ESI中排名前5位的各国高校进行比较,同时选取清华大学、中国科技大学等若干综合实力较强的国内高校与北大进行对比。

鉴于人文社会科学的特殊性,“Social Sciences,General”学科选取人文社科重点院校中国人民大学、复旦大学等进行对比,并将上述人文社科重点院校被CSSCI收录的各学科论文数量与北大进行对比。

3.3 院系的科研竞争力评价方法

北京大学内各院系由于学科的不同,总收录论文数量、总被引次数以及篇均被引次数存在较大差异。评估将2000~2010年各院系发表的论文被SCI、SSCI、A&HCI收录及被引用次数分别按照理工类、交叉学科类、人文社科类进行归类,并分析变化趋势。由于论文数量较少的院系的被引用次数受单篇论文影响较显著,因此只挑选收录和被引较高的前10个院系进行分析。

分析北京大学各院系2001-2010年SCI、SS-CI、A&HCI收录的论文中,在JCR优秀期刊上按发文量排名前20的院系,并计算这些院系在JCR优秀期刊上的发文比例。根据ESI的数据,统计2000—2011年各院系在本领域进入全球前1%行列的论文数量及通讯作者为机构人员的论文数量。此外,将2000-2011年各院系在《Science》和《Nature》上发表的论文数量作为补充指标。

3.4 识别突出科研人员和科研合作情况

分析北京大学各院系2000-2010年在《Sci-ence》和《Nature》上的作者,并根据ESI的数据,统计出各院系进入全球前1%高引论文的作者,尤其是ESI中被引次数高、且通讯作者为北京大学科研人员的优秀论文。通过高被引文章和权威期刊文章识别各院系中成果突出的科研人员。

为了解院系间的合作对科研产出数量与质量的影响以及学科间交融的情况,本次评估同时也分析了北京大学2001-2010年被SCI、SSCI、A&HCI收录的论文中,由不同院系合作完成的论文数量和变化趋势,以及论文的质量和影响力情况,并分析了合作在JCR优秀期刊的比例是否高于全校整体的优秀论文比例。

4 评价小结

此次科研竞争力的评估主要基于SCI、SSCI、A&HCI、中国知网、中国社会科学引文索引等国内外知名数据库中的文献统计信息,并参考JCR、ESI等专业学科评估工具,力图客观、如实地反映北京大学在学术论文方面的科研竞争实力。此外,尝试了院系层面的科研实力、科研合作等方面的分析评估,填补了以往科研实力评估中高校与个人两个层面之间院系层次评估的空白,也为学校的多学科交叉与跨院系合作情况提供了一个新的评估角度。

科研竞争力的评价可以为科研决策提供必要的数据依据,但由于评价方法尚在探索过程中,评价过程也存在一些问题。例如评估中发现各数据库中的论文署名单位、各院系(实验室、研究中心)名称等信息都存在不规范的现象,特别是机构(或院系)英文名称不规范或科研人员的论文署名只包含实验室而未体现机构名称等情况尤为常见,这些因素都会影响到数据导出和分析的准确性。虽然通过人工的数据清理能够在一定程度上解决这个问题,但从根源上则需要各机构进一步规范其署名形式和要求,加强署名规范的宣传和培训,从而在今后的评估中得到更为全面准确的机构成果数据,使评估分析更为精准地反映实际情况。

此次科研竞争力评估是北京大学图书馆信息咨询部开展高端咨询服务的一次有益尝试,充分发挥了图书馆熟悉相关数据库与文献计量方法的特长,以客观、严谨的量化分析为学校的科研管理与决策提供了参考服务,同时也为进一步开展学科服务与高端咨询服务积累了宝贵的经验。机构的科研竞争力分析是一项很有意义的工作,图书馆可以在此领域继续探索,为更加知识化、专业化的服务奠定基础。

参考文献

邱均平,赵蓉英,余以胜.中国高校科研竞争力评价的理念与实践.高教发展与评估,2005,21(1):31-36

大数据分析论文篇(4)

中图分类号: G250文献标识码: A 文章编号: 1003-6938(2010)01-0111-04

A Statistical Analysis of the Library Science Papers Research Methods

Jia ErpengYi Jinghan(Department of Information Management, Zhengzhou University, Zhengzhou,Henan, 450001)

Si Miaomiao(Library, Hubei Vocational College of Bio-Technology, Wuhan, Hubei, 430070)

Abstract: Relevant scientific research methods support the completion of the science research. So library science research methods are an important component of the library science system. Through a statistical analysis to the research methods of the academic articles published in 11 library journals, this article sums up the current condition of method application in library science in our country, and prospects for the future of library science research methods in our country.

Key words: library science; research methods; methodology; survey analysis

CLC number: G250Document code: AArticle ID: 1003-6938(2010)01-0111-04

工欲善其事,必先利其器。科学研究是富有创造性和艺术性的活动,方法是科学研究的工具和途径,图书馆学研究过程也与科学的研究方法不可分离。图书馆学研究方法是在继承一般科学研究方法的基础上,根据自身的研究对象、学科性质而进行融合与发展,形成自己学科的研究方法体系。随着图书馆学情报学研究范围的扩大、研究对象的复杂,其研究方法呈现出多样性特点。从多个角度对其进行研究,既促进了我国图书情报事业的发展,反过来又进一步刺激了研究方法的多样化。本文以11种图书馆学专业期刊2006~2008年所刊载论文为数据源,分析论文的研究方法,试图总结出图书馆学研究方法的规律及其发展趋势。

1我国图书馆学方法论的研究

图书馆学研究方法,是图书馆学学科体系的重要组成部分,一方面,它使得图书馆学研究能够准确、充分地揭示研究对象的本质与规律,是图书馆学研究的保障;另一方面,整个图书馆学的研究中对方法的研究不能偏废,方法研究是学科研究内容的一部分。[1 ]我国图书馆学方法论研究开始于20世纪80年代。1981年刘迅先生在《图书馆学通讯》上发表了《要重视图书馆学方法论的研究》一文。紧接着乔好勤先生在该刊1983年第一期上刊登了《试论图书馆学研究中的方法论问题》,[2 ]运用统计方法对《图书馆学通讯》等三种专业刊物1980~1981年发表的学术论文研究方法进行分析。并提出了图书馆学方法论的三层次说法,即图书馆学的研究方法可以分为哲学方法、一般科学方法和专门科学方法。随后出现了有关图书馆学方法的大量学术论文,还有一些著作,如王崇德的《图书情报方法论》。[3 ]

从宏观上看,图书馆学方法论的三个层次基本得到认同。对一般科学技术研究方法的探讨,也分为三个层次,最底层是具体的技术层次,中间层是一般的研究方法层次,最高层则是哲学层次。[4 ]图书馆学的一般科学方法,主要是指引进和移植相关科学的研究方法和研究成果运用于图书馆研究,可分为:信息获取方法(主要指调查法、统计法、试验法和历史法等),信息加工方法(主要指老三论、新三论等)。[5 ]对图书馆学专门方法探讨的文章很多,虽然还没有统一的认识,但是普遍认为文献计量学方法和引文分析法是典型的图书馆学专门方法。另外从研究的性质来分,图书馆学的研究方法也可以分为定性和定量方法。随着对此研究的深入,图书馆学方法论体系会不断地得到完善。

3数据来源

在数据收集中,笔者选取了11种图书馆学专业期刊:《中国图书馆学报》、《大学图书馆学报》、《图书情报工作》、《图书馆杂志》、《图书情报知识》、《图书馆》、《图书馆论坛》、《图书与情报》、《图书馆理论与实践》、《图书馆建设》、《图书馆工作与研究》作为调查对象,具体统计了2006年~2008年间各期刊学术论文使用研究方法的情况。数据主要来源于中国知网,小部分数据来源于各期刊主页。在数据统计中,去除了一些信息资料类文章,如征文通知、会议通知等(见表1)。

4数据统计分析

本文总共统计了8159篇学术论文,通过对所选的各篇学术论文,逐篇分析其篇名,个别文章查阅了摘要、正文等详细信息,根据各科学研究方法的含义,归纳每篇论文采用的科学研究方法,并将其研究方法归纳为15小类(见表2)。由于每篇文章采用方法很难准确判断,有的文章采用了多种研究方法,所以从表2中可以看出,最后的论文合计总数(8273篇)大于调查的论文总数(8159篇)。在计算各类研究方法的论文占调查总数的百分数时,是除以调查总数(8159篇),所以百分数之和是(101.3997%)而不是100%。

(1)理论分析法

运用理论分析法的主要是一些分析归纳与概念推理类研究,以及思辨类的学术论文。从表2中可以看出,采用理论分析法的学术论文共2904篇,占调查论文总数的35.593%,理论分析法是我国图书馆学研究中最常用的方法。研究方法的运用主要受到学科性质和研究任务影响,图书馆学从目前来看应该属于社会科学,而且人文色彩比较浓厚;我国图书馆界也有重理论的现象,这与国外主要以定量方法为主、重应用有很大不同。随着其它学科背景研究者的加入,看问题的视角会有所变化,相应的研究方法也会多样化。社会科学的发展是由定性方法向定量研究过渡的过程,图书馆学科也要注重定量分析方法的应用。

(2)操作实验法、调查研究法

在调查的学术论文中,运用操作实验法的共有830篇,占到总数的10.173%。这类论文主要研究技术性的问题,比如系统开发设计、数字图书馆建设、网络信息资源开发组织等。随着图书情报工作环境、研究对象的变化,图书馆学研究关于技术的内容会越来越多。

调查研究法是社会科学常用的一种研究方法。图书馆学是一门实践性很强的学科,调查是获取原始数据的一个重要的方法。图书馆学研究中主要进行抽样调查,通过问卷、网络来收集数据资料。采用调查研究方法的学术论文一共745篇,占总数的9.131%,调查方法的运用在调查数据中占有很大一部分,说明研究更贴近实际问题。

(3)实例分析法、历史方法

实例分析法通常是以具体的实例来介绍经验或说明问题,论文中主要是以国内比较著名的大学或科研院所图书馆、国外有名的图书馆等为例子进行分析,对于其它图书馆的建设、信息资源开发服务起到了借鉴作用。

历史方法主要用于论述关于图书馆事业史、人物评价、文献学、目录学等内容的论文,是一种传统的研究方法。有的期刊专门开辟了关于图书馆事业史、文献学的专栏,历史方法的论文在调查论文中占到了7.501%。

(4)系统方法、管理学方法

系统方法主要是用系统的思想,从整体的角度来观察问题,这种方法对我们认识研究起到很大作用。虽然有的文章不能明显地看出是运用了系统方法,但是系统方法贯穿于观察问题的整个过程。管理学方法是将管理学的方法移植在图书情报学的研究中,图书馆在机构建设、运营方面都要运用到管理学的知识方法。

(5)数理方法、文献计量学方法、比较法、经济分析法

数理方法主要是数学方法在图书情报学研究中的应用,是一种定量的研究方法。采用数理方法的学术论文有304篇,占调查论文总数的3.726%。数学方法的运用,也说明图书馆学研究者正在试图定量地揭示研究对象,随着本学科逐渐走向成熟,这一方法将继续普遍化。

文献计量学方法是用数学和统计学方法,对文献量、作者数、词汇数等的定量化研究。调查的论文中运用此方法的占到3.199%,在调查论文中占到的比例比较低。文献计量学方法也应用于其它学科研究,从CNKI数据库中我们以“文献计量”为题名,可以粗略地检索到600多篇论文,内容涉及很多其它学科研究。

比较方法也是比较常用的一种研究方法,通过对多个相关事物或事物的各部分之间进行比较,揭示其共同点和差异点。

经济分析法是将经济学的方法运用到图书馆学的研究当中,研究内容包括图书馆营销、资源共享效率评价、纸质资源与电子资源的经费问题、资源服务的经营模式等等。

(6)控制论方法、引文分析法、内容分析法

明显运用控制论方法的论文很少,调查中只有79篇。占到总数的0.968%。但是控制论的思想在很多论文中都有所体现。

引文分析法是利用各种数学及统计学的方法对科学期刊、论文、著者等的引用和被引用现象进行分析,以揭示其数量特征和内在规律的方法。在所调查的论文中,明确使用引文分析法的有23篇,占总数的0.282%。引文分析法作为图书情报学科的一种专门方法,运用也很广泛。在CNKI中用“引文分析”作为题名可以检索到1200多篇论文。

内容分析法产生于传播学领域,是一种客观的量化方法,是从大量样本进行特征识别的系统方法,具有统计性,是一种从公开资料中萃取情报的重要方法。因为它是新方法,统计中只有6篇。

(7)其它

其它中包括有专利分析方法、社会网络方法、SWOT分析法、法律分析方法、心理学方法、美学方法、传播学方法、医学理论方法等等。

5我国图书馆学研究方法的发展趋势

5.1定量分析与定性分析相结合

根据表2数据,我们可将研究方法大致分为两类:第一类是定性方法,包括理论分析法、实例析法、历史方法、系统方法、管理学方法、比较法、经济分析法、控制论方法,百分比总共占到61.62%;第二类是定量方法,包括操作实验法、调查研究法、数理方法、文献计量学方法、引文分析法、内容分析法,百分比总共占到26.584%。从数量来看,定量研究方法所占比例比起定性方法还很小,这是由于理论分析法的比例太大。对于图书馆学的科学研究,目前来看定性方法用的多一些。但对于具体问题,定性方法和定量方法各有特点,用哪种方法要根据具体情况而定。

理论分析法是一种定性研究方法,在学科研究中发挥了重要的作用。由于定性方法缺乏科学的数据支撑,其理论分析就显得没有深度和广度。随着学科的发展,定性与定量研究方法相结合是发展的趋势。图书馆学情报学领域已经大量采用定量的研究方法,如调查研究法、数理方法、文献计量学方法等。定量方法的运用使研究更精细、更科学,站在定量的角度解释图书馆学情报学的内在规律,从而在广度和深度上推动学科的发展。[6 ]

5.2现代信息技术的影响越来越大

随着信息技术、网络技术的发展,图书馆学的研究内容产生了巨大变化,与网络信息、信息系统等有关的技术性研究论文数量会不断增多。在表2中,操作实验法所占比例为10.173%,我们可以清楚地看到这一点。

新技术的发展还为经典的研究方法提供了新的实现工具。[7 ]研究这可以通过互联网进行数据采集,以网页形式的网络调查、用即时通信(instant messaging)软件(如QQ)的调查、[8 ]电子邮件调查等,这些都为更好地完成调查提供了多种途径。随着搜索引擎的运用普及,搜索引擎的服务器记录和保存了用户与搜索引擎的交互过程,这种数据称为使用记录(transaction log),使用记录分析(transaction log analysis)成为一个研究热点。另外,计算机还可以辅助研究者进行定性数据分析等。在文献计量学的基础上产生了网络信息计量学方法,在引文分析方法的基础上出现了链接分析方法,这都是现代信息技术对研究方法的影响。

5.3吸收其他学科的研究方法

表2中的管理学方法、数理方法、经济学方法、内容分析法等都属于移植其它学科的方法,占10.85%。“其它”占7.185%。这些都说明了图书馆学研究中移植了许多其它学科的理论或方法。

在学科的发展中,一方面要具有从其它学科吸收养分的能力;另一方面要能为其它学科提供养分。随着图书馆学科研究队伍的壮大,研究者会大量借鉴其它学科的研究方法,会产生新的研究方法,如内容分析法、情景分析法等。当然我们不能盲目地去移植新的研究方法,而要与图书馆学情报学本学科的实际情况相结合,将其融入本学科研究之中,通过适当的研究方法来为研究服务。

5.4实证方法的应用

调查研究法、实例分析法就属于实证性研究方法,从表2中的数据中就可以看出,共占到17.061%。近些年来研究者也开始注重实证研究(evident-based studies)方法,[9]它是在获取研究对象客观数据材料的基础上,通过数据分析,考察研究对象各有关因素的相互影响及其影响方式,从个别到一般,归纳出事物的本质属性和发展规律,它是观察法、实验法、统计法等的综合运用。实证研究通过实际数据分析,连接了理论与实践,一定程度上有利于图书馆学研究水平、学术地位的提升。

总之,方法都不是万能的,各种研究方法都有自己的优点和缺点,或者是有适用的条件。定性与定量研究方法的结合将成为图书馆学方法的主流,新的方法与新的技术将得到更多的应用。利用多种先进技术手段来收集数据、分析数据,综合多种研究方法来探讨复杂的研究问题将会越来越多。所以研究方法的运用将是多元化发展,合理的研究方法体系应该是多种研究方法的有机结合与互补,从各个不同的角度对研究对象进行分析。

参考文献:

[1]邓小昭.信息管理研究方法[M].北京:科学出版社,2007:1-33.

[2]乔好勤.试论图书馆学研究中的方法论问题[J].图书馆学通讯,1983,(1):54-62.

[3]王崇德.图书情报方法论[J].北京:科学技术出版社,1988.

[4]杨建军.科学研究方法概论[M].北京:国防工业出版社,2006:1-24,395-409.

[5]罗方等.我国图书馆学方法论研究的现状及趋势[J].图书馆建设,2006,(2):19-20.

[6]邱均平.文献计量学[M].北京:中国人民大学出版社,2007:260-283.

[7]华薇娜.我国80年代图书馆学情报学研究状况的定量分析[J].情报学报,1995,14(3):218-225.

大数据分析论文篇(5)

[文献标识码]A

[文章编号] 1673-5595(2015)05-0092-04

科技期刊载文信息包括期刊刊载论文中包含的信息及刊载论文在传播过程中衍生出的一些相关信息。[12]对于期刊编辑和办刊单位来说,统计分析载文信息可以为改进编辑工作、评估期刊现状和制定期刊发展规划等提供重要的参考和依据。[36]科技期刊编辑是办刊单位的骨干力量,日常工作中接触的是载文信息的第一手资料,应该有意识地肩负起统计分析载文信息的重任,为编辑工作的改进和期刊的发展建言献策。

一、科技期刊载文相关的一些重要信息

(一)载文量信息

载文量包括期刊的总载文量和期刊下属各学术性栏目的载文量等。总载文量在一定程度上反映了期刊在某时期内吸纳和传递学术信息的能力,是衡量某期刊在同类期刊中地位的重要指标之一。[7]各学术性栏目的载文量在一定程度上既反映了期刊的学术方向,也反映了某时期内的学术动态和热点。载文量的变化则反映了期刊稿源和编辑出版工作的稳定性。因此,通过统计分析期刊的载文量信息,既可以了解期刊在同类期刊中的水平和地位,又可以了解某行业的学术动态,为期刊的准确定位和发展规划的制定提供依据。

(二)作者群信息

作者群是期刊刊载学术论文的作者的集合体,是期刊的“衣食父母群”。通过对作者群的统计分析可以了解作者群的特点,为采取合理的措施吸纳更多优质的稿源提供参考。期刊的作者群同时也是期刊的读者群,所以对作者群的统计分析也可以为期刊的出版发行和宣传工作提供一些有价值的信息。

1.作者群分布

作者群分布包括作者群的地域分布、所属单位分布、年龄分布和职称分布等。[8]科学研究通常与地域和研究群体有重要的联系,所以作者群的地域和所属单位分布可以反映某项研究的热点区域。作者群的年龄和职称分布可以反映从事某项研究的主力群体,职称分布在一定程度上反映了论文的权威性和影响力。

2.核心作者群统计分析

核心作者群是指在某期刊中发表学术论文数量较多且具有一定影响力的作者群体。核心作者群通常具有较好的研究基础,能够对某个研究方向进行持续深入的研究,研究成果的取得具有较好的连续性,发表的学术论文在行业内具有较大的影响力和关注度。核心作者群可以相对稳定地为期刊持续提供高质量的稿源,是期刊正常出版和期刊影响力的保证。所以,统计分析期刊的核心作者群及其特点可以为维持和扩大核心作者群提供参考。

(三)合著信息

合著论文是指作者有两位或多位的论文,论文合著率是指合著论文占期刊总论文量的比例。[9]论文的合著率可以从侧面反映研究的复杂程度和研究是否需要多学科的专业知识。一般来说,论文合著率越高,研究的复杂程度越高,涉及到的学科专业越多,科学研究过程中的合作越密切。

(四)基金项目资助信息

论文基金项目资助信息在一定程度上反映了研究成果及论文的质量。一般情况下,受到基金项目资助的研究,其研究内容、研究方法及技术路线都经历过同行专家的严格论证和把关,其所取得的研究成果具有较好的理论价值或应用价值,而且基金项目资助的级别越高,研究成果及论文的学术水平往往也越高。所以,基金项目资助下的研究成果转化成的论文一般具有较高的质量和影响力,基金项目资助情况已成为当前评估论文学术水平的一个重要指标。[10]

(五)关键词信息

关键词是从文章题名、摘要和正文中抽取的能够简洁、直接反映论文主题内容的词或词组,是科技论文不可或缺的组成部分。[11]对关键词的统计分析是文献计量学的重要组成部分,其可以揭示学科的研究特点、结构及内在相关性,反映学科的研究热点和发展方向,对期刊的定位和发展也有重要的参考价值。[12]

1.关键词数量

科技期刊刊载的论文一般都要求有关键词,不同期刊对关键词的数量要求也不太一致。论文关键词个数的多少虽不能直接反映论文水平的高低,但不能过少或过多。对于科技期刊来说,论文的平均关键词数量的稳定性侧面反映了期刊编辑和出版的规范程度。通过对关键词数量的统计分析可以为规范编辑工作提供参考。

2.关键词出现频次

关键词出现的频次越多,说明该领域内的研究成果越多,该领域是研究的热点领域。关键词出现的频次越少则可能有两方面的原因:一方面可能该方向或领域较为冷门,从事这方面研究的较少,成果和论文较少;另一方面可能是该方向的研究具有前瞻性,所以从事该方向研究的较少,取得的成果也较少。对于出现较少频次的关键词要注意统计分析,这对于办刊单位和编辑及时把握学术动态和调整期刊学术栏目是非常有参考意义的。

(六)引文信息

科技论文中引用以前发表的文献既是对前人成果的继承,又是对所引用文献作者的尊重。引文信息包括引文来源、引文类型、平均引用文献数量和引文语种等。通过对引文信息的统计分析可以了解论文作者更注重从哪些途径获取文献、更侧重于参考哪一类文献、对国内外研究进展的把握等。一般来说,刊载论文的引文来源和类型越丰富、引用文献数量越多、引文语种越多,说明论文作者对已有研究成果的把握越全面。

(七)审稿专家信息

审稿专家为论文的学术性和先进性把关,审稿环节的质量直接影响着论文的学术质量。科技期刊编辑应注重对审稿专家信息的统计分析:一方面,编辑要统计审稿专家的联系信息;另一方面,对于一个大的学科来说,通常又分为许多细小的研究方向,编辑还要统计分析审稿专家的研究方向,提高送审的准确性和效率。除此之外,编辑还可以统计分析审稿专家的审稿效率、审稿态度,筛选优秀的审稿专家;统计分析审稿专家的性格特点,便于工作过程中更好地与之进行交流与沟通。

(八)载文收录信息

载文收录是指科技期刊论文的摘要或全文被国内、国际权威数据库收录的情况。目前,国内的数据库主要包括中国知网、维普和万方等商业数据库,国外的主要有SCI、EI 和 ISTP三大检索系统,以及其他行业内的数据库等。[13]论文部分或全文被数据库收录后,读者能够通过这些数据库检索和下载论文摘要或全文。所以,对论文收录情况的统计分析可以了解期刊及论文的受认可程度及影响力,为评估期刊的网络传播情况和影响力提供参考。

(九)载文被引信息

载文被引是指科技期刊论文被其他期刊、书籍等出版物引用的情况。期刊论文被引用的次数越多,说明期刊的受关注度越高,期刊的影响力越大。[14]衡量论文被引情况的指标包括被引频次、被引率、篇均被引次数、高被引频次论文分布、被引论文年份分布、被引论文作者分布、施引期刊分布等量化数据。因此,统计分析期刊的被引信息可以为评估期刊的受关注度和影响力情况提供参考。

二、统计分析科技期刊载文信息的重要性

(一)有助于做好稿源吸引工作

科技期刊的稿源一般可分为三种:一是作者的自由投稿,这是期刊主要的稿源;二是开辟专栏时对专栏所属领域专家的约稿;三是对行业权威专家的约稿。做好这三方面稿源吸引和邀约是确保载文质量和学术水平的关键。

为了更好地吸引作者自由投稿,科技期刊编辑要了解作者的特点和兴趣,关注学术动态,有针对性地做好期刊的宣传工作及与作者的沟通工作。此外,无论是开辟专栏时对专家的约稿,还是对行业权威专家的约稿,编辑都要首先了解这些专家的研究方向和特色研究领域,了解专家的联系方式和性格特点,这样才能有针对性地进行约稿。所以,在吸引稿源和约稿过程中,了解作者的信息、学术动态和专家的研究方向等信息是非常重要的一环,而通过对以往载文信息的统计分析恰恰可以获取这些信息。

(二)有助于提高送审准确性和审稿效率

审稿环节的把关直接关系到论文的学术质量,是论文编辑和出版过程中非常重要的一环。同时,审稿环节涉及论文的送审、与审稿专家的沟通和审稿意见的反馈及整理等,也是非常繁琐的一个环节,审稿环节工作效率的高低直接影响到稿件的出版周期。

在审稿环节中,合理地利用载文信息的统计分析数据可以为审稿工作提供很大的便利。在送审时,利用载文信息统计分析数据有助于更加准确地找到“小同行”审稿专家,提高送审的准确性。在选择审稿专家时,根据对以往审稿周期的统计分析数据,可以选择审稿效率高的审稿专家。由于通过统计分析掌握了审稿专家的相关信息,在遇到问题时可以更方便地与审稿专家进行沟通。所以,载文信息的统计与分析数据可以有效地提高审稿工作的准确性和审稿效率。

对于编辑工作者来说,利用载文信息的统计分析数据有助于更好地开展编辑工作。基于统计分析获取的学术热点和动态信息可为编辑对稿件的审读提供参考;获取的专业术语可为编辑加工和修改稿件提供参考;根据关键词统计分析结果,编辑可以更好地对论文关键词进行把握,提出意见,以提高检索率和扩大期刊的影响力;根据对摘要内容及结构的统计和分析,有助于编辑对论文的摘要进行修改和加工,提高所刊论文的规范性。

(四)有助于改进期刊出版发行和网络传播工作

在当今信息化的社会,做好期刊出版发行和网络传播工作是期刊持续发展和影响力不断扩大的保证。通过利用载文信息的统计分析数据可以了解期刊的读者群信息、载文的网络传播情况,对当前的读者群和载文传播情况进行评估。通过统计分析载文信息还可以了解不同传播途径的载文传播情况,了解不同传播途径的传播效果,获取载文传播的新途径和发展动态,为期刊出版发行和网络传播策略的调整和规划提供参考。

(五)有助于进行期刊的定位及发展规划

期刊的定位是期刊的创办者根据市场调查情况,对期刊的办刊宗旨、读者对象、主要栏目、主要内容、发行方式等诸方面内容的确定。在市场调查过程中,将本期刊与同行业、同类科技期刊载文信息的统计分析数据进行比较是非常重要的一个环节。通过对本刊载文信息的统计分析可以分析期刊的运行情况,找出自身的不足,为进一步改善办刊水平提供参考;通过将本刊的统计分析数据与其他期刊的统计分析数据进行比较,可以找出自己的优点和缺点,判断本刊的水平和位置,为下一步的发展和定位提供依据。

三、统计分析科技期刊载文信息的途径

(一)基于商业化数据库的载文信息统计分析

目前,国内外许多公司或出版集团都建立了商业化的科技论文全文或摘要数据库,例如国内的中国知网、万方和维普等数据库,国外的爱思唯尔(Elsevier)出版集团旗下的ScienceDirect数据库、Thomson Scientific公司ISI Web of Knowledge检索平台下的三大引文库(SCI、SSCI和A&HCI)等。这些数据库的出现为载文信息的统计与分析提供了方便。

利用这些商业化数据库,可通过两种方法来进行载文信息的统计与分析:

1.许多大型的且覆盖范围比较广的数据库都提供部分载文信息的统计和分析功能,可以利用商业化数据库自带的这些功能来统计分析载文信息。商业化数据库提供的统计分析功能一般是普适性的,可以对部分载文信息实现横向和纵向比较,利用起来比较简单,但不同的商业化数据库提供的统计分析功能不尽相同,所以编辑需要事先了解不同的商业化数据库分别提供了哪些统计和分析功能,以及如何应用这些功能。

2.对于部分载文信息,商业化数据库没有提供统计分析功能,此时就需要编辑根据自己的需求,利用商业化数据库的检索功能来检索相关的载文信息,然后再利用相关软件和方法来统计分析这些载文信息。这种方法的定向性很强,可以满足不同情况下的特殊需求,但操作起来比较繁琐,工作量比较大,需要编辑具备一定的文献检索功底和掌握一些数据统计分析软件及方法。

(二)基于编辑个人掌握信息的载文信息统计分析

除了商业化数据库中收录的出版论文中的信息,每个编辑在吸引稿件、组织审稿和进行稿件的编辑加工等环节也会掌握一些重要的载文信息,例如作者的研究“小方向”信息和审稿专家的单位、地域、研究方向、联系方式等信息。这些信息是与作者和审稿专家相关的第一手、最准确的信息,也是商业化数据库无法获得的信息,更是非常有利用价值的信息。因此,编辑对所掌握的这些载文相关信息进行统计分析是非常重要且非常有必要的。编辑统计分析载文信息可以借助于不同的工具或软件,例如可以利用office软件中的Excel表格进行简单的分类统计、分析和查询,也可以利用专用的数据统计分析软件进一步对数据信息进行专门的统计分析。总之,科技期刊编辑可以根据自己的实际情况,利用自己较为熟悉的软件,选择性地统计分析自己需要的载文信息,改善工作方法。

[参考文献]

[1] 王强,杨忠民,许建礼,等.《西安科技大学学报》(自然科学版)创刊30年刊载论文统计分析研究[J]. 西安科技大学学报:自然科学版,2013,33(1):122126.

[2] 孙凡.《西南大学学报》(自然科学版) 影响力及网络传播趋势分析[J].西南大学学报:自然科学版,2014,36(8):211216.

[3] 田美娥. 基于中国知网的《西安石油大学学报(自然科学版)》网络传播统计分析[J]. 西安石油大学学报:自然科学版,2010,25(6):9699.

[4] 胡竹萍,龚雪,王曙明,等.《暖通空调》杂志文献统计数据对分析受众群体需求的启示及思考[J].编辑学报,2011,23(增刊):6972.

[5] 胡小洋,游俊,赵燕. 文献计量分析: 专业编辑的可选学术研究方向――以江汉大学1980年以来三大索引收录论文的统计分析为例[J].江汉大学学报:自然科学版,2012,40(4):5458.

[6] 史丽文. SCI引用《水土保持学报》论文的统计与分析[J].水土保持学报,2014,28(4):334336.

[7] 陈亦强.《高等教育研究》2000―2002年载文统计分析[J]. 高等教育研究,2003,24(6):101105.

[8] 金伟.《编辑学报》1995―2004年载文作者群统计分析[J].编辑学报,2006,18(1):7880.

[9] 杨光,纪淑文,王宪.《太阳能学报》创刊以来载文及作者群的分析[J].太阳能学报,2001,22(3):246249.

[10] 冯向春.《化工学报》1998―2002年论文作者统计分析[J].化工学报,2004,55(11):19251927.

[11] 邱均平.文献计量学[M].北京:科学技术文献出版社,1988:440446.

[12] 安秀芬,黄晓鹂.《中国科技期刊研究》论文关键词的统计分析[J].中国科技期刊研究,2004,15(6):661663.

[13] 张诗乐,刘雪立,盖双双.我国编辑出版类期刊在 WoS 数据库被引情况统计分析[J]. 中国科技期刊研究,2014,25(8):990993.

[14] 潘志萍.《环境昆虫学报》2001―2010 年载文被引统计分析[J].环境昆虫学报, 2012,34 (2): 259263.

The Statistic and Analysis of Paper Information in Technical Journals

LI Juan

大数据分析论文篇(6)

摘要:通过中国知网,从年量等七个方面,对咸阳职业技术学院(以下简称咸阳职院)自升格高职以来发表的期刊论文进行了

>> 基于Web of science数据库竞争情报论文的统计分析 渭南职业技术学院科研论文计量分析 陕西财经职业技术学院科研论文计量分析 基于iHistorian的实时数据库工业报表自动统计分析系统的研究 基于组织机构代码数据库的应用统计分析初探 2006~2012年SCIE数据库收录扬州地区二、三级医院科技论文的统计分析 咸阳职业技术学院物流实训中心建设的构想 数据库在乙型肝炎血清免疫标志物统计分析中的应用 电视机基板品质信息统计分析系统数据库设计 咸阳职业技术学院校园主要绿地植物病害调查初报 咸阳职业技术学院通过微课比赛提升教师信息化水平 基于数据仓库技术的保险业统计分析系统设计 管理数据的统计分析 信息技术在教育科研问卷调查及数据统计分析中的应用 科研院所统计分析中数据的可比性 天津电子信息职业技术学院2009―2013年计量分析 职业院校的科研定位及特色――以宁夏职业技术学院为例 基于BYOD的职业技术学院信息化建设的部署策略 基于web的泸州职业技术学院毕业设计监控平台研究 基于Web of Knowledge Web服务的机构论文统计分析系统 常见问题解答 当前所在位置:.

[3] 秦丽萍, 桂云苗. 基于CNKI的安徽工程大学学术文献计量分析[J]. 安徽工程大学学报,2013,28(3):91-95.

[4] 杨聪, 孙宾宾. 基于CNKI的陕西工业职业技术学院科研论文统计分析[J].电子制作,2015(2):93-94.

[5] 容敏华. 广西高等医学院校发表教育教学论文的统计分析[J]. 卫生职业教育, 2014(23):104-105.

大数据分析论文篇(7)

分类号 G253

DOI 10.16603/j.issn1002-1027.2016.04.008

1 灰色文献的内涵

灰色文献(Grey Literature,Gray Literature,简称GL),是相对于白色文献和黑色文献而言的,它介于白、黑文献之间,是指不具有国内统一刊号(CN)或国际标准刊号(ISSN)的文献。1997年在卢森堡召开的“第三届国际灰色文献会议”,赋予灰色文献的定义是:灰色文献是指出版商不以营利为目的,由各级政府部门、学术机构、工商业界等所推出的各类电子和印刷形式的资料。目前,灰色文献的“卢森堡定义”已被广泛接受。

灰色文献主要包括政府报告与文件、技术档案(技术规范、标准和工具手册等)、科研数据、科技报告、调查报告、政策文件、内部刊物、私人信件等。有的灰色文献属于内部发行,未公开发表的研究结果和数据也被认为是灰色文献。灰色文献具有出版灵活,内容丰富,分布广泛、分散,不定期、半公开出版等特点。在当今网络时代下,互联网是推出和获取灰色文献的一个重要的、广泛利用的平台,例如博客、微博、电子出版物、开放获取和数字文档等,称为网络灰色文献(以下简称e-GL)。网络灰色文献相对印刷型灰色文献而言,具有便利、检索快捷、内容丰富、信息量大等特点。灰色文献晦涩难懂、类型繁多、涵盖面广,而且缺乏书目控制,流通面窄,发行和收集也缺乏系统化手段,质量审核和生产标准也各不相同,往往难以获取、访问和评估。

灰色文献是科学研究的重要信息源,是最原始的、第一手的信息,是信息时代推动科学研究、经济发展以及社会文明进步不可缺少的重要信息资源。其相对重要性很大程度上取决于学科的研究方式及其对资源的需求。例如,医学就需要大量灰色文献,灰色文献可为医学政策的制定和医学研究提供珍贵信息。临床实践指南、医学研究报告、医疗项目评估材料、医疗法规等,都属于灰色文献,可以为医务工作者和临床决策提供宝贵的、客观的、全面的信息资源。

2 Meta-分析的内涵

Meta-分析(Meta-analysis),又称汇总分析、荟萃分析,是以同一课题的多项独立研究的结果为研究对象,在严格设计的基础上,运用适当的统计学方法对多个研究结果进行系统、客观、定量的综合分析,Meta-分析是一种定量合成的统计学方法。

Meta-分析的步骤是:提出研究问题、检索相关文献、提取数据、选择并且合并效应量、进行异质性分析、进行敏感性分析和进行发表偏倚分析等。在“检索相关文献”阶段,包括制定检索策略,全面、广泛地收集与研究对象相关的随机对照试验(Ran-domized Controlled Trial,简称RCT)的所有文献。对于研究数据的全面性和准确性要求较高。

3 常用适于Meta-分析的网络灰色文献资源分布

近年来,国外专门从事灰色文献研究与开发的机构纷纷成立,尤其是欧美国家。Meta-分析中的e-GL可以提供最原始的文献,是重要的、珍贵的信息源,可以拓宽研究的视野,为Meta-分析提供更完善、更全面、更客观的证据,为各种决策提供帮助和参考。

3.1 国内适于Meta-分析的e-GL资源分布

适于Meta-分析的e-GL可以通过综合性搜索引擎的学术搜索来进行筛选、获取,比如:必应学术搜索(http:///academic)、百度学术搜索(http:///)、谷粉搜搜(ht-tp:///)、谷歌学术搜索(http://scholar.google.corn/)等。

国内至今还没有专门检索灰色文献的数据库或网站,更没有专门检索用于Meta-分析的e-GL数据库或网站,用于Meta-分析的e-GL可以通过检索国内循证医学的相关网站来获取,比如:中国cochrane中心(http:///)、中国临床试验注册中心(http://.cn);通过天津中医药大学、北京大学、复旦大学、兰州大学等循证医学中心网站,也可以获取适于Meta-分析的e-GL。

2015年12月25日,北京大学开放研究数据平台测试版(简称北大数据平台)上线运行。提供研究数据的保存、管理与、共享、下载等服务。开创了国内获取科研数据中的灰色文献的先河。通过综合性搜索引擎的学术搜索服务,来检索适于Me-ta-分析的e-GL,不够系统、全面,检索效果也不是很理想。此外,也可以通过某些博客或微博、微信等来获取灰色文献,但是通过这些方式获取灰色文献的难度较大,可靠性也有待考证。

3.2 国外适于Meta-分析的e-GL资源分布

国外拥有比较成熟的灰色文献管理和服务体系,主要分布在欧美国家。

3.2.1 国外重要的e-GL

国外常用的灰色文献网站主要有(详见表1):

(1)国际灰色文献(GreyNet International,简称GreyNet),或灰色文献网络服务组织(Grey Litera-ture Network Service),成立于1992年,致力于网络灰色文献的研究、出版、开放获取,是国际灰色文献研究的权威机构。GreyNet网站的主页上,点击“OpenGrey Repository”链接,进入Open Grey检索界面。

(2)欧洲灰色文献信息系统(SIGLE)

目前在灰色文献的开发与利用方面,以欧洲灰色文献利用协会(European Association for GreyLiterature Exploitation,简称EAGLE)推动的合作计划“欧洲灰色文献信息系统”(OpenGrey Reposi-tory-System for Information on Grey Literaturein Europe,简称SIGLE)最为重要。SIGLE始建于1980年,由法国提议,共有17个成员国,均是重要的情报中心或文献提供中心。截至2005年2月,SIGLE的书目数据库共有85.5万条记录,年增6万条,月更新。SIGLE和GreyNet都收集自然科学、社会科学及工程技术等领域的灰色文献。

(3)欧洲灰色文献信息系统(Open Grey,简称OG),是由欧洲推出的包括70万条灰色文献的参考书目数据库,通过开放获取的形式,用户可以查找文献并导出记录。系统涵盖科技、生物医学、经济学和人文社科等学科。收录技术报告、研究报告、博士学位论文、会议论文、政府出版物和其他类型的灰色文献。该网站包括GreyNet会议文献的全文预印本,是SIGLE开放存取的窗口。

另外,还有其他常用的灰色文献网站:美国国家技术研究报告(National Technical InformationService,简称NTIS);不列颠图书馆(The British Li-brary,http://WWW.b1.uk/)等,通过上述这些灰色文献网站,可以筛选出适于Meta-分析的e-GL。还有其他一些免费提供全文的网站,如:DOAJ(ht-tps:///)和PLOS等,也可以检索到灰色文献(详见表2)。

3.2.2 国外重要的适于Meta-分析的e-GL网站

检索国外适于Meta-分析的灰色文献网络资源,可通过医学灰色文献网站和循证医学网络资源来挖掘(详见表3和表4)。

4 灰色文献对Meta-分析结果的影响及对策

决策需要考虑多种影响因素:出版语种、出版状况、出版质量和个性化研究水平等。关于出版状况方面,需要考虑的主要因素是纳入灰色文献(例如,未公开发表的研究,或发表受限、内部交流和/或不列入书目检索系统的文献)。

4.1 纳入灰色文献,减少Meta-分析的发表偏倚

Meta-分析中,阳性结果的论文(结果具有统计学意义的研究,P0.05)更容易被接受和发表,阳性结果的论文被引频次也高于阴性结果的论文。总之,阳性的Meta-分析结果比阴性的更容易发表,这种现象称为发表偏倚。发表偏倚的存在可能会影响数据的可用性和可信度,严重地威胁Me-ta-分析的有效性。发表偏倚所带来的直接后果是对现有的研究进行过度评价,使得Meta-分析的阳性研究结果过分夸大,或者夸大危险因素的强度,甚至得到相反的结论。

发表偏倚对Meta-分析结果的真实性、全面性和可靠性的影响正越来越受到关注与重视,纳入了灰色文献的Meta-分析可能有助于克服发表偏倚的一系列问题,为解决这些问题提供更全面和客观的参考。然而,Meta-分析所纳入的灰色文献,大部分都局限在正式发表的范围,许多有意义的灰色文献因未正式发表、未公开出版而被忽略,这样就存在结论偏倚的风险,甚至可能会改变整体的结论。据报道,已经发表了的采用Meta-分析的文献只有31%包括了灰色文献。69%的灰色文献被排除在Meta-分析之外。积极鼓励和指导研究者采用灰色文献,对减少Meta-分析的发表偏倚尤为重要。当具有某种学科特色的灰色文献数据库或研究数据管理系统建立之后,要利用尽可能多的途径加强宣传,积极动员相关领域的研究者试用,使用户了解、熟悉、掌握乃至喜欢并主动推广这些灰色文献数据库和研究数据管理系统。应关注用户的使用感受,根据他们反馈的意见逐步完善数据库及其检索系统,使数据库更加适合用户使用。

4.2 建立灰色文献数据库,增加Meta-分析的文献完整度

Meta-分析结果的影响因素是多元化的,其中一个重要因素是未能全面广泛地收集与课题相关的RCT。Meta-分析有个重要步骤是“提取数据”,其中包括RCT原始实验的各种数据结果、图表等。Me-ta-分析的结果高度依赖这些基础数据,这就要求Meta-分析的研究者要尽可能多地获取相关研究的RCT实验数据,以便进行准确、全面、客观的统计分析。目前一些健康研究的证据也支持这个观点,这表明如果Meta-分析忽略未公开发表的研究,可能会夸大治疗效果。但是一般情况下,研究者所获得的是已经公开发表的论文数据,还有许多实验数据处于半公开或未公开状态。最佳的检索策略是结合异构数据库检索平台,提高收集数据的完整性。与课题相关的灰色文献的缺失始终是课题研究的缺憾,这与灰色文献的流通面窄、分散,难以收集、管理、检索等因素有关。由于灰色文献的不易获得性,给图书馆提供了针对灰色文献进行研究数据管理的契机。图书馆应该发挥文献资源管理方面的优势,结合本校优势学科或本地的区域特色,收集科研人员,特别是知名专家的灰色文献。应多方面与研究专家积极沟通,采取捐赠、购买、代藏、版权合作等方式收集特色学科的研究资料,建立特色数据库或科研数据管理系统。图书馆可以从建立本校科研人员的特色研究数据管理系统入手,逐步扩展到联合其他同类高校图书馆建立联合特色研究数据管理系统,为广大研究人员服务。为研究人员做Meta-分析的时候提供这些灰色文献的研究数据,能进一步提高Meta-分析的研究质量,增加Meta-分析所需文献的完整度。

大数据分析论文篇(8)

[中图分类号] G230 [文献标识码] A [文章编号] 1009-5853 (2013) 05-0067-03

医学统计学是一门以统计学原理和方法为基础,探索医学科研工作中遇到的有关数据的收集、整理和分析方法的应用科学,又可被看成一个收集信息、处理信息、分析信息,进而从中提炼和总结分析出新的信息的过程[1]。随着医学科研水平和医疗技术水平的不断提高,医学科研和临床实际工作中,人们对待科学的态度逐渐从原来的“经验主义”转变为“论据先行原则”,无论是在一些医学相关学科的基础实验中,还是在一些临床疾病的诊治等工作中,人们遇到问题时不再“想当然”,而是首先考虑为什么,有何依据,而这些依据大多需要通过统计学中的信息收集、整理、分析来提供。因此,医学统计学在医学工作中的地位越来越重要,统计学应用的正确与否直接影响着医学科研结论的科学性、严谨性和可靠性,具体到医学期刊方面,就会出现因统计学应用不恰当而导致医学期刊不严谨、不科学、不可靠和不具有影响力[2]。鉴于医学统计学在医学期刊中的重要地位,作者结合《肿瘤基础与临床》杂志2011年的240篇文章中出现的统计学问题,对目前我国医学期刊中常见的统计学问题进行分析,同时提出一定的解决方案,为医学编辑工作能力的提高以及医学期刊整体水平的上升提供一定帮助。

1 医学期刊中常见统计学问题

统计学的误用、错用和不用问题广泛存在于许多医学期刊中,统计学错误率处于较高水平,有文献报道期刊论文统计学错误率为38%—80%,而且统计学问题的种类几乎涉及统计学的每个方面,包括实验设计不合理、未进行统计学处理、统计分析软件未介绍或介绍不清、统计学数据的描述方法不当、统计学方法的描述不清或错用、统计值或P值不全或描述不清、统计学结果分析或描述错误等[3-4]。王倩等[5]对5种“中华”系列杂志刊登的文章的统计学应用进行回顾性分析,发现1985年统计学方法应用的错误率占24%,1995年占36%。沈进等[6]选取8种医学期刊,分析发表于1998年至2005年的544篇论著文章的统计学方法应用情况,结果显示,136篇的统计学出现明显错误,错误率达到25%,其中以资料处理方法不当所占比例最高,达到61.76%,其次为图表错误、未作统计学处理等。我刊2011年刊登的240篇论文中,排除个案报道、教学论文、棕色行论文36篇,剩余的204篇论文中有126篇论文采用了统计学处理,占61.76%(126/204),现结合本刊统计学应用现状针对医学期刊中常见的统计学问题进行分类分析如下。

1.1 统计研究设计不合理问题

大多数非统计学专业的学者在进行统计研究设计(包括实验设计、调查设计、临床试验设计)时仅仅从本专业的角度考虑,根据主观想要得到的结果进行分组设计,而完全没有考虑该实验设计的可行性、组间数据是否具有可比性等问题,主要表现在实验设计时不遵循随机化原则、未设置对照或对照不合理、均衡性原则贯彻不彻底等[7]。常见的统计研究设计不合理问题包括缺少对照或对照不合理、单因素设计取代多因素设计、样本量选择不具有代表性或样本量不足等[8]。例如,本刊《SMO蛋白及mRNA在食管癌鳞状细胞癌组织中的表达及意义》一文,在实验分组设计时未对各组间数据是否具有可比性进行统计学分析。

1.2 未进行统计学处理问题

许多医学期刊论文虽然也进行了分组设计、设立对照等,但是文中未说明采用何种统计方法,也未对这些数据进行统计学处理,仅仅通过对实验所得的实际数据的直观判断就得出结论[9]。例如,本刊《肺尖癌26例疗效分析》一文中,作者在分析不同治疗方法对肺尖癌的疗效时并未采用任何统计方法,而是直接得出了“综合治疗较单纯治疗更能延长肺尖癌患者生存期”的结论,这不符合现代医学科研的结论需有据而立的原则。

1.3 统计方法的描述不具体或错用问题

1.3.1 统计方法的描述不具体

一些医学期刊论文中列出的统计方法过于简单,甚至未列出,主要有以下几种情况[10-12]:在“材料与方法”部分中的“统计学处理”中未列出所用的统计学软件或仅列出所用软件而未说明所用软件的版本;对于何种数据采用何种统计方法仅笼统描述,未具体列出文中的那些数据应该用何统计方法;对于定量数据仅列出采取t检验或方差分析,而未列出是否进行正态性检验和方差齐性检验;对于两组定量数据无论是应该采用成组设计t检验还是配对设计t检验,均仅描述为“两组定量数据比较采用t检验”;对于两组或多组定性数据的比较,无论是仅需用 2检验,还是需要采用矫正 2检验或 2分割检验,均描述为“两组或多组定性数据的比较采用 2检验”;统计学符号书写不规范,例如,根据GB/T3358-82,F检验、P值、 2检验、t检验等中的字母应为斜体,不符合上述规定的书写均为错误情况,这在论文中非常普遍;未列出检验水准 ,检验水准 是事先设定的判断小概率实践的标准,实际意义是允许犯假阳性错误概率的最大值,需要根据不同的研究目的进行设定。例如,本刊《 -连环蛋白和层粘连蛋白的表达与垂体腺瘤侵袭性的关系》一文在“统计学处理”仅说明数据的比较采用t检验,而未说明t检验的类型。

1.3.2 统计方法的错用

一些医学期刊论文中的统计方法的应用存在明显的错误。对于所有定量数据,常见的错误有[13-14]:无论是否符合正态分布、是否方差齐,一律盲目应用t检验或单因素方差分析等参数检验方法进行比较分析;无论数据分为几组,一律采用t检验进行比较分析,把其当做定量数据比较的万能工具;无论各组数据是何关系,一律采用成组设计t检验或单因素方差分析。例如,本刊《癌症相关性乏力与TGF- 1的关系分析》一文中,定量数据进行比较分析之前未说明是否进行了方差齐性检验和正态性检验。对于所有定性数据,常见的错误有:把 2检验当做所有定性数据的万能统计工具,忽略了其应用的前提条件是, 2检验适用于正态分布的定性数据,且样本量最好>40,列联表数据进行 2检验时不能有1/5以上的格子其理论频数

1.4 统计结果的描述及分析错误问题

许多医学期刊论文中均可见到统计结果的描述或分析错误,常见的有以下几种[15-17]:1)对于定量数据应当根据是否符合正态分布而采用不同的描述方法,符合者一般采用“均数±标准差”或“均数±标准误”表示,而不符合者则采用中位数和四分位间距来进行表示,不按上述规定进行描述者均属于错误描述;2)对于定性数据,常见的错误是构成比和百分率不分,计算率或构成比等相对数的样本量过小;3)解释有统计学意义时仅根据P值的大小得出相应结论,例如对于A、B组2组的疗效(假定A组疗效优于B组),其“P

1.5 统计值和(或)P值描述不清以及统计值缺失问题

许多医学期刊对统计结果进行描述时,通常不能完整清晰地描述出统计值和P值,常见的有以下几种情况[18-19]:统计结果仅用“P0.05”得出结论,缺少相应的统计值;统计结果包括统计值,但是P值仅写出“0.05”,未列出具体的P值;仅列出具体的P值,而统计值缺失,上述几种情况均不利于文献阅读者进行数据验证和meta分析。例如,本刊《同步放化疗治疗局部晚期食管癌临床观察》一文中,所有统计结果均仅列出了“P0.05”,未列出具体的统计值和P值。

2 针对医学期刊中常见统计学错误的解决对策

目前,医学期刊论文的统计学问题已经成为衡量论文质量高低的重要标准,统计学的错误可能会导致论文学术水平和学术质量的降低,甚至有可能导致严重的后果。近年来,随着广大医学科研工作者和医学期刊编辑及审稿专家对医学统计学应用的重视,医学期刊论文中的统计学问题已经明显减少,但仍然处于较高的水平,这可能与以下几点有关[20-22]:论文作者、编辑及审稿专家思想上不够重视论文统计学应用;期刊编辑的统计学应用知识匮乏;选择审稿专家只注重其专业领域内的影响力,而未关注其统计学应用水平。因此,要想提高医学期刊的统计学应用水平,从而更进一步提高期刊总体质量,需要做到以下几点:作为医学期刊编辑,必须不断进行统计学相关知识的学习,例如参加相关培训班、旁听医学院校的统计学课程及请教统计方面的专家等,以提高自身的统计学应用水平,并从思想上重视统计学应用的审查,在给新投稿件的作者的初步意见中就强调统计学应用的重要性,规定一旦统计学有问题,论文可随时退稿;聘请医学统计学专家进入期刊编委会,负责所有论文的统计学审稿;应通过各种途径,向广大科研工作者宣讲统计学在医学科研工作中的重要性,使其养成良好的正确应用统计学的习惯;在科研课题设计过程中要求有统计学相关专家的参与;科技期刊中增加统计学应用栏目,刊登与本刊论文关系密切的统计学方法,或者刊登一些常见的统计学错误,与作者或读者交流,提高其统计学应用能力。

注 释

[1]孙振球.医学统计学(第3版)[M].北京:人民卫生出版社,2010:1-8

[2]胡良平,郭秀花,刘惠刚.医学统计学是评价医学科技论文质量优劣的重要依据[J].中华口腔医学杂志,2011,36(3):229-232

[3][8]胡良平,李子建.医学统计学基础与典型错误辨析[M].北京:军事医学科学出版社,2003:4

[4] Garc韆-Berthou E,Alcaraz C.Incongruence between test statistics and P values in medical papers[J].BMC Med Res Methodol,2004,4:13

[5]王倩,张博恒.五种中华医学会系列杂志论著中统计方法的应用现状[J].中华医学杂志,1998,78(3):230-233

[6]沈进,苟莉,汤洁,等.生物医学期刊中统计学方法应用情况分析[J].中国修复重建外科杂志,2007,21(5):541-543

[7] [15]王晓瑜,王雅琢.《山东医药》论文中统计学错误分析[J].中国科技信息,2010(16):193-194

[8][9][10][20]邱春晖,郭明兴,邱源.医学论文中统计学方法的误用及其防范措施[J].山东教育学院学报,2009(5):116-118

[11] 冉明会,罗萍,邓丹.医学期刊编辑应注意的几个统计学处理问题[J].编辑学报,2009,21(6):503-505

[12][16][18]李霞,张印朋,闫苏平.医学期刊作者来稿统计学应用与表述常见问题分析[J].中国科技期刊研究,2011,22(1):88-89

[13] 王晓瑜,王雅琢,封艳辉,等.医学期刊投稿常见统计学问题分析[J].科技与出版,2011(11):42-44

[14] 金永勤,王维.医学期刊编辑应重视统计学中的几个问题[J].编辑学报,2009,21(1):33-34

[17]张功员,田庆丰.医学科研论文中统计结果表达和解释错误分析[J].郑州大学学报(医学版),2002,37(3):338-340

[19]叶亮,李伟东,范欣生.医学论文中常见的统计学应用问题辨析[J].南京中医药大学学报(社会科学版),2011,12(4):247-248

大数据分析论文篇(9)

摘要:学习成绩是评价学生素质的重要方面,也是教师检验教学能力、反思教学成果的重要标准。利用大连民族大学统计学专业本科生有关数据(专业基础课成绩、平时成绩和回归分析期末成绩),建立多元線性回归模型,对影响回归分析期末成绩的因素进行深入研究,其结果对今后的教学方法改进和教学质量提高具有十分重要的指导意义。

关键词:多元线性回归;专业基础课成绩;平时成绩;期末成绩

为了实现教学目标,提高教学质量,有效提高学生学习成绩是很有必要的。我们知道专业基础课成绩必定影响专业课成绩,而且平时成绩也会影响专业课成绩,这两类成绩与专业课成绩基本上是呈正相关的,但它们之间的关系密切程度有多大?它们之间又存在怎样的内在联系呢?就这些问题,本文主要选取了2016级统计专业50名学生的四门专业基础课成绩以及回归分析的平时成绩和期末成绩,运用SPSS统计软件进行分析研究,寻求回归分析期末成绩影响因素的变化规律,拟合出关系式,从而为强化学生的后续学习和提高老师的教学质量提供了有利依据。

一、数据选取

回归分析是统计专业必修课,也是统计学中的一个非常重要的分支,它在自然科学、管理科学和社会、经济等领域应用十分广泛。因此研究影响统计学专业回归分析成绩的相关性是十分重要的。

选取了统计专业50名学生的专业基础课成绩(包括数学分析、高等代数、解析几何和概率论)、回归分析的平时成绩和期末成绩,结合多元线性回归的基础理论知识[1-2],建立多元回归方程,进行深入研究,可以直观、高效、科学地分析各种因素对回归分析期末成绩造成的影响。

二、建立多元线性回归模型1及数据分析

运用SPSS统计软件对回归分析期末成绩的影响因素进行研究,可以得到准确、科学合理的数据结果,全面分析评价学生考试成绩,对教师以后的教学工作和学生的学习会有较大帮助。自变量x1表示数学分析成绩,x2表示高等代数成绩,x3表示解析几何成绩,x4表示概率论成绩,x5表示平时成绩;因变量y1表示回归分析期末成绩,根据经验可知因变量y1和自变量xi,i=1,2,3,4,5之间大致成线性关系,可建立线性回归模型:

(1)

线性回归模型通常满足以下几个基本假设,

1.随机误差项具有零均值和等方差,即

(2)

这个假定通常称为高斯-马尔柯夫条件。

2.正态分布假定条件

由多元正态分布的性质和上述假定可知,随机变量y1服从n维正态分布。

从表1描述性统计表中可看到各变量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的标准差分别为10.847,11.531,8.929,9.018,9.221,y1的标准差为8.141;有效样本量n=50。

回归分析期末成绩y1的多元回归模型1为:

y1=-5.254+0.221x1-0.4x2+0.154x3

+0.334x4+0.347x5

从表2中可以看到各变量的|t|值,在给定显著水平?琢=0.05的情况下,通过t分布表可以查出,自由度为44的临界值t?琢/2(44)=2.015,由于高等代数x2的|t|值为0.651小于t?琢/2(44),因此x2对y1的影响不显著,其他自变量对y1都是线性显著的。下面利用后退法[3]剔除自变量x2。

三、后退法建立多元线性回归模型2及数据分析

从模型1中剔除了x2变量,多元回归模型2为:

y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)

在表4中,F统计量为90.326,在给定显著水平?琢=0.05的情况下,查F分布表可得,自由度為p=4和n-p-1=45的临界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自变量的|t|值都大于t?琢/2(45)=2.014,因此,多元回归模型2的线性关系是显著的。

四、结束语

通过对上述模型进行分析,即各个自变量对因变量的边际影响,可以得到以下结论:在保持其他条件不变的情况下,当数学分析成绩提高一分,则回归分析成绩可提高0.242分[4-5];同理,当解析几何成绩、概率论成绩和平时成绩每提高一分,则回归分析成绩分别提高0.149分、0.377分和0.293分。

通过对学生专业基础课成绩、平时成绩与回归分析期末成绩之间相关关系的研究,一方面有利于教师把控回归分析教学课堂,提高教师意识,注重专业基础课教学的重要性,同时,当学生平时成绩不好时,随时调整教学进度提高学生平时学习能力;另一方面使学生认识到,为了更好地掌握回归分析知识,应加强专业基础课的学习,提高平时学习的积极性。因此,通过对回归分析期末成绩影响因素的研究能有效的解决教师教学和学生学习中的许多问题。

统计学毕业论文范文模板(二):大数据背景下统计学专业“数据挖掘”课程的教学探讨论文

摘要:互联网技术、物联网技术、云计算技术的蓬勃发展,造就了一个崭新的大数据时代,这些变化对统计学专业人才培养模式的变革起到了助推器的作用,而数据挖掘作为拓展和提升大数据分析方法与思路的应用型课程,被广泛纳入统计学本科专业人才培养方案。本文基于数据挖掘课程的特点,结合实际教学经验,对统计学本科专业开设数据挖掘课程进行教学探讨,以期达到更好的教学效果。

关键词:统计学专业;数据挖掘;大数据;教学

一、引言

通常人们总结大数据有“4V”的特點:Volume(体量大),Variety(多样性),Velocity(速度快)和Value(价值密度低)。从这样大量、多样化的数据中挖掘和发现内在的价值,是这个时代带给我们的机遇与挑战,同时对数据分析技术的要求也相应提高。传统教学模式并不能适应和满足学生了解数据处理和分析最新技术与方法的迫切需要。对于常常和数据打交道的统计学专业的学生来说,更是如此。

二、课程教学探讨

针对统计学本科专业的学生而言,“数据挖掘”课程一般在他们三年级或者四年级所开设,他们在前期已经学习完统计学、应用回归分析、多元统计分析、时间序列分析等课程,所以在“数据挖掘”课程的教学内容选择上要有所取舍,同时把握好难度。不能把“数据挖掘”课程涵盖了的所有内容不加选择地要求学生全部掌握,对学生来说是不太现实的,需要为统计学专业本科生“个性化定制”教学内容。

(1)“数据挖掘”课程的教学应该偏重于应用,更注重培养学生解决问题的能力。因此,教学目标应该是:使学生树立数据挖掘的思维体系,掌握数据挖掘的基本方法,提高学生的实际动手能力,为在大数据时代,进一步学习各种数据处理和定量分析工具打下必要的基础。按照这个目标,教学内容应以数据挖掘技术的基本原理讲解为主,让学生了解和掌握各种技术和方法的来龙去脉、功能及优缺点;以算法讲解为辅,由于有R语言、python等软件,学生了解典型的算法,能用软件把算法实现,对软件的计算结果熟练解读,对各种算法的改进和深入研究则不作要求,有兴趣的同学可以自行课下探讨。

(2)对于已经学过的内容不再详细讲解,而是侧重介绍它们在数据挖掘中的功能及综合应用。在新知识的讲解过程中,注意和已学过知识的融汇贯通,既复习巩固了原来学过的知识,同时也无形中降低了新知识的难度。比如,在数据挖掘模型评估中,把混淆矩阵、ROC曲线、误差平方和等知识点就能和之前学过的内容有机联系起来。

(3)结合现实数据,让学生由“被动接收”式的学习变为“主动探究”型的学习。在讲解每种方法和技术之后,增加一个或几个案例,以加强学生对知识的理解。除了充分利用已有的国内外数据资源,还可以鼓励学生去搜集自己感兴趣的或者国家及社会大众关注的问题进行研究,提升学生学习的成就感。

(4)充分考虑前述提到的三点,课程内容计划安排见表1。

(5)课程的考核方式既要一定的理论性,又不能失掉实践应用性,所以需要结合平时课堂表现、平时实验项目完成情况和期末考试来综合评定成绩。采取期末闭卷理论考试占50%,平时实验项目完成占40%,课堂表现占10%,这样可以全方位的评价学生的表现。

三、教学效果评估

经过几轮的教学实践后,取得了如下的教学效果:

(1)学生对课程的兴趣度在提升,课下也会不停地去思考数据挖掘有关的方法和技巧,发现问题后会一起交流与讨论。

(2)在大学生创新创业项目或者数据分析的有关竞赛中,选用数据挖掘方法的人数也越来越多,部分同学的成果还能在期刊上正式发表,有的同学还能在竞赛中取得优秀的成绩。

(3)统计学专业本科生毕业论文的选题中利用数据挖掘有关方法来完成的论文越来越多,论文的完成质量也在不断提高。

(4)本科毕业生的就业岗位中从事数据挖掘工作的人数有所提高,说明满足企业需求技能的人数在增加。继续深造的毕业生选择数据挖掘研究方向的人数也在逐渐增多,表明学生的学习兴趣得以激发。

大数据分析论文篇(10)

Abstract:In the big data era, data analysis can affect the development of archival cause. At present, the benefit of data analysis is dissatisfactory because of lacking settled analysts in archival field. This paper addresses the post requirements, the post duties and the quality demands of data scientists in archival field.

Keywords:big data of archive; data scientist; post requirements; post duties; quality demands

大数据时代,数据成为重要的战略资源。在电子办公深度与广度不断拓展的进程中,人类对数据“精、准、深”的要求日益突出。在基于数据决策、依赖数据管理等“以数据说话”的理念日益深入人心的大环境下,作为大数据的关键组成部分――档案大数据的地位和作用也逐渐凸显出来,它是大数据重要维度即历史维度数据的核心,在各个领域都有很好的应用前景。但是,应该看到,受保密、档案管理机制等因素的制约,档案大数据的应有价值还没有得到充分发挥,档案大数据与其他数据的整合还有一段很长的路要走。为提升档案资源建设与利用效益,对档案大数据进行分析,优化档案事业发展方案,更好地为领导决策和各领域工作的开展提供数据支撑,成为档案工作的重要组成部分,这就需要档案资源和档案事业数据的鼎力支撑。虽然从国家主管部门到各级档案馆(室),都在开展档案数据的统计和分析工作,但是,由于缺乏固定而专业的分析人员,从数据统计和分析的全面性、系统性、多维性、深入性和规范性等方面看,仍有待进一步增强。在此种形势下,档案大数据作用的发挥和档案事业发展的科学性很大程度上取决于档案部门自身结构的优化和管理资源使用效益的提升。

1 档案领域数据分析师岗位设置的意义

大数据时代,数据分析在各领域有着十分重要的意义,各行业对数据分析师的需求与日俱增。与其他数据相比,档案大数据很大一部分源于政府、军队等组织机构的活动,具有权威性和凭证性等不可替代的价值特点,虽然有着服务社会、服务百姓的义务,但又必须确保国家利益不受侵害。因此,在行业内部设立数据分析师岗位不仅是社会需求、也是档案行业组织机构结构优化的内在需要。

1.1 优化档案资源体系建设的需要。从局部看,各级档案部门都不同程度地存在着档案收集不齐全、著录不规范等问题。从整体看,各档案部门之间存在着档案资源交叉重复、数据异构等问题。系统地设置统计项目,全面地对档案资源建设现状进行分析,就可以准确地发现档案资源体系建设中的弱项和“瓶颈”。通信网络和数字设备发展实践告诉人们:当今,电子文件的增长几乎达到了几何级。例如,阿富汉战争期间,美军为打击一小股,其情报侦测、监视系统24小时产生的数据量就达53TB。在如此大的数据量面前,如何分类电子文件、确定保管期限?网站、微博、通讯交友软件等产生的数据,哪些是需要作为电子文件保存的、又该如何保存?现有馆(室)藏档案资源,哪些方面需要丰富、哪些方面需要“瘦身”?如何从国家层面调控档案资源体系建设?这些均有待于档案领域数据分析师从“保存历史、服务社会”视角、以可靠的数据和科学的分析给出建设性的解答。

1.2 分析和把握档案利用规律的需要。档案资源的利用是有规律可循的,掌握了这个规律对于提升档案资源利用率是十分有益的。有的档案资源,其利用具有扩展效应,即一次成功利用可能会激发人数更多、范围更广、程度更深的利用,例如名人档案、著名战役档案、历史典故档案等;有的档案资源,其利用具有递减效应,即一次成功利用之后可能很长时间内不会再有第二次利用,例如事关普通百姓的个人档案。如果机械地根据其前段时间的关注热点推荐档案信息服务产品,则不仅达不到理想效果甚至还会引起用户反感。依托数据分析师的科学分析,有助于档案部门聚焦服务热点,提前做好档案信息服务预案,根据用户需求方向准确提供档案资源及其编研产品服务。

1.3 推动档案管理科学发展的需要。近年来,档案事业出现了一派欣欣向荣的景象,尤其是档案信息化建设、民生档案的收集与管理等得到了长足发展。但是,无论是硬件建设、还是软件建设,离精细式、集约化科学发展尚有一定距离,这就需要发挥档案大数据的决策助手作用。对于不同学识背景、不同工作经历、不同职业精神的数据分析人员来说,同样的统计数据得出的结论也是不尽相同的。设置固定的数据分析师岗位,则有益于提升数据统计和分析工作的科学性。通过数据分析师对档案事业分门别类的统计和分析,可以有效地冲破经验主义思维的“篱笆”,发现和把握新形势下档案管理工作的发展规律,更加统筹、协调和集约化地利用管理资源,构建档案事业发展的良好生态。

1.4 更好地服务社会发展的需要。如果说“读史可以明智”只能模糊地形容档案的作用,档案大数据在金融、医药、卫生、交通、安全和军事等领域的成功应用,已经很好地量化和解释了档案大数据的价值。它是转换思维方式、科学决策的直接支撑,是引领社会更快、更好发展的“催化剂”。设置档案大数据分析师,无疑会有助于提升档案信息服务于社会的广度与深度。同时,也有助于档案部门把握契机创新服务社会的模式与内容。

2 档案领域数据分析师的岗位职责

档案领域数据分析师,可以依据各级主管部门、档案馆(室)的编制和事业发展状况合理配置,其职责主要是从档案资源建设、档案利用、档案事业综合发展以及档案文件内容等方面进行数据统计和分析,并制定优化方案和提出发展规划建议。

2.1 档案资源数据统计和分析。档案资源数量统计和分析,主要是对馆(室)藏或者主管范围内的档案资源数量情况进行统计和分析,包括对各全宗文件数量的分类统计和分析、同类全宗文件数量的对比分析、现行全宗文件产生量与归档量的对比分析、永久档案与定期档案数量的对比分析、不同类型载体档案数量的对比分析、不同地域不同系统档案移交数量对比分析、不同时期档案数量对比分析、不同密级档案数量对比分析等。

档案资源质量统计和分析。主要是对馆(室)藏或者主管范围内的档案质量情况进行统计和分析,包括档案资源载体和信息完好度分析、档案资源结构分析、档案著录情况分析、档案信息化建设情况分析、档案目录数据库质量分析、档案全文数据质量分析、档案缩微情况分析、档案修复情况分析等。

档案资源优化方案的制定。基于馆(室)功能,在科学分析的基础上,提出一定范围内档案资源体系建设优化方案。主要是从档案资源结构和数量视角,有重点地对现有档案资源进行丰富、再鉴定工作。对明显存在缺失的馆(室)藏方向,分析档案资源可能的分布点,为收(征)集工作提供指导。具体分析档案著录、目录数据库构建情形,提供档案著录尤其是电子文件著录以及档案目录数据库优化方案。必要时,对全文数据质量进行优化。根据档案完好度统计,制定档案修复计划。

2.2 档案利用数据统计和分析。档案利用人群统计和分析。主要是对用户基本情况进行统计和分析,包括用户职业、单位、年龄、学历、档案专业知识、兴趣点、档案意识等,从共性和个性等方面进行分析和研究。

档案利用目的、利用效益统计和分析。主要是对档案利用目标和用户所获得的收益进行分析。从编史修志、工作查考、解决个人问题等方面对档案利用目的作进一步细分,分别进行统计和分析,并关注其利用效益。同时,分析一定时期内得到用户关注和利用的档案资源,尤其是得到用户重点关注或利用的档案资源。

档案检索效率统计和分析。主要是对档案目录和全文的检索效率进行分析,与图书情报资源等相关领域的检索效率进行对比,考虑其是否满足用户需要,有无改进策略。密切跟踪信息和知识领域的发展前沿,将先进的技术和工具应用到档案检索效率的提升上来,主要是对档案信息组织和检索模式提出创新方案。

档案利用发展趋势预测。由于社会和国家发展的需要,人们会在一定时期内有重点地开展某个或某些方面的工作。数据分析师应密切关注某个系统、国家乃至整个人类社会的发展形势,科学地统计和分析用户的潜在需求,准确地预测出档案利用的重点方向,从而有针对性地做好档案利用准备工作。例如,编史修志工作往往在国家层面、某一系统或行业层面进行统一行动,有的又会与编制体制调整、大型纪念活动、大项任务开展等时机紧密结合;个人利用档案,往往会与国家出台某项政策、某一年龄段人群的成长经历、某些文化活动的开展等密切关联。根据档案利用历史数据的分析、当前社会热点、用户关注方向等,引导档案信息资源的开发,借助大数据工具,利用档案信息资源整合平台,充分地进行知识挖掘,高效地构建专题数据库,向用户推送档案信息资源。

2.3 档案事业数据综合统计和分析。档案人才队伍建设情况统计和分析。当今时代,不仅要求档案工作者具有较高的信息素养,而且需要档案工作者转变理念,从知识管理视角出发,为用户提供问题解决方案。档案领域数据分析师应该对档案工作者个体素质和整个队伍建设情况进行统计和分析,要重点关注专业学历、知识储备、年龄结构、管理能力、信息素养和职业精神等方面。

档案事业组织领导形势统计和分析。组织领导是档案事业发展的关键。档案领域数据分析师,应可以系统地设置档案事业各类统计表格,并根据形势发展创新地设置统计项目和衡量指标。不仅要分析档案主管部门对档案工作的组织领导情况,还要分析各级组织机构对档案事业的组织领导形势,包括工作规划、经费投入和对档案事业的关注度等。

档案专业硬件、软件建设情况统计和分析。在国家大力倡导档案信息共享平台建设的情形下,对行业内硬件、软件建设情况进行统计和分析,要重点对档案馆(室)库房建设、档案安全体系建设、业务设备建设、档案软件系统建设等方面进行统计和分析,避免低水平重复建设、提升管理资源利用效益。

制定档案事业科学发展方案。档案领域数据分析师要适应大环境的需要,从档案工作者个体出发,提出人才培养和培训方案。从档案人才队伍整体建设出发,合理提出编制调整、人才配备和人才发展等建议。在硬件建设方面,从档案事业整体发展视角提供指导意见,合理配置各类设备设施。在应用系统开发方面,针对技术发展形势及时提供建议,为颁布软件系统需求标准、协调资源做出贡献。

2.4 档案文件内容大数据的分析和知识挖掘。无论是科技档案、专门档案,还是文书档案,其利用都是围绕着组织机构(或个人)的业务行为开展的。因此,从业务层面对档案内容大数据进行分析,是档案大数据分析的重要内容。根据各专业发展的需要,利用高效、可视化的图形分析工具,对档案文件内容大数据进行分析,挖掘出其中蕴含的知识点,以指导各领域业务工作的科学开展。

3 档案领域数据分析师的基本素质要求

数据分析师肩负着对档案事业各类数据进行统计和分析的职责,并且要根据分析结果制定出推动各行业科学发展的、切实可行的方案,这就要求其具有高度的事业心和责任感,具备档案、计算机、数学和管理等领域专业知识和技能。

3.1 思维开阔,开拓精神强。无论是统计项目的设置、还是优化方案的制定,都要求档案领域数据分析师关注相关领域前沿发展形势,具有开阔的思维和较强的创新意识,能够敏锐地捕捉到档案事业发展中的主要矛盾,打破旧的思维和工作运行模式,为建立起切合实际的、具有前瞻性的档案工作机制贡献力量。

3.2 档案专业功底扎实。档案领域的数据分析,其出发点和落脚点均在档案收集、管理和利用。因而,数据分析师应具备系统的档案专业理论知识。不仅要熟知档案领域基本理论,而且要掌握领域前沿发展和理论创新情况,密切跟踪行业发展实践,能够科学地设计好统计与衡量指标、优化和促进档案事业的综合发展。

3.3 掌握计算机应用专业知识。数据分析师经常要与计算机网络、多种软件工具打交道,必须具备较高的信息素养和扎实的计算机应用专业知识。档案领域数据分析师,应了解机器学习、人工智能和自然语言知识,能够结合领域实际,提出具体的统计、分析软件系统需求;能够熟练操作基本分析软件,掌握大数据分析工具的使用(如R软件、SPSS、MATLAB),准确地采集、处理数据,必要时进行数据迁移;能够在看似无关的数据中挖掘出蕴含的关联、发现档案资源建设和档案事业发展内在规律。

3.4 熟悉管理学基本理论。无论是档案资源管理、还是档案事业的综合管理,都离不开管理学基本理论的运用。因此,档案领域数据分析师应熟悉现代管理学基本理论,具有严谨的逻辑思维能力和较好的文字表述能力,能够运用管理学前沿理论来指导档案资源建设和档案事业科学发展方案的制定。

3.5 灵活运用统计和分析基本方法。在可视化需求不断增长的今天,人们需要数据分析师能够直观地将统计和分析结果呈现出来。这就要求档案领域数据分析师熟练掌握数据分析与建模方法,牢记统计、分析的基本程序和原则,将分析结果以图形化方式表述出来,必要时加以创新和发展,从定性分析和定量分析两个视角,为档案事业的科学发展提供数据支撑。

此外,在对档案文件内容大数据进行分析和挖掘时,还要求数据分析师了解相关领域的专业知识,或者与相关领域专业人员密切协作,以确保分析过程和结果的质量。

参考文献:

[1]丁世飞,靳奉祥,赵相伟.现代数据分析与信息模式识别[M].北京:科学出版社,2012.

[2]金光.数据分析与建模方法[M].北京:国防工业出版社,2013.

大数据分析论文篇(11)

浙江大学图书馆先后为 87 个学科提供了 TOP 期刊评定方案和事实数据,完成《人文社会科学学术期刊事实数据报告》等;为多个学部的人才信息收集和学术评价提供了翔实可靠的依据,为学校提供《世界一流大学年度对比分析报告》。[1]北京航空航天大学图书馆有一个课题组专门为学校战略决策部门提供信息支持服务,用简报的形式编辑 《一流大学信息汇编》内部刊物,每一期围绕决策层关注的一个主题,进行文献调研、收集、加工和整理,形成对于学校行政职能部门、发展战略研究部门具有一定参考价值的系列专刊。[2]山东师范大学图书馆通过对山东师范大学科研成果的来源出版物分布、高产作者分布、高被引作者分析、科研合作国家和地区分布、科研合作机构分布、优势学科和主题分布等方面的内容的分析,全面揭示山东师范大学的科研产出和科研影响力等内容,《形成了山东师范大学科研论文全景分析》报告,向管理层呈送[3]。宋洁调研发现九校联盟(c9)中的图书馆都已开展了决策支持服务,还有一些高校图书馆的主页中展示了部分成功案例。[4]

华东师范大学图书馆自2009年主动开展全校文科专任教师学术论文产出被引数据的采集和统计分析工作,经过多年分阶段逐步推进,在学校的大力支持下,2013 年11 月,图书馆开展了全校专任教师绩效数据库的建设工作,并于 2015年3 月完成首期建设任务。该数据库由学校决定将其挂在学校公共数据库平台,每位专任教师均可查询本人各类绩效数据,各级管理人员则可根据各自管辖的范围查询相关数据和统计分析结果[5]。

1 案例介绍

为了进一步有效地管理搜集到的各类数据,也为了方便全校教师及各级管理人员查询相关数据和统计分析结果,华东师范大学成立了由图书馆牵头,与人事处、科研处、社科处、教务处、研究生院、信息办等职能部门合作的项目组开发了教师绩效数据库。

1.1 数据采集

目前收录的人员类型为:院系(所)专任教师。目前收录如下类型数据:

1.1.1 论著产出被引

收录图书馆检索获取的教师论著产出和被引数据。

文科系列:(1)历年任意作者WOS(含SSCI/AHCI/SCIE)国际权威刊物收录引用情况,并区分第一或通讯作者WOS论文;(2)1998年以来第一作者中文社会科学引文数据库(简称Cssci)核心期刊论文收录引用情况(未包含Cssci集刊和扩展版),并区分一级学科权威期刊论文。(3)2008年以来第一作者文科著作(含专著、教材、译著)产出及历年文科专著Cssci被引情况。专著指专题研究的学术著作,不包含文集、文学或通俗读物、编著、译著、教材等其他类型图书。理工科系列:任意作者WOS(含SCIE/SSCI)国际权威刊物收录引用情况,并区分第一或通讯作者论文(按数据库标注)、署名华东师大论文、署名华东师大第一完成单位论文(按第一作者或通讯作者单位)、论文分区(按中科院大小类分区就高原则确定)。

1.1.2 课程教学

收录来自教务处、研究生院提供的本科生、研究生、专业学位课程数据。

1.1.3 项目经费

收录信息办、科技处、社科处提供的各类科研项目到账经费数据。

1.1.4 教学、科研获奖

收录教务处提供的本科教学获奖数据、科技处和社科处提供的科研获奖数据。

1.1.5 研究生培养

收录图书馆建立的华东师范大学硕博士学位论文数据库中的学位论文数据,并根据学位论文年份进行统计。

1.1.6 绩效总况

汇总显示教师教学、科研的主要数据,并给出教师所在单位相同职称群体各指标的平均数。

1.2 系?y功能

用户角色:本系统的用户角色分为管理员、院系管理员、教师个人,分别有不同的查询权限。系统设置了用户权限表,登录认证时自动判定角色,进入到相应的界面。

教师个人:直接进入个人查询版面,可查看个人的论著产出与被引情况、本科及研究生课程(包括精品课程)、学生培养(含研究生名录及指导论文的概要)、科研项目、教学科研获奖情况。清单与统计均直观呈现。页面中提供了选择条件,如在论著清单页面,可选择起止年份,文献类型(CSSCI论文、专著、教材、译著、WOS论文、第一或通讯等),对检索结果支持用户点击表头进行排序,并可勾选后下载列表。

院系管理员:院系管理员如果同时是专任教师,则默认的页面为自身的个人查询页面。此外,作为院系管理员的角色,还可使用单位查询版块的功能。单位查询版块可查看所在院系的全部人员信息,该院系全部的论著产出与被引情况、课程情况、科研项目、教学科研获奖情况以及该院系的对应数据类型的统计表。页面中提供了筛选条件,如起止年份、人员年龄段、职称类型,对检索结果支持用户点击表头进行排序,并可勾选后下载列表。作为院系管理员,在人员列表页面可查看全院教师信息,如果对某位教师的数据感兴趣,点击教师的信息后,即可链接到对应的教师个人查询页面,查看该教师的各项数据。

管理员:管理员为校级领导,有权限查看全校教师及各院系的情况。在个人查询版块,可查看任何人的数据,在单位查询版块,可自由选择院系,查看全校各院系的数据。在统计分析报告功能版块,可查看全校统计分析报告。

用户指导与反馈:系统提供了用户指导与反馈版块,主要包括系统简介、帮助文档(使用指南)的在线?读,“文章补遗”栏目提供对数据库收录范围内的论著数据错漏的反馈;“联系我们”栏目则提供关于系统其它各方面内容的意见或建议的反馈。

系统截图如下: