欢迎访问发表云网!为您提供杂志订阅、期刊投稿咨询服务!

统计学变量类型大全11篇

时间:2023-07-16 08:31:15

统计学变量类型

统计学变量类型篇(1)

中图分类号:TP311文献标识码: A 文章编号:1009-3044(2010)07-1605-04

Design and Implement of the University Recruit System for Graduates Based on Oracle

CHEN Hong

(College of Computer Science, Sichuan normal University, Chengdu 610101, China)

Abstract: At present,Oracle is one of the popular database, it's adopted in many applications. The university rec-ruit system for graduates based on oracle 9i can deal with examinees' score and result through PL/SQL of Oracle.

Key words: oracle; the university recruit system to graduates; procedure; trigger

随着数据库技术的不断发展,数据库经历了Foxpro、SyBase、SQL server、DB2、Oracle等阶段。现在Oracle是最流行的大型关系数据库之一,拥有广泛的用户和大量的应用案例。PL/SQL是Oracle中用户和服务器之间的一种接口,使用PL/SQL语言可以在各种环境下对Oracle数据库进行访问。高校研究生招生系统是每个有招收研究生资格的高校必须具备的管理系统。本高校研究生招生系统是基于Oracle 9i设计和实现的,能对考生的成绩数据和录取情况进行有效管理。

1 系统分析与设计

该研究生招生系统要求设计PL/SQL程序对考生的成绩数据进行处理,处理的逻辑是根据每门专业课的最低分数线和总分的最低分数线自动将考生归类为录取考生、调剂考生和落选考生。

1.1 系统功能描述

高校研究生招生系统的功能描述如下:

1) 该系统要求能体现考生的基本信息,考生的考试信息,以及各学校各地区的分数线信息。设计该系统的数据结构(表结构,包括约束),使其能简单清晰的表示出上面信息。

2) 要求对每位考生设计一个考生编码,唯一的确定一个考生(主键),该编码要求自动生成(利用序列)。

3) 做一存储过程,输入考号或姓名,返回该考生的考试信息,以及录取情况(录取、调剂和落选)。

4) 做一存储过程,输入地区和总分分数线,查询所有上线学生的考生信息,以及上线考生的人数和这些考生平均总分)

5) 利用触发器实现:当修改分数线分数时,考生的录取情况要随之相应改变。

6) 利用触发器实现:当删除考生信息时,考生的考试信息要随之删除。

7) 为每个学校创建一个视图,记录每个学校的每门考试科目和总成绩的最低分数线。

1.2 系统功能模块分析

根据以上功能,设计出系统功能模块,具体如图1。

2 系统设计和实现的关键技术

2.1 数据库表结构设计

本系统包含4个表,考生信息表kaosheng、考试信息表kaoshi、录取信息表luqu、分数线表fenshuxian。

考生信息表kaosheng,主要是记录考生的基本信息。

考试信息表kaoshi,主要是记录考生的一些基本信息和每门考试科目的成绩。

录取信息表luqu,主要是在考试表的基础上记录考生的总成绩和录取标志。

分数线表fenshuxian,主要是记录每个地区、每个学校的各门考试科目和总成绩的最低分数线。

需要注意的是四个表中若表之间有相同名称字段,则这些字段的数据结构和约束条件必须相同。比如政治成绩,数据结构设计为number(4,1),约束条件都是zhengzhi>=0 and zhengzhi

2.2 序列的创建

序列的作用是自动生成整型数值,该系统创建了两个序列,第一个是kshm,作用是在向考生基本信息表中插入数据时自动产生考号。第二个是ksbh,作用是在向考生考试信息表中插入数据时自动产生考号。两个序列的内容是一样的,只是需要创建两个序列,确保分别在向考生基本信息表和考试表插入数据时自动产生考号。创建序列kshm的语句及说明如下:

create sequence kshm

minvalue 106367077402001--考号的最小值

nomaxvalue--没有考号的最大值限制

start with 106367077402001--考号从最小值开始

increment by 1--考号每次增长1

nocycle - -序列没有循环值

cache 20; - -需要的内存块大小为20

2.3 创建存储过程

PL/SQL语言可以把用户自己编写的程序存储起来,在需要的时候调用执行。这样可提高代码的重用性和共享性。存储过程就是以一种形式存储的用户程序,它需要人为执行调用语句运行。

2.3.1 存储过程(return_counttotalscoreflag.prc)

该存储过程用于计算考生的总成绩,根据考试成绩,和分数线表的相应信息比较,计算出考生的录取情况。该过程及语句说明如下:

create or replace procedure counttotalscoreflagprocess

is

kaoshirecord kaoshi%rowtype;--记录型变量,记录从游标中读取的数据

kaoshitotalscore luqu.totalscore%type;--数值型变量,类型和luqu表中的totalscore的类型相同,存放考生的总分

p_flag luqu.flag%type; --字符型变量,类型和luqu表中的flag的类型相同,存放考生的录取标志

p_zhengzhi luqu.zhengzhi%type;--数值型变量,类型和luqu表中的totalscore的类型相同,存放考生的政治成绩

p_yingyu luqu.yingyu%type;--数值型变量,类型和luqu表中的totalscore的类型相同,存放考生的英语成绩

p_zhuanye1 luqu.zhuanye1%type;--数值型变量,类型和luqu表中的totalscore的类型相同,存放考生的专业课1的成绩

p_zhuanye2 luqu.zhuanye2%type; --数值型变量,类型和luqu表中的totalscore的类型相同,存放考生的专业课2的成绩

p_totalscore luqu.totalscore%type; --数值型中间变量,类型和luqu表中的totalscore的类型相同,存放考生的总分

cursor kaoshicursor is

select * from kaoshi;--游标用于读取考试表中的数据

errormessage exception;

begin

open kaoshicursor;

if kaoshicursor%notfound then

raise errormessage;

end if;

loop

fetch kaoshicursor into kaoshirecord;--将游标中的数据存入此变量中

kaoshitotalscore:=kaoshirecord.zhengzhi+kaoshirecord.yingyu+kaoshirecord.zhuanye1+kaoshirecord.zhuanye2;--统计总分

select zhengzhi,yingyu ,zhuanye1,zhuanye2, totalscore into p_zhengzhi,p_yingyu,p_zhuanye1,p_zhuanye2,p_totalscore from fenshuxian where kaoshirecord.xx=fenshuxian.xx;

--将各字段的值存入中间变量中,条件是考试表中的学校要和分数线表中的学校相同

if(kaoshirecord.zhengzhi>=p_zhengzhi and kaoshirecord.yingyu>=p_yingyu and kaoshirecord.zhuanye1>=p_zhuanye1 and kaoshirecord.zhuanye2>=p_zhuanye2 and kaoshitotalscore>=p_totalscore) then p_flag:='录取';

--当政治、英语、专业课1、专业课2和总分大于或等于分数线表中的相应信息时,录取标志为“录取”,否则为“落选”

else p_flag:='落选';

end if;

exit when kaoshicursor%notfound;

insert into luqu(kh,xm,xb,identify,jg,diqu,xx,zhengzhi,yingyu,zhuanye1,zhuanye2,totalscore,flag) values(kaoshirecord.kh,kaoshirecord.xm,kaoshirecord.xb,kaoshirecord.identify,kaoshirecord.jg,kaoshirecord.diqu, kaoshirecord.xx,kaoshirecord.zhengzhi,kaoshirecord.yingyu,kaoshirecord.zhuanye1,kaoshirecord.zhuanye2,kaoshitotalscore,p_flag);

--将数据插入到录取表中

end loop;

close kaoshicursor;

commit;

exception

when errormessage then

dbms_output.put_line('无法打开数据表');

end counttotalscoreflagprocess;

测试情况如下:

执行测试文件后,用select * from luqu;查询录取表中的数据,显示结果如下:

KH XM XBIDENTIFY JG DIQU XX ZHENGZHI YINGYU ZHUANYE1 ZHUANYE2 TOTALSCORE FLAG

----

106367077402001 谭德林 男 511011198101019322 中国德阳 四川 四川师范大学 54.0 55.0135.0125.0 369.0 录取

106367077402002 王亚琼 女 511011198501019322 中国云南 四川 四川大学45.0 55.0 95.0 95.0290.0 落选

106367077402003 陈虹 女 511011197801019322 中国雅安 四川 电子科技大学 75.0 55.0120.0125.0 375.0 录取

106367077402004 朱军军 男 511011198401019322 中国湖南 北京 北京大学65.0 55.0 95.0 95.0310.0 落选

106367077402005 刘文俭 女 511011198501019322 中国山东 北京 清华大学65.0 85.0 95.0 95.0340.0 落选

2.3.2 存储过程(return_kaoshiluquinfo.prc)

该存储过程用于输入考号或姓名,返回该考生的考试信息,以及录取情况(录取、调剂和落选)。该过程及语句说明如下:

create or replace procedure return_kaoshiluquinfo(

p_kh in out luqu.kh%type, --p_kh为输出型变量,类型和录取表中的考号类型相同,记录考号

p_xm out luqu.xm%type,--p_xm为输出型变量,类型和录取表中的姓名类型相同,记录姓名

p_jg out luqu.jg%type,--p_jg为输出型变量,类型和录取表中的籍贯类型相同,记录籍贯

p_xx out luqu.xx%type,--p_xx为输出型变量,类型和录取表中的报考学校类型相同,记录报考学校

p_zhengzhi out luqu.zhengzhi%type,--p_zhengzhi为输出型变量,类型和录取表中的政治类型相同,记录政治

p_yingyu out luqu.yingyu%type,--p_yingyu为输出型变量,类型和录取表中的英语类型相同,记录英语

p_zhuanye1 out luqu.zhuanye1%type,--p_zhuanye1为输出型变量,类型和录取表中的专业1类型相同,记录专业1

p_zhuanye2 out luqu.zhuanye2%type,--p_zhuanye2为输出型变量,类型和录取表中的专业2类型相同,记录专业2

p_totalscore out luqu.totalscore%type,--p_totalscore为输出型变量,类型和录取表中的总分类型相同,记录总分

p_flag out luqu.flag%type --p_flag为输出型变量,类型和录取表中的录取标志类型相同,记录录取标志

)

as

begin

select kh,xm,jg,xx,zhengzhi,yingyu,zhuanye1,zhuanye2,totalscore,flag into p_kh,p_xm,p_jg,p_xx,

p_zhengzhi,p_yingyu,p_zhuanye1,p_zhuanye2,p_totalscore,p_flag from luqu where kh=p_kh;

--从录取表中查询学号等于给定学号的一系列信息(比如学号、姓名等),并将其存入相应的输出变量中(比如 p_kh、p_xm)

exception

when no_data_found then

dbms_output.put_line('the kh don''t exists!');

end return_kaoshiluquinfo;

测试情况如下:

在测试文件中输入的学号为106367077402004,执行测试文件后,DBMS输出如下的考试、录取信息:

106367077402004 朱军军 中国湖南 北京大学 65 55 95 95 310 落选

2.3.3 存储过程(return_kaoshenginfo.prc)

该存储过程用于输入地区和总分分数线,查询所有上线学生的考生信息,以及上线考生的人数和这些考生平均总分。该过程及语句说明如下:

create or replace procedure return_kaoshenginfo(

n_diqu in fenshuxian.diqu%type, --字符型变量,类型和 fenshuxian表中的diqu这个字段的类型相同,记录“地区”

n_totalscore in fenshuxian.totalscore%type

--数值型变量,类型和 fenshuxian表中的totalscore这个字段的类型相同,记录“总分”

)

as

m_averagefenshuxian.totalscore%type;

m_count int;

begin

select avg(totalscore),count(*) into m_average, m_count from luqu

where diqu=n_diqu and totalscore>=n_totalscore and flag='录取'; --查询地区和总分符合要求并且录取标志为“录取”的信息

dbms_output.put_line('上线考生平均分:'||m_average||'分'||' '||'上线人数:'||m_count||'人');

dbms_output.put_line('上线考生基本信息如下:');

for v_kaosheng in (select * from luqu where diqu=n_diqu and totalscore>=n_totalscore and flag='录取')

loop

dbms_output.put_line( '考号:'||v_kaosheng.kh||''||'姓名:'||v_kaosheng.xm ||' '

||'性别:'||v_kaosheng.xb ||' '||'身份证号:'||v_kaosheng.identify ||' '||'籍贯:'||v_kaosheng.jg

||' '||'报考地区:'||v_kaosheng.diqu ||' '||'报考学校:'||v_kaosheng.xx);

--输出考生的基本信息

end loop;

commit;

exception

when no_data_found then

dbms_output.put_line('the data doesn''t exists!');

end return_kaoshenginfo;

测试情况如下:

执行测试文件后,DBMS输出如下内容:

上线考生平均分:372分 上线人数:2人

上线考生基本信息如下:

考号:106367077402001姓名:谭德林 性别:男 身份证号:511011198101019322 籍贯:中国德阳 报考地区:四川 报考学校:四川师范大学

考号:106367077402003姓名:陈虹 性别:女 身份证号:511011197801019322 籍贯:中国雅安 报考地区:四川 报考学校:电子科技大学

2.4 触发器

触发器是一种特殊的存储过程,触发器的执行由事件触发的,它当指定的表中的数据发生变化时自动运行。该研究生招生系统需要两个触发器,第一个是利用触发器实现当修改分数线分数时,考生的录取情况要随之相应改变。第二个是利用触发器实现当删除考生信息时,考生的考试信息要随之删除。为此创建了两个触发器,分别为updatefenshuxian.trg、del.trg。删除考生信息时,用考号为条件,这样相应的考试信息也随之删除。这里重点介绍触发器updatefenshuxian.trg,基本思想是首先将luqu表中与fenshuxian表中的学校相同的记录中的zhengzhi,yingyu,zhuanye1,zhuanye2,totalscore这5个字段的值存入5个数值型变量中。再判断这5个字段的值是否分别大于或等于fenshuxian中相应的更新之后的zhengzhi,yingyu,zhuanye1,zhuanye2,totalscore这5个字段的值,若条件成立,则修改luqu表中的录取标志flag为“录取”,否则修改luqu表中的录取标志flag为“落选”。具体代码及说明如下:

create trigger updatefenshuxian

after update on fenshuxian

for each row

declare

p_zhengzhi luqu.zhengzhi%type;--数值型变量,将luqu表中的zhengzhi数据存入此变量中

p_yingyu luqu.yingyu%type;--数值型变量,将luqu表中的yingyu数据存入此变量中

p_zhuanye1 luqu.zhuanye1%type;--数值型变量,将luqu表中的zhuanye1数据存入此变量中

p_zhuanye2 luqu.zhuanye2%type;--数值型变量,将luqu表中的zhuanye2数据存入此变量中

p_totalscore luqu.totalscore%type;--数值型变量,将luqu表中的totalscore数据存入此变量中

begin

select zhengzhi,yingyu,zhuanye1,zhuanye2,totalscore into p_zhengzhi,p_yingyu,

p_zhuanye1,p_zhuanye2,p_totalscore from luqu where xx=:old.xx;--条件为luqu表中的学校和fenshuxian表中的学校名称相同

if (p_zhengzhi>=:new.zhengzhi and p_yingyu>=:new.yingyu and p_zhuanye1>=:new.zhuanye1 and

p_zhuanye2>=:new.zhuanye2 and p_totalscore>=:new.totalscore ) then

--当政治、英语、专业1、专业2、总分大于或等于更新后的分数线中的相应信息,则修改录取标志为“录取”,否则修改为“落选”。

update luqu set flag='录取' where xx=:old.xx;

else

update luqu set flag='落选' where xx=:old.xx;

end if;

end updatefenshuxian;

3 结束语

该高校研究生招生系统主要是利用Oracle中的PL/SQL程序对考生的成绩及录取情况进行处理,实现了对考号、录取情况、上线考生信息、分数线等的管理。但还有许多地方还需要改进,比如数据库可以再设计简单些。还可以结合VC或C#等可视化编程语言,做成界面形式,开发出行之有效的更适用的、方便操作的研究生招生系统。

参考文献:

统计学变量类型篇(2)

一、股票收益波动率预测模型研究现状

如何对股票收益波动率进行准确的描述与预测?这一直以来都是金融学领域探讨的热点问题之一。把握股票收益波动率的特征及趋势,对投资者测度、规避和管理股市风险具有极其重要的理论和实际意义。因此,长期以来许多学者运用各类预测模型对股票收益率波动性进行实证分析和预测,希望能够从中得到有益的启示和可以遵循的规律。目前,从国内外的相关文献来看,尽管对股票收益波动率进行预测的模型有很多种,但依据其建模理论不同,可将模型划分为两个大类:一类是以统计原理为基础的传统型的波动率预测模型,目前较为流行且具有代表性的模型包括ARCH类模型和SV类模型;另一类是以神经网络(ANN)、灰色理论(GM)、支持向量机(SVM)等为基础的创新型预测模型。国外学者运用GARCH和SV模型进行预测,其预测效果好于国内的同类预测。Campbll,Hetschel,Engle,Ng,Pagan,Schwert等证实GARCH能够提供较理想的数据模拟与预测效果。Jun、Yu利用基本SV模型对新西兰股市进行了预测分析,发现基本SV模型具有很好的预测能力。G..B.Durham利用SV-mix 模型对标准普尔500指数做了预测,认为预测效果较好。国内学者如魏巍贤、张永东、钱浩韵、张世英等分别运用GARCH和SV对我国股市进行预测,效果不是十分理想。而利用创新型预测模型(ANN,GM,SVM)对股市进行预测,国内外文献显示预测效果都比较理想。Hill等将神经网络与六种传统的统计预测方法作了对比,他们用了111个时间序列进行预测,结论是:采用短期(月度、季度)数据预测时,神经网络明显优于传统的统计模型;采用长期(年度)数据时,预测结果相差不多。李敏强、吴微、胡静等许多学者实证研究结果表明:人工神经网络应用于我国股票市场的预测是可行和有效的。陈海明、段进东、施久玉、胡程鹏、覃思乾应用灰色GM(1,1)模型对股票价格进行短期预测,效果很好。W.Huang等用支持向量机预测股票市场运动方向。P.Pai等将ARIMA(autoregresssive integrated moving average)模型和SMV模型结合起来,提出一种组合模型来进行股票价格预测,得出该组合模型优于单个ARIMA或SVM的结论。国内的杨一文、杨朝军利用SMV对上海证券综合指数序列趋势做较准确的多步预测。李立辉等将SMV应用到我国上证180指数预测中。周万隆、姚艳、赵金晶等实验结果表明,SVM预测精度很高。

总之,比较国内外学者的研究状况,至少可以得出以下两个结论:一是国外学者采用美国或其他西方国家股市的相关数据带入GARCH类或SV类模型进行数据拟合或预测,其效果普遍要好于国内学者采用国内股市相关数据进行的同类研究;二是我国学者运用创新型预测模型进行股市方面预测的文献多于传统的统计模型,而且从预测效果上看,创新型预测模型的预测精确度要高于传统型统计类预测模型。

二、基于统计原理的预测模型与创新型预测模型的比较分析

1.建模的理论基础不同。传统的基于统计原理的股票收益波动率预测模型是建立在统计分析理论基础之上的。而处理基于概率统计的随机过程,是要求样本量越大越好,原始数据越完整、越明确越好。但事实上,在实际中,即使有了大样本量,也不一定找到规律,即使有了统计规律也不一定是典型的。创新型预测模型则是完全脱离统计理论的基础,以一种创新型的建模思维,来建立预测模型。例如灰色模型是建立在灰色理论基础之上的,依据广义能量变化规律,将历史资料做累加处理,使其呈现出指数变化规律,然后建模。而人工神经网络模型是建立在神经网络理论基础之上的,它通过模仿人脑神经系统的结构及信息处理和检索等功能,建立神经网络模型进行预测。支持向量机则依据的是统计学习的机器学习理论,通过凸优化,使得局部解一定是最优解,克服了神经网络收敛速度慢和局部极小点等缺陷。

2.对数据的要求与处理不同。基于统计原理的预测模型要求样本量大并有很好的分布规律,无论是GARCH类还是SV类模型,只有在样本量足够大,且分布较好的情况下,其预测效果才会比较理想。例如,运用GARCH模型对美国股指进行预测要比对国内股指进行预测效果理想,原因是我国股市发展的时间相对较短,期间由于宏观调控和股改等原因,造成股指大起大落,导致数据分布规律性不强,因此我国运用这类模型存在一定局限。而创新型预测模型对样本量的要求和分布程度的要求均较低。例如灰色模型,只要拥有7、8个数据就可对下一个数据进行预测。在处理技术上,灰色模型要对原始数据进行累加处理,使表面杂乱无章的数据呈现出明显的指数规律,建模计算之后,再进行累减还原。神经网络模型则采用数据驱动,黑箱建模,无需先验信息,能够在信息资源不完整、不准确等复杂的数据环境下,通过自身结构的调整,提取数据特征,并对未来进行有效预测。

3.模型结构的稳定性与适应性不同。基于统计原理的预测模型一经建立,其模型结构具有较强的稳定性,模型变量之间存在一个稳定的内在关系。无论是GARCH模型还是SV模型,模型结构都相对稳定、简单,而且都是单因素模型。但在实际中,预测环境是复杂多变的,一旦系统变量之间出现新的关系,该类模型则无法调整和适应。创新型预测模型则是一种或者多因素、或者可以变结构的模型,其计算相对复杂,但其适应能力要好于基于统计原理的预测模型。例如灰色模型,除了有基本的GM(1,1)模型,对于高阶系统,灰色理论通过GM(1,n)模型群解决,并且可以综合考虑多种因素的影响。而神经网络和支持向量机都是变结构模型,通过网络对新样本的学习,调整其内部结构,从而适应系统变量的变化。对于非线性高维、高阶问题神经网络和支持向量机会发挥得更好。

4.预测精准度与外推性强弱不同。相比较而言,基于统计原理的预测模型误差较大,外推性差。因为基于统计原理的预测模型对数据样本没有再处理或学习的过程,因此对样本的拟合性较低,由此导致其外推性也较差。而创新型预测模型相对而言精确度较高,外推性强。原因是创新型预测模型对数据具有再处理或学习的过程。灰色模型是对数据进行了累加处理;而神经网络模型和支持向量机是对数据进行了学习,然后进行推理、优化。因此,创新型预测模型的拟合度和外推能力都要高于统计类模型。

5.预测难度与预测时间长度不同。基于统计原理的预测模型技术比较成熟,预测过程相对简单。无论是GARCH类还是SV类预测模型,其建立模型依据的理论基础坚实,模型构造相对简单,计算难度相对较低。由于这类模型采用的数据是较长时间的历史数据,因此可以对未来进行较长时间的预测。而创新型预测模型预测技术还有改进的余地,且预测难度较大。如利用神经网络进行股票收益波动率预测,其过程相对较难,因为神经网络需要设定隐层,权重;其隐层和权重设置合理与否,直接导致预测结果的合理与准确。用支持向量机方法进行预测,涉及到核函数的确定。核函数的确定难度较大。由于创新型预测模型对数据要求度不高,一般是小样本量预测,因此,适用于对预测对象进行短期预测。

三、我国股票收益波动率预测模型发展方向

1.创新型的智能化预测模型将成为我国股票收益率预测的一个发展方向。首先,创新型预测模型能够克服我国股市数据不完整、波动大、分布不合理等缺点,采用小样本数据对股市进行短期预测,预测的精准度相对高于传统的统计类预测模型。其次,创新类模型中的智能化模型能够模仿或部分模仿人工智能,对影响股市的多种因素进行复杂的非线性变结构处理,既能克服单因素模型包含信息不充分的缺点,也能克服固定结构模型无法处理突发性事件的缺点,能尽量充分地反映影响股市的多种信息和复杂变化,从而增加预测的准确度。

2.组合预测模型将成为我国股票收益率预测模型发展的另一个发展方向。组合预测是将不同预测模型的预测结果依据一定的原则赋予不同的权重,然后进行加权平均,得出最终的预测结果。这种预测方法可以克服单一预测模型信息量不充分的缺点,充分发挥不同预测模型的优势,最大限度获取不同角度的信息量,提高股票收益率预测水平。

3.包含各种非量化信息的预测模型将成为我国股票收益率预测模型的一个重要发展方向。目前股票收益率预测模型都属于数量化预测模型,非量化的因素无法融入到模型之中,这就导致预测中丢失了大量的非量化信息,预测的精准度受到很大影响。如何能将各种影响股市的非定量化信息进行技术处理后转变成量化信息,使之能够被加入到股票收益率预测的模型当中,从而充分反映政策因素、心理因素、突发事件等非量化因素对股票收益率的影响,提高预测的精确度,是股票收益率预测模型的一个重要发展方向。

参考文献:

统计学变量类型篇(3)

[

关键词] 高等院校;大类招生;学生成绩;Logit 对数线性模型

[中图分类号] G647 [文献标识码] A [文章编号] 1674-893X(2014)05?0078?04

[收稿日期] 2014-06-16;[修回日期] 2014-06-26

[基金项目] 中南大学开放式精品示范课堂计划项目“能源与动力工程测试技术”(2014sfkt223)

[作者简介] 孙志强(1980-),男,河南武陟人,博士,中南大学教授,主要研究方向:节能与新能源.

一、引言

自1977 年恢复高考以来,我国高校招生政策主要经历了四个发展历程[1,2]。1977 年至1985 年我国实行的是在适当地点定期实行全部或局部高等学校联合或统一招生。1986 年至1992 年国家采取计划招生,实行单位委托培养和定向招生及招收部分自费生的双轨办法,改变了高度集中的单一招生计划体制。其后至2002 年,国家实行了一系列的招生政策改革,使得我国高等教育实现了跨越式发展。2003 年至今教育部实行了扩大高校招生自主权的改革,自此大类招生开始出现。大类招生政策自实施以来,经过近十年的发展和逐渐推广,迄今100多所“211 工程”院校中已有超过一半的高校实行了按大类招生的模式。大类招生是指将相同或相近学科门类的专业合并,按一个专业大类进行招生。大类招生之所以能取得如此快速的发展是由其先进性决定的——大类招生不仅有利于培养创新型人才和按需培养人才,而且还可以帮助高校整合内部资源,提高办学效益[3]。

由于大类招生属于新生事物,部分高校实施不久,其潜在的弊端尚未显露,而按大类招生政策录取的学生的成绩往往隐含着这些信息[4],因此,对这类学生的成绩进行统计分析,发现其潜在的问题,从而提出相应解决方案是尤为重要的。本文以较早实行大类招生的中南大学能源动力类学生成绩为研究对象,通过建立Logit 对数线性模型,探讨生源地和入学年龄对学生成绩的影响,进而根据统计结果提出相关对策以进一步完善大类招生模式。

二、数据收集及处理

(一)对象

中南大学有工学、理学、医学、文学、法学和经济学等十一大学科门类,有30 个二级学院和83个本科专业,是一所典型的综合性大学。中南大学能源科学与工程学院自2008 年开始便实行了按能源动力类大类招生,能源动力类是培养从事动力机械和动力工程的设计、制造、运行和管理等方面的高级工程技术人才的典型工科专业。因此,以中南大学能源动力类学生成绩为研究对象建立Logit 对数线性模型,分析得出的结论具有一般性,能够指导综合性大学工科专业大类招生下学生科学文化素质的培养。本文统计了中南大学能源动力类2009级185 名和2010 级166 名本科生的成绩,涵盖了他们自入学到2012 年上学期所学习的所有18 门和15 门基础课科目,包括工程制图、大学计算机基础、微积分、大学物理、基础英语等。限于篇幅原因,学生的各科原始成绩数据本文不予陈列。

(二)成绩评价模型及等级划分

学生成绩综合测评的方法主要有总分法、算术平均值法、加权平均法、模糊综合评判法、层次分析法、因子分析法和主成分分析法等[5,6]。总分法和算术平均值法是对单个学生所有课程成绩求出总和或平均数,作为综合考核结果来对学生进行比较和评定。这两种方法非常简单,但没有考虑课程学分的影响。模糊综合评判是对受多种因素影响的复杂的对象采用模糊数学的理论与技术进行综合评判而得到定量评价结果的方法[7]。层次分析法是一种将定性分析和定量分析相结合的系统分析方法,其首先需要将复杂的问题层次化,然后根据系统的特点和基本原则对各层的因素进行对比分析,最后以计算出的最低层相对于最高层的相对重要性次序的组合权值作为评价的依据[8]。主成分分析法是将原来的多个变量适当的组合成一些数量较少的综合指标来近似代替原来的多个变量[9]。因子分析法是将具有错综复杂关系的变量综合为数量较少的几个因子以再现原始变量和因子之间的相互关系,在某种程度上可看成是主成分分析的推广和拓展[10]。这四种方法较为复杂,面对本研究庞大的数据需要花费较长的时间,不便使用。

加权平均法不仅涵盖了课程的学分信息,而且其计算方法还简单,故本研究最终选取该方法进行综合成绩的分析。加权平均法一种考虑了课程所占权重的学生成绩综合评价方法,科目的学分越高,该科成绩在进行综合评测时所占的比重越大,其具体计算方法为:

通过计算发现,所取样本中学生加权平均成绩的最大值和最小值分别为90.66 和60.77。考虑到这两数值的大小,本文最终利用成绩绩点的分界值将学生的成绩划分成优、良、中和及格四个等级:当加权平均成绩≥85 时,成绩为优;当85>加权平均成绩≥78 时,成绩为良;当78>加权平均成绩≥71时,成绩为中;当71>加权平均成绩≥60 时,成绩为及格。

三、Logit 对数线性模型

本文主要探讨生源地及入学年龄对学生成绩的影响,所研究问题的变量均为称名变量,有自变量和因变量的区别,而且还有两个自变量,因此,多变量分析方法中的Logit 对数线性模型特别适合于分析此类问题。Logit 对数线性模型主要用来探讨与解释因变量与自变量间的关系,通常以最大似然法进行模型估计与检验[11]。

(一)建模与自由度计算

考虑到生源地种类有31 种,而2009 级与2010级能源动力类学生总人数仅为351 人,所以,为了满足Logit 对数线性模型的使用前提必须对生源地进行分类[11]。根据表1 所示的2010 年高考985 高校各省录取率将生源地归为三类:① 0<录取率≤1.5;② 1.5<录取率≤3;③ 3<录取率。由于大部分学生入学年龄为18 或19 岁,因此,将学生入学年龄分为两类:① 18 岁及以下;② 19 岁及以上。按前述分类后,中南大学2009 级与2010 级能源动力类学生成绩的统计结果如表2 所示。

A 代表生源地,B 代表入学年龄,C 代表成绩等级,则变量A、B、C 分别有3、2 和4 个类别。根据对数线性模型的阶层特性(C 为因变量,A 与B 为自变量),则可能建立的五个模型如表3 所示。其中,模型1 代表三个变量彼此独立,生源地和入学年龄均与成绩等级无因果关系存在;模型2-1 只有生源地与成绩等级的交互作用,代表只有生源地与成绩等级间有关系存在;模型2-2 表示只有入学年龄与成绩等级有关系存在;模型3 表示生源地和入学年龄都与成绩等级有关系存在;模型4 表示生源地和入学年龄以及这两者的交互作用都与成绩等级有关系存在。

(二)模型拟合优度检验结果与分析

在建立三维度列联表的可能模型后,计算每一个模型的似然比,并进行拟合优度检验,其结果如表3 所示。其中,似然比计算公式为:

式中,为各细格的期望次数;为各细格的实际次数;i 为变量A 的类别;j 为变量B 的类别;k 为变量C 的类别。

由表3 可知,模型1 的似然比值为10.831,在自由度为15 时,显著水平p 值为0.764,并未达到0.05显著水平,因此该模型已经可以拟合表2 中的实际数据。同时还可以发现,在加入了生源地与成绩等级的交互作用和入学年龄与成绩等级的交互作用后,拟合结果的显著水平分别下降至0.698 和0.645,其拟合精度有所下降,故模型1 是最佳拟合模型。该结果表明,学生成绩基本与生源地和入学年龄无关。

现实生活中普遍认为学生成绩与班级学风密切相关,为了确定此种观点是否正确,本文对能源动力类2010 级5 个班的成绩情况进行了统计,其结果如表4 所示。从表中可以看出,2010 级整体成绩最好和最差的班级是能动1002 班和能动1001,其成绩为良以上的比例分别为70%和25.71%,相差44.29%。这与现实生活中两个班级的整体表现相吻合,据观察,能动1002 班的学生普遍学习用功,到课率高,而且该班会经常组织同学集体上早自习和晚自习,学风好;而能动1001 班相对来说学风稍差,学生学习不够积极主动,缺课率相比其他班级也要高一些。由此表明,学生成绩与班级学风密切相关的观点是正确的。由于学生成绩能反映学生掌握知识和各种能力的程度,是评价大类招生政策下大学生培养方案实施效果如何最有力的标志之一,因此,为了提高大学生的成绩,帮助他们更好的成长成才,学校需要将班级学风的建设摆在首位,加强对其的建设以完善大类招生政策下的大学生培养计划。

四、结论与建议

本文通过对建立的以成绩等级为因变量、生源地与入学年龄为自变量的Logit 对数线性模型进行分析发现,学生成绩与生源地及入学年龄基本无关,而与班级学风密切相关。学风好,班级学习氛围好,努力学习的人数也就多,成绩优秀的人数也越多。所以,加强班级学风建设尤为重要,是提高学生成绩最有效的途径之一。

针对目前逐渐推广并流行的高校大类招生,笔者认为可以通过以下两方面的措施来加强学风的建设。

(1)重视入学教育。综合高校工科专业的学生来自全国各地,他们的学习基础自然各不相同,在付诸相同努力后,其取得的成效也是各有差异的。有些学生在阶段性成绩出来后,他们会因为觉得自己已经很努力了但依然赶不上别人而把原因归结于自己高中的学习基础差。当他们产生这样的想法后,他们便会失去学习的冲劲,从而造成成绩的下滑。因此有必要在本科生的入学教育中强调高中的学习基础(与生源地相关)和入学年龄基本与他们大学里所取得的成绩无关,而是取决于他们在大学里的学习努力程度。

(2)设立基于班级整体成绩的奖学金名额分配机制。校级奖学金的班级名额分配不再以班级学生名额为依据,而是调整为以班级整体成绩(班级加权平均分)为基准,根据班级整体成绩排名而分配奖学金的名额。班级整体成绩能够很好的反映各班级学风的好坏,将奖学金的名额与班级整体成绩挂钩后,每一位同学的成绩都会影响集体的荣誉与利益。在这种情况下,各班级都会积极主动地制定措施来加强自身班级学风的建设,学生的自我管理往往能取得更好的效果。

参考文献:

[1] 孙华.我国高校招生政策100 年述评[J].复旦教育论坛,2007,5(1):59-64.

[2] 高桂芬.教育公平背景下的高校招生政策研究[D].北京:首都师范大学,2008.

[3] 唐苏琼.高校实施大类招生的利弊分析[J].中国高教研究,2009,24(1):88-89.

[4] 吴兆奇,关蓬莱,吴晓明.考试成绩的Logistic 回归模型研究[J].统计与决策,2007,23(3):21-23.

[5] 徐则中.基于变权的学生成绩综合评价[J].中国电力教育,2010,26(19):50-52.

[6] 黄修芝.统计分析方法在成绩分析中的应用[J].统计与决策,2002,18(3):48.

[7] 孙艳,蔡志丹.模糊综合评判法在学生考试成绩评价中的应用[J].长春理工大学学报(自然科学版),2011,34(4):178-179.

[8] 李瑞兰.层次分析法在毕业设计(论文)成绩评定中的应用[J].长春工程学院学报(社会科学版),2011,12(4):156-158,176.

[9] 张磊.基于主成分分析法的学生综合成绩分析[J].科技信息,2012,29(4):113.

统计学变量类型篇(4)

科研设计包括专业设计和统计研究设计。专业设计主要包括基本常识和专业知识的正确、全面、巧妙地运用;而统计研究设计包括实验设计、临床试验设计和调查设计。值得注意的是:在很多科研人员所做的科研课题中,不仅严重忽视统计研究设计,就连专业设计也有严重错误,主要表现在犯了基本常识错误和违背专业知识错误。这类错误所发生的频率还相当高,是一种不能容忍的不正常现象!

在统计研究设计所包含的3种研究设计中,实验设计是最重要的,因为很多关键性的内容都包含在其中,其核心内容是“三要素”、“四原则”和“设计类型”。所谓“三要素”就是受试对象(或调查对象)、影响因素(包括试验因素和重要的非试验因素)和实验效应(通过具体的观测指标来体现);所谓“四原则”就是随机、对照、重复和均衡原则,它们在选取和分配受试对象、控制重要非试验因素对观测结果的干扰和影响、提高组间均衡性、提高结论的可靠性和说服力等方面将起到“保驾护航”的作用;所谓“设计类型”就是实验中因素及其水平如何合理搭配而形成的一种结构,它决定了能否多快好省且又经济可靠地实现研究目标。科研人员若对重要非试验因素考虑不周到、对照组选择不合理、设计类型选择不当或辨别不清,导致科研课题的科研设计千疮百孔、数据分析滥竽充数、结果解释稀里糊涂、结论陈述啼笑皆非。下面笔者就“实验设计”环节存在的问题辨析如下。

1 在分析定量资料前未明确交代所对应的实验设计类型

人们在处理定量资料前未明确交代定量资料所对应的实验设计,对数千篇稿件进行审阅后发现,大多数人都是盲目套用统计分析方法,其结论的正确性如何是可想而知的。这是一条出现非常频繁的错误,应当引起广大科研工作者的高度重视。

2 临床试验设计中一个极易被忽视的问题——按重要非试验因素进行分层随机化

例1:原文题目为《气管舒合剂治疗支气管哮喘的临床观察》。原作者写到:“全部病例均来源于本院呼吸专科门诊和普通门诊,随机分为治疗组40例和对照组30例。其中治疗组男21例,女19例;年龄21~55岁,平均(36.28±9.36)岁;病程2~23年,平均(10.31±17.48)年;病情轻度者16例,中度24例。对照组30例,男16例,女14例;年龄20~53岁,平均(35.78±9.53)岁;病程3~24年,平均(11.05±6.47)年;病情轻度者13例,中度者17例。两组间情况差异无显著性,具有可比性。”请问这样随机化,其组间具有可比性吗?

对差错的辨析与释疑:显然,研究者在试验设计时未对重要非试验因素采用分层随机保证各组之间的可比性。这条错误的严重程度为不可逆,出现不可逆错误意味着原作者的试验设计具有无法改正的错误,必须重做实验!究其原因,主要是原作者未理解统计学上随机的概念。统计学上随机化的目的是尽可能去掉人为因素对观测结果的干扰和影响,让重要的非试验因素在组间达到平衡。稍微留意一下原作者随机化分组,明显带有人为的痕迹,治疗组40人比对照组30人多出10人;治疗组病程的标准差17.48是对照组病程的标准差6.47的近3倍。笔者很疑惑怎样的随机化才能达到如此的不平衡?事实上随机化有4种:子总体内随机、完全随机、分层随机和按不平衡指数最小原则所进行的随机,原文条件下应当选用分层随机,即以两个重要的非试验因素(性别和病情)水平组合形成4个小组(男轻,女轻,男中,女中),然后把每个小组内的患者再随机均分到治疗组和对照组中去,这样分层随机的最终结果一定是治疗组和对照组各35人,且使2组间非试验因素的影响达到尽可能的平衡,从而可大大提高组间的可比性。在本例中,若“病程”对观测结果有重要影响,在进行分层随机化时,在按“性别”和“病情”分组的基础上,还应再按“病程”(设分为短、中、长)分组,即共形成12个小组,将每个小组中的患者随机均分入治疗组与对照组中去,这是使“性别、病情、病程”3个重要非试验因素对观测结果的影响在治疗组与对照组之间达到平衡的重要举措,也是所有临床试验研究成败与否的最关键环节!

3 实验设计类型判断错误

例2:某作者欲观察甘草酸、泼尼松对慢性马兜铃酸肾病(AAN)肾损害的干预作用,于是,进行了实验,数据见表1。原作者经过用甘草酸和泼尼松分别与同期正常对照组和模型组比较,一个P<0.05,另一个P<0.01,于是得到甘草酸、泼尼松对慢性AAN肾损害具有一定程度的保护作用,且泼尼松的效果更佳。请问原作者的结论可信吗?表1 各组大鼠血BUN及SCr变化比较(略)注:与正常对照组同期比较,*P<0.05,**P<0.01;与模型组同期比较,P<0.05,P<0.01

对差错的辨析与释疑:本例错误极为典型,通常科研工作者欲观察某种药物是否有效,习惯上会建立正常对照组、模型组(即该药物拟治疗的病态组)和在模型组基础上的用药组(如本例中甘草酸组和泼尼松组)。这样的设计本身并没有错,但这仅仅是专业上的“实验安排(可称为多因素非平衡组合实验[1])”,而并非是统计学中所说的某种标准实验设计类型。写在“组别”之下的4个组,并非是一个因素的4个水平,而是2个因素水平的部分组合。这2个因素分别是“是否建模(即正常与模型2个水平)”和“用药种类[即不用药(相当于安慰剂)、用甘草酸和用泼尼松3个水平]”。2个因素共有6种水平组合,即“组别”之下缺少了“正常基础上用甘草酸”和“正常基础上用泼尼松”。这样设计的实验才可能反映出“是否建模”与“用药种类”2个因素之间是否存在交互作用。

在本课题研究中,由于未在实验前作出正确的实验设计,处理数据时错误就悄然产生了。具体到本例,从原作者在表1的注解中可以看出,通过单因素方差分析分别比较同期(即相同观测时间点)的甘草酸组和泼尼松组与正常对照组和模型组之间的差别是否有统计学意义。这样的做法有3个严重错误:第一,严格地说,在模型组基础上的用药组是不适合直接与正常对照组相比较的,因为这样的比较解释不清到底是药物的作用还是由于模型未建成功而造成的假象;第二,将各个时间点割裂开分别比较破坏了原先的整体设计,数据利用率降低,误差估计不准确,导致结论的可信度降低。将一个重复测量实验的各个时间点割裂开来考察,就等于在各个片段上估计实验误差、作出统计推断,好像盲人摸象一样,摸出来的结果差别何其之大;第三,要想说明两种药物哪个效果更佳,在得出差别具有统计学意义的基础上,衡量的标准是应看组间平均值的差量的大小而不应看P值是否足够地小,不能说P<0.01时就比P<0.05时更有效,这种忽视实验误差、忽视绝对数量和脱离专业知识的想法和做法都是不妥当的。

如何正确处理表1中的实验资料呢?关键要正确判定该定量资料所对应的是什么实验设计类型。由前面的分析可知,表1定量资料对应的是“多因素非平衡组合实验”,而不是某种标准的多因素实验设计类型。明智的做法是对“组别”进行合理拆分,即根据专业知识和统计学知识,对“组别”之下的所有组重新进行组合,应使每种组合对应着一个标准的实验设计类型。正确地拆分结果分别见表2和表3。表2 正常对照组与模型组大鼠血BUN及SCr变化的测定结果(略)表3 模型组和2个用药组大鼠血BUN及SCr变化的测定结果(略)

事实上,由科研习惯形成的这一套实验方案笔者形象地称之为多因素非平衡的组合实验,或者说,它是实验设计的表现型。通常可以进行统计分析的都必须是标准型(即统计学上所说的某种实验设计类型),因此需要能看出代表表现型本质的原型(本例中组别之下应该有6个组,这6个组构成一个2×3析因设计结构,但原作者少设计了2个组)。通常需要将表现型或/和原型拆分成标准型后再选择合适的统计分析方法进行数据分析。本例根据原作者的意图,可以将表1拆分成2个标准型,形成2个具有一个重复测量的两因素设计定量资料,见表2和表3。相应的统计分析方法就是具有一个重复测量的两因素设计定量资料的方差分析。此处请读者注意:第一,具有一个重复测量的两因素设计定量资料的方差分析和一般的方差分析虽然都叫方差分析,但它们的计算公式却有本质区别,绝不可混用;第二,重复测量因素(本例中为时间)不要与实验分组因素(表2中叫“是否建模”;表3中叫“药物种类”)同时列入左边,它们是本质不同的两种因素,一般应该把“重复测量因素”放到表头横线下方。

通过本例可以看出,在实验前明确实验设计是多么重要的一件事情。试想,若让本例原作者写明他的实验设计类型,他必然就会对基本的实验设计类型作一番调查和学习,自然就能发现他所“设计”的实验并不是统计学上相应的实验设计。那么通过咨询相关人士必能做出比较正确的实验设计,不仅可以提高科研设计水平,而且可以大大提高科研课题和论文质量。

例3:原文题目为《土荆芥-水团花对胃溃疡大鼠黏膜保护作用的研究》。原作者使用单因素多水平设计定量资料方差分析处理表4中的数据。请问原作者这样做对吗?表4 各组黏膜肌层宽度、再生黏膜厚度变化(略)注:与正常组比较,aP<0.05;与NS组比较,bP<0.05;与CP 10 mg·kg-1 组比较,cP<0.05

对差错的辨析与释疑:本例涉及到统计学三型理论[1]中的一些概念,简单地说就是可以直接进行统计分析的来自标准设计的数据表叫标准型,反映问题本质但并非是标准型的数据表叫原型,而掩盖了原型信息的数据表叫表现型。“组别”之下的6个组,似乎是某个因素的6个水平,其实不然!这6个组涉及到多个试验因素,应对“组别”拆分重新组合后,再分别判定各种组合所对应的实验设计类型,并选用相应的统计分析方法。组合1:空白对照组(正常)、阴性对照组(NS),这是单因素两水平设计(简称为成组设计)。由于正常组无实验数据,故该组合无法进行统计分析;组合2:NS组、RA组、CP(20/mg·kg-1)组,这是单因素3水平设计,因素的名称叫“药物种类”;组合3:NS组、CP(10/mg·kg-1)组、CP(15/mg·kg-1)组、CP(20/mg·kg-1)组,这是单因素4水平设计,因素名称叫CP的剂量(其中,NS组可视为CP的剂量为0)。

对于组合2和组合3,若定量资料满足参数检验的前提条件,可选用相应设计定量资料的方差分析,否则,需要改用相应设计定量资料的秩和检验。

4 人为改变设计类型且数据利用不全

例4:某作者使用表5中的数据进行分析,欲比较治疗组和对照组在治疗后的各个时间点的疗效情况,使用的分析方法为一般卡方检验,请问原作者这样做对吗?

对差错的辨析与释疑:从给出的统计表可以看出,该作者有意或者无意之间收集了一类相当复杂的实验设计类型下的定性资料,结果变量为多值有序变量的具有一个重复测量的两因素设计定性资料,处理这个设计下收集的定性资料要使用相应设计定性资料的统计模型分析法。由于上述方法过于复杂,因此,通常在实际运用中,实际工作者将重复测量因素武断地视为实验分组因素,从而使该资料变为结果变量为多值有序变量的三维列联表资料。在已经出错的前提下,原本应当使用CMH校正的秩和检验或者有序变量的多重logistic回归分析处理资料。然而,该作者显然在此基础上进一步合并了数据,将结果变量变成二值变量(有效、无效),也就是说,原作者实际使用的仅仅是最后一列数据(即总有效率),并且最为严重的错误是将三维列联表资料强行降维成二维列联表资料,使用一般χ2检验进行分析。经过一系列的简化与错误合并,最后结论的可信度还剩下多少呢?表5 原作者对2组疗效比较的试验设计及数据表达(略)注:与对照组同期比较,*P<0.05

由于篇幅所限,这类错误笔者只给出1例,实际上此类例子在很多杂志中普遍存在。这说明在进行实验设计时,很多研究人员并未做到心中有数;分析数据时,按自己熟悉的简单统计分析方法所能解决的数据结构强硬地改造数据,严格地说,在用表格表达实验资料的那一刹那就已人为改变了资料所对应的实验设计类型,这种做法的科学性和得出结论的正确性都将受到质疑[2]。

5 正交设计及数据处理方面的错误

人们在进行正交设计和对正交设计定量资料进行统计分析时,常存在下列3个误区:很多人过分强调用正交设计可以大大减少实验次数,因此,无论各实验条件(正交表中的每一行)下的实验结果波动有多大,都不做重复实验,这是第1个误区;将正交表各列上都排满试验因素,用对实验结果影响最小的试验因素所对应的标准误作为分析其他因素是否具有统计学意义的误差项,导致误差项的自由度较小,结论的可信度较低,这是第2个误区;在对正交设计定量资料进行方差分析后,即使存在多个无统计学意义的因素,仍对少数几个有统计学意义的因素进行解释,未将无统计学意义的因素合并到误差项中去重新估计实验误差,以获得具有较大自由度的误差项,这是第3个误区。

统计学变量类型篇(5)

ReceivedOctober9,2008;accptedDecember1,2008;publishedonlineJanuary15,2009.

Indexed/abstractedinandfulltextlinkoutatPubMed.JournaltitleinPubMed:ZhongXiYiJieHeXueBao.

Freefulltext(HTMLandPDF).

ForwardlinkingandreferencelinkingviaCrossRef.

DOI:10.3736/jcim20090112OpenAccess

Howtoidentifystatisticaldata

ChunyanHU,LiangpingHU

ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China

Keywords:statistics;medicine;dataanalysis,statistical

统计资料是统计分析的对象,正确识别统计资料是合理运用统计分析方法处理统计资料的首要前提;而科学完善的实验设计又是获得准确而又可靠统计资料的基本保证。

1何为统计资料

1.1数据不等于统计资料某研究者提交了如下内容。请问:它们是否叫统计资料?

6.55.16.13.93.57.72.11.99.67.97.67.84.66.16.42.87.62.54.68.14.86.95.12.06.46.04.58.08.08.66.44.96.46.84.73.47.71.22.80.52.63.26.57.63.55.75.42.37.42.74.26.46.97.26.76.54.07.31.14.92.52.91.93.61.42.54.42.5

它们不叫统计资料,因为这些数据代表什么含义并不清楚,数据的单位是什么不清楚,能派什么用场也不清楚,它们只能叫68个数据而已。

1.2仅有度量衡单位的数据仍不能称为统计资料假定前面给出的68个数据的单位是ng/ml,是否可称其为统计资料呢?仍然不可以!因为还缺少数据的名称,即数据的专业含义是什么,必须交代清楚,对其进行分析和讨论才能有的放矢,否则,只能是玩弄数字游戏。

1.3仅有变量名及其取值的数据仍不能称为统计资料表1中有很多数据,其中的每一列都能被称为统计资料吗?

有些似乎可以,有些则不可以。因为有些列仅有变量名,其专业含义并不清楚,如“G”代表什么,其下方的“1”与“2”又分别代表什么,“X1”的含义可通过其下方的“男”、“女”得知其代表“性别”,但“X3~X13”的含义都不清楚,“X14”代表联合用药情况。

1.4有指标名称又有度量衡单位的数据是否一定就可称为统计资料假定前面给出的68个数据所代表的指标为神经元特异性烯醇化酶(neuronspecificenolase,NSE)的含量,其单位是ng/ml,此时,它们是否就能叫统计资料?若要求不高,基本上可以称其为统计资料;若要求严格,还不能这样称呼。因为它们测自什么样的受试者并不清楚!比如有的测自正常人,有的测自不同疾病患者,甚至有的测自动物。表1冠心病人与正常人多项指标的观测结果

1.5统计资料应具备4个基本要素应当说,指标(或变量)名称、度量衡单位和具体取值是统计资料的3个基本要素。仅有这些基本要素可能还达不到特定的研究目的,也就是说,统计资料还应包括实现特定研究目的所对应的特定条件。比如说,前面给出的68个数据是某年从某地区18~60岁全部正常成年人中随机抽取的68人血液NSE酶的具体数值,而且,在获得这些数据时,测定的时间、地点、方法、仪器设备和测定者等都相同。这样条件下测得的NSE酶含量(ng/ml)所得的统计资料,运用适当的统计分析方法,才可以推测该年该地区18~60岁全部正常成年人血中NSE酶含量的(1-α)100%容许区间(医学上习惯称为正常值范围)和NSE酶含量总体平均值的(1-α)100%置信区间(也有人称为可信区间)。概括起来说,统计资料应具备4个要素:影响因素(测定条件)、有明确专业含义的指标名称、度量衡单位和具体取值。由此可见,统计资料通常是复合型,一般至少含有2个变量,一个称为影响因素,另一个称为观测指标及其取值。前面举的例子中,影响因素是受试者类型,仅测定了正常人,隐含的另一个水平是除这里定义的正常人以外的其他人,要使两组人具有较好的可比性,与其可形成对照的是某年从某地区18~60岁全部非正常成年人中随机抽取的68人。下面的表2中,若给X5~X11加上相应的度量衡单位,就是一个比较正规且可达到一定研究目的的复合型统计资料。表2103例冠心病人与100例正常人多项指标的观测结果

2统计资料的分类

2.1定性与定量资料任何一个有一定实用价值的统计资料通常都是复合型统计资料,即至少有两类性质的资料,一类叫定性资料,另一类叫定量资料。通常影响因素是定性资料,而观测结果是定量资料,但有时影响因素和观测结果都可包含定性与定量两类资料。

2.2资料类型的两种划分方法资料类型的划分方法有传统与现代两种。现将这两种划分方法作一扼要介绍,并对其加以比较。

2.2.1资料类型的传统划分方法资料类型的传统划分方法是将资料分为计量资料、计数资料和等级资料3类。其定义如下。

计量资料:测定每个观察单位某项指标量的大小,所得的资料称为计量资料。例如测得正常成年男子身高(cm)、体质量(kg)、血红蛋白(g/L)和总铁结合力(μmol/L)等所得的资料。

计数资料:将观测单位按某种属性或类别分组计数,得到各组观察单位数称为计数资料。例如某单位全体员工按ABO血型系统划分所得A型、B型、AB型、O型血的人数分别为1598、2032、641、1823人;又例如某小学1年级至6年级的学生人数分别为90、100、86、95、112、96人。

等级资料:将观测单位按某种属性的不同程度分组计数,得到各组观察单位数称为等级资料或半定量资料或有序资料。例如用某种治疗方法医治100名某病患者,最后清点治愈、显效、好转、无效和死亡的人数分别为10、30、40、15和5人;又例如某医院检测1029例患者,其中眼晶状体混浊程度为+、++、+++的分别有494、296、239人。

2.2.2资料类型的现代划分方法资料类型的现代划分方法是将资料先粗分为定量资料和定性资料两大类,然后,再将定量资料划分为计量资料和计数资料两小类;将定性资料划分为名义资料和有序资料两小类。其定义如下。

定量资料:测定每个观察单位某项指标量的大小,所得的资料称为定量资料。

计量资料:指标的取值可以带度量衡单位,甚至可以带小数(标志测量的精度)的定量资料,就叫计量资料。例如测得正常成年男子身高(cm)、体质量(kg)、血红蛋白(g/L)和总铁结合力(μmol/L)等所得的资料,它们首先是定量资料,进一步细分,它们还是计量资料。

计数资料:在定量资料中,若指标的取值可以带度量衡单位,但不可以带小数(只能取整数,通常为正整数)的定量资料,就叫计数资料。例如测得正常成年男子脉搏数(次/min)和引体向上的次数(次/min)。

定性资料:观测每个观察单位某项指标质的状况,所得的资料称为定性资料。

名义资料:在定性资料中,若指标质的不同状况之间在本质上无数量大小或质量好坏之分或先后顺序之分的定性资料,就叫名义资料。例如某单位全体员工按ABO血型系统(A型、B型、AB型、O型)来记录每个人的情况所得的资料;又例如某市全体员工按职业(工人、农民、知识分子、军人……)来记录每个人的情况所得的资料。

有序资料:指标质的不同状况(状态个数≥3)之间在本质上有数量大小或质量好坏或有先后顺序之分的定性资料,就叫有序资料。例如某病患者按治疗后的疗效(治愈、显效、好转、无效、死亡)来划分所得的资料;又例如矽肺病患者按肺门密度级别(+、++、++

+)来划分所得的资料。

若用一张表将资料类型的现代划分方法表示出来,则一目了然。见表3。表3统计资料类型的现代划分方法

2.2.3资料类型两种划分方法的比较资料类型的传统划分方法是从资料的收集方式角度来定义,也可以说是就“形式”而言;而资料类型的现代划分方法是从资料的性质角度来定义,也可以说是就“本质”而言。

事实上,当人们看到一个记号“1”时,人们无法知道这个“1”究竟代表的是什么含义。因为它可以代表1个人的年龄为1天或1个月或1岁,可以代表某定量指标的一个具体取值,也可以代表某组个体中具有某种阳性反应的人数是1人(频数为1),还可以代表受试者的一个特定性别(如用“1”代表男性,用“0”代表女性)。这说明仅从事物的表面看问题,很难准确地获知事物的本质特征。要想准确地揭示统计资料的性质,只需给出资料所对应的指标名称(变量名,通常隐含专业意义,若含义不明,应明确给出)和具体取值,而不必将调查对象分组后数出各组的调查单位数。例如在表3的前4行中,任何一行的任何一个数据或符号都应叫做其表头上相应指标的具体取值,“25”是“年龄X1”的一个具体取值,“农民”是“职业X4”的一个具体取值,同理,“+”是“尿糖X7”的一个具体取值。对于资料类型的现代划分方法而言,可以说出表3中任何一列的资料类型;而对于资料类型的传统划分方法而言,就不便说出表3中后4列的资料类型,它需要先分组,然后,用每个指标的所有不同标志及其对应组内的个体数两部分结合在一起,才叫计数资料或等级资料。而在多变量回归分析中,需要直接利用后4列资料,此时,资料类型的传统划分方法就显得“心有余而力不足”了。

3误判资料类型的案例

例1原文题目:美泰宁对睡眠作用的影响。原作者研究美泰宁对戊巴比妥钠诱导的小鼠睡眠的影响,选用40只体质量相近的雄性小鼠,随机分为溶剂对照组和3个剂量组,根据0、12.5、25.0和75.0mg/kg体质量,用蒸馏水配成所需浓度,每天灌胃。第7天灌胃15min后,各组动物按28mg/kg体质量腹腔注射戊巴比妥钠,以小鼠翻正反射消失达1min以上作为入睡判断标准,观察腹腔注射戊巴比妥钠25min内各组动物发生睡眠的动物数。经统计学处理,中、高剂量组与溶剂对照组比较,差异有统计学意义(P<0.01)。见表4。表4美泰宁对阈下剂量戊巴比妥钠诱导雄性小鼠睡眠发生率的影响

对差错的辨析与释疑统计资料常常分为定量资料和定性资料两大类,所谓定量资料是指每个观察单位用计量方法测量某项指标数值大小;而定性资料是指记录每个观察单位的某一方面的特征和性质。本资料观察的是动物的入睡情况,原作者把每组入睡的每只动物记为1,不睡的动物记为0,这样第一组有2个1,8个0,第2组有5个1,5个0,第1组和第2组各10个数据进行t检验,得t=1.406,P<0.05(经验算,就计算本身而言,原作者的计算结果是正确的)。但实际上这里的1并不代表真正的数值,它只是代表一种状态,即入睡,而0则代表没有入睡,因而本资料从性质上说应属于定性资料。但原作者却错误地将其判断为定量资料,表的标题后括号内写了x±s的形式,但实际上表中并没有表示平均数和标准差的数据,反而误导读者该资料为定量资料。一般来说,t检验仅适于分析定量资料,用分析定量资料的方法去分析定性资料显然是错误的。

正确判定统计资料属于定量资料还是定性资料是选用统计分析方法的首要前提。本资料属于定性资料,应根据分析目的,合理选用适合此类资料的分析方法如Fisher精确检验进行统计分析。

例2原文题目:小儿皮肤血管瘤雌、孕激素受体的研究。原作者意在探讨雌激素受体(estrogenreceptor,ER)和孕激素受体(progesteronereceptor,PR)在血管瘤发生、发展中的意义。采用免疫组化方法对毛细血管瘤、混合型血管瘤、海绵状血管瘤、淋巴管瘤及正常皮肤组织的ER和PR进行检测。全部标本经10%福尔马林固定,常规石蜡包埋。每例选一典型蜡块,4~6μm切片,进行免疫组化染色,高倍镜下每例肿瘤区内计数500个细胞,计数ER和PR阳性细胞百分率,统计方法用χ2检验。结果见表5。表5血管瘤和淋巴管瘤中ER和PR检测结果

对差错的辨析与释疑正确判别统计资料的设计类型是合理选择统计分析方法的重要前提。根据统计指标的性质,统计资料一般分为定量资料和定性资料两大类。所谓定量资料,是指每个观察单位(针对此资料,其观察单位是病例标本)测得的指标是用具体的数值表示,其又细分为计量资料和计数资料;所谓定性资料,是指每个观察单位测得的指标仅反映某一方面的性质,并不能用具体的数值表示,其又细分为名义资料和有序资料。对于本资料来说,测量细胞的结果是“阳性”或“阴性”,且一般认为带有“率”的资料就是定性资料,似应判为定性资料。然而问题的关键在于,原作者的观察单位并不是细胞本身,而是每一个病例标本。原作者关心的是4种疾病病例标本和一组正常人标本的ER和PR阳性细胞率之均值是否相同,从每一个病例标本中得到的是ER和PR阳性细胞率,是一具体的数值,因而应属于定量资料。如果仅从资料的表面现象(有“率”)进行判断,而不考虑每一个数值的实际含义,没有从资料的本质上进行判断,很容易判断错误。

本资料的受试对象为病例标本,测量指标为“阳性细胞百分率”,因而应为定量资料,其涉及一个实验因素,即样品类别,有5个水平,即毛细血管瘤、混合型血管瘤、海绵状血管瘤、淋巴管瘤和正常皮肤。对于百分率的定量指标,一般根据经验,宜做平方根反正弦变换,使资料检验满足正态性和方差齐性的前提条件后,按单因素五水平设计资料进行方差分析,如变量变换后仍不满足前提条件,则用非参数检验。

例3有人对103例冠心病患者(G=1)和100例正常对照者(G=2)进行了多项指标的观测,资料见表2。若以X5~X11为定量的结果变量,分别以“组别、性别、年龄、高血压史、吸烟史、基因型”为影响因素,有人说此表中的资料类型为定性资料,也有人认为是定量资料。请问:此表中的统计资料究竟是什么资料[1]。

对差错的辨析与释疑将此表中的资料说成是定性资料或定量资料都不对,因为此表中有很多列,各列资料的性质不尽相同。若笼统地说,此表中的资料为混合型统计资料;具体地说,应根据各列变量、取值及其专业含义,区别对待。

第1列“编号”不属于统计资料,仅起一个标识作用,若一定要问该变量的性质是什么,可叫它为“多值有序变量”。

第2列“组别(区分正常人和冠心病病人)”、第3列“性别”、第5列“是否有高血压史”和第6列“是否抽烟”都是定性资料,其变量性质应叫做“二值名义变量”。

第7列~第13列都是“血脂指标”,它们都是定量资料,具体应叫做计量资料。

第14列和第15列分别是两种“基因型”(通常有3种表现:-/-、-/+、+/+),它们都是定性资料,其变量性质应叫做“三值名义变量”。

第16列是“服药情况”,其变量性质应叫做“多值名义变量”。

4小结

本文从正反两个方面介绍了什么是统计资料、统计资料的分类以及统计资料识别中常犯的错误。按现代划分方法来命名统计资料,有利于抓住问题的实质。科研设计的质量好坏和实施过程中的质量控制水平

统计学变量类型篇(6)

一、引言

对金融机构授信部门而言,数据挖掘技术已经开始扮演着日益重要的角色,如何发掘房屋贷款户数据库中所包含的信息,并利用这些信息及早预测出可能发生违约的不良房屋贷款户,并拒绝贷款给这些高危群,藉此降低呆账发生机率,同时减少金融机构损失,这就是房屋贷款信用风险管理。以往银行大多使用人工方式对申请人的信用状况,依照5C的原则,即房屋贷款户的特性、还款能力、资本、抵押品及总体经济环境,进行相应审核,但面对日渐增多的申请案件,若要维持人工审件,银行势必花费可观的人力成本。同时,人工审件时,审核人员大多根据经验主观判断申请人的信用状况,为此银行必须研发正确、有效且快速的信用审核制度。

二、审核系统建构方法

1.类神经网络模式

类神经网络是目前发展极为迅速的一门学科,其最大的优点是除可应用于拟合非线性形式外,还能弥补多元回归及建立ARIMA 模型时受诸多假设约束的缺陷。

类神经网络的网络型态有许多类,其中以倒传递类神经网络为最具代表性、应用最广的模式之一。其网络结构一般而言包含三层神经元:输入层、隐藏层及输出层。类神经网络对于变量的选取有较大的自由度,没有如回归分析般的限制,研究者须以文献、专家意见判断或经由统计方法处理,进而选取输入层的输入变量。而在输入层之变量决定后,对于网络结构中的隐藏层数目、隐藏层中神经元数目、训练的学习率大小等,都需要以主观逻辑判断,或以不同组合加以测试,以找到能产生最佳预测结果的参数。

2.判别分析

判别分析要求数据满足独立同分布,以及正态性的要求(Johnson等,1998),根据Fisher(1936)的线性判别模型,具体可表示如下:D=B0+B1X1+B2X2+…+BnXn

其中:D为鉴别分数;B0为估计常数项;Bn为估计系数;Xn为自变数。

判别分析主要优点是简洁方便,并能整合预测变量,而其主要的问题则为违反正态性等假设时模型的拟合效果会较差,目标维度的简化难以说明每个变量的相对重要性、难以使用在时间序列数据上,且当数据型态不符合相关研究工具的要求时,可能得到相当不理想的分类结果。

3.logistic回归

Logistic回归种应变量Y仅有两个可能类别结果,以0与1表示二元变量,例如分析发卡银行是否核准发卡给信用卡申请人,按照审核结果,其反应变量定义为发卡或是拒绝发卡,而自变量可以是任何形式的变量数据,其回归模型的参数利用最大似然法估计得到。

三、实证研究

本文采用我国台湾地区某金融机构大台北地区房屋贷款户共510笔资料进行实证研究,分成两组作实证研究,第一组为人口统计变数,采用性别、申贷时年龄、婚姻状况、教育程度、职业、服务年资、月收入等七个人口统计变量作为评估房屋贷款户是否违约的自变量。第二组为所有变量,采用除上述七个人口统计变量外,另加入其他十一个变量,即月付金占总收入比例、贷款成数、有无保证人、借保人关系、有无政府优惠贷款、自住或非自住、贷款型态、贷款金额、屋龄、借保人申贷时之信用状况、房屋是否为小坪数/国宅/工业区等,共十八个变量作为评估房屋贷款户是否违约的变量。

数据库中共包含510个样本,其中有90%的房屋贷款户属于缴息正常的客户,10%的房屋贷款户属于违约的客户。所谓缴息正常客户,表示房屋贷款户在贷款期间未发生异常行为,包括逾期缴款、催收或呆账等行为;至于曾发生异常行为中任意一项,银行均将此客户视为违约客户。

在实证过程中,本文将分别采用SPSS 10.07和Vesta出版的Qnet(1998)软件分别进行分析。

1.判别分析实证结果

由于房屋贷款户申请数据的可能自变量较多,为取得较精简的自变量,本研究使用逐步判别法进行判别分析,并且依据各变量的U统计量作为删减变量的准则。根据逐步判别分析的结果,第一组人口统计变量被删减成婚姻状况及教育程度2个较为显着的变数;第二组所有首先依违约比率10%随机抽出350笔样本作为回归样本,其余160笔(违约比率变量(即人口统计变量及其它变量),被删减成月付金占总收入比例、贷款成数及贷款金额等3个较为显着的变数。

根据相关分析结果,第一组整体的正确判别率为75.0%,第二组整体的正确判别率为79.4%,第二组所有变量所建立的判别方程优于第一组人口统计变量所建立的判别方程。

2.logistic回归实证结果

本文利用逐步logistic回归进行分析,并且依据各变量的t值作为变量采用的准则。根据分析的结果,第一组人口统计变量中7个变量筛选出婚姻状况及教育程度等2个较为显著的变量;第二组所有的18个变量筛选出贷款成数、月收入及自住或非自住等3个较为显著的变量。再按照所选出来的显著变量分别建立房屋贷款户核准与否的logistic回归方程。

根据相关分析结果,第一组整体的正确判别率为84.4%,第二组整体的正确判别率为85%,第二组所有变量所建立的判别方程优于第一组人口统计变数所建立的判别方程。

3.类神经网络实证结果

Cybenko (1989)等指出包含单一隐藏层之类神经网络模式已足够描述任何复杂的非线性系统,因此建构的倒传递类神经网络将只包含单一隐藏层。而由于第一组人口统计变量输入层包含七个神经元,第二组所有变量包含十八个神经元,因此隐藏层中神经元的数目分别选择 14及36进行测试;最后在网络的输出层部份则只包含一个神经元,即房屋贷款户是否违约。在参数的相关设定中,Rumelhart(1986)建议较小的学习率通常会得到较佳的结果,因此学习率将测试 0.002、0.003、0.004、0.005及0.006五种组合。而停止训练准则方面以训练数据的 RMSE值小于或等于0.0001,或最多训练3000次为准,拥有最小测试数据RMSE值的网络结构被认定为最佳结果。

建立类神经网络模式时,第一组采用人口统计变量、第二组采用所有变量作为预测房屋贷款户是否违约的输入层变量,以进行模式的建立,并以房屋贷款户缴息正常或违约作为反应变量;从510笔的房屋贷款户资料中随机抽样所得350笔样本作为训练样本,另外160笔样本数据则作为测试模式用。

利用Qnet(1998) 软件进行分析,测试不同神经元及学习率组合下类神经网络预测模式结果,当节点个数分别为14及36,学习率为0.005时可得到最大的正确判断率以及最小误差。而将样本数据测试测试模式准确度进行比较发现 ,利用类神经网络方法来判断房屋贷款户缴息正常或违约,第一组及第二组分别可得到96.9%及99.4%的整体正确判别率,第二组所有变量所建立的判别方程优于第一组人口统计变数所建立的判别方程。

四、研究结论

1.加入其他变量比单纯利用人口统计变量更能预测房屋贷款户违约的发生

判别分析实证结果部分,仅含人口统计变量的模型,整体分类正确率为75.0%,而加入其他变量后的模型,整体正确率提升为79.4%。在分类误差方面,加入其他变量的模型的型一、型二误差率都较仅含人口统计变量的模型有所改善。

logistic回归实证结果部分,仅含人口统计变量的模型,整体分类正确率为84.4%,而加入其他变量后的模型,整体正确率提升为85.0%。在分类误差方面,加入其他变量的模型降低型二误差率,但型一误差率并未改善。

在类神经网络模式中,仅含人口统计变量的模型,整体分类正确率为96.9%,而加入其他变量后的模型,整体正确率提升为99.4%。在分类误差方面,二模型的型一误差率皆为0,而加入其他变量后的模型的型二误差率有较佳的表现。

由上述实证结果显示,加入其他变量能有效增加房屋贷款户违约预测模式的预测精准度。

2.对于房屋贷款户违约的预测能力比较

以判别分析建立判别房屋贷款户信用状况的分类模式,使用线性判别模式(LDA)进行模式建构,采用月付金占总收入比例、贷款成数及贷款金额作为准则变量(X),可以得到79.4%的正确辨识率。以logistic回归进行判别模式建立时,以贷款成数、月收入及自住或非自住作为准则变量(X),可以得到85%的正确辨识率。而对类神经网络而言,当节点个数为36,学习率为0.0005时可得到99.4%的正确辨识结果。整体而言,类神经网络可以提供较佳的预测结果,对于未来的研究方向,可以考虑利用其他的分类工具,如回归分类树、模糊理论等建构辨识率较高的房屋贷款户分类模型。此外,利用统计或人工智能的工具针对自变量的部分进行重要变量的筛选,以增加类神经网络模式输入层变量决定的理论基础也值得深入探讨。

参考文献:

统计学变量类型篇(7)

【关键词】 累积比数logit模型; 比例优势假定; 偏比例优势模型

Abstract: Objective To investigate the correct application of cumulative odds logit model on the ordinal data. Methods The cumulative odds logit model and partial proportional odds model were used for the data from a cohort study in Shaanxi Province, and the results were compared. Results The cumulative odds logit model might not be appropriate when the proportional odds assumption was violated. Conclusion The application of cumulative odds logit model is dependent on certain conditions. It is advisable to adopt other methods when the condition of cumulative odds logit model were violated.

Key words: cumulative odds logit model; proportional odds assumption; partial proportional odds model

累积比数logit模型是二分类logit模型的扩展[1-2],主要用于处理反应变量为有序分类变量的资料。该模型对资料要求不严,解释变量既可以是连续型变量,也可以是无序分类变量或有序分类变量。Amstrong等[3]经模拟实验发现,对于多分类有序反应资料,如果采用一般的二分类logit模型而不是累积比数logit模型,则只能获得50%~70%的检验效能。说明在处理有序分类数据方面,累积比数logit模型要优于二分类logit模型。但目前对该模型的使用条件、拟合优度等内容极少有探讨。最近几年已有不少文章对二分类logit模型的正确应用进行了探讨[4-8],而对累积比数logit模型的研究却不多见。本文通过实例对累积比数logit模型的使用条件和拟合优度评价进行了探讨,为其正确应用提供借鉴。

1 材料和方法

1. 1 资料来源 资料来自于陕西某地开展的胃黏膜病变与幽门螺杆菌关系的队列研究。为探讨幽门螺杆菌与胃黏膜病变进展的关系,对400例浅表性胃炎患者检测幽门螺杆菌感染状态,将其分为感染阳性和阴性2组,同时调查了2组患者的吸烟、饮酒情况,并对所有患者进行随访。

1.2 胃黏膜病理诊断 用胃内镜观察胃黏膜病变,并在胃体大小弯、胃角、胃窦大小弯、前后壁各取胃黏膜活检组织1块。病理切片按照全国胃、十二指肠活检、病理诊断标准进行诊断。每个受检对象以最严重病变为第一诊断。病变严重程度由轻到重依次为浅表性胃炎(superficial gastritis, SG)、慢性萎缩性胃炎(chronic atrophic gastritis, CAG)、肠上皮化生(intestinal metaplasia, IM)和异型增生(dysplasia, DYS)。

1.3 统计学处理 本研究中的反应变量为病变的不同严重程度,为有序分类资料。分析方法分别采用累积比数logit模型和偏比例优势模型进行拟合。数据分析采用SAS 8.1统计软件。P

2 结 果

2.1 累积比数logit模型分析 病例随访5年后,共失访26例,剩余的374例中,135例仍为正常或SG,139例进展成为CAG,59例进展为IM,41例进展为DYS。多因素分析结果显示,校正性别、年龄、吸烟、饮酒等因素后,幽门螺杆菌对胃黏膜进展的影响无统计学意义(χ2=2.7439,P=0.0976)。见表1。

对该资料的比例优势假定条件进行检验,结果发现该资料不满足比例优势假定条件(χ2=38.85,P=0.0004),说明该资料采用累积比数logit模型分析可能并不合适。对模型的拟合优度进行分析,结果显示,Deviance值和Pearson χ2值对应的P值均小于0.05,说明模型拟合欠佳。表1 累积比数logit模型的参数估计

2.2 偏比例优势模型分析 偏比例优势模型也是基于累积logit的一种方法,但是它放宽了比例优势假定条件[9-11]。采用偏比例优势模型分析结果显示(表2),幽门螺杆菌对胃黏膜进展的影响有统计学意义(P=0.0113),这一结果与目前临床和流行病学研究结果是一致的。而且从参数估计的标准误来看,表2中的标准误均小于表1中的标准误。表2 偏比例优势模型的参数估计

3 讨 论

本次研究分别采用累积比数logit模型和偏比例优势模型对同一组数据进行分析,结果发现,在数据违反比例优势假定条件的情况下,2种模型拟合结果差别较大。累积比数logit模型结果显示幽门螺杆菌对胃黏膜病变的影响无统计学意义,而偏比例优势模型则表明幽门螺杆菌的影响有统计学意义。从统计学角度和实际角度综合考虑,偏比例优势模型的误差更小,且结果更为符合实际,提示本研究数据采用累积比数logit模型不合理。

实际中应用累积比数logit模型时,主要注意的使用条件就是比例优势假定条件,即自变量的回归系数应与分割点k无关[12]。换句话说,无论从哪一点分类,对所有的累积logit,变量χk都有一个相同的βk估计。对于一个自变量χk而言,不同累积比数发生比的回归线相互平行,只是截距参数有所差别。以前有研究认为,累积比数logit模型对这一条件并不敏感,但本次研究发现,当这一基本假设条件不满足时,结果的检验效率会降低,容易产生假阴性错误。

对于累积比数logit模型的拟合效果,可通过Pearson χ2和Deviance值来判断。Pearson χ2通过比较模型预测的和观测的事件发生和不发生的频数检验模型成立的假设,其自由度为自变量不同水平的组合数目与参数数目之差,χ2统计量小就意味着预测值与观测值之间没有显著性差别,可认为模型较好地拟合了数据。Deviance通常称为偏差,它是通过似然函数来测量所设模型与饱和模型之间的差异程度。当Deviance值较小时,可认为所设模型与饱和模型之间的差异小,即所设模型拟合较好。这2个指标值在多数情况下是一致的,如果存在不一致,一般认为,当用最大似然值拟合logit模型时,Deviance值比Pearson χ2值更适用于测量拟合优度[13]。需注意的是,当模型中含有连续变量时,Pearson χ2和Deviance指标将不再近似于χ2分布,从而也不再适用于拟合优度评价。Bender等[14]建议,如果累积比数logit模型含有连续变量时,最好采用单独的二分类logit模型利用Homser-Lemeshow指标进行评价。Pulksteins等[15]则提出了一种修正Pearson χ2和Deviance值,用于含连续变量的累积比数logit模型的拟合优度评价等。

总之,累积比数logit模型的应用不仅仅是参数求解,而是包含了一系列过程,如变量正确赋值、变量的初步描述、图示检查、变量选择、参数求解、拟合优度评价、结果的合理解释等。它需要对专业和统计学知识的全面了解,也需要一个实事求是的态度。只有准确掌握应用条件,恰当地对模型进行评价,并结合专业知识进行合理的解释,才能得出可靠的结论。

参考文献

[1] Bender R,Gruven U.Ordinal logistic regression in medical research[J].J R Coll Physic Lond,1997,31(5):546-551.

[2] McCullagh P.Regression models for ordinal data [J].J R Stat Soc(B),1980,42(2):109-142.

[3] Amstrong BG,Sloan M.Ordinal Regression models for epidemiologic data[J].Am J Epidemiol,1989,129(1):191-204.

[4] 冯国双,陈景武,周春莲.logistic回归应用中容易忽视的几个问题[J].中华流行病学杂志,2004:25(6):544-545

[5] 赵宇东,刘嵘,刘延龄,等.多元logistic回归的共线性分析[J].中国卫生统计,2001,17(5):259-261.

[6] 罗登发,余松林.条件logistic回归模型的残差分析和影响诊断[J].中国卫生统计,1997:14(1):13-15.

[7] 魏朝晖.logistic回归诊断[J].中国卫生统计,2001, 18(2):112-113.

[8] 赵清波,徐勇勇,夏结来.logistic回归中高杠杆点的检测[J].中国卫生统计,1997,14(2):17-20.

[9] Bender R,Benner A.Calculating ordinal regression models in SAS and S-Plus[J]. Biom J,2000,42(6):677-699.

[10] Peterson B, Harrell F.Partial proportional ordinal model for ordinal response variables[J].Appl Statist,1990,39(2):205-217.

[11] Lall R,Campbell MJ,Walters SJ,et al.A review of ordinal regression models applied to health-related quality of life assessments[J].Stat Methods Med Res,2002,11(1):49-67.

[12] Fahrmeir L, Tutz G.Multivariate statistical modeling based on generalized linear models [M].2nd ed. Berlin:Springer-Verlag,1998:75-79.

统计学变量类型篇(8)

Research And Implementation Of Structure Variables In Intelligent Assessment System

Yao Zong-ming

(Shengli Vocational College,Dongying Shandong 257097,China)

Abstract: The lexical and syntax analysis, as well as the program system dependency graph are improved based on the existing automatic scoring model,and the standardized rules of initialization of structure are expanded.

keywords: structure; system dependence graph; program standardization

1、引言

随着计算机科学在人工智能、程序理解等领域的发展,使用计算机考核学生学习情况的方式成为试卷考核方式的有益补充。在程序设计语言的考核过程中,自动阅卷系统对于客观题目的标准化试题可以很容易的解决,而对编程题缺少有效实用的评分方法。如果能实现编程题的自动评分,不但可以把教师从繁琐枯燥的批卷工作中解放出来,而且学生的成绩也会更加公正、合理。编程题自动评分系统的模型已经初步建立,但是不够健全,功能有一定的限制,特别是对涉及到结构体部分的评分,急需进一步完善。

2、基于程序理解的编程题自动评分模型简介

该模型以程序理解的一般过程几个基本策略为依据,结合人工阅卷的思维过程采用学生程序与模板程序相比较的方法给学生程序进行评分。其主要过程如下:

(1)将程序转化为系统依赖图。

(2)在系统依赖图的基础上使用一系列标准化处理方法,消除程序实现形式的多样化。

(3)在程序的规模、结构、深度及知识应用四个层次上进行学生程序和模板程序的匹配,根据匹配结果的相似度及评分标准,给出程序分数。

3、完善自动评分系统模型

基于程序理解的编程题自动评分模型没有对结构体变量进行很好的处理,本文是在该模型的基础上,研究结构体的处理方法,主要在程序中间表示方式和结构体标准化方面对原模型进行了扩充,完善了编程题自动评分模型。

3.1程序中间表示方式

3.1.1 词法和语法分析

基于程序理解的编程题自动评分模型在词法和语法分析阶段不能识别结构体类型以及结构体类型定义语句,因此改进模型中增加对结构体类型的识别,在符号表中体现结构体类型、成员变量以及结构体变量三者之间的关系。程序中涉及到的变量名称可以归纳为五种情况:

⑴普通变量;

⑵自定义数据类型;

⑶成员变量(基本数据类型声明的变量);

⑷成员变量(自定义类型声明的变量);

⑸自定义类型声明的变量。

变量之间的关系描述如下:

⑴普通变量的指向类型域设为-1,标识成员域设为-1;

⑵自定义的结构体、共用体类型的指向类型域设为1000,标识成员域设为-1;

⑶成员变量(基本数据类型声明的变量)的指向类型域设为所属的类型序号,标识成员域设为 0;

⑷成员变量(自定义类型声明的变量)的指向类型域设为所属的类型序号,标识成员域设为被声明的自定义类型的序号;

⑸自定义类型声明的变量指向类型域设为所属的类型序号,标识成员域设为-1;

3.1.2 程序依赖图

程序依赖图(Program Dependence Graph)是程序的一种图形表示,它是一个带有标记的有向多重图。程序依赖图能够表示程序的控制依赖和数据依赖关系。图中的节点表示程序中的语句和谓词,而节点间的依赖关系使用边表示。

基于程序理解的编程题自动评分模型采用的程序依赖图分为控制依赖子图和数据依赖子图。

(1)控制依赖图

为了建立控制依赖子图,将C程序控制依赖子图中节点的类型分为以下几个:声明节点,赋值节点,函数调用节点,递增、递减节点,return 节点,continue 节点,break 节点,if/if-else 节点,

switch 节点,do-while 节点,while 节点和 for 节点。

为了更好的描述结构体类型,应该增加结构体类型定义节点:

structdefine 节点(struct define node), 对应结构体类型定义语句;

(2)数据依赖图

在数据依赖子图中重新定义声明依赖,增加结构体类型定义和结构体变量声明部分的数据依赖关系,完善声明依赖定义。令v1,v2表示依赖图中的两个节点。

声明依赖:是从声明某个构造类型的节点v1到它后面的各个声明为次类型变量的节点v2间的数据依赖,以及从声明某个变量的节点v1到它后面的各个定义该变量和该变量受限的变量的节点v2间的数据依赖。

3.2类型定义的标准化

类型定义的语句有多种语法表示形式,各种语法表示形式的语义等价。例如在C语言中,实现一个结构体类型可以采用typedef语句,标准定义,和直接定义,结构体类型定义和结构体变量声明混合形式等多种形式,这都引起结构体类型定义和变量声明形式的多样化,给学生程序和模板程序的匹配带来了困难。

为了实现等价的语句用相同的形式表示,减少语法结构表达方式的种类,必须对程序中的自定义类型定义和变量声明语句进行标准化。

⑴统一类型定义结构的标准形式:

使用C语言中自定义类型的标准类型定义语句和自定义类型变量的标准声明语句规定类型定义结构的标准形式如下:

关键字 类型名称

{成员变量声明列表;};

……

关键字 类型名称 结构变量名称;

⑵标准化使用 typedef 定义自定义类型结构

将类型定义结束位置的自定义类型名称,按照统一以后的标准类型定义的规则,提到类型定义开始位置处。

⑶标准化直接定义自定义类型结构

采用直接定义类型的方式定义新的类型,所定义的类型没有结构名称,这种情况,补充新的类型名称 noname,增加由这个名称声明的新类型变量的语句,形成标准的类型定义和变量声明形式。

⑷类型定义与变量声明混合的形式

在已有的自动评分系统中,对于普通变量的识别是向前查询第一个数据类型,建立符号表和系统依赖图的,但是类型定义与变量声明混和形式的情况在处理过程中,被声明的变量向前查询第一个数据类型,可能是类型定义中的某一成员变量的声明类型,如果按照原有处理方式会产生错误。因此必须将类型定义和变量声明混合的形式进行标准化处理。对于类型定义和变量声明混合的形式,应该两个部分的语句分开。

下表是C语言中结构体类型定义和变量声明的标准化的三个实例。

表3-2 类型定义标准化实例

Table 3-2 Example of standardization of type definition

4、结束语

本文在基于程序理解的编程题自动评分模型基础上,研究结构体的语法结构和实现原理,对等价语义的程序进行转换,应用在结构体程序的自动评分中,完善了编程题自动评分模型。它是一种通用的方法,不但可以应用于C语言结构体编程题的自动评分还可扩展应用于其它编程语言如 Pascal、C++等编写的程序自动评分。

参考文献

统计学变量类型篇(9)

1 材料和方法

1.1 文献检索方法:从网上数据库CNKI,维普和万方,输入主题词:盆腔炎and中医药治疗,文献收录年限为1994~2005年,共检出相关文献567篇,经过筛选,其中在文章中采用辨证治疗,有明确诊断标准(包括症状、体征和实验室检查)和治疗措施为中药内服或外用或综合治疗的134篇。

1.2 数据库的建立:将文献中病例数、证型类别和频次,以及涉及主要症状种类和频次,录入EXCEL软件后建立数据库,导入SPSS13.0软件进行统计分析。

2 结果

2.1 例数和频次统计结果:在经过筛选的文献中,严格按辨证分型标准的病例数共2096例,并参照《中医证候鉴别诊断学》[2]涉及到证型20类,常见主要症状31种。最常见证型依次是:气滞血瘀证频次420,占20.04%;湿热蕴结证频次406,占19.37%;肝郁脾虚证频次381,占18.18%;肝肾不足证频次375,占17.89%;寒湿凝滞证频次113,占5.39%;其余证型频次401,占19.13%。常见主要症状依次是:下腹痛(刺痛、坠痛、隐痛或冷痛)98.75%,腰骶酸痛90.22%,月经不调84.64%,神疲乏力70.80%,带下增多(白带或黄带)68.96%,尿频尿急35.26%,低热27.48%。

2.2 辨证分型与主要症状的对应分析:对应分析(correspondence analysis)是通过加权主成分分析法来描述两个或多个分类变量各水平间相关性的分析方法[3]。样本含量估计,按多因素分析的一般规则,观测次数至少是变量数目的5~10倍[4]。在对应分析图中,每一个散点代表了某个变量的一个类别,该类别所含的信息由两个维度(dim 1,dim 2)坐标值反应,即较紧密关系的水平散点分布较为接近,在解释不同变量的不同类别对应相关关系时更为直观。如果在同一变量内的两个类别在某维度分布较近,表示这两个类别在该维度上区别不大;如果是不同变量的两个类别分布某维度分布较近,表示不同变量的这两个类别彼此联系,相关性较大。在以dim 1作为横轴、dim 2作为纵轴的直角坐标系内,每个变量的一个类别就是一个点。各变量间的相关性越大,相关距离值就越小,反之相关距离越远,表示相关性越小。因此相关距离相当于相关系数。根据以下公式计算两个变量之间的距离[4]:

D(A-B)=(a1-b1)2+(a2-b2)2

D(A-B):A、B两点间的距离,a1、a2分别为A点的横坐标和纵坐标,b1、b2分别为B点的横坐标和纵坐标。根据上式计算出行变量与列变量之间的距离,以分析证型与症状的相关性,见表1。

各证型出现症状的频数,分别进行卡方检验。少腹刺痛与气滞血瘀、少腹坠痛与湿热蕴结、少腹隐痛

与肝郁脾虚和少腹冷痛与对应证型寒湿凝滞都有较明显的对应关系,均有统计学差异(P

医学文献的系统分析是医学科研的基础性工作,传统的文献综述是一种叙述性综述。其最基本弱点在于没有规定系统的方法以获取原始数据或综合其发现,而是凭综述者的主观判断,这样,综述文章的质量就无法得到恰当的评价;另一方面,综述者没有通过定量方法来综合数据,当发现相同的几个研究具有不同结果时,综述者往往主观加以选择或摒弃,或无所适从[5]。中医药防治慢性盆腔炎的优势体现在辨证论治,如果仅凭“主观判断”式的文献研究,很难找到其客观的内在规律,因此合理的应用统计学方法对研究的文献进行整理和分析是必要的。魏华凤等[6]综合应用了聚类分析和主成分分析法,通过对近26年来脂肪肝中医辨证治疗文献的研究,建立了脂肪肝中医辨证分型的标准。刘胜等[7]亦采用该法对302例乳腺癌术后患者辨证分型标准进行了研究。尚景盛等[8]采用对应分析研究了慢性阻塞性肺病中医证候与病情分级的相关性。本文参考了以上方法,将文献报道的证型和症状的频次及频率做了描述性的统计,将证型和症状的相关关系做了对应分析,证型内症状发生的频次做了卡方检验。

从本次文献研究统计结果来看,慢性盆腔炎以气滞血瘀、湿热蕴结、肝郁脾虚、肝肾不足和寒湿凝滞5个证型报道最多,基本反映了慢性盆腔炎临床上的病理表现以气、血、瘀、寒、热为主,主要涉及肝脾肾三脏的特点。主症发生频率最多的是少腹痛、腰骶酸痛、月经不调、神疲乏力、白带或黄带增多、尿频尿急、低热等。其中腰骶酸痛、月经不调这类症状,与各证型的对应关系距离值差距不大,发生频次间无统计学差异,说明这类症状各证型都可以发生,提示我们临床辨证时不能仅根据此类症状分型,这类症状我们称为“诊断类症状”。少腹痛(少腹刺痛、少腹坠痛、少腹隐痛和少腹冷痛),这类症状,与证型都有较明显的对应关系,发生频次间有统计学差异。临床上少腹痛、白带增多和黄带增多这类症状有一定的排他性的,是我们辨证分型的主要依据,这类症状我们称为“辨证类症状”。

从目前的文献报道来看,慢性盆腔炎的中医证型缺乏规范化的标准,处于低水平重复和混乱状态,给临床上疗效的判定和经验的推广带来困难。本文综合应用了几种统计学方法,对此进行了初步的探讨,期待今后能有更科学合理的统计学方法的应用和展开更大规模的慢性盆腔炎中医证型的调查,来使我们的研究手段和基础更上一个台阶。

4 参考文献

1 罗元恺主编.实用中医妇科学.上海:上海科学技术出版社,1994.255.

2 中国中医研究院主编.中医证候鉴别诊断学.第2版.北京:人民卫生出版社,2002.470.

3 张文彤主编.SPSS11统计分析教程.北京:北京希望电子出版社,2002.202.

4 王家良.临床流行病学.上海:上海科学技术出版社,2001.155.

5 赖世隆.开展中医药临床医学文献的系统性评述.中国中医药信息杂志,2000,(2):83.

6 魏华凤,季光,邢练军.脂肪肝辨证分型规律的初步研究.辽宁中医杂志,2002,29(11):10~12.

统计学变量类型篇(10)

一、引言

央行征信系统是目前世界规模最大、收录人数最多、收集信息全面、覆盖范围和使用广泛的信用信息基础数据库,其存在一些结构性的缺陷,直接影响了互联网金融和其他小型金融机构对客户综合信用评估的准确率。例如,虽然央行征信系统已经收集了8.68亿个自然人的信息,但是有信贷记录的人数仅有3亿多人,大量个人在征信系统中没有任何信贷信息;还有近6亿自然人信息没有被央行征信系统收集;央行征信系统信贷记录主要来源于商业银行等金融机构,其数据在时效性、全面性和层次性上存在短板,无法全面反映客户的真实信息;此外,民间借贷信息也不会接入央行征信系统。大数据是目前互联网领域的研究热点之一,为解决央行征信数据缺失情况下准确评估用户信用风险提供了一个方法。利用先进的机器学习理论建立基于大数据的信用评估模型,对用户在网购、交易、社交等平台积累的商誉和行为数据进行整合和分析,从而将商誉信息转化为信贷评级依据,解决交易过程中的信息不对称的问题,既可以对互联网金融、小额贷款公司等金融机构提供一个有力的风险抓手,也可以对在央行征信系统信贷数据缺失或者信用记录不好、资质比较差的客户提供一个获取信用类服务的机会。因此,深度挖掘互联网大数据信息,开发基于大数据的信用风险评估模型,具有十分重要的现理论和意义。

二、国内外典型个人信用评分系统

(一)FICO系统

FICO是FairIsaac公司推出的一套评分系统,在美国得到广泛使用,其实质是应用数学模型对客户信用信息进行量化分析,基本思想是把数据库中全体借款人的信用习惯与具体某个借款人过去的信用历史资料进行对比,分析该借款人未来发展趋势是否与数据库中那些已经陷入财务困境的借款人有共同的趋势,从而决定是否放款给借款人。其判断的指标主要是客户在金融信贷方面的信息,主要包括信贷组合(10%)、争取新信贷(10%)、信贷时长(15%),未偿债务(30%)、付款历史(35%)。FICO采用的数学模型是传统的logistic回归模型,其信息维度过于单一。

(二)ZestFinance

ZestFinance是一家基于大数据的信用风险评估公司,其信用理念是认为一切数据都与信用有关,从多种渠道获取用户数据,充分挖掘用户信用信息[1]。与传统征信体系不同,其数据来源主要包括第三方数据、网络数据、用户社交数据等多个维度,能够在大数据基础上,从多种角度对借款人进行量化信用评估。ZestFinance的信用评估模型基于先进机器学习和集成学习模型,但具体的预测模型细节是其核心机密,其信用评估模型中用到几千个数据项。(三)芝麻评分芝麻评分是蚂蚁金服旗下个人征信机构在国内率先推出的个人信用评分。芝麻信用通过网络数据的收集和评估对不同的个体给出相应的评分,主要考虑个人信用历史、行为偏好、履约能力、身份特征和人脉关系等维度,数据来源于阿里巴巴生态系统数据、政府公共部门数据以及合作机构数据等。评分模型以线性回归和逻辑回归为主,部分模型也涉及决策树、神经网络等现金机器学习技术。

三、构建用户画像

如何有效地收集、组织用户信息,挖掘与业务应用相关属性,是基于大数据的业务分析和建模之前需要重点解决的问题。“用户画像”是指企业通过收集与分析消费者相关的各种大数据信息,完美地抽象出一个用户的商业信息全貌,并针对特定业务场景进行用户特征不同维度的重新组合,精准刻画用户的商业特征[2]。用户画像可以用标签的集合来表述,一个标签可以看作是高度精炼的特征标识,如年龄段标签:25~35岁;地域标签:上海等。对互联网上用户相对稳定的静态信息数据,如性别、年龄、地域、职业、婚姻状况等,直接建立标签;对用户不断变化的行为等动态信息数据,采用事件模型构建标签及对应权重,一个典型事件模型包括时间、地点、人物三个要素,即什么用户、在什么时间、什么地点做了什么事。此外,标签的权重还应当考虑时效因素。

四、大数据预处理

在利用大数据进行个人信用风险评估建模之前,必须对大数据进行预处理,使其满足建模要求,主要包括以下一些处理环节。1.数据收集按照原始数据库和建模数据库分别收集数据,必要时采取补录数据的方式完善建模数据库。2.数据核对需要从表1所示的几个方面进行数据核对。3.数据清洗经过数据核对发现的数据问题,将通过数据清洗处理步骤进行处理。对于有问题的数据,尽量通过调整后使用,经过调整后仍然无法使用的数据,对其进行删除处理。4.单变量分析目的是确保变量满足符合实际业务意义,对分析对象具有高区分能力。(1)变量区分能力分析。往往使用多个统计指标进行计算,例如AR,K-S,等,然后综合各个统计指标的计算结果对于变量进行选择;(2)经济学含义分析。变量应当反映实际业务需要,具有明确的经济学含义;(3)变量转换。变量可能有很多类型,各个变量取值范围也可能有所不同,常用转换方法是将变量转换为概率值。5.多变量分析目的是降低变量间相关性,使模型具有稳定的高区分能力,包含尽可能多的不同信息类型。(1)变量相关性。常用方法有相关性矩阵,聚类分析或者使用容忍度、VIF指标等;(2)区分能力。对于多个变量的组合,除了分析其区分能力的高低之外,区分能力的稳定性也是一个重要的因素。(3)信息类型。模型所选变量对于可能信息类型要尽量涵盖全面,保证模型能够对于分析对象信用状况进行全面的评估。6.变量衍生互联网数据稀疏性强、原始变量业务解释性较弱,因此在模型分析前需生成更加稠密、业务解释性更强的衍生变量。衍生变量主要侧重于商品消费信息。

五、风险计量模型

传统信用风险评估模型在业务逻辑架构下分析变量的基本属性及风险区分能力,用逻辑回归等统计分析模型进行量化分析,得到精确的风险计量结果,然而用户行为数据独有的稀疏性会使得统计模型极不稳定。决策树对局部数据分析有着极强的稳定性和鲁棒性,同时可以揭示变量风险区分能力的非线性结构关系。因此可以将决策树模型和逻辑回归模型进行结合,即在进行统计建模前添加一层决策树模型进行单变量分析,同时利用CHAID决策树生成二元决策树变量,然后将决策树模型的输出结果(单变量、交叉变量及二元决策树变量)一同导入逻辑回归模型中进行统计建模,确定所有风险因子的风险权重。

(一)决策树模型

在决策树各种算法中,CHAID(Chi-SquaredAutomaticInteractionDetection)[3]既适用于二值型变量,也适用于连续型变量。针对每一次分叉,CHAID产生一系列二维,然后分别计算所生成二维表的卡方统计量或F检验。如果几个备选变量分类均显著,则比较P值大小,然后根据P值大小选择最显著的分类变量以及划分作为子节点。

(二)随机森林模型

随机森林(RandomForest)[4]是由美国科学家LeoBreiman2001年发表的一种机器学习算法,包含多个由Bagging集成学习技术训练得到的决策树,最终的分类结果由单个决策树的输出结果投票决定。随机森林克服了决策树过拟合问题,对噪声和异常值有较好的容忍性,对高维数据分类问题具有良好的可扩展性和并行性。

(三)逻辑回归模型

逻辑回归模型是因变量服从二项分布,且自变量的线性预测与因变量的logit变换相连接的一种广义线性模型。如果样本分布服从多元正态分布,那么该样本正好符合对数回归的假设,对数模型的误差项服从二项分布,在拟合时采用最大似然估计法进行参数估计。

六、系统开发关键步骤

根据前述风险计量模型,大数据环境下建立个人信用风险评估系统的关键步骤如下:不难看出,通过上述方法建立的系统具有以下优点:(1)以传统模型为基础搭建,保留传统模型的业务解释性和稳定性;(2)以随机森林模型为基本架构搭建了随机模型,克服了传统模型对数据噪声亦比较敏感的缺陷,使该系统的泛化性与稳定性有了进一步的提高;(3)克服了传统模型一般只能容纳10-15个变量的缺陷,该系统可以涵盖100+个变量。可以从源头杜绝用户刷分现象,提升公信力;(4)在应用层面的高度稳定性与业务解释性,使其有着比纯粹机器学习模型更广泛的应用空间。

七、应用展望

通过上述方法在大数据环境下建立的个人信用风险评估系统,可以在以下一些方面进行广泛应用。

(一)征信多元化

传统金融机构的征信信息来源主要是央行征信,但央行征信仅有3亿多人有信贷记录,信贷记录又主要来源于商业银行和农村信用社等金融机构。随着互联网不断渗入人们生活,互联网行为数据是央行征信的有效补充,可以不断强化征信数据的时效性、全面性和层次性,从无形中记录用户的行为,去伪存真,还原真实的客户。从而大大提升信息的利用率和有效性。同时,大数据风险模型的应用,可以不断提高金融机构风险识别、计量能力,从而不断完善征信信息体系架构,为精细化风险定价提供必要的基础和土壤。

(二)授信审批自动化

随着大数据模型开发技术与内部评级体系建设的深度融合,金融机构可更加广泛和全面地将评分/评级结果应用于授信审批,为贷款决策提供参考和支持。大数据风险模型优秀的风险排序及区分能力能够大力推进自动化审批的进程及线上产品的改革与创新。对模型评分高于一定级别且满足其它授信决策条件的,授信申请可以自动通过,不需要再经人工审核,对于评分低于一定级别的,模型自动拒绝其申请;只有评分介于以上两者之间的客户,才由人工介入进行申请审核。

(三)风险监控与预警精确化

风险监控与预警是指借助各类信息来源或渠道,通过对数据与信息进行整合与分析,运用定量和定性分析相结合的方法来发现授信客户及业务的早期风险征兆,准确识别风险的原因,分析其可能的发展趋势,并及时采取有针对性的处理措施,控制和化解授信风险的一系列管理过程。大数据风险模型较传统内部评级体系更为精细和灵敏,可以快速识别贷后风险,为不同的用户设定不同的监控频率、自动筛选高风险客户,制定有针对性的贷后管理措施、贷后管理工作等。

[参考文献]

[1]刘新海,丁伟.大数据征信应用与启示——以美国互联网金融公司ZestFinance为例[J].清华金融评论,2014(10).

[2]余孟杰.产品研发中用户画像的数据模建——从具象到抽象[J].设计艺术研究,2014(12).

统计学变量类型篇(11)

决策树方法(decisiontree)是通过一系列规则对数据进行分类的过程。具体讲是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个节点,再根据该属性字段的不同取值建立树的分支,在每个分支子集中重复建立树的下层节点和分支的过程[1]。也可以从几何意义上直观理解:将训练样本集中的每一个数据看成是n维空间上的一个点,决策树的分支就是按照一定规则完成对n维空间的区域划分。当决策树建好,n维空间便分成了若干个小区域,由于n维空间不直观,不易理解,便以树形结构展现[2]。

1.2特点

决策树学习属于机器学习的范畴,是一种类似于判别分析的有监督的学习方法。从统计角度看,与假定数据源呈一固定概率分布,然后进行参数估计的常规分类方法相比,决策树属于严格“非参”方法,对于输入数据高维属性和分类标识具有更好的弹性和稳健性。决策树对于问题的分类是基于逻辑,而不是像传统统计分类模型一样基于样本的统计属性。决策树分类耗时短,占用计算机资源少,效率高。分类结果简单、明确、结构直观,适用于较大规模的数据集研究。与神经网络和贝叶斯分类相比,决策树更容易理解,能处理缺失值,同时处理有数值型、两分类和多分类,有序型变量的数据,能清楚显示对分类或预测有意义的变量,并可生成一些规则(从根节点到每个叶子节点对应的路径就是“规则”)为决策提供依据[3~8]。

2历史与发展

决策树是迄今为止发展最为成熟的一种概念学习方法。它最早产生于20世纪60年代,是由Hunt等人研究人类概念建模时建立的学习系统(CLS,ConceptLearningSystem)。到70年代末,J.RossQuinlan提出ID3算法,当时他目的在于减少树的深度,却忽略了叶子数目的研究。1975年和1984年,分别有人提出CHAID(Chi-squaredAutomaticInteractionDetection)和CART(ClassificationandRegressionTree,亦称BFOS)算法。1986年,J.C.Schlimmer提出ID4算法。1988年,P.E.Utgoff提出ID5R算法。1993年,Quinlan本人以ID3算法为基础研究出C4.5/C5.0算法,新算法在对预测变量的缺失值处理、剪枝技术、派生规则等方面作了较大改进,C5.0是C4.5的商业改进版,与see5相对应[2,9~10]。

3种类与算法

3.1种类

按照不同的标准,决策树可以划分为不同的种类。①按照分类精确度和树复杂程度的大小,分为单个决策树和多个决策树,多个决策树是由单个决策树合并得到。②根据分割内部节点时使用统一的还是不同的算法,分为单一决策树和复合决策树。其中,单一决策树又可分为单变量(特征)决策树和多变量决策树,前者在树中每一内部节点处由数据的单一属性决定树的分支,后者在内部节点处由通过数学或逻辑算子将某些属性组合起来的新属性决定树的分支;复合决策树中常用的算法有决策树算法、线性判别函数和K最临近分类器。③根据每一树叶子节点内是否只含有相同类别的对象,可分为确定性决策树和非确定性决策树。④根据分类或预测变量的特征,分为分类树和回归树,分类树是对离散变量做决策树,回归树是对连续变量做决策树[3~10]。

3.2算法

决策树技术中有多种算法,最为有影响的是Quinlan以信息熵的减少作为选取分裂属性标准的ID3算法。该算法基本原理中引入了信息论的概念,简要介绍如下。假设训练实例集为X,目标分类为n。设属于第i类的训练实例个数为Ci,X中总的训练实例个数为X,若选择属性a进行测试,在得知a=aj的情况下属于第i类的实例个数为Cij个,则P(Ci;a=aj)=CijX为在测试属性a的取值为aj时它属于第i类的概率。此时决策树对分类的不确定程度,即训练实例集对属性a的条件熵是H(Xj)=-∑ip(Ci/a=aj)logp(a=aj),决策树的学习就是使得对划分的不确定程度逐渐减少。又因为在选择属性a后伸出的每个a=aj叶结点Xj对于分类信息的信息熵为H(X/a)=∑jp(a=aj)H(Xj),所以属性a对于分类提供的信息量即信息增益为I(X;a)为:I(X;a)=H(X)-H(X/a)。C4.5算法建立决策树时就是选择信息增益最大的属性作为分裂属性[11]。尽管决策树算法很多,但各有优势与不足。从事机器学习的专家学者一直在潜心改进现有算法并研究新算法,改进的着眼点主要围绕提高树的分类精度、减少树的大小、降低复杂性等几个方面。仅就ID3算法而言,就有二叉树判定算法、按信息比值进行估计、按分类信息估值、按划分距离估值、基于ID3的ID3-MAX、ID3-SD算法等几种改进[11]。此外,还有其它基于粗集的改进、基于深度优先搜索的改进、分类规则简化生成算法、加权模糊熵算法[6~8,12]等。

4核心问题与应用条件

4.1核心问题

决策树算法围绕的核心是决策树的生长和剪枝。生长,就是利用训练样本集完成决策树建立的过程;剪枝,就是利用检验样本集对形成的决策树进行优化处理,防止发生拟合过度的过程。剪枝方法主要包括预剪枝和后剪枝。预剪枝意为事先定好决策树的大小从而阻止其自由生长,停止准则常基于统计意义下的χ2检验或信息增益等度量,预剪枝计算量较少,但难以精确估计何时应该停止树的生长。后剪枝意为让决策树充分生长之后然后用所选的精度准则回头去除拟合过度的分支,主要分为减少分类错误修剪、最小描述长度修剪和最小代价-复杂性修剪等方法。后修剪通常能产生更可靠的树,因此在实践中应用更多一些。

4.2应用条件

决策树算法很多,可实现的软件也很多,常被应用的软件有SAS/EM、CART、See5-demo、KnowledgeSEEKER、KnowledgeSTUDIO、BusinessMiner、Decisionseries等。现以决策树较为常用的CART、CHAID、C4.5三种算法为例,说明它们在SAS/EM(SAS软件EnterpriseMiner)中各自的应用条件及选择分裂属性的标准。

4.2.1CART算法软件中输入变量(即自变量)的类型可以为名义型、数值型,如果是有序型,则可当作数值型变量处理。目标变量(即应变量)可以为两分类、多分类、数值型和有序型变量。不同的目标变量采用不同的分裂标准(splittingcriterion),两分类目标变量采用基尼系数(GiniCoefficient)、twoing和orderedtowing标准,其中后两个分裂标准使用频率不高;多分类变量采用基尼系数和twoing两个标准;数值型目标变量采用方差减少量或最少绝对差减少量标准;有序型目标变量采用的分裂标准为orderedtowing。

4.2.2CHAID算法输入变量的类型可以为名义型、有序型,因为选择分裂变量的算法不针对数值型变量,所以遇到数值型输入变量需先将其分段后再进入软件参与分析。目标变量可以为名义型或数值型,名义型和数值型变量选择分裂变量的标准分别是基于和卡方F分布的P值,决策树在构建过程中的停止均以卡方或F分布统计显著性为准。

4.2.3C4.5算法输入变量的类型可以为两分类、多分类名义型和数值型变量,目标变量可针对两分类或多分类名义型变量,分裂标准可选取信息熵(entropy)、信息增益(informationgain)或信息增益比(gainratio)。

5医学领域中应用

在国外,决策树应用领域较为广泛,其在商业、工业、农业、天文、医学、风险分析、社会科学和分类学等领域中的应用已经取得了很好的经济和社会效益。国内目前有关决策树的研究多是围绕算法的改进以及决策树在商业、工业等领域的运用,在医学领域应用较少。现将决策树在国内外医学中的应用情况集中概括为以下几个方面:

5.1疾病诊断治疗

临床医生为病人做出医疗诊断可以看作是一个分类的过程:医生根据他的知识和经验将病人分类到一个特定的疾病群中。决策树产生的结果简洁明了,易于理解,并能提取相应的诊断规则,其应用于疾病的分类诊断往往可以提高诊断正确率,并为经验较少的临床医师提供帮助,因而得到了广泛的应用。ErnaKentala等人曾从赫尔辛基大学附属医院的鼻神经专家系统数据库ONE中提取前庭区与晕头有关的6种发病人数较多的疾病资料,分别为6种疾病建立不同规模的决策树,并针对6棵树单独分析影响每一种疾病发生的重要因素,而且从决策树中提取诊断规则,从而将专家经验知识转化成了可供年轻医师随时参考的有价值的信息[13]。决策树在临床医学中应用范围较广,除了可以对疾病分类以外,还可以对疾病程度分级,筛选危险因素、决定开药处方大小以及选择治疗方法等[14~20]。

5.2基因与高分子序列分析

随着人类基因组计划的进行,目前已获得数十亿的核苷酸和上百万的氨基酸数据,如何对基因进行功能分类已成为基因研究人员非常关心的问题。而关于高分子序列,大约4000种蛋白质已经被排序,但只有10%的蛋白质的三维结构被研究过,三维结构基本决定蛋白质的功能,所以需要有一种可靠方法从氨基酸序列中预测出它的功能结构,数据挖掘中的决策树技术可以满足上述需求。有人利用决策树对已知功能分类的基因建立分类树,归纳出蕴含在数据中关于分类的信息并提炼成规则,从而实现对未知功能分类的基因进行分类预测[21]。DakeWang等人则利用决策树对已知功能分类的蛋白质序列进行研究,建立了已知功能分类的蛋白质序列决策树模型,实现了模型对未知功能分类的蛋白质序列功能的预测。结果表明决策树方法比传统方法有效[22]。

5.3医院信息系统挖掘

医院HIS(HospitalInformationSystem)系统包括管理信息系统(ManagementInformationSystem,MIS)和临床信息系统(ClinicalInformationSystem,CIS)两部分。目前的HIS可以高效地实现数据的录入、查询和统计功能,但在决策支持方面存在明显不足,难以发挥其潜力。而将数据挖掘决策树技术运用到该系统之后,可以从中提取大量隐含的、事先未知的、对决策有潜在价值的信息,为管理决策和临床决策提供支持。决策树在HIS系统的主要用途可以表现为医疗需求预测、医疗市场分析、预测未来某段时间内常发生的疾病种类、未来某段时间内的药品使用频率、分析疾病之间的关系以及疾病的影响因素、总结各种治疗方案的治疗效果等[23]。

5.4医疗政策分析

一个国家国民的健康保障在很大程度上依赖于其完备的医疗卫生政策,政策的制定离不开理论的分析与方法的探讨,离不开已积累的与人群健康状况相关的各种数据。从目前积累的各型数据库来看,利用知识管理优化库信息并从中提取知识结构为政策分析提供依据已经成为卫生管理人员和信息开发人员的共同任务。研究人员多次尝试将数据挖掘中的决策树技术在此进行应用。韩国的YoungMoonChae与SeungHeeHo等人便利用以监测卫生状态和开发国民健康促进程序为特征的韩国医疗保险公司数据库,成功地将决策树应用于人群健康状态评估以及为高血压管理提供政策信息[24]。

5.5医疗卫生保健

卫生保健是卫生领域内的一个重要内容,保健的需求与利用评价、不同保健方式的选择以及保健的经济和社会效益评价一直是卫生保健人员关心的问题。利用决策树方法可以解决诸如家庭护理保健的需求分析、儿童预防保健的干预、为不同的卫生保健群体提供实际可行的决策支持系统等一系列问题,为保健政策的制定与实施提供了相应的基础[25]。