[中图分类号] R181.2+3 [文献标识码] A [文章编号] 1674-4721(2016)08(b)-0152-03
队列研究又称前瞻性研究、随访研究及纵向研究,是将一个范围明确的人群按是否暴露于某可疑因素及暴露程度分为不同的亚组,追踪其各自的结局,比较亚组之间结局的差异,从而判定暴露因子与结局之间有无因果关联以及关联大小的一种观察性研究方法[1]。这里暴露是指研究对象接触过某种待研究的物质(如重金属等)、具备某种待研究的特征(如年龄、性别及遗传因素等)或行为(如吸烟等)[2]。观察的结局主要是与暴露因子可能有关的结局。队列研究中先因后果的时间顺序相对明确,受一些偏倚的影响小,是观察性研究方法中验证病因能力最强的研究方法[3],其证据等级仅次于严格设计的随机对照试验。尽管我国的前瞻性队列研究起步较晚,但自20世纪八九十年代起也陆续开展了一些队列研究[4]。如果这些研究未能正确使用该研究方法,不但不能有效验证病因假设,还有可能得出错误的结论。本文收集并分析了近年国内公开发表的队列研究论文,发现其中存在的统计学问题并提出改进意见和建议,旨在引起作者、编者和审稿专家的重视,提高期刊论文的质量。
1队列研究文献的检索
以“队列研究”“前瞻性研究”“随访研究”“纵向研究”为关键词,在中国知网(CNKI)和万方数据库中检索2014~2015年公开发表的队列研究文献共1874篇,剔除重复文献和非研究性文献后,获得研究性文献929篇(表1)。
2 载文量及统计学方法应用情况
根据李康等[5]主编的《医学统计学》和Cochrane推荐的Newcastle-Ottawa-Scale(NOS)工具[6]对检索到的文献进行统计学方法应用情况评判,评判结果在文献评价表中登记并复核,采用Excel管理和分析数据。结果发现,绝大多数队列研究采用χ2检验和Logistic回归方法进行统计推断,约占82.0%;而使用了生存分析及Cox比例风险回归模型的仅占13.0%(表2)。
3常见统计学问题
3.1研究对象描述不清楚或不确切
研究对象的选择是随访研究的首要问题,因此文中关于研究对象的描述必须准确清楚,根据研究属于总体研究或是抽样研究,对研究对象的描述应加以区别[7]。目前我国队列研究中关于研究对象的描述主要存在的问题为:描述中对总体研究或抽样研究未加以明确说明;抽样研究中的描写模棱两可,未说明具体抽样方法。从统计学上讲,总体研究的研究对象是根据研究目的所确定的同质观察单位的全体,而抽样研究的研究对象是总体中随机抽取的部分观察单位。
例如,就“某高校教师肥胖率及其对糖尿病发病影响的研究”而言,首先要制定相应的纳入标准与排除标准,研究的纳入标准为“某高校在编、在职且未患糖尿病的教师”,排除标准为“妊娠期、哺乳期女教工”。如果研究为总体研究,其研究对象应是该高校的所有在编、在职且未患糖尿病的非孕(哺乳)教师;如果研究为抽样研究,则其研究对象是该高校所有在编、在职且未患糖尿病的非孕(哺乳)教师的一个随机样本,研究对象描述中还应具体说明所使用的抽样方法,如单纯随机抽样、系统抽样、整群抽样或分层抽样等,同时写明随机抽样的具体实施方法。
3.2结局事件及其判断标准描述不全面
随访研究的另一个重要因素是结局事件,其指随访观察中将出现的预期结果事件,研究中既要记录是否发生了结局事件,还应记录是否存在失访及失访原因(失去联系、因其他疾病死亡、研究终止)。分析我国2014~2015年已发表的队列研究文章发现,大多数研究均未描述是否存在失访,部分研究对结局事件的判断标准描述不全面。按照队列研究的设计要求,结局事件要有明确统一的判断标准。例如,2型糖尿病结局的判断标准[8-9]:确诊糖尿病,即自我报告医生诊断糖尿病和(或)正在使用胰岛素和(或)口服降糖药治疗者;未确诊糖尿病,即未诊断糖尿病但空腹血浆葡萄糖水平≥7.0 mmol/L者;对于随访期发生死亡者,如果其死亡原因中含有糖尿病也认为是随访期发生2型糖尿病。
3.3统计分析不充分或错误
3.3.1基线特征描述不全面 队列研究中暴露组与非暴露组基线特征是否存在差异以及差异的方向直接影响研究结果的解释,因此基线特征的描述是队列研究资料分析必不可少的内容。而目前国内的队列研究文献中存在较严重的不按暴露有无分组描述基线特征的现象。此外,如随访过程中存在失访,则失访者与随访者基线特征的比较也直接影响研究结果的解释。在查阅的929篇研究性队列研究文献中无失访情况描述,无失访者与随访者基线特征比较者达90%以上。
因此,队列研究的资料分析应首先比较暴露组与非暴露组基线特征的一致性,以分析基线特征的差异对研究结果是否有影响以及影响方向,同时也可确定多因素分析中需要调整的混杂因素。如果研究中有失访,还应比较失访者与随访者的基线特征是否一致,以判断失访对研究结果是否有影响以及影响方向。
3.3.2统计推断方法选择不当 统计学方法的选择一向是医学科学研究中的难点问题。队列研究中主要涉及的统计推断方法包括χ2检验、Logistic回归以及Cox比例风险回归模型,此三种方法的误用和混用在队列研究文献中较严重,包括误用χ2检验代替Logistic回归、误用Logistic回归代替Cox回归等。由表2可知,929篇研究性队列研究文献中应用了Cox回归的仅占13.0%,且2015年的比例与2014年基本相同(13.1% vs 13.0%),可见这一方法的正确应用近两年内并未引起作者以及编辑足够的重视。
队列研究中统计学方法选择的正确思路为[10]:若暴露组与非暴露组的基线特征一致,则可以直接应用χ2检验比较暴露组与非暴露组结局事件发生率的差异,以判断暴露因素与结局事件是否有关联,同时计算相对危险度(relative risk,RR)及其95%置信区间,进一步说明两者的关联强度。相反,若暴露组与非暴露组的基线特征存在差异,应采用多因素的回归分析对混杂因素进行控制。如果数据资料中无时间变量,可采用Logistic回归,并在模型中调整组间存在差异的基线特征变量;如果有时间变量,则应采用Cox回归,并在模型中调整组间存在差异的基线特征。
3.4其他问题
国内公开发表的队列研究文献存在的其他问题:①应用Logistic回归或Cox回归时,分类变量或等级变量无赋值说明,造成结果解释的混乱。例如,只有在明确“男性=1,女性=0”或者相反的情况下,才能正确解释暴露因素与研究结局之间的关系。②误用χ2检验公式:应该使用校正公式时,却应用了非校正的通用公式或专用公式;不能应用χ2检验时,却计算了χ2值。例如,两组率比较时,只有满足总例数n≥40且理论频数T≥5的条件下,才能采用非校正的四格表χ2检验的通用公式或专用公式;如果n≥40且1≤T
4队列研究医学论文作者及编辑应注意的问题
分析结果表明,队列研究医学论文的统计学方法应用基本正确,编辑人员也比较重视统计学方法的使用情况,但是仍有部分论文在研究设计和统计分析方法的应用上存在一些问题,导致的研究结果缺乏科学性和可信性。为使作者、编辑和审稿者高度重视统计学的正确应用,进一步提高队列研究医学论文的质量,笔者认为还应做好以下工作。
4.1提高对统计学知识的认识,强化统计学意识
目前,国内医学科研工作者未认识到医学统计学的重要性,对医学统计学的重视程度还不够。因此,要加大“医学统计学在医学科研中重要性”的宣传力度,提高科研工作者对医学统计学的认识;在医学科研工作中普及医学统计学知识,强化医学统计学意识,促使其在科研设计、数据分析和论文撰写中正确应用医学统计学方法[11]。
4.2加强流行病学与医学统计学专家审稿工作
医学研究,包括队列研究,其统计分析都是以科学研究设计为基础的。研究设计不科学、有缺陷,即使应用了高级的统计学方法也于事无补。所以,审稿专家在具备丰富的专业知识的同时,还应具备一定的医学统计学和流行病学知识,能够做到从研究设计到统计分析,系统地审核研究结果的科学性、可靠性,确保论文质量[12]。此外,如果条件允许,所有稿件应先通过流行病学与医学统计学专家的审核,然后再由各专业学科专家审稿,以确保研究成果的真实可靠[13]。因此,医学期刊编委会应增设流行病学与医学统计学专业的专家委员,严格审核论文的研究设计和统计分析,不合格的论文坚决不发表,这样才能不断提高稿件质量和水平。
有计划地定期聘请流行病学与医学统计学专家对期刊编辑人员进行流行病学与医学统计学知识培训[14]。通过定期举办专业知识讲座、选派编辑人员参加专题培训班、定期组织考核、根据考核结果给予适当奖励等措施,以提高编辑人员学习流行病学与医学统计学知识的积极性,不断提高其相关知识水平,最终达到提高论文质量的目的。
[参考文献]
[1]张啸飞.前瞻性队列研究及生存分析[A]//2014浙江省临床流行病学与循证医学学术年会论文汇编[C].浙江,2014: 15.
[2]李立明.流行病学[M].5版.北京:人民卫生出版社,2003:58-59.
[3]李立明,吕筠.大型前瞻性人群队列研究进展[J].中华流行病学杂志,2015,36(11):1187-1189.
[4]王慧,陈培战,张作文,等.我国人群队列研究的现状、机遇与挑战[J].中华预防医学杂志,2014,48(11):1016-1021.
[5]李康,贺佳.医学统计学[M].6版.北京:人民卫生出版社,2013:84-150.
[6]何琼,黄渊秀,康文婧,等.2001-2010年我国伤害预防病例对照研究及队列研究文献质量评价[J].中华疾病控制杂志,2014,18(10):913-916.
[7]王芳,戴国华,娄昊.循证中医药队列研究的随访设计[J].山东中医杂志,2016,(1):14-17.
[8]樊森,陈纪春,黄建凤,等.中国成人看电视时间与2型糖尿病发病关系的前瞻性队列研究[J].中国循环杂志,2014, 29(5):372-376.
[9]李卫东,傅坤发,连燕舒,等.成人非酒精性脂肪肝与2型糖尿病发病关系的前瞻性队列研究[J].中国全科医学,2015, 18(28):3426-3429.
[10]韩梅,陈薇,曹卉娟,等.比较效果研究常用方法之二:队列研究设计[J].现代中医临床,2015,22(3):20-23.
[11]沈洪兵.重视大型队列研究的人才梯队建设和技术储备[J].中华预防医学杂志,2014,48(7):547-548.
[12]高永,张中文,石德文,等.基于Excel的统计分析系统在期刊编辑部审稿中的应用[J].编辑学报,2013,25(5):478.
1.2两两比较时检验水准的重新调定χ2检验或秩和检验3组以上整体比较有差异时,需应用分割法进行两两比较,这时检验水准应由原0.05调定为0.0167,否则会增加第Ⅰ类统计学错误的发生率。特别当P值处于0.0167~0.05时,按照P<0.0167的标准,差异无统计学意义,而按照P<0.05的标准,却有意义,与事实相悖,出现假阳性,很容易得出错误结论。这种分割法有时很保守,当行列表资料分组多且为有序时可用Mantel-Haenszel卡方检验,也称线性趋势检验(testforlineartrend)或定序检验(Linear-by-Lineartest)[2]。统计路径:用SPSS进行计数资料的趋势检验,在输出结果中读取线性关联检验统计量(Linear-by-LinearAssociation,LLA),如P<0.05可得出随着病种级别的升高,检测指标逐渐升高的趋势。
1.3临床诊断试验中的统计学方法应用在临床诊断试验研究中,经常选取单项计量指标或者联合计量指标以诊断某种疾病,若仅用初级统计学方法如t检验、单因素方差分析等往往不能有效挖掘信息,此时应采用受试者工作特征曲线(ROC)对检测结果进行分析评价。ROC曲线分析基本原理是通过诊断界点的移动[3],获得多对灵敏度和误诊率(1-特异度),以灵敏度为纵轴、误诊率为横轴,连接各点绘制曲线,然后计算曲线下的面积,面积越大诊断价值越高。ROC曲线很直观,能根据敏感性与特异性之和最大化原则自动产生最有效的诊断临界点。具体路径可以参考相关统计专著[3]。统计学处理一般描述为:采用SPSS(版次)统计软件分析数据,对单项及联合检测结果作图绘成ROC曲线,计算曲线下面积(AUC)和标准误,其中联合检测结果变量即预测概率由Logistic回归产生(也可以用判别分析得出)。计量资料应用-x±s表示,运用独立样本t检验及单因素方差分析,两两比较采用SNK及LSD法,计数资料采用χ2检验。检验水准为0.05。具体内容可据情而定。
1.4重复测量资料的方差分析误用拆分文件的t检验或方差分析如研究共设3组,每位患者在3个时间点均查某项血指标,部分作者在处理此类数据时,常误将纵向(同一时间点3组的比较)与横向(同组3个时间点的比较)数据均应用拆分文件的t检验或单因素方差分析来处理,结果导致统计学第Ⅰ类错误发生。此组数据实质是重复测量资料,应采用重复测量资料的方差分析。SPSS中的统计路径:数据-分析-一般线性模型-重复度量。研究者可以参考相关书籍进行处理[3]。
1.52×2析因设计及析因方差分析实验是2×2析因设计时,分组有两个因素,A与B,故分组为A、B、O、A+B,这个设计在析因设计研究中很常用,但常会出现分组设计正确,却没有用析因设计方差分析。析因设计与单因素方差分析不同[4],它不但能分析治疗效果中处理因素的单独效应和主效应,还能分析因素间的交互效应,并能提高检验效能。非统计专业的研究者进行析因分析可能稍有难度,可参考相关统计学书籍提供的统计步骤进行此类分析[3]。
1.6Meta分析Meta分析是循证医学系统评价常用的方法[5],应用时需注意统计学处理中计数资料采用比值比(OR)作为效应变量。具体路径:先进行异质性检验,当P>0.05时,认为同质,选择固定模型;P≤0.05时,不同质,此时可采用敏感性分析或分层分析等异质性处理,使之达到同质后再选择固定模型;若采用异质性处理仍未达到同质,则采用随机模型,以上统计路径均需交代清楚。Meta分析的结果是以“森林树”体现的,审校中我们经常遇到作者绘制的“森林树”左上角“文献、对比、结果名称”等内容显示为“?”,这是由于部分版本的RevMan软件不能输入中文,此时可以考虑省去,或用Photo-shop软件添加相应中文。Meta分析作为一种高级统计方法,专业性要求较高,作者可参考循证医学类权威杂志上的文章格式,如《中国循证医学杂志》中“论著•二次研究”栏目的循证文章。
2科技论文中统计学处理的相关表述
摘 要:目的 分析医学硕士研究生学位论文中数理统计应用情况. 方法 随机抽取2000/2001年100位河南医科大学应届医学硕士学位论文初稿,对其中数理统计应用情况进行统计分析. 结果 论文中采用单因素设计者占94.0%,多因素设计占6.0%,应用正确率为96.6%;论文中使用经典基本数理统计方法为97.9%,统计学方法的正确应用率为75.7%;应用参数统计时出现的主要问题是未进行适用条件判断,而应用非参数统计时出现的主要问题则是推断结论有误. 结论 应加强硕士学位论文的数理统计设计和审查工作.
Keywords:medical master graduates;thesis;statistics;in-vestigation
Abstract:AIM Analysis case of using statistical theory in the thesis of2000~2001master graduates.METHODS 100thesis of this year’s medical master graduates in Henan Medi-cal University were taken out randomly.Their theoretical scores and practical application of health statistics in their thesis were analyzed.RESULTS Master graduate has grasped the theory of health statistics preferably.The abso-lute majority,namely97.9%of the total students,have used the basic statistic method in their thesis,75.7percent could use statistic method correctly.The main problem arising in using parametric test is that they hadn’t judged the applying condition,while in non-parametric test is that the conclusion is wrong.CONCLUSION Ought to strengthen checkup health statistical in the thesis of master graduates.
0 引言
数理统计的应用正确与否是论文科学性的重要标志.近年在医学学术期刊(包括国内著名的核心期刊)上发表的论著,数理统计方面还存在问题,甚至导出错误的结论[1-4] .数理统计作为一门应用学科已成为医学硕士研究生学位课程的主要内容之一,越来越受到硕士研究生的重视.为了解医学硕士生学位论文中数理统计的应用情况,为课题的统计设计和论文审查提供科学依据,为教学改革提供参考,作者随机抽取河南医科大学应届硕士学位论文100篇,对其数理统计应用情况进行分析.
1 材料和方法
2000/2001年河南医科大学共有医学硕士研究毕业生222人,应用随机数表随机抽取100名硕士研究生学位论文的初稿作为研究对象,对实验设计类型、使用的统计学分析方法及使用的统计学工具,存在的问题等进行调查.结果推断利用SAS(6.12)统计分析系统进行分析.
2 结果
2.1 实验设计类型 硕士学位论文中采用单因素设计的比重较大,占94.0%,统计学设计正确率较高(Tab1).
2.2 统计学方法 论文中使用经典的基本统计学方法的占绝对多数,为97.9%(856/874),统计学方法的正确应用率为75.7%,且不同的统计学方法之间的正确应用率存在着差别.应用参数统计方法者518次,应用正确者357次,正确应用率为68.9%;应用非参数统计方法者346次,应用正确者305次,正确应用率为88.1%.对参数统计方法的正确应用率低于非参数统计方法(χ2 =35.8,P
表1 硕士论文的实验设计类型及正确应用情况 略
表2 论文中应用的统计学方法分布及正确应用情况 略
表3 获取结果时使用的计算工具 略
2.3 数理统计问题 论文中存在的问题在参数统计与非参数统计中的构成不同,应用参数统计时出现的问题是未进行使用条件判断者159次,未正确应用统计方法者9次,推断结论有误者19次;而应用非参数统计时出现问题是未进行使用条件判断者8次,未正确应用统计方法者14次,推断结论有误者21次(两者相比χ2 =48.31,P
3 讨论
在硕士研究生的基础理论教学中,开设数理统计学的主要目的是为了指导研究生正确地应用统计学的原理与方法,解决医学研究中如何科学地进行科研资料的搜集、整理和分析推断问题.传统的经典的和基本的统计学理论与方法仍然是当前硕士研究生进 行科研工作的统计学方面的主要工具.论文中采用的完全随机、配对及配伍等单因素设计的比重较大占94.0%,多因素设计占的比重较少为6.0%,总的来说,其统计学设计的正确率是比较高的.说明学生对统计学设计理论比较重视并能正确应用.论文中使用经典的基本统计学方法占绝对多数为97.9%(856/874),主要为t检验、F检验、χ2 检验及秩和检验等,这与这些方法成熟、简单明了且实用性极强有很大关系,而近些年来新发展的比较前沿的统计学分析方法[5-12] ,由于对设计要求严格,使用过程复杂,非专业人员在短时间内难以掌握而实际应用较少.这提示在今后的研究生教学过程中,除应继续进行基础部分内容的学习外,还应加强新的统计学方法和使用条件的教学力度.
论文中以基本的经典的统计学方法为主,但实际应用时的正确应用率仅为75.7%,且不同的统计学方法之间的正确应用率存在着差别,对参数统计方法的正确应用率低于非参数统计方法.经进一步分析,应用参数统计时出现的主要问题是未进行适用条件判断,而应用非参数统计时出现的主要问题则是推断结论有误.作为一门应用学科,数理统计学有着其独特的逻辑性,概念多、公式多且连贯性强,众多的公式和分析方法既有联系又有区别,同时有着严格的适用条件.传统的教材编写和教学重点是统计学方法的计算技巧,其结果容易将学生引导到仅注重学习统计计算方法上,忽略了各种方法的适用条件和对资料的综合分析.所以t检验、F检验等经典的统计方法虽看似简单,但要正确应用到实际工作中,对学生来说仍有相当难度.秩和检验等非参数统计由于其适用条件较参数统计宽松,使得其正确应用率高于参数检验,而并非学生对非参数检验掌握的比参数检验更好.
随着计算机技术和统计软件的完善与普及,各种复杂的统计计算不必再用手工计算.本次研究表明大部分人(91.0%)通过应用著名的统计分析软件SPSS及SAS获取结果,这些结果比手工计算的更准确、更规范,所以各种统计方法的计算过程大可不必细致介绍,而要重点介绍各种数理统计方法的使用条件,加强资料分析实践,提高硕士生解决实际问题的能力.
参考文献
[1]Wang GS,Qian GS,Yang XJ,Huang CJ,Wei H.The statis-tics of application of laboratory animals in clinical research pa-pers in China [J].Di-san Junyi Daxue Xuebao(Acta Acad Med Militaris Tertiae),1997;19(2):163-165.
[2]Chen P,Zu SX.The analysis of statistical techniques used in the Chinese journal of clinical medicine [J].Anhui Yike Daxue Xue-bao(Acta Univ Med Anhui),1998;33(2):108-110.
[3]Fang JQ,Ling L,Zhang MR.Frequently appearing statistical mistakes in recent medical articles and relevant suggestions [J].Zhongshan Yike Daxue Xuebao(Acad J Sun Yat-sen Univ Med Sci),1999;20(4):314-318.
[4]Wang Q,Zhang BH.Current use of statistical methods in five core Chinese medical journals [J].Zhonghua Yixue Zazhi(Natl Med J China),1998;78(3):230-233.
[5]Zhang GK,Yao C,Xu YY.Contrast between two schools of thought on hypothesis test [J].Zhongguo Weisheng Tongji(Chin J Health Statist),1999;16(2):85-87.
[6]Shang L,Xu YY,Hou RL,Zhang SP,Zhou YR,Chen CS.Comparison of different approaches of fitting centile curves for growth standard [J].Di-si Junyi Daxue Xuebao(J Fourth Mil Med Univ),2000;21(6):676-678.
[7]Li XS,Ni ZZ.On the problems of fitting linear regression mo-dels for hierachically structured data in medical research [J].Huaxi YikeDaxueXuebao(J WestChina Univ Med Sci),1999;30(1):59-62.
[8]Li XS,Zhang WT,Ni ZZ.Multilevel models in analysis of crossover design [J].Zhongguo Weisheng Tongji(Chin J Health Statist),1999;16(5):273-275.
[9]Li XS,Liu QY,Ni ZZ.Meta analysis using multilevel models [J].Zhongguo Weisheng Tongji(Chin J Health Statist),1999:16(3):133-135.
医药数理统计方法是药学专业的基础课,是数学基础课中应用性最强的课程,是药理学、毒理学、药物动力学等课程的前期基础课程,同时也是药学科研的必备知识之一。通过该课程的教学,培养学生科学思维与推断能力,使其掌握药学统计方法的基本理论、基本方法与技能,具备较高的药学科研设计、统计思维,为阅读专业文献,进行科研工作打下良好的统计学基础。笔者任教的药学专业使用的教材是《医药数理统计方法》[1],教学时间为36学时。要使学生以较短的学时掌握实用的统计方法,并能在以后的专业学习和研究中正确应用,笔者尤感适宜的教学方法对于讲好这门专业基础课的重要性。下面就如何学习《医药数理统计方法》来浅谈一下我的一些体会。
1教学内容应结合专业实际
1.1概率论部分
教材中概率论偏重于理论基础,理论性较强。但概率论部分作为数理统计入门阶段,更应注重基本概念的理解,便于后期的教学。因此在教学中应适当减弱概率论部分的理论性和难度,多结合专业知识和用简洁易懂的阐释来介绍概率论部分的内容。
1.2数理统计部分
数理统计偏重于应用,在教学内容方面要做到突出实用性。注重假设检验部分的讲解,注意阐述数理统计方法的思想、应用的背景及应用中所需的条件,重点讲解假设检验应该如何选取原假设和备择假设,如何对得出的结论进行合理的解释[2];在区间估计中置信区间的讲解中结合在生产中片重差异或含量质量时正常值的范围,以确定药品是否合格等;在方差分析部分结合药理学中如何进行药效学实验分组结果的分析与多重比较的应用等;在一元线性回归部分结合药品质量分析时如何建立标准工作曲线的应用等。
1.3定理公式部分
教材中定理、公式、法则比较抽象,较难理解。在定理、公式、法则的教学中更应结合专业知识,加深理解与应用。一般不要求对公式等进行推导,也不要求记忆。课后做适量的作业加深定理公式的应用与理解。但样本的均值、方差、变异系数的公式要求掌握,这些不仅是后续课程的基础,更在药品质量分析中如重现性、回收率等实验中有着广泛应用。
2以试验设计为导向讲述统计应用
在药学专业中,特别是制剂工艺研究中,有多种比较性试验设计方法,每种方法有其特点和适用范围,较常用的有两组比较试验设计、多组比较试验设计、析因设计、正交设计和均匀设计等[3]。在讲完教材内容后,再以试验设计为导向梳理阐释t检验、方差分析、回归分析等知识的具体应用。
两组比较试验设计用于不同处理间指标差异的比较,常采用t检验分析方法,分为配对比较和两组比较。配对比较常用于用药前后观察指标的变异情况等,两组比较一般用于两种技术或工艺对指标差异的比较。多组比较试验设计用于多组试验处理结果的比较,常采用方差分析与多重比较,如研究不同浓度乙醇提取某中药有效成分的影响等。正交试验设计与均匀试验设计均是适合多因素多水平的试验设计,在制药工艺研究中应用更为广泛,前者是基于方差分析模型,后者是基于回归分析模型。这两部分教学中结合自己在工作中的应用重点讲述如何选因素水平,如何利用相应的表来安排试验,对试验结果的分析处理及相关软件如正交设计助手的应用等。
3重视现代方法在教学中的应用
教学中,应对部分内容尝试引入计算机辅助教学。利用现代化学习工具学习当今社会发展所需要的知识是时代的要求,本课程是以应用为主要目的,教学重点讲解数理统计的概念、思考方法、形成及应用背景等,引导学生用数理统计学的知识去思维,理解数理统计,而不是大量的计算。因此,结合实际,利用计算机讲述Excel在统计学中的应用、SPSS统计软件的使用等。
4不断提高自身素质
作为应用性很强的课程,在教学过程中,要不断进行高等数学、数理统计、教学方法等方面的研究,夯实基础,不断提高教学质量。更要通晓在药学科研工作中数理统计应用方面的知识,结合教材便于更好地组织教学,使学生学到统计知识并能在专业领域正确应用。因此,教师须不断研究、探讨教育思想、教学观念和教学方法,不断提高自己的教学能力,才能培养出合格的应用型药学人才。
【参考文献】
2高职医学检验专业《卫生统计学》教学改革初探
2.1改革教学内容
2.1.1结合职业岗位需求,精选授课内容:不同的职业岗位对《卫生统计学》知识的需求存在较大差异,教师要对专业岗位需求有清晰的认识,认真研读该专业的人才培养方案,明确该专业对《卫生统计学》知识的整体需求和知识结构。高职医学检验技术专业对《卫生统计学》专业知识的需求主要包括常用统计图表的制作、常用资料的统计描述和统计推断、相关与回归分析等,很少用到多元回归分析、医学科研设计等统计方法。因此,教师要结合专业特点对教材内容进行合理的梳理和筛选。
2.1.2强调对基本原理、概念的理解,形成统计思维,避免死记硬背:五年高职学生普遍存在逻辑思维能力差、喜欢死记硬背概念、生搬硬套公式等情况,课前不预习、课后不及时复习,很容易把各种统计分析方法张冠李戴。作为教师,应在讲清《卫生统计学》基本原理和基本概念的基础上,讲清、讲透几种最基本的统计分析方法,逐步培养学生的逻辑思维和统计思维能力。引导学生把学习重点放在掌握统计方法的基本概念和有关公式的应用条件上,让学生对统计内容进行对比、归纳,建立统计知识的整体观。课后让学生及时复习,以满足将来职业岗位的需要。
2.1.3结合统计软件,淡化公式的数理推导和记忆《:卫生统计学》具有理论深奥、概念抽象、数据枯燥的特点,但它不是数学,不像数学那样着重公式的推导、证明、记忆,并通过大量的习题运算来强化公式《。卫生统计学》的主要特点是逻辑性和实践应用性强,最终的教学目的是让学生在理解统计学的基本原理和方法的基础上学会分析问题、解决问题。合适的统计软件能使复杂的统计过程简单化,更容易激起学生学好《卫生统计学》的兴趣。利用统计分析软件,如SPSS等,使学生在学习统计学时不再拘泥于繁杂的计算过程,而是更加注重统计方法的实际应用,让学生能根据资料的类型,利用软件选择合适的统计分析方法,熟练地进行数据分析,同时也培养了学生对统计软件的操作使用能力。
2.2改革教学方法
2.2.1密切结合医学实例,强调应用能力的培养《:卫生统计学》是一门教师难教、学生难学的应用型学科,多数同学由于对医学检验技术专业的认识不够,不能深刻认识《卫生统计学》的重要性,导致缺乏学习兴趣。传统的教学方法多以教师讲授为主,辅以实习、案例讨论。课堂上教师先讲解基本概念、原理、公式和计算等,然后让学生采用手工法计算相应的统计指标,结果是繁琐的计算使学生对统计学这门课程越来越不感兴趣,对所学的内容似懂非懂,遇到具体问题时无所适从《。卫生统计学》授课时应采用多种教学方法,如PBL教学法、实践教学法、应用教学法等,通过应用统计软件、分析案例避开繁琐的运算,着重培养学生使用统计学这一工具分析问题、解决问题的能力。采用多种教学方法不仅课堂气氛活跃,师生交流多,学生印象深刻,还能充分调动学生学习的积极性、主动性和创造性。
2.2.2适当拓展课本知识:适当拓展对数据量较大的资料的整理和分析能力训练,如不同数据库之间的数据如何相互转换、导入,不同形式录入的数据如何整理分析,如何选用正确的统计分析方法等。只有通过具体的资料分析、统计方法的应用训练,才能让学生充分掌握理论知识,形成统计思维。
2.3改革教学评价的方式
2.3.1注重从结果性评价到过程性评价:高等职业教育的目的主要体现在应用性和操作性上,为了全面考查学生的知识和能力,务必摒弃简单的以期中或期末考试作为终结性评价的做法。应做到全面评价学生的学习过程和结果,调整考试结构,从基础知识和基本能力两个维度进行测试。基本能力的评价要覆盖课堂考核、课后考核、课前预习、知识掌握、灵活应用程度等方面,以全面考查学生对《卫生统计学》基础概念、基本原理和基本方法的掌握程度,以及对具体案例的统计分析能力。
2.3.2从知识评价的单一体系向知识、能力、应用分析等多元评价转变:目前,多数《卫生统计学》教材和各院校开设的《卫生统计学》课程依然使用传统的教学模式,注重理论知识、公式的推导、运算,很多时间花费在讲解基本原理和具体公式上,导致最终的考核评价主要侧重于理论知识的掌握程度,而较少侧重对于统计思维的养成、具体案例分析能力的考核。为此,对于《卫生统计学》考核的具体评价应该包括课堂知识的掌握、课后的总结归纳、统计软件的应用、具体的案例分析等多元评价。
2.3.3注重学生对老师的评价,反馈于教学(多元评价主体,多元评价客体):评价主体应多元化,不仅教师对学生进行评价,而且应该包括学生对教师授课内容、授课方法、授课过程中的亮点与不足等进行的定期评价,以期对教师改进教学方法、提高教学效果起到推动作用。
医学统计学的教学应以提高研究生解决实际科研问题的能力为目标,使研究生形成正确的和严谨的统计学思维方法和技能,帮助医学研究生在今后的科研工作中正确运用医学统计学方法,顺利完成研究生学业以及将来在工作中的科研任务。然而,笔者在教学实践中发现有一些需要改进的问题。
一、研究生医学统计学教学中遇到的主要问题
(一)研究生统计学基础知识较为薄弱
虽然大部分学生在大学本科期间学习过统计学,但多数人仅学习过较简单的统计学基础知识,进入研究生阶段医学统计学学习后,学习比较吃力,并且由于总学时数的限制,教师在理论课的教学中对单个统计学方法的使用讲解较多,而对一些研究生在完成学位论文期间或将来毕业后较为实用的统计学方法却没有时间讲解,这就造成了研究生对学过的统计学方法一知半解,而将来可能用得上的统计学方法却没有学会。笔者在解答一些已经毕业参加工作的研究生的问题时,发现有些问题十分基础,本应该在研究生学习阶段掌握而没有掌握。
(二)课题设计统计学缺陷较常见
目前,国内大部分高校研究生医学统计学课程一般安排在研一上学期,而研究生应用统计学知识进行课题设计要到研究生二年级才启动。许多研究生在课堂学习阶段对统计学知识本来就没有彻底学透,又要再经过一年多才进入课题设计有实验研究,对学习过的统计学知识已经有一些遗忘,所以在进行课题设计时不能正确运用学过的相关知识,造成课题设计中有较多的统计学缺陷。而课题设计如果不正确,无法保证后续的研究结果的科学性和可信性。
(三)学位论文统计学错误普遍存在
国内外期刊对论文中的统计学方法要求都很高,因此研究生的科研论文需要正确运用统计学知识对研究数据进行分析、整理。但与此形成鲜明对比的是,很多研究生不能把学习过的统计学知识正确运用到研究论文中。尤其是学习临床专业的医学研究生,很多研究资料和数据来源于人群研究,涉及样本量、对照组的选择等基本的统计学常识,这些基础性错误却在研究生的论文中大量存在。这些问题与现在对高素质人才的培养已经不相适应,需要加以改进。
二、对策与建议
(一)强化课堂教学,巩固医学统计学知识基础
巩固基本统计方法和知识是医学统计学的基础,通过课堂教学,使学生掌握基本的统计方法原理、计算过程和结果解释。在教学中既要注重基本原理和基本概念的讲解,使研究生切实掌握基本的统计学知识,在论文写作中不出现低级的统计学错误。在此基础上,老师在课堂上应该由简到繁,深入浅出,逐步增加难度和深度,讲解一些研究生在学习阶段和将来工作中有用的、较为高级的统计学方法。目前,科学技术更新速度很快,同样统计学的重要工具——统计软件也更新很快,因此,老师要及时更新自己的知识,并向学生介绍最新、最先进的统计方法和软件。
(二)注重学用衔接,提升研究生课题设计的科学性
研究生的课题设计是科学研究成败的关键之一,教师在教学过程中要向学生强调其重要性,让学生带着课题设计中的问题进入课程学习,让学生结合自己的专业,做好论文前期的准备工作,完成科研选题,为毕业论文开题做好准备。要指出课题设计中应当注意的统计学问题,如样本量、对照组选择等,使学生意识到统计学的基本知识是保证自己课题设计科学性的关键,在今后的课题设计中自觉以正确的统计学方法作为指导,从而保证课题设计的科学性,为其成长为高层次的医学科研人才打下良好的基础。
(三)采用实例分析,减少研究论文中的统计学错误
中图分类号:G80-32文献标识码:A文章编号:1006-7116(2010)11-0115-04
Analysis of statistical application errors in sports medical theses in
core journals in the sport category
ZHANG Ning
(Institute of Physical Education,Ningxia University,Yinchuan 750021,China)
Abstract: The author analyzed statistical application mistakes commonly seen in the writing of sports medical research theses in core journals in the sport category in recent years: 1)the division of experiment groups was irrational; the selection of testees violated the principle of homogeneity; 2)the comparison of the average of multiple samples was wrongly replaced with multiple t tests; single factor variance analysis was wrongly used for multiple factor variance analysis; statistical methods were irrational; 3)data type was wrongly judged, thus a wrong quantitative data statistical analysis method was used; the test of two sample rates was wrongly replaced with the t test of two samples.
Key words: statistics;sports medicine theses;core journals in the sport category
统计学是科学研究的基础,是研究结果科学性、可靠性的有力保障。而论文是研究成果的表达形式,通过论文可展示研究者的科研成果,也便于查阅者的了解、评价和引用。因此,在论文中要完整、准确地进行统计学内容的表述,以展示研究设计的合理性和研究结果的可靠性。但运动医学论文中存在的统计学错误仍相当严重,其中实验设计和统计资料的应用上最为突出。本文介绍论文中出现错误的部分,并对其进行了正确的统计学内容表述,以便供广大运动医学科研工作者参考。
1实验设计方面的问题
1)实验分组不合理。
例1:《有氧健身操结合饮食控制改善代谢综合征患者胰岛素抵抗、血脂、血糖的实验研究》[1]一文中研究对象为:西安市碑林区某社区代谢综合征患者77人年龄40~65(55.35±7.26)岁。按照接诊顺序将入选MS患者随机分为以下2组,综合干预组和对照组。
该文作者所选取代谢综合征患者年龄跨度较大(40~65岁),因为年龄的不同机能的代谢水平有很大的差异性,不能认为他们来自于同一个总体。把他们随机分入综合干预组和对照组参加试验,两组之间的可比性可能很差,其结论的可信度很低;如果,按年龄段分层随机化,组间的均衡性要高得多。
2)受试对象的选取违背同质性原则。
例2:《不同类型休闲活动对老年女性身体机能影响的差异性研究》[2]一文中对成都市老年大学、锦江区老年活动中心,随机选取离退休5年以上,年龄65~75岁之间老年女性为研究对象。并依据她们的年龄段将活动类型分为:为队、曲艺队、门球队、舞蹈队;测量指标为:血压及脉率,肺活量,椎体骨密度。
从一般的常识可知,经常参加体育锻炼的人有利于其血压及脉率,肺活量、椎体骨密度指标向好的方向发展。原作者所选取的活动类型为:、曲艺队、门球队、舞蹈。其中是一种智力游戏和身体运动没有什么关系,而曲艺,门球,舞蹈主要以身体运动为主(曲艺有利于人体的肺活量的提高)。所以原作者在试验设计时违背同质性原则[3]。
在实验设计时一定要遵守3大原则:对照、随机、重复。对照原则:要确定处理因素对实验指标的影响,如无对照是不能说明问题的。实验分组时有处理组和对照组。对照原则要求处理组和对照组除处理因素以外的其他可能影响实验的因素应力求一致(即齐同比较或有可比性)。随机原则:是使每个实验对象在接受分组处理时具有相等的机会,以减少偏性,使各种因素对各组的影响保持一致(均衡性好),通过随机化可减少分组人为误差。这是对资料分析时进行统计推断的前提。重复原则:是指可靠的实验应能在相同条件下重复出来(重现性),这就要求实验要有一定的例数(重复数)。因此,重复的含义是重现性与重复数。重现性可用统计学中显著性检验的值来衡量其是否满意[4]。
2定量资料统计分析存在的统计学错误
2.1多个样本均数比较错误应用多个t检验
例3:《有氧运动对大鼠血糖、血脂和血液凝固功能的影响》[5]一文中,将30只大鼠随机分为3组:对照组、小运动训练组和大运动训练组。对照组大鼠进行自由饮食和自由饮水;运动训练组动物在此基础上给予为期6周的游泳训练。有氧运动(游泳)、运动后2周和运动后4周从眼眶后静脉丛取血,以及实验结束时(运动后6周)断头取血,分别做血糖、血脂和有关凝血指标的测定。用SPSS统计软件对原始数据进行常规数理统计分析,计量资料用均数±标准差描述,显著性检验用t检验,P
这类错误是定量资料分析中最常见的错误,而且是原则性错误,会增加犯第一类错误的概率[6]。案例(原)表1资料为对照组、小运动组、大运动组不同有氧运动时间对大鼠血清LDL水平的影响,原作者用t检验分别对各组均数逐一进行比较。对照组大鼠在实验期间血清LDL水平没有明显变化P>0.05。与对照组相比,小运动组大鼠随着有氧运动时间的延长,血清LDL浓度逐渐降低,至第6周时,差异具有统计学意义P0.05,但与同期(第4周和第6周)小运动组大鼠血清LDL相比,差异具有统计学意义P
在应用t检验和方差分析时要注意它们之间的共性与区别。t检验和方差分析都是对总体(样本)均数的检验。当对两个以上的总体(样本)均数是否存在显著性差异进行检验时,如果用t检验,4个总体(样本)均数则需做c24=6次可能组合的检验。若在α=0.05的显著性水平上检验,则将降低统计结论效度。所以,两总体(样本)均数的检验用t检验,两个以上总体(样本)均数的检验用方差分析。
2.2处理多因素设计定量资料误用单因素设计定量资料的方差分析方法
例4:《不同营养干预对运动性贫血大鼠红细胞及铁代谢指标的影响》[7]一文中,实验目的为:观察补充复方阿胶中药与补充铁剂营养对运动性贫血大鼠红细胞及铁代谢指标的影响。方法:以32只健康雄性Wistar大鼠为研究对象,每只体重约300 g,随机分为4组,C组为安静对照组(n=8),E组为递增负荷跑台运动组(n=8),ENⅠ组为递增负荷跑台运动+阿胶营养补充组(n=8),ENⅡ组为递增负荷跑台运动+铁剂营养补充组(n=8)。然后ENⅠ组和ENⅡ组营养补充4周。实验结束后24h内处死。结论:9周递增负荷跑台运动导致大鼠红细胞相关指标的显著性下降,引起运动性贫血,但血液铁代谢无显著变化;补充4周复方阿胶中药制剂或铁制剂,提高红细胞相关指标,改善大鼠运动性贫血状况。数据统计方法实验数据用SPSS13.0软件中one-wayANOVA处理,结果用均数±标准差表示,显著性水平为P
原文采用单因素设计定量资料的方差分析不合适,仔细考察各处理组之间的关系有:是否递增负荷跑台运动,是否补阿胶营养或补铁剂营养(两者都能促进RBC生成,增加Hb含量的物质,在本研究中可以认为它们是同一因素),原文在固定一个因素于某个水平下观测另一个因素的作用,这种做法割裂了实验设计的整体性。正确的做法是,先从专业角度上分析二个实验因素之间是否存在交互作用、是否存在二个因素有主次之分、是否存在交互作用或交互作用可以忽略不计等情况。也就说对事物的影响只考虑施加了一个条件(因素)为单因素方差分析;如果施加了2个以上的条件(因素)为多因素方差分析。如果是多因素方差分析还要考虑施加的条件(因素)之间有没有联系、有没有主次之分。具体看(原)表2资料,施加了两个条例(因素)即递增负荷跑台运动和补阿胶营养或补铁剂营养,然后考虑两条件(因素)之间的联系,通过分析2个因素间存在交互作用的可能性比较大,应采用交互作用多因素方差分析处理此定量资料为宜。
2.3统计方法不合理,每一种统计方法都有其适用条件
例5:《高脂饮食对大鼠脂肪组织脂解调节因素的影响》[8],原文中采用单因素方差分析的LSD方法对(原)表3各组FFA浓度进行分析,得出结论具有统计学意义。
多个总体均数比较的方差分析,要求方差齐性。方差齐性实际上是指要比较的各组数据分布是否一致,通俗的说就是各组是否适合比较,一般的经验是如果在比较的各组中,如有一组的标准差是另一组的一倍时方差不齐性的概率较大。在做方差分析时,做方差齐性检验主要是确认数据的合理性(不具相关性)。对(原)表3数据进行方差齐性检验,可发现C组与OR组及OB组FFA浓度指标不能满足方差齐性的要求,故不能采用单因素方差分析的LSD方法。可以先进行对数、倒数或函数的转换,选择适当的转换形式,直到齐性检验变为不显著(不相关)。如果还不行就只能用非参数的单因素分析。
3定性资料统计分析方面存在的统计学错误
3.1误判资料类型,而误用定量资料统计分析方法
例6:题目:《传统体育对老年知识分子原发性高血压患者临床症状影响的观察研究》[9]原作者对原发性高血压,症状疗效评定标准是:头痛、眩晕、心悸、耳鸣、失眠、烦躁。各症状按症状轻重不同采用“半定量”计分法,按程度进行分级和计分,共分为4级:(“无”0分、“轻”1分、“中”2分、“重”3分),EH(原发性高血压)患者经6个月的传统体育锻炼实验,症状计分情况。治疗前后组内比较,除A组心悸、耳鸣、失眠症状外,3组均能改善老年知识分子EH(原发性高血压)患者临床症状(P
统计资料常常分为定量资料和定性资料两大类,所谓定量资料是指对每个观察单位用计量方法测量某项指标所获得的数值;如身高(cm)、血压(mmHg)、脉搏(次/min)、红细胞(104/mm-3)转氨酶(酶活性)等,都属于计量资料。而定性资料是指记录每个观察单位的某一方面的特征和性质[10]:如血型(A、B、O、AB)、职业(工人、农民、军人、学生)、性别(男、女),等等。本资料观察的是原发性高血压症状疗效,这里的0、1、2、3、4代表的是原发性高血压患者症状的轻重程度,属于定性资料中有序资料,(如:无、轻、中、重;治愈、显效、好转、无效、死亡),但原作者却错误地将其判断为定量资料,表的标题后括号内写 ±s的形式,表中给出也是平均数和标准差的数据。一般来说,t检验仅适于分析来自“单组设计、配对设计和成组设计”的定量资料,用分析定量资料的方法分析定性资料,显然是错误的。正确判定统计资料的类型是选用统计分析方法的首要前提[11]。本资料属定性资料,应根据分析目的,合理选用适合此类资料统计分析方法(如Riditi分析或者非参数检验秩和检验)。
3.2两样本率的检验误用两样本的t检验来代替
例7:《健身跑运动对中年人血脂异常者血脂、身体成分的影响》[12]一文中将所有受试者随机分成低强度组(L组)、中等强度组(M组)和对照组(C组)。数据统计数据用平均值±标准差形式表示。相关指标数据用t检验和多因素方差分析进行分析,P
运动医学研究离不开统计设计和统计学方法,如果选择错误导致结果有偏倚或结果原则性的错误,对运动医学的危害性较大。正确的统计分析是获得正确的科研结论的要素之一。只有明确资料的性质、试验设计类型、分析目的,掌握相关统计方法应用的前提条件,才能进行正确的统计分析。
参考文献:
[1] 郭汉,高晓华. 有氧健身操结合饮食控制改善代谢综合征患者胰岛素抵抗、血脂、血糖的实验研究[J]. 北京体育大学学报,2009,32(2):77-82.
[2] 王科峰. 不同类型休闲活动对老年女性身体机能影响的差异性研究[J]. 成都体育学院学报,2009,35(8):70-72.
[3] 潘发明,范引光,叶冬青. 卫生统计学教学形式和内容的拓展[J]. 疾病控制,2004,8(4):1-2.
[4] 赵书祥. 实用体育统计学[M]. 北京:北京体育大学出版社,2008.
[5] 章罗庚. 有氧运动对大鼠血糖、血脂和血液凝固功能的影响[J]. 北京体育大学学报,2009,32(7):66-68.
[6] 胡良平,刘惠刚. 定量与定性资料统计分析错误辨析(2)[J]. 外科理论与实践,2005,10(6):15-16.
[7] 薛统,高颀. 不同营养干预对运动性贫血大鼠红细胞及铁代谢指标的影响[J]. 北京体育大学学报,2009,32(8):62-64.
[8] 田吉明,汪军,王瑞元. 高脂饮食对大鼠脂肪组织脂解调节因素的影响[J]. 成都体育学院学报,2009,35(1):60-64.
[9] 汤庆华. 传统体育对老年知识分子原发性高血压患者临床症状影响的观察研究[J]. 北京体育大学学报,2009,32(2):67-69.
[10] 安胜利,统计学系列讲座(第8讲):基于秩次的非参数检验[J]. 护理学报,2006,13(9):94-95.
借助概率分布常常可以帮助我们了解生命指标的特征、医学现象的发生规律等等。例如,临床检验中计量实验室指标的参考值范围就是依据正态分布和t分布的原理计算得到;许多医学试验的“阳性”结果服从二项分布,因此它被广泛用于化学毒性的生物鉴定、样本中某疾病阳性率的区间估计等;而一定人群中诸如遗传缺陷、癌症等发病率很低的非传染性疾病患病数或死亡数的分布,单位面积(或容积)内细菌数的分布等都服从Poisson分布,我们就可以借助Poisson分布的原理定量地对上述现象进行研究。
在生物信息学中概率分布也有一定应用。例如,Poisson分布可以用于基因(蛋白质)序列的相似性分析。被研究者广泛使用的分析工具BLAST(BasicLocalAlignmentSearchTool)能迅速将研究者提交的蛋白质(或DNA)数据与公开数据库进行相似性序列比对。对于序列a和b,BLAST发现的高得分匹配区称为HSPs。而HSP得分超过阈值t的概率P(H(a,b)>t)可以依据Poisson分布的性质计算得到。
二、假设检验
假设检验(hypothesis)是医学统计学中统计推断部分的重要内容。假设检验根据反证法和小概率原理,首先依据资料性质和所需解决的问题,建立检验假设;在假设该检验假设成立的前提下,采用适当的检验方法,根据样本算得相应的检验统计量;最后,依据概率分布的特点和算得的检验统计量的大小来判断是否支持所建立的检验假设,进而推断总体上该假设是否成立。其基本方法包括:u检验、t检验、方差分析(ANOVA)和非参数检验方法。
假设检验为医学研究提供了一种很好的由样本推断总体的方法。例如,随机抽取某市一定年龄段中100名儿童,将其平均身高(样本均数)与该年龄段儿童应有的标准平均身高(总体均数)做u检验,其检验结果可以帮助我们推断出该市该年龄段儿童身高是否与标准身高一致,为了解该市该年龄段儿童的生长发育水平提供参考。又如,医学中常常可以采用t检验、秩和检验比较两种药物的疗效有无差别;用2检验比较不同治疗方法的有效率是否相同等等。
这些假设检验的方法在生物实验资料的分析前期应用较多,但由于研究目的和资料性质不同,一般会对某些方法进行适当调整和结合。
例如,基于基因芯片实验数据寻找差异表达基因的问题。基因芯片(genechip)是近年来实验分子生物学的技术突破之一,它允许研究者在一次实验中获得成千上万条基因在设定实验条件下的表达数据。为了从这海量的数据中寻找有意义的信息,在对基因表达数据进行分析的过程中,找到那些在若干实验组中表达水平有明显差异的基因是比较基础和前期的方法。这些基因常常被称为“差异表达基因”,或者“显著性基因”。如果将不同实验条件下某条基因表达水平的重复测量数据看作一个样本,寻找差异表达基因的问题其实就可以采用假设检验方法加以解决。
如果表达数据服从正态分布,可以采用t-检验(或者方差分析)比较两样本(或多样本)平均表达水平的差异。
但是,由于表达数据很难满足正态性假定,目前常用的方法基于非参数检验的思想,并对其进行了改进。该方法分为两步:首先,选择一个统计量对基因排秩,用秩代替表达值本身;其次,为排秩统计量选择一个判别值,在其之上的值判定为差异显著。常用的排秩统计量有:任一特定基因在重复序列中表达水平M值的均值;考虑到基因在不同序列上变异程度的统计量,其中,s是M的标准差;以及用经验Bayes方法修正后的t-统计量:,修正值a由M的方差s2的均数和标准差估计得到。三、一些高级统计方法在基因研究中的应用
(一)聚类分析
聚类分析(clusteringanalysis)是按照“物以类聚”的原则,根据聚类对象的某些性质与特征,运用统计分析的方法,将聚类对象比较相似或相近的归并为同一类。使得各类内的差异相对较小,类与类间的差异相对较大1。聚类分析作为一种探索性的统计分析方法,其基本内容包括:相似性度量方法、系统聚类法(HierarchicalClustering)、K-means聚类法、SOM方法等。
聚类分析可以帮助我们解决医学中诸如:人的体型分类,某种疾病从发生、发展到治愈不同阶段的划分,青少年生长发育分期的确定等问题。
近年来随着基因表达谱数据的不断积累,聚类分析已成为发掘基因信息的有效工具。在基因表达研究中,一项主要的任务是从基因表达数据中识别出基因的共同表达模式,由此将基因分成不同的种类,以便更为深入地了解其生物功能及关联性。这种探索完全未知的数据特征的方法就是聚类分析,生物信息学中又称为无监督的分析(UnsupervisedAnalysis)。常用方法是利用基因表达数据对基因(样本)进行聚类,将具有相同表达模式的基因(样本)聚为一类,根据聚类结果通过已知基因(样本)的功能去认识那些未知功能的基因。对于基因表达数据而言,系统聚类法易于使用、应用广泛,其结果——系统树图能提供一个可视化的数据结构,直观具体,便于理解。而在几种相似性的计算方法中,平均联接法(AverageLinkageClustering)一般能给出较为合理的聚类结果2。
(二)判别分析
判别分析(discriminantanalysis)是根据观测到的某些指标的数据对所研究的对象建立判别函数,并进行分类的一种多元统计分析方法。它与聚类分析都是研究分类问题,所不同的是判别分析是在已知分类的前提下,判定观察对象的归属3。其基本方法包括:Fisher线性判别(FLD)、最邻近分类法(k-NearestNeighborClassifiers)、分类树算法(ClassificationTreeAlgorithm),人工神经网络(ANNs)和支持向量机(SVMs)。
判别分析常用于临床辅助鉴别诊断,计量诊断学就是以判别分析为主要基础迅速发展起来的一门科学。如临床医生根据患者的主诉、体征及检查结果作出诊断;根据各种症状的严重程度预测病人的预后或进行某些治疗方法的疗效评估;以及流行病学中某些疾病的早期预报,环境污染程度的坚定及环保措施、劳保措施的效果评估等。
在生物信息学针对基因的研究工作中,由于借助了精确的生物实验,研究者通常能得到基因(样本)的准确分类,如,基因的功能类、样本归结于疾病(正常)状态等等。当利用了这些分类信息时,就可以采用判别分析的方法对基因进行分类,生物信息学中又称为有监督的分析(SupervisedAnalysis)。例如,基因表达数据分析中,对于已经过滤的基因,前三种方法的应用较为简单。而支持向量机(SVMs)和人工神经网络(ANNs)是两种较新,但很有应用前景的方法。
(三)相关分析
相关分析(correlationanalysis)是医学统计学中研究两变量间关系的重要方法。它借助相关系数来衡量两变量之间的关系是否存在、关系的强弱,以及相互影响的方向。其基本内容包括:线性相关系数、秩相关系数、相关系数的检验、典型相关分析等。
我们常常可以借助相关分析判断研究者所感兴趣的两个医学现象之间是否存在联系。例如,采用秩相关分析我们发现某种食物中黄曲霉毒素相对含量与肝癌死亡率间存在正相关关系;采用线性相关方法发现中年女性体重与血压之间具有非常密切的正相关关系等等。
生物信息学中可以利用相关分析建立基因调控网络。如果将两个不同的基因在不同实验条件下的表达看作是两个变量,相关分析所研究的正是两者之间的调控关系。如采用线性相关系数进行两基因关系的分析时,其大小反应了基因调控关系的强弱,符号则反应了两基因是协同关系(相关系数为正),还是抑制关系(相关系数为负)。
四、意义
生物信息学不仅是医学统计学的研究前沿,更是医学研究由宏观向微观拓展的重要领域,其研究内容已逐渐为多数医学院校的学员了解和熟悉。而如何对新技术产生的生物实验数据进行准确合理的分析,却成为生物信息学研究的主要瓶颈之一。
近年来我们进行了一些改革措施,取得了相应的成果,现总结如下:
一、积极申报院级教学研究立项的课题:
(1)医学统计学多媒体CAI教学系统的研究和应用(2001年)
(2)医学研究生统计学课程教学模式的改革(2002年)
(3)《心理统计学》多媒体课件的制作及题库的构建(2004年)
另外开了《医学科研数据管理与统计分析》选修课
二、进行了一系列的教学改革措施:
(1)教学内容上所进行的改革,具体做到了“四增三减”:减少了目前已无必要讲授的详细手工计算步骤与技巧;减少了复杂的公式推导,改为公式内涵的剖析;减少了部分浅显内容,改为自学或课堂讨论;增加了“实验设计和调查设计”;增加了“医学统计学软件使用”;增加了“多元统计分析”;增加了“医学统计应用错误的诊断”。
(2)在教学手段上进行了以下几方面的改革:建立了医学统计学多媒体CAI教学系统;开设了统计学电脑实验课;开设了“医学统计应用错误的诊断”讨论课。
(3)在考试内容和形式上的改革:着重考核医学统计学综合分析能力以及正确应用统计方法和纠正错误能力。不考死记硬背、公式和定理。
三、发表相关论文:
(1)医学科研论文中t检验误用分析皖南医学院学报2002,21(2)
(2)医学科研论文中x2检验误用分析皖南医学院学报(论文待发表)
(3)皖南地区中学生伤害危险因素的病例对照研究,中华流行病学杂志,2003,24(7)
(4)胆石病病因的临床流行病学研究现代预防医学2001,28(4)
四、编写的教材:
(1)《医学科研方法与临床流行病学》(2003.8,安徽大学出版社)
(2)《预防医学》(第2版)(2003.8,人民军医出版社)
(3)《心理统计学》(2004.8,安徽大学出版社与北京科学技术出版社)
(4)《心理评估学》(2004.5,安徽大学出版社与北京科学技术出版社)
(5)《卫生统计学实习指导》(2003.10,安徽大学出版社)
(6)《流行病学实习指导》(2002.8,中国科学技术大学出版社)
五、成果创新点:
(1)将统计学软件、多媒体教学模式首次引入我院医学统计学教学之中;
(2)将统计思维和科研创造性实践相结合,注重学生科研能力的培养;
(3)改革了医学统计学的教学内容、教学手段、考试方法;
(4)首次在我院学生中开设“医学科研统计应用错误的诊断”讨论形式的教学模式
(5)特别注重教师主导作用与学生能动性统一
(6)编写“医学统计学”相关教材
六、成果应用情况:
(1)已经将改革的内容应用于我院专科生、本科生和硕士生的“医学统计学”;
(2)在本科生和硕士生的教学手段上采用“多媒体CAI教学”模式;
1.1资料来源
研究资料为河南中医学院1997年-2006年中医内科学专业毕业生的硕士学位论文207篇。
1.2调查内容
调查的主要内容包括:学位类型、论文名称、关键词、论文类别、中医经典引用、西医知识运用、实验动物选用、实验方法应用、检测指标、统计学方法选用、统计软件应用、参考文献。
1.3调查方法
按照调查内容设计《河南中医学院中医内科学专业硕士学位论文调查表》,组织已毕业留校的研究生进行专门培训后,对每篇学位论文进行阅读,按照调查表内容逐条归类。所采集信息汇总后采用频次法进行数据处理。
2调查情况
2.1学位类型、论文类别、实验方法调查统计结果
需要说明的是这3项统计中学位类型分为医学科学学位和临床医学专业学位;论文类别分为实验研究与临床研究;实验方法由于医学研究中具体实验方法很多,比如血脂的检测、肝功能的检测、血细胞检测、形态学观察以及现代新技术放射免疫法、DNA检测、白介素的测定等等统计非常难,但都可以归类为定性和定量,定性指形态学、病理切片观察、心电图等为定性研究,定量指对某些检测指标的测定,有量的概念,两者都具备的为综合研究。经统计处理,学位类型、论文类别、实验方法调查统计情况见表1。
2.2引用中医经典及西医知识运用情况
由于中医经典著作数量较多,因此研究生的学位论文在引用中医古典医籍方面相对来说也十分丰富,我们对引用频次相对较高的中医经典(8%以上)进行统计,见表2。
西医知识运用相对集中,所列内容全部统计,具体统计结果见表3。
2.3实验动物选用情况
从论文选用实验动物来看,常见的有SD大鼠、Wistar大鼠、NIK大鼠、新西兰兔,除此外还有豚鼠、狗等。
2.4学位论文参考文献引用情况
参考文献的引用是学位论文的重要组成部分,也是判断论文质量的重要指标之一。对硕士学位论文的引文进行分析,可以反映其研究起点和基础,同时可以评价研究生的文献资料检索能力。显示通过对中医内科学专业207篇学位论文的调查分析显示,引文数量不太均衡,平均每篇学位论文引用参考文献在50篇左右。从引文语种上看主要集中在中文、英文、日文3种,比例分别为83%、16.7%、0.3%。
2.5实验方法应用情况
从统计情况看1999年以前的学位论文在实验研究中选用的检测方法与指标较为单一,主要是常规项目如血常规、肝功能、血液流变学、形态学等检测,所用设备多为光学显微镜、普通病理切片机、心电图机、超声波等。2000年后的研究方法逐渐丰富,免疫组化、细胞培养、基因检测等先进的检测技术与设备得到了应用。
2.6统计学方法应用情况
从统计结果看应用的最多的统计方法为t检验、方差分析,其他统计方法依次为u检验、χ2检验、秩和检验、Ridit分析等;从统计软件的运用上看2001年前应用的统计软件集中在SPSS8-SPSS10,较低的版本,2001年后统计软件集中在SPSS10~13,这与软件开发有关,功能增加,应用更先进。近年来也有部分采用SAS等软件统计处理。
3结果分析
3.1中医基础理论知识扎实全面
调查的中医内科专业硕士研究生论文引用了大量中医古典医籍文献,反映了研究的广度与深度,这与河南中医学院加强研究生中医古典医籍的教学分不开。引用的古典医籍主要为《黄帝内经》《丹溪心法》《景岳全书》《神农本草经》《金匮要略》《本草纲目》《医林改错》《伤寒论》等居多,其次《临证指南医案》《医学心悟》《医学衷中参西录》《名医别录》《药性论》《日华子本草》等也有较多引用,反映了我院研究生对中医古典医籍的重视程度。
3.2医学知识进一步提高
研究结果显示研究生的西医知识随着现代医学科学的发展得到逐步提高,反映了研究生注重学习、吸收先进的科学技术方法,紧跟时代步伐。比如2000年前研究生的学位论文的研究方法主要采用药理学、生物化学、病理学、生理学、免疫学的知识进行研究;2000年后随着分子生物学、基因技术、免疫组化技术的出现,这些方法在学位论文中已得到广泛应用。
3.3注重查阅外文文献
引用参考文献的语种分析,是对研究生外语程度和论文吸收国内外科研成果能力的判断。研究结果显示,近几年研究生毕业论文引用外文文献逐渐增多,这反映研究生能够及时了解国外医学科学的研究动态,并运用于自己的研究中,使中医药的科学研究减少或避免低水平的重复,而且能及时吸收国内外的最新研究成果,提高中医药的研究水平。
3.4注重临床医学科学研究
1998年我国对医学学位类型进行了调整,临床医学研究生设置了医学科学学位和医学专业学位两种类型。由于学位类型的不同其培养目标也不同,医学专业学位主要是培养高级中医药临床应用型人才,论文要求与科学学位也不尽相同。中医内科学专业研究生的学位论文多为临床研究,如证候学研究、中医药治疗临床研究等。从调查情况看研究生的临床设计能力有了较大的提高,临床研究方案的设计大多采用了随机对照法,部分设计还采用了盲法。科研水平、论文质量得到了进一步的提高。
4结论与建议
4.1研究生的课程设置应不断更新
研究生的中医古典医籍引用虽然很多,但在应用古典医籍说明有关问题上有些牵强,阐述得不够清晰。这可能与研究生对古典医籍的理解不够透彻有关,因此需要进一步培养研究生阅读、理解、掌握古典医籍的能力,体现在课程教学上应加强古典医籍的教学。同时还要开设传统哲学、语言学、文学等课程,加强对研究生人文素质的培养,提高研究生的人文素质和中医文化底蕴。
4.2实验设计应体现研究的科学性和先进性
一、课程背景
医学统计学是一门以概率论与数理统计为基础,为解决医学实际问题而对医学数据资料的收集、整理、分析、推断进行研究的一门学科[1]。该门课程的特点在于应用概率论等数学知识与医学实际科学问题结合。其主要目标是在随机偶然事件中找出其中潜在的必然性,即随机事件的客观规律性。例如,判断某种新疗法是否对疾病具有显著疗效;不同年龄的病人对某种药物的反应是否一致等问题。医学统计学在20世纪20年代后逐渐成为一门学科,近几十年由于电子计算机的飞速发展,极大地促进了医学统计学在医学研究领域中的应用。目前医学统计学在医学研究与数据分析领域得到极广的应用。可以说,没有医学统计,就没有医学科学研究。统计在医学研究领域已经成为一种基础技能,因此目前国内高校大多数医学相关专业都开设了医学统计学课程。对于学生来说,掌握医学统计这项重要技能对于今后的工作或者继续深造都至关重要。所有统计都是基于概率论基础的,统计推断的基本思想是基于小概率事件在单次试验中不可能发生的原则。采用类似反证法的思想,首先假定0假设,然后基于概率论计算事件的发生概率,如果该事件是小概率事件,则认为对应显著性水平上0假设不成立。该过程设计较多的概率论知识,而医学相关专业学生缺乏概率论学习的系统性,难以理解统计学基础原理部分。根据学生学习情况反馈,医学统计学在医学类相关专业学生中属于学习较为困难的科目[2]。因此,相对于统计学与数理统计等专业课程,医学统计学更多地侧重于统计方法的介绍,着重了解各种现有统计方法,如T检验、F检验,相关分析等的适用范围与具体操作。
二、教学问题分析
那么概率论等数学基础的缺失对于学生学习医学统计学是否会造成影响呢?为解决这个问题,我们设计了一项教学试验进行验证,试验流程如右图所示。试验对象为贵州大学医学院护理学专业大二学生,共49人。在第一次教学课程时发放概率论试卷,对学生当前概率论知识水平进行简单测试,为保证试验的双盲,对试卷进行封存处理。在所有教学课程完毕,期末成绩出来之后对概率论试卷进行批改。然后统计学生的概率论知识水平,这里采用偏相关分析概率论分数与医学统计学分数是否存在显著相关,其余非数学类课程平均成绩作为协变量放入用于排除学生个体因素,例如学习努力程度等的干扰。统计分析后发现医学院护理学学生医学统计学分数与概率论分数呈显著正相关(p<0.05)。值得注意的是,医学统计学试卷分为理论部分与上机操作部分,学生概率论分数与上机操作部分总分也呈显著正相关(p<0.05)。这部分试验结果显示学生本身的概率论基础知识水平会极大地影响后续医学统计学课程的学习效果,值得注意的是概率论基础知识水平不仅影响了医学统计学理论课程的学习,在看似不相关的上机实践操作中也产生了显著影响。这可能与学生理论学习过程中由于基础知识不足而对本门课的学习信心产生了影响有关。
三、教学改革方案
基于目前医学统计学教学存在的问题,现提出以下三个方面的教学改革措施:教学内容、教学模式、考核方式。