大数据时代的主要特征大全11篇

时间：2024-01-30 15:09:48

大数据时代的主要特征

大数据时代的主要特征篇（1）

【基金项目】中国民航大学教育教学研究课题（CAUCETRN2013-68）

一、引言

高等代数是数学专业的基础课，而特征值与特征向量是高等代数课程中非常重要的一部分内容，在现代科技的信号处理、模式识别、数据压缩技术等各个方面都有广泛的应用，但特征值与特征向量的相关内容比较抽象，学生学习起来没有兴趣，因此有必要研究一下如何讲解才能既提高学生的学习兴趣，又能使学生很好地理解这一部分内容.

目前，随着现代科技的飞速发展，现实生活中有大量的信息是用数据进行存储、压缩、处理和传送，而存储器容量大小、传输带宽、速度等都有一定的限制，所以数据压缩技术很重要.数据压缩技术是信息时代快速发展的核心技术，在图像文件中的应用也很重要.数据图像压缩技术的模型可以通过矩阵的奇异值分解来建立，而这主要依赖于矩阵的特征值和特征向量的相关知识，因此考虑把讲解特征值和特征向量的相关知识与数据图像压缩技术有机地结合起来，以提高学生的学习兴趣，提高学生的学习效果.

本文主要研究在给出数据图像压缩技术原理的前提下，如何把特征值与特征向量基础知识的讲解融会在数据图像压缩技术模型中.把讲解特征值与特征向量这一专题的基础知识与数据图像压缩技术有机地结合起来，在学习基础知识的同时，掌握它们在图像压缩技术中的应用，培养学生把理论知识应用于实践的能力，确实实现数学基础知识的实践化教学.

二、“特征值与特征向量”教学研究与实践

对于数学专业的学生，在实际教学中往往注重学生理论知识的学习，对所学知识的实际应用介绍得很少或没有具体的介绍，这样学生对所学知识只是被动地接受，没有学习的自主性和积极性.针对这些特点，在讲授特征值与特征向量的概念和相关知识时，可以把具体的应用实例引入课堂，让学生在体会到它们的实际应用的基础上，带着问题和兴趣去学习.

具体的教学过程我们可以按照如下几个步骤来进行：

（一）数据图像压缩技术模型的引入

在讲解特征值与特征向量这一内容之前，给学生提供关于数据图像压缩技术的相关资料，让学生通过自主的阅读和学习，初步了解数据图像压缩技术原理和模型，找出与原理和模型相关的未知的概念和结论.为激起学生的阅读兴趣，教师所提供的资料或文献应具有吸引力，并且简单易懂，最好图文并茂.

（二）数据图像压缩技术原理的讲解

在课堂上讲解数据图像压缩技术原理，讲解的过程中可适当进行提问，检验学生阅读资料的效果.在此过程中也可允许学生适量地提出一些问题，以便于把握学生对这一原理的理解程度，进一步明确这一原理需要哪些数学知识做准备，特别是有关于特征值与特征向量的概念和定理的一些知识，使学生带着问题去听课.

（三）特征值与特征向量相关知识的讲解

在前面准备工作做完的基础上，开始系统讲解特征值与特征向量的概念、性质等相关知识，此时，学生的目的比较明确，听课时积极性很高，与老师的互动进行得很好，改变了以往只是被动在听的情况，绝大多数同学都能跟上思路，并能主动地分析问题和解决问题，课堂气氛比较活跃.

（四）作业的布置

通过讲解，学生对数据图像压缩技术原理和模型中有关特征值与特征向量的相关问题已基本理解和掌握，可以布置每名同学选择图像数据，自己建立模型把图像进行压缩并通过计算机进行恢复，把所学数学知识应用于实际，使学生体会到数学基础知识的实际意义.这对今后课程内容的学习有很大的促进作用.

（五）特征值与特征向量在数学中应用的讲解

针对高等代数的课程内容设置，讲解利用特征值和特征向量在矩阵的对角化、二次型的标准化等问题中的应用，进一步让学生体会到特征值和特征向量相关内容的重要性.并向学生表明我们所学的每一个数学知识点都有它重要的理论价值和实际意义，激发学生学习的积极性，变被动学习为主动学习，提高学习效果，培养学生分析问题和解决问题的能力.

三、研究与实践的效果

通过教学实践，这种教学方式取得了很好的效果，主要体现在以下几个方面：

（一）学生普遍欢迎这种新的教学方法，学习兴趣和积极性比以前大为提高.

（二）学生的上课纪律明显好转，自觉性提高，平时不爱学习，成绩较差的同学课堂表现也很出色.

（三）这种教学方式促进了老师与学生的互动，学生可以大胆地提问，并能得到及时的解答，学生普遍反映跟得上老师的思路，觉得数学也很有意思.

（四）由于理论与实际应用的结合，使所学知识掌握得更牢固，分析问题和解决问题的能力得到了提高.

大数据时代的主要特征篇（2）

随着互联网技术的快速发展，信息的采集、传播效率快速提升，人类社会已进入大数据时代。“大数据”技术是不用随机分析、抽样分析的捷径，而直接将所有数据纳入样本，并据以展开系统分析的技术。“大数据”技术的价值，不在于占有数据本身的价值，而在于通过价值分析，获得对数据的“二次利用”。“大数据”的典型特征，是数据体量大、数据种类多、价值密度低、处理速度快。在“大数据”技术的支撑下，数据处理的整体特征变为：要效率不要精准，要整体不要抽样、要相关不要因果，在很大程度上颠覆了以往人类惯用的思维模式，千百年来人类的思维惯例。大数据技术自身的特征，决定其在税收征管中可以发挥极其重要的作用。与此同时，大数据时代也对我国税收征管提出了新的挑战和要求。作为税务征管部门，必须充分利用“大数据”技术优势，与时俱进地推进我国税收征管工作的全面改进。

一、大数据技术在税收征管中的作用阐释

基于现代信息技术的“大数据”技术，不仅可以完成多种类型数据的高效收集和快速传播，还可以在极短的时间内完成对数据的系统分析。在税收征管过程中充分利用大数据技术，可以及时解决我国税务征管中的诸多问题，有效预防税收征管中的诸多漏洞。同时，经过系统分析、精_处理的税务信息，也可以为相关部门制定经济决策提供科学依据。具体来讲，“大数据”技术在税收征管中的作用，可以概括为以下几个方面：

首先，“大数据”技术有利于促进税收征管现代化，提高税收征管的效率。随着市场经济的深入推进，特别是“双创”政策的激励，我国中小企业数量不断增加，税务登记户数日趋庞大，这在一定程度上加重了税务机关的工作任务，税收征管能力欠缺的矛盾日渐突出。以现代信息技术为基础的“大数据”技术的广泛运用，提升了税务部门征管能力，在降低税务机关工作任务的同时，也降低了税务管理的成本，最终促进了税收征管的现代化进程，提升了税收征管的工作效率。

其次，“大数据”技术有利于强化税务风险管理，减少税收流失。风险管理是包括风险预测、风险评估、风险规避在内的一系列管理策略。受各方面因素的影响，税收管理中存在的诸多不确定性因素，增加了税收流失风险。税务机关可以运用“大数据”技术，强化对税务信息的收集、整理和分析，有效避免因税源监控不力而产生的偷税漏税现象，有效避免国家税收流失。与此同时，基于大数据技术的更加科学、透明，及时的信息传播、政策宣传，也有利于纳税人更加理解、配合税收征管工作。作为税务机关，可以主动利用大数据平台中的信息资源，加强税收政策的宣传，及时消除征纳双方的误解，强化纳税人主动申报、缴纳税款的意识。

再次，“大数据”技术有利于强化税务信息预测，提高税务决策效率。任何税务政策的出台、管理体制的完善、具体工作的部署、工作绩效的反馈，都是建立在深入的市场调查，以及对海量数据的系统分析之下得出的科学结论。基于现代信息技术的大数据平台，同时也是税务信息交流、税务信息分享的重要平台：大数据技术对信息资源的整合，在实现不同部门之间涉税信息共享的同时，通过对不同主体、不同时点、不同阶段税收情况的系统分析，及时发现、修订税收征管漏洞，并据以完善税务管理体制，提高税务决策效率。

最后，“大数据”技术有利于改进税收征管理念，改善税收服务质量。大数据的典型特征，是“数据体量大、数据种类多”，但“价值密度低”。面对海量数据，任何个体（即使是经验和资历最为丰富的税务干部）的知识储备都显得微不足道。大数据的开放、共享性，不仅对税务机关满足纳税人知情权、参与权等大有裨益，还会对推进涉税信息共享、建立透明政策体系等形成倒逼，进而对税收征管工作理念、工作方式、执法思维、组织体系的变革形成巨大推力。

总之，“大数据”理念是转变税收征管理念的突破口：“大数据”为税收征管由传统的“管户”、“管事”转向“管数”提供了技术支撑，促进了税收征管模式的转型。与此同时，税务机关也可以通过大数据技术，深入分析税收对经济社会发展的成就，并据此测算出更加科学、合理的综合税收负担率，不仅为深化财税制度改革提供了科学依据，也为税务机关提高税收服务质量、改进税收征管效提供了技术保障。另一方面，在税收征管实践中，针对纳税人可能采取欺骗、隐瞒等手段进行虚假纳税申报或不申报等违法行为，造成国家税款损失的问题，税收征管部门可以基于大数据技术，构建有效的纳税人监管网络体系，将纳税人收入、财产、资金等数据纳入国家诚信管理体系，以此督促纳税人“诚信纳税”。而基于大数据技术的税务稽查分析，也可以及时揭露纳税人偷税、漏税等违法行为的环节和手段，从而更好地做到“依法治税、应收尽收”。可以说，税收征管充分利用大数据技术，是提高税收征管效率、消除税收征管信息不对称、加强税收征管风险管理、改善税收征管服务质量的必然选择。

大数据时代的主要特征篇（3）

自然特征交流便捷化：互联网中数字化信息传播速度快、数据量大、多样化，在互动、互联和社群网络交流中，人们的信息、情感交流和知识学习十分便捷。知识大爆炸：现代科学技术快速发展，新知识、新技术爆炸性增长。信息对称化：由于交流便捷、科学技术普及和生活、工作需求，消费者、被管理者主动掌握的信息越来越多，信息越来越向对称化方向发展。社会特征追求个性化：互联网打破人们的时空、身份、地位、层级、经济等限制，通过平等沟通、开放交流、低成本转移，使人类的情感、个性得到解放，具有关系平等和更大的文化、精神、价值追求机会。组织扁平化：互联网具有去中心化和资源共享特点，加上现代经济社会快速发展，促使管理生态化、决策民主化，使工业化时代“金字塔”型自上而下组织领导结构，向互联网时代扁平化的分工协作组织结构转变。活动社会化：互联网增加了自组织的便利，相似追求、喜好、价值观的人群，按照“1：9：90规律”，组成不同、分散的社群网络，形成对现实经济社会活动产生重大影响的各类虚拟、非正式组织。经济特征创新常态化：网络具有信息、资源整合优势，伴随技术进步快于市场需求增长，产品生命周期出现迭代现象，创新成为常态，消费者情感体验需求超过功能体验需求。数据资源化：大数据不是随机样本，而是全体数据，放弃对因果关系的渴求，关注相关关系。大数据是人类认知与交流的全新思维，已经成为经济社会活动的重要资源。长尾规模化：网络网民规模大，边际成本递减、消除产业链部分中间成本，选择搜索便利，小规模生产可以实现低成本经营，小规模需求成规模复活，这是长尾理论的核心。

互联网时代的自然特征、社会特征、经济特征，将对工业设计的理念、组织管理模式、工业设计流程产生深刻影响，现代工业设计需转变产品设计、组织管理、战略决策模式，以适应时代的发展。工业设计组织管理特征工业化时代工业设计的组织管理，基本以生产企业内部设计部门为主。工业设计，根据企业的战略和要求、市场调研，运用现代科技成果和设计理念，围绕高端客户、大众需求和比较明显的产品生命周期，以产品功能、性能为重点，进行初始产品和升级、换代产品设计，设计偏重科学、技术、美学。组织管理模式为金字塔形，决策重视自上而下，依托优势和主要竞争者制定设计策略，相关和支持产业以社会上科技型公司、设计院（所）和大学为主，重视内部价值链整合，产业链、社会资源整合程度不够。互联网时代，大数据思维、平台思维、社会思维、跨界思维贯穿整个工业设计始终，用户思维、简约思维、极致思维、迭代思维体现在产品研发整个环节，工业设计向人性化、智能化发展。科技创新是重要基础，但更强调对消费者精神情感需求的把握。工业设计也不再单纯是设计部门或设计人员的事，需要客户参与、直接互动、沟通体验。企业内部设计人员的地位将变得十分重要，要求综合素质高，有前瞻性眼光，重视大数据资源，善于与客户互动沟通，能准确把握市场发展趋势，了解市场真正需要的产品，技术性设计技能降到次要位置，发挥社会化资源整合优势。决策重视自下而上，关注纵向产业链、横向价值链。不同时代工业设计主要组织管理特征详见表1。时代目标市场组织结构设计部门相关支持员工素质设计重点工业化时代大众需求金字塔型内部为主科学技术科技型功能性能互联网时代个性需求扁平型社会化情感体验综合性精神情感产品不同时期的工业设计管理特征产品初期产品初期是根据新的科技理论或现实需求，而目前尚未存在的创造型、实用性新产品。产品战略以功能、性能为核心，产品侧重高新科技品质，目标市场为重点、高端用户。组织管理具有明显的工业化时代特征，组织管理以金字塔形结构为主，决策重视由上而下，大数据预测核心因子为新科学技术理论或目前尚未存在产品及替代性产品的需求，相关和支持产业以科技型公司、设计院（所）和大学为主。

产品中期产品中期是指目前市场上已经存在，市场处于产品发展期，或主流市场处于产品升级、换代期。产品战略追求多功能、低成本品质，产品以形式产品和外延产品设计为主，目标市场主要为大众用户。随着产品市场成熟度的增加，组织管理特征由工业化时代向互联网时代转化，金字塔形组织向扁平化组织转化，决策由上而下向由下而上转化，大数据预测核心因子为大众用户需求，相关支持由依托科技型公司、设计院（所）和大学向客户精神情感互动体验转化。随着科技发展和技术转移、扩散的加快，产品核心、关键技术越普及，升级换代速度和组织管理特征转化速度越快。产品后期产品后期是指目前市场上该产品市场已经成熟，主流市场已被瓜分，处于突出个性化产品期。产品战略体现产品的独特文化、精神和价值，产品以个性化设计为主，目标市场为长尾市场的个性化需求用户。组织管理具有明显的互联网时代特征，决策重视由下而上，大数据预测核心因子为独特的文化、个性化的精神和价值追求，工业设计依托消费者精神、情感互动体验，科技型公司、设计院（所）和大学相关支持为辅。

文章对互联网时代的主要特征进行了分析总结，概括论述了互联网时代工业设计的组织管理特征和工业设计在产品不同时期的管理特征，提出随着产品市场成熟度的增加和市场的开拓，工业设计特征由工业化时代向互联网时代转化，产品核心、关键技术越普及，升级换代速度和组织管理特征转化速度越快。通过对互联网时代的工业设计特征进行初步探讨，使工业设计师或工业设计管理者对互联网时代的工业设计特征有一个基本了解，适应时展要求，促使工业设计健康、可持续的发展。

作者:李昱单位:济南大学机械工程学院

大数据时代的主要特征篇（4）

据中国互联网络信息中心的《第24次中国互联网络发展状况统计报告》显示,截至2009年6月30日,我国网民规模达3.38亿,其中手机上网用户达1.55亿,占网民的46%,半年内增长了32.1%。人们在享受手机上网带来的便利的同时,却也不得不面对因手机上网带来的安全问题。这些智能手机设备一旦联上网络就会与联网的普通PC一样,立刻暴露在高风险的网络威胁之下,对联网PC的安全已经造成严重威胁的因素,例如病毒、黑客等,也开始对智能手机设备产生同样的威胁。为了解决越来越复杂的智能手机安全问题,各种手机杀毒技术应运而生。本文将主要介绍J2ME技术、基于特征码的病毒扫描技术以及它们在智能手机杀毒系统设计中的应用。

1 J2ME技术

为了推进无线电子商务等业务的发展,J2ME作为用于嵌入式系统的Java被引入无线领域,与J2SE和J2EE一起为无线应用的客户端和服务器端建立了完整的开发、部署环境。J2ME用于为信息家电市场提供应用服务。不同信息家电如移动电话、呼叫器、PDA等有不同的特性和界面,为了满足消费者与嵌入式市场不断发展和多样化的需求,J2ME采用模块化、可扩展的体系结构。它是一个3层的软件模型,构建于本地操作系统之上,如图1所示:

图1 J2ME体系结构

依照各种设备资源特性的不同,J2ME的3层体系架构分为简表层(Profile)、配置层(Configuration)、虚拟机层(Virtual Machine),然后再进一步细分,使J2ME能够在每一类设备的限制下工作,并同时提供最低限度的Java语言功能。

虚拟机层针对设备本地操作系统,支持特定的J2ME配置,包含CVM和KVM。CVM比KVM包含更多的功能和支持更多的特性,KVM是用于J2ME平台的最小的虚拟机。

配置层在3层体系结构中起承上启下的作用,并根据存储和处理能力对设备进行纵向分类,从而对虚拟机特性和基本的类库进行划分。已经标准化的配置有CLDC(Connected Limited Device Configuration)和CDC(Connected Device Configuration)。

简表层建立在配置层基础之上,用以定义与各种设备相关的属性(具体的用户界面、输入机制和数据持久性等)以及特定系列设备上可用的应用程序编程接口(API)的最小集,包括特定用途的类库和API。CLDC上已经标准化的Profile有MIDP(Mobile Information Device Profile)和IMP(Information Module Profile),而CDC上标准化的Profile有FP(Foundation Profile)、PBP(Personal Basis Profile)和PP(Personal Profile)。目前,J2ME领域里使用最广泛的就是MIDP,它主要针对手机和其它双向移动通信而设计。

2 病毒扫描技术

扫描法是用每一种病毒体含有的特定字符串对被检测的对象进行扫描。假如在被检测对象内部发现了某一种特定字符串,就表明发现了该字符串所代表的病毒。在国外,这种按搜索法工作的病毒扫描软件叫SCANNER。扫描法包括特征代码扫描法、特征字扫描法。

病毒扫描软件由两部分组成:一部分是病毒代码库,含有经过特殊选定的各种计算机病毒的代码串;另一部分是利用该代码库进行扫描的扫描程序。病毒扫描程序能识别的计算机病毒的数目完全取决于病毒代码库内所含病毒代码种类的多少。显而易见,库中病毒代码种类越多,扫描程序能认出的病毒就越多。

特征串的扫描法病毒查找软件最大的优点是易于商业化,并且可以依据检测结果做进一步的杀毒处理。缺点是新病毒的特征串未加入病毒代码库时,扫毒程序将无法识别出新病毒,且搜集已知病毒的特征代码费用开销大。

尽管如此,基于特征串的扫描法仍是使用最为普遍的计算机病毒检测方法。

3基于特征码扫描的J2ME手机杀毒系统设计方案

本病毒扫描引擎主要包括4个模块:配置加载模块、特征码加载模块、扫描模块和文件解析模块。四者关系如图2所示。首先,反病毒引擎读取配置文件,将配置信息传递给病毒扫描模块(这部分功能由配置加载模块完成)。然后对前台程序传入的扫描对象文件格式进行解析(由文件解析模块完成),并将解析结果传递给病毒扫描模块。病毒扫描模块利用病毒特征码来扫描解析后的文件,如果文件与病毒特征码匹配,则断定该文件是病毒,给出病毒名,将结果返回给前台程序,否则继续扫描。特征码加载模块主要负责病毒特征码目标文件的加载和维护。在反病毒引擎中至关重要的一块是病毒特征码的提取和维护,病毒特征码提取的准确性和及时性直接影响反病毒引擎的防毒效率。本系统采用的病毒特征码是以16进制表示的ASIIC代码,包括3种病毒特征码的格式,分别是含通配符“*”的字符串格式、含通配符“?”的字符串格式和不含通配符的字符串格式。

图2 病毒引擎模块结构图

3.1 配置加载模块

配置加载模块主要负责引擎配置参数的装入。引擎的配置参数保存在配置文件中,在初始化的时候加载。配置文件主要包括配置文件说明、数据体和配置参数数据。

配置文件说明里包含了配置的版本、配置使用、简要说明等信息,数据体包含了配置参数名以及参数取值,配置参数数据的组织格式是将参数名和取值捆绑存放。在本系统中,配置参数数据的基本格式为“参数名=取值”,主要包括3种类型的参数取值,分别为布尔型参数取值、字符串型参数取值和数值型参数取值。布尔型参数取值的格式为“参数名=yes”或“参数名=no”,主要用在如对扫描文件类型等的判断;字符串型参数取值的格式为“参数名=字符串”,主要用于对临时文件所在路径的说明等;数值型参数取值的格式为“参数名=数值”,主要用于保存包含数字的参数。

3.2 特征码加载模块

特征码加载模块主要负责病毒特征码目标文件库的装入。病毒特征码目标文件库存放对病毒特征码源文件进行加密和压缩处理后得到的特征码目标文件,处理的目的是为了保护病毒特征码的安全。病毒特征码目标文件主要包括两部分:文件头和数据体。

文件头里包含了病毒特征码的版本、加载日期等信息,数据体包含了病毒的特征码值以及病毒名。常见的特征码目标文件的组织格式是将病毒特征码和病毒名捆绑存放,即病毒特征码后面紧跟着其对应的病毒名,其好处是:简单、直接、处理速度快,但存在着资源浪费的问题。在本系统中,病毒特征码的基本格式为“病毒名[偏移值]=特征码值”,比较特殊的包含通配符“*”的特征码表示为“病毒名[偏移值1*偏移值2*偏移值3]=特征码值1*特征码值2*特征码值3”,表示包括多个特征码,并且其在文件中排列顺序为“特征码值1*特征码值2*特征码值3”,其中“特征码值1”对应的偏移值为“偏移值1”。

特征码加载流程如下:

(1)根据配置文件,遍历病毒特征码文件,若为文件,则解析该文件,若为文件夹则循环遍历;

(2)解析特征码文件,读取目标文件头,获取相关信息;

(3)对特征码目标文件的数据体进行解密;

(4)按照以下步骤逐一解析每节数据,并装入到相应的病毒特征码容器中:①读取一条病毒特征码及其偏移值offset;②利用offset恢复病毒名及特征码值;③调用加载函数,解析并加载病毒特征码;④继续解析下一条病毒特征码。

3.3 文件解析模块

文件解析模块主要由文件夹检测模块,文件类型检测、解压缩模块,文件读取模块等组成。文件夹检测模块负责识别输入对象的类型,如果是文件,则进行下一步操作;如果是文件夹,则轮询读取它下面的所有文件,放入文件列表中,逐一进行处理。文件类型检测模块判断是否为压缩文件,然后决定下一步操作。如果是压缩文件,则解压缩直至其解压后的结果不包含压缩文件,并对每一个解压结果进行处理。解压缩模块负责对打包文件进行解压缩。文件读取模块将每一文件转换成二进制流的样式,交由病毒扫描模块进行特征码匹配。文件解析模块的实现流程如图3所示:

图3 文件解析模块的实现流程图

3.4病毒扫描模块

病毒扫描模块的主要功能是对解析后的文件进行扫描。它利用特征码加载模块提供的病毒特征码去扫描文件,如果发现病毒,则提交异常事件,根据配置进行处理。如果是对单个文件进行扫描,就通知前台程序,由前台决定下一步操作;如果是对文件夹进行扫描,则记录这条扫描结果,继续进行下一个文件的病毒扫描,直到全部完成后提交前台处理。

病毒扫描模块的实现流程:①成功加载最新的病毒特征码,这部分功能通过调用病毒特征码加载模块完成;②病毒扫描模块接收由文件解析模块发送的扫描文件;③对解析后的文件类型进行判断;④根据文件类型调用相应的处理程序,进行扫描;⑤如果命中病毒特征码,引擎发送相应的事件通知前台程序;⑥检查前台返回标志,决定下一步操作。

4 测试与分析

KVM虚拟机上的病毒扫描引擎测试结果如表1。由表可知,扫描引擎基本能对包括压缩文件、文件夹和文本文件在内的对象进行扫描并检出包含病毒特征码的文件及病毒信息。

表1病毒扫描结果表

5 结束语

迄今为止,手机的安全性日趋受到人们的关注,随着J2ME技术的成熟和反病毒技术的发展,对手机病毒进行有效处理逐渐成为了可能。本文主要介绍了基于病毒特征码扫描技术的J2ME手机病毒扫描引擎的设计及具体实现方法,并对不同类型的文件进行了测试,取得了比较满意的结果。将本系统的源程序经过适当修改,便可开发出功能更加强大的手机反病毒软件,给手机网络功能的使用带来更多的安全保障。

参考文献

[1]巫喜红,凌捷. 单模式匹配算法研究[J]. 微计算机信息,

2006(22):8-3.

[2]汪永松. J2ME手机高级编程[M]. 北京:机械工业出版社,2009.

[3]孔维广. 手机病毒的传播原理与对策分析[J]. 武汉科技学院学报,2007(9).

[4]王海坤. 手机病毒的分析及研究[J]. 科技资讯,2009(8).

[5]翁晓奇,李妙旎,于浚,等. 基于3G网络的手机病毒分析[J]. 科协论坛,2009(9).

大数据时代的主要特征篇（5）

关键词：异常检测；决策树；特征选择；主成分分析；禁忌搜索

0 引言

随着网络技术的不断发展和普遍应用，互联网安全的重要性越发凸显。网络异常中的各种攻击异常频繁发生，严重威胁着网络的正常使用。因此如何及时有效地检测网络异常，保证安全的网络环境具有重要的意义。

网络流量异常检测方法主要包括两种：统计分析[1]和机器学习[2]。基于统计的方法具有较高的检测实时性，而检测精度较低，尤其对许多隐蔽攻击无法检测；机器学习方法基于流量特征进行分析检测，由于具有较高的检测精度而成为主要研究方向。基于机器学习的异常检测主要包括聚类方法[3]和分类方法[4]：聚类方法具有无需事先样本的优点，但聚类误差导致检测精度较低；分类方法需要事先进行训练，通过训练模型进行检测，这种方法由于具有较高检测准确性而广泛使用[5-6]。基于分类的异常检测中，特征属性选择对分类精度具有重要影响[7]，实际网络流量维数较高，高维数据无法应用于传统分类算法中，文献[8-10]分别采用支持向量机（Support Vector Machine，SVM）、K最近邻（KNearest Neighbor，KNN）和C4.5算法进行分类检测时都采用低维特征，由于其对特征属性的选择不能较好表征网络流量，造成分类精度较低，影响了检测效果。文献[8]采用SVM方法进行异常分类检测，但SVM适用于较少流量样本使得该方法无法应用于实际网络流量检测。文献[9]采用直推式的异常检测方法具有较高的检测精度，但基于“离线训练，在线检测”的机制下，由于KNN方法需要对每个样本所属类别进行判断而降低了检测效率。文献[10]利用决策树方法具有较低处理时间的特点而基于C4.5决策树算法进行异常流量实时检测，但C4.5根据信息增益率进行节点划分，由于增益值的不稳定导致分类误差较大。

基于此，本文提出了一种基于主成分分析和禁忌搜索（Principal Component Analysis and Tabu Search，PCATS）结合基于最短距离划分决策树（MinDistance Decision Tree， MDDT）分类的异常流量检测方法，通过PCATS方法来减少高维特征空间冗余和选择最优特征子集，为分类检测提供低维和有效的流量属性，结合决策树检测实时性高的特点，该方法可以有效地进行网络流量异常实时检测。

1 相关研究

1.1 基于PCATS的特征选择方法

1.1.1 主成分分析算法

主成分分析（Principal Component Analysis， PCA）是统计学中分析数据的一种有效方法，主要用于特征抽取和数据降维。其思想是利用数据集统计性质的特征空间变换，将一个数据维数较高且互相关联的数据集进行降维。通过PCA降维后，将原始空间转换为新的主成分空间，且各主成分互不相关。

假设含有N个样本的网络流量数据集X={x1，x2，…，xm}∈Rn，其中：Rn为特征空间，m为特征维数。求得变量空间Z={z1，z2，…，zk}，满足k

在使用PCA进行分析时，由于数据中不同的变量往往有不同的量纲，会引起各变量取值的分散程度差异较大，从而影响计算精度。为了消除由于量纲的不同可能带来的影响，首先需要对变量进行标准化处理，然后利用PCA进行降维。

0 引言

1 相关研究

1.1 基于PCATS的特征选择方法

1.1.1 主成分分析算法

假设含有N个样本的网络流量数据集X={x1，x2，…，xm}∈Rn，其中：Rn为特征空间，m为特征维数。求得变量空间Z={z1，z2，…，zk}，满足k

主成分分析通过选择贡献率较大的几个特征值λi对应的特征向量P作为主成分，达到降维的目的。特征贡献率如下式计算：

1.1.2 禁忌搜索算法

禁忌搜索（Tabu Search， TS）算法是一种启发式全局寻优搜索方法，其通过标记已搜索局部最优解和避免迭代计算中重复搜索来获得全局最优解[11]。TS主要思想是：首先确定一个初始有效解z，对每个解z定义一个邻域Y（z），从当前解的邻域中确定若干的候选解，从中选出最佳候选解。选择最佳候选解是一个搜索过程，为了避免搜索过程限于循环，TS算法通过构造禁忌表和定义停止规则避免了搜索算法的局部最优。其中禁忌表存入前n次禁忌长度，避免了回到原先的解，从而提高了解空间的搜索能力；停止规则定义在若干迭代次数内最优解无法改进时，算法停止。另外禁忌搜索算法中涉及邻域、禁忌表、禁忌长度、特赦规则和初始解等都会直接影响搜索优化结果[12]。

基于禁忌搜索的特征选择是通过目标函数进行约束的最优化问题，合适的目标函数提高了搜索和最优特征选择的质量。一个好的特征解应在最少的特征数量上保证尽可能多的分类信息。在信息论理论中，一个属性的信息增益越大，其包含的信息量也越大，基于信息增益可以有效评估特征向量的分类信息，因此本文选择信息增益作为目标函数。定义目标函数如下：

禁忌搜索中初始解的选择对禁忌搜索的效果影响很大，在基于网络流量特征的最优特征选择中，由于实际网络流量特征维数较大，会影响禁忌搜索算法的效率，同时网络流量特征的冗余也对最优特征集的选择产生影响。因此禁忌搜索的初始解对搜索效率和质量具有重要影响。

1.1.3 PCATS特征选择算法

特征选择是从特征集CT={c1，c2，…，cn}中选择一个子集CT′={c′1，c′2，…，c′n}，c′≤c。其中：c为原始特征空间大小，c′为特性选择后新特征空间大小。即：通过从原始特征空间中选择部分有效特征组成新的低维特征空间，其本质为一个寻优过程。

网络流量特征属性空间的“维数灾难”严重降低了基于特征分析方法的效率，而这些特征中存在大量的冗余和弱特征属性，需要通过特征约减来去除冗余和弱属性，得到精简特征属性向量。PCATS方法通过PCA对高维特征向量进行有效降维，为禁忌搜索提供了低冗余和低维数的特征向量。结合禁忌搜索寻找近优特征子集的特点，提高了禁忌搜索的效率和精度。因此通过PCATS可以在高维特征空间中寻找最优特征子集。PCATS方法具体步骤如下：

步骤1 禁忌表置空，设置初始化参数：禁忌长度LJ=13，最大迭代次数Dmax=600，最大改进次数max=100。

步骤2 使用PCA对原始网络流量特征进行约减，得到约减特征集T={T1，T2，…，Tp}，p为约减后特征集数量。

步骤3 对特征集T进行二进制编码，得到初始解RinitN。

步骤4 设置终止条件，当达到Dmax时，搜索停止；当通过max寻找最优解无改进时，停止搜索。

步骤5 判断是否满足终止条件，如果满足终止条件，结束运算，输出最优特征子集；否则转到下一步。

步骤6 初始解RinitN代入邻域结构计算邻域解，通过目标函数选择最佳候选解。

步骤7 判断候选解是否满足特赦规则，如果满足，则更新禁忌表中最优解，转入步骤4；否则转到下一步。

步骤8 计算候选解的禁忌属性，选择非禁忌对象的最优值替换禁忌表的最初值，转入步骤4。

步骤9 结束，输出最优特征子集。

1.2 C4.5决策树方法

决策树方法作为一种机器学习方法中的预测模型，代表对象属性和对象值之间的映射关系，它能从无规则的实例集合中归纳出一组采用树形结构表征的分类规则。常用的决策树方法包括：ID3算法、CART算法和C4.5算法等。与其他算法相比，C4.5决策树方法由于具有较高的处理效率和分类稳定性，适用于网络流量的实时分类[13]而在网络流量分类中广泛使用。

决策树创建中内部节点分枝的选择是关键，对于不同划分得到的决策树的性能不同，传统C4.5算法利用信息熵原理，选择信息增益最大的属性作为分类属性。定义样本集S的理想划分S={s1，s2，…，sn}，则信息增益率为

C4.5方法采用信息增益率来确定节点的分枝，文献[14]分析了采用这种方法带来的问题：划分产生的分割信息很小时，增益的值不稳定。这种不稳定可能导致信息增益率很大或者为0，带来较大分类误差。本文采用最短距离划分方法来构建决策树，定义Mantaras范氏距离[15]为两个划分间的距离，采用与理想划分距离最近的属性作为当前节点的测试条件。

定义特征属性pi作为测试条件p得到的划分S′={s′1，s′2，…，s′m}，则理想划分S和划分S′的Mantaras范氏距离为：

决策树训练中可能存在过度拟合，这会对新的数据集分类效果产生影响，因此要对初始决策树进行剪枝，从而得到一般的分类规则。本文利用训练数据集中剩余样本，采用悲观错误剪枝（Pessimistic Error Pruning，PEP）算法对生产初始决策树进行剪枝，PEP算法对每棵子树只进行一次检查，具有较快的处理速度。且本方法不需要额外数据集，结合PEP算法可使本方法适用于样本较多数据集。

2 基于特征分类的检测模型

基于特征分类的检测模型如图1所示。首先对网络流量进行提取特征和数据预处理，得到待检测特征向量。离线训练阶段首先需要对高维特征空间通过特征选择进行降维，得到最优特征子集形成训练集，分类训练利用分类算法MDDT得到正常和异常类别，分类训练结果对检测规则库更新实现异常检测。

图片

图1 基于特征分类的检测模型

2.1 数据预处理

网络流量提取的特征中，包含不同数据类型：名词型和数值型等，且不同特征量纲也不同，这种差异会影响分类精度，所以需要将样本的属性值转换为标准的取值空间。本文对于数值型样本属性进行归一化处理，而对于如协议类型、服务类型等名词型属性根据其每个取值在取值空间的出现频次进行标准化处理。归一化方法为：

首先计算样本中每个特征属性的均值和方差：

2.2 特征选择

网络流量的统计特征指的是在报文（packet）和流（flow）的属性中，抽取和端口及协议无关的特征，如报文长度、报文到达间隔时间、报文数量、流的持续时间和流中报文个数等，这些统计特征用特征矢量来表示。如一条网络流F，基于该流的特征描述可表示为F={y1，y2，…，yn}，其中yi代表特征的取值。流的特征集合可能包含多达几百个特征，通过特征选择寻找少量最优特征子集来近似描述流量对提高学习效率等具有重要意义。

在基于网络流量特征的流量分析中，一般情况下，特征数量越大，会产生更高的分析精度。但实际中，过大的特征空间会产生两个问题：1）巨大的特征空间不仅需占用更多的存储空间，而且增加了测量时间，难以应用于实时流量分析中；2）网络流量特征存在大量冗余和弱属性，这些属性不仅降低了分析精度，而且增加了算法处理的复杂度。本文采用PCATS算法，对网络流量初始特征经过PCA进行降维，大大减少了特征冗余和弱属性，给禁忌搜索算法提供了更优的初始解，通过禁忌搜索得到全局最优特征子集，为后续分类算法处理降低了处理时间。

基于特征选择的分类中，不同研究人员选取不同维度的特征向量，典型的选择维度包括37[7]、36[16]和22[17]等。这些特征主要包括流信息（时间、包个数、字节数），包内部时间信息，TCP/IP控制域信息，ACK数量，负载大小，五元组信息等。这些选取方案都是根据表征流量的常用特征如时间，长度信息进行选择，未考虑特征的贡献度及存在的冗余。

本文根据PCATS方法对高维流量特征向量进行最优特征子集选择，提取了22种网络流量特征作为分类训练集的特征库，与传统特征选择方法相比，去除了TCP/IP控制信息、ACK信息等对网络流量表征贡献度较低的特征信息。然而在网络流量表征中，五元组信息表征存在冗余[18]，而基于信息熵的源/目的IP地址对异常流量的表征具有较大贡献度，因此本文采用22个特征属性结合归一化熵的源/目的IP作为最终24个特征属性。选择的特征属性向量如图2所示，其中横坐标为提取的特征属性，纵坐标为Moore数据集中每个特征属性在数据集中所占的比例。

图片

图2 最优特征子集选择

2.3 分类训练

分类方法按照其对标记数据的依赖关系可以分为完全监督学习、无监督学习和半监督学习。完全监督学习分类准确性相对较高，但其完全依赖标记数据样本，这种方法代价昂贵无法应用于实际分类中；无监督学习一般采用聚类算法，无需标记数据进行训练，但其分类准确性较低；而半监督学习通过引入少量标记样本进行训练，不仅提高了训练器性能，而且可以对未知类型进行分类，因此本文采用半监督学习进行分类。

分类算法的选择要求具有较高分类准确性，针对网络流量大样本数据特性能有效实现分类，并且对于分类算法的实时性具有较高要求。文献[5]比较了C4.5和贝叶斯分类器的性能，发现C4.5决策树算法测试时间最短，更适合实时流量识别。本文选择基于C4.5的改进算法进行异常检测分类基于两点考虑： 1）与SVM算法对于小样本的机器学习相比，C4.5对任何样本规模都具有较好分类精度；2）C4.5的结构可以建立方便的规则库。

利用MDDT算法处理分类问题通常分为两步：首先通过训练集进行学习，得到分类模型，然后通过生成的分类模型对流量进行分类。为了满足实时流量分类要求，采用“离线训练，在线识别”机制，在离线构建分类模型中，根据网络流量动态变化进行主动学习，提高分类模型的寿命和分类算法的泛化能力。

3 实验结果及分析

为了验证本文方法的有效性和可靠性，本章采用研究领域普遍使用并认可的数据集Moore和KDD CUP 1999进行实验分析。在基于特征分类的异常检测中，分类的性能对检测效果有直接影响。采用Moore_Set对基于PCATS的分类方法性能进行验证，通过KDD CUP 1999数据集对本文提出的异常检测方法性能进行分析。

3.1 实验数据和环境

3.1.1 KDD CUP 1999数据集

为了评价本文算法对于异常检测的效果，选用Lincoln实验室的KDD CUP 1999网络数据集进行实验。该数据集包括多种网络环境下的攻击异常，主要包括DoS、R2L、U2R和Probing四类。KDD CUP 1999数据集包括大约4900000条记录，4种异常类别和正常类别（Normal）分别通过41个特征属性表征。

为了验证本方法的检测效果，将KDD CUP 1999数据集进行提取，构建三个数据集进行测试。数据集1包括205684个正常流量数据和2648个攻击异常数据；数据集2对数据集1正常数据进行提取，包括120000个正常流量数据和2648个攻击异常数据；数据集3对数据集 1正常数据进行少量抽取，包括10000个正常流量数据和2648个攻击异常数据。三种数据集具体介绍如表1所示。

其中R为特征贡献率阈值，特征维数m选择根据R来确定，一般选择R为85%～95%。

3.1.2 实验环境及工具

本文采用的实验仿真硬件平台为普通PC，该主机配备操作系统为Windows XP Professional SP3，具体配置：CPU为Intel Core2 1.86GHz；内存2GB。实验仿真软件工具采用Matlab 2008和Weka3.6.8。

本文采用异常检测方法中通用检测指标：检测率（True Positive， TP）和误报率（False Positive， FP）作为检测本方法的评价指标。其中分类算法通过准确率（precision）来表征，定义如下：

其中：Ntp表示类型为A的网络流量样本被分类模型正确分类的数量；Nfp为类型为非A的网络流量样本被分类模型分类为类型A的数量。

3.2 实验结果及分析

大数据时代的主要特征篇（6）

基于网络的入侵检测系统的数据源是网络流量，它实时监视并分析通过网络的所有通信业务，检测范围是整个网络，由于网络数据是规范的TCP/IP协议数据包，所以基于网络的入侵检测系统比较易于实现[1]。但它只能检测出远程入侵，对于本地入侵它是看不到的。

1入侵检测技术概述

探测器一般由过滤器、网络接口引擎器以及过滤规则决策器构成，其功能是按一定的规则从网络上获取与安全事件相关的数据包，然后传递给分析引擎器进行安全分析判断。分析引擎器将从探测器上接收到的包结合网络安全数据库进行分析，把分析的结果传递给配置构造器。配置构造器根据分析引擎的结果构造出探测器所需要的配置规则。分析引擎器是它的一个重要部件，用来分析网络数据中的异常现象或可疑迹象，并提取出异常标志。分析引擎器的分析和判断决定了具有什么样特征的网络数据流是非正常的网络行为，它常用的4种入侵和攻击识别技术包括根据模式、表达式或字节匹配；利用出现频率或穿越阀值；根据次要事件的相关性；统计学意义上的非常规现象检测[2]。

2计算机网络安全的现状

在新系统的设计中，利用数据挖掘技术从系统日志、系统调用序列、网络流等大量数据中提取与安全相关的系统特征属性，为了高效地利用特征属性，采用特征向量集代替特征属性变量集，设计中采用遗传算法选择其特征子集，以降低入侵检测系统的负荷。进行数据挖掘时，所选用的安全审计数据须具备以下特点：

（1）相对于正常的用户和系统行为，攻击事件的发生概率很小[2]。

（2）在正常情况下所选用的安全审计数据非常稳定。

（3）攻击事件的发生会使安全审计数据的某些特征变量明显偏离正常值。

特权程序一般都具有最高权限，因此特权程序一直是攻击者的主要目标。通过研究发现，对特权程序，系统调用序列较好地满足了数据挖掘对安全审计数据提出的要求，是理想的挖掘数据源。国外有关研究机构还提供了大量的有关系统调用序列的数据供IDS的研究者下载使用，基本上满足了完备性的要求。

系统调用序列检测的工作主要流程如下：

（1）准备训练数据集，该数据集中数据记录具有广泛的代表性，即具有较高的支持度；所有数据已经被准确标识为正常或异常，采用有关系统调用序列的数据作为分类器的训练数据集。

（2）用RIPPER算法分析训练数据集，提取特征属性，生成规则。

（3）基于所生成的规则，用滑动窗口法分析待检测系统调用序列[3]。

3入侵检测系统在计算机网络安全维护中的应用

为进一步提高IDS的性能，减少IDS组件对被保护系统的负荷，所设计的新人侵检测系统采用特征向量集代替特征属性变量集（短序列集），在数据挖掘时产生了更简单、准确的入侵判别规则集。在此基础上进一步研究用特征向量子集代替特征向量集，采用遗传算法优化特征向量子集的选择过程，使IDS的性能得到进一步的提升[3]。

在系统调用序列数据的挖掘过程中使用特征向量法，用特征向量的一位标识一个短序列，用挖掘算法能从特征向量集中找出检测入侵的规则来。由于短序列的数量较大，导致特征向量位数过大，特征向量集也相应过大。为了更高效可行地使用数据挖掘算法，采用遗传算法对特征向量集进行优化，寻找特征子集，利于后续的数据挖掘[4]。

该最优个体必然是0、1交替的位串，将其所有1所在位置进行分析，可以得到1所在位置代表的短序列集，即为寻找的特征子集。后续挖掘算法根据该特征子集中的短序列，对训练数据进行分类等挖掘工作。

采用标准交叉算子和变异算子，交叉概率取0.6，变异概率取0.001。遗传过程中，个体的选择比较复杂。因为这里是针对入侵检测进行的优化，所以在选择个体时，是将该个体代表的入选子集的短序列应用到数据分类算法（RIPPER），该算法训练数据并应用规则得到测试数据，根据检测的性能来确定上述要选择的个体的适应度值。根据个体的适应度值就可以对其进行选择，继续遗传优化工作。研究表明，个体的适应值可以取决于有多少攻击被正确检测和正常使用连接被误判为攻击，同时考虑个体中置1位的数目，本系统设计的适应度函数为[4]：

[F（xi）=[（a/A）-（b/B）]δm]

式中：[xi]为某个个体，a为正确检测到的攻击数目；A为总有攻击数目；b为被误判为攻击的连接数；B为总的正常连接数；m为[xi]中1的个数；[δm]为m对于该适应度函数的相关系数，即高检出率低误报率使适应度函数值高，低检出率高误报率使适应度函数值低。个体中置l的位数越少，适应度值越大，这是出于寻找最小特征子集的考虑，其影响的强弱由相关系数d去控制。

{

一个网络连接有如下特征：

源IP地址d2.Of.**.**；

目标IP地址c0.a8.a*.**；

源端口号43226；

目标端口号80；

持续时间482 s；

终止状态（由发起连接的人终止连接）11；

使用协议（TCP协议）2；

发送方发送了7341B；

接收方接收了37761B；

}

then

{

终止该连接；

}

结论

总之，入侵检测技术是为保证计算机系统的安全而设计与配置的一种能够及时发现并报告系统中未授权或异常现象的技术，是一种用于检测计算机网络中违反安全策略行为的技术。进行人侵检测的软件与硬件的组合便是入侵检测系统。

参考文献：

[1]杨岭. 基于网络安全维护的计算机网络安全技术应用研究[J]. 信息系统工程，2015，01：77.

大数据时代的主要特征篇（7）

一、大数据与大数据征信

1. 什么是大数据。在互联网已经成为一种普遍的生活方式的今天，我们已经迈入大数据时代。“大数据正在改变我们的生活以及理解世界的方式，成为发明和新服务的源泉”。什么是大数据？仁者见仁，智者见智。维基百科将大数据定义为“一种广义的数据集，因其体量巨大、复杂，传统数据处理方式不足以处理”。高德纳咨询公司（Gartner Group）认为“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”；国内有学者将大数据定义为“是指伴随着可作为处理对象的数据外延不断扩大，依靠物联网、云计算等新的数据搜集、传输和处理模式的一种新型数据挖掘和应用模式”；国务院印发的《促进大数据发展行动纲要》将大数据界定为“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合，正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析，从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”。多种多样的定义为我们从不同视角理解大数据提供了有益参考，但无论如何界定，“多数定义都反映了那种不断增长的捕捉、聚合与处理数据的技术能力，而这个数据集在数量、速率与种类上持续扩大。换言之，现在，数据可以更快获取，有着更大的广度和深度，并且包含了以前做不到的新的观测和度量类型”。由此，我们可以得出大数据的几个基础特征：数据规模庞大、具有多样性、较高应用价值和较高的处理速度（也就是通常所说的4V特征，即Volume、Variety、Velocity、Value）。这些特征有助于我们更直观的理解什么是大数据，有助于我们更好地发现日益增长的数据中隐藏的价值，满足人们的现实需求。

2. 什么是大数据征信。随着大数据技术在金融领域的广泛应用，大数据征信受到越来越多的重视。大数据征信主要通过对海量的、分散的、多样化的、具有一定价值的数据进行快速的收集、分析、挖掘，运用机器学习等模型算法多维度刻画信用主体的违约率和信用状况。大数据征信从其本质上来看是将大数据技术应用到征信活动中，突出强调的是处理数据的数量大、刻画信用的维度广、信用状况的动态呈现、交互性等特点，这些活动并未超出《征信业管理条例》中所界定的征信业务范围，本质上仍然是对信息的采集、整理、保存、加工和公布，只不过是以一种全新的方式、全新的视角来进行而已。

3. 大数据征信与传统征信。与传统征信相比，大数据征信呈现出与当前互联网快速发展相契合的诸多时代特点和印记。

（1）数据来源广泛。大数据征信的数据来源既包括交易、消费、支付等交易数据，也包括社交活动、网络行为、地理位置等交互数据，还包括通过可穿戴设备、RFID设备、视频监控设备等获取的传感数据。这些数据主要是通过互联网获取，可称之为网络大数据。“网络大数据有许多不同于自然科学数据的特点，包括多源异构、交互性、时效性、社会性、突发性和高噪声等，不断但非结构化数据多，而且数据的实时性强，大量数据都是随机动态产生”。与传统征信仅依靠信贷记录、公共信用信息等数据刻画信用主体信用状况不同，大数据征信基于网络大数据，通过数据挖掘，从多个维度刻画、描述信用主体的违约状况、人际关系等，丰富了传统信用评价的维度和深度。

（2）市场定位清晰。大数据征信作为传统征信的补充，主要针对的是央行征信系统无法覆盖的没有信用记录的人群。根据央行的《中国征信业发展报告（2003-2013）》，截至2013年底，国内没有信用记录的人群达3.2亿人，占全国人口的23.7%；央行征信系统收录的8.39亿自然人中有5.18亿人没有信贷记录，这部分未被覆盖的人群也有融资需求。借助于互联网这个大平台，利用大数据技术可以较为快速、高效刻画这部分人群的信用状况，市场潜力巨大。

（3）应用场景多样化。与传统征信运用具有强相关性的信贷数据刻画信用主体的信用状况不同，大数据征信基于大数据技术，应用机器学习等模型，对海量的弱相关性的互联网大数据进行采集、清洗、匹配、整合和挖掘，转换成信用数据，使得信用评估的效率和准确性得到一定程度的提升。基于大数据征信的这些优势和特点，沉淀了大量用户的电商、社交媒体、P2P等互联网公司纷纷涉足大数据征信，运用数据挖掘等技术来实现快速的身份识别、风险识别、反欺诈、精准营销、个性化服务等，而这些多样化的应用场景则进一步丰富了大数据征信的内容和结构。

四是技术高度复杂。大数据征信的应用是以互联网的快速发展与普及为基础的，需要在技术及研发上持续不断的投入。技术上看，由于大数据征信的数据源较为复杂，需要处理的变量远超传统征信模式，开发一套针对用户的信用评价系统通常需要经过数据收集、数据清洗、关联分析等环节，再由一套复杂的模型算法最终得出用户的信用报告或信用分，需要从事大数据征信的企业在大数据收集、分析、挖掘等技术上持续不断的投入。理论上看，由于互联网数据的多源异构性，发现、理解进而熟练运用互联网数据背后的社会学、心理学、经济学的机理以及互联网信息涌现的内在机制，使之服务于对信用主体的信用刻画中，确保信用刻画的准确性，还需要充分吸收、利用社会学、心理学、经济学等学科的相关研究成果，又进一步加剧了大数据征信的复杂性。

此外，大数据征信不能仅仅强调数据的大，更重要的是强调数据的准，数据维度反映信用主体信用状况的关联度要强。由于互联网时代数据产生速度很快，很多数据都需要及时更新才能保证准确性，因此大数据征信要求对实时的数据进行实时的处理，才能保证信用结果的准确性。根据中国互联网信息中心统计，截至2014年12月，中国网民达6.49亿，互联网普及率达47.9%。如此巨量的互联网用户产生的数据也是巨量的，利用大数据技术对这些支离破碎的数据进行整合、分析、挖掘并最终开发出具有商业价值的产品需要持续的研发投入、技术投入、资金投入和管理投入，门槛较高。

二、大数据征信的价值与意义

大数据征信在政策夹缝中快速发展，除了中国征信体系不健全等客观原因外，还与其自身所具有的价值与意义紧密相关。从业务应用上看，一些大的征信公司、传统金融机构、互联网金融机构以及大型电商平台等都将已经或者正在布局大数据征信，将其作为企业的核心竞争力，如芝麻信用、鹏远征信、前海征信、腾讯征信、宜信、京东金融等都已经或正在开发大数据征信产品，并不断扩展其产品的应用场景；从市场价值来看，大数据征信可以化解信息不对称导致的交易风险，降低交易成本，扩展交易范围，可以使用户能以合理的价格获取多元化、可持续、高效、低成本、高质量、多样性的金融服务，享受公平信贷机会，有利于企业特别是小微企业改善经营状况，有利于个人通过融资获得进一步发展的机会，有利于维护金融稳定。从应用场景上看，大数据征信的主要应用领域为互联网金融，除此之外，一些大的互联网征信公司如芝麻信用，通过与机场等第三方公共服务机构合作，将芝麻信用分用于快速通关等场景之中，大数据征信产品的全面应用时代已经悄然来临。从可拓展性看，大数据征信除了应用于金融风险控制，还可用于客户画像、行为研究、产品跟踪、精准营销、企业内部治理优化等多个方面，表现出较强的可拓展性；从市场需求看，除了央行征信系统未覆盖的近3亿人群外，还有海量的企业信息可以通过大数据技术处理，形成企业信用档案，提高交易的透明度；从社会效应来看，大数据征信在控制市场风险、重塑市场信用体系方面具有积极的正面示范作用。

三、大数据征信的发展应用

1. 大数据征信在国外的应用情况。在国外，政策层面，美、英、日、澳等国纷纷将发展大数据作为一项重要战略来实施，制定了一系列政策来推动数据开放共享、加大数据基础设施研发、促进政府和公共部门应用大数据技术。实践应用中，谷歌、EMC、惠普、IBM、微软、甲骨文、亚马逊、脸谱等企业很早就通过收购或自主研发等方式布局大数据发展，成为大数据技术的主要推动者，并快速推出大数据相关的产品和服务，为各领域、各行业应用大数据提供工具和解决方案。在征信领域，一方面传统的征信公司开始涉足大数据征信，充分利用自身的数据优势开发新的信用衍生服务，如Experian（益百利）开发出跨渠道身份识别引擎，布局投入研发社交关系数据，积极探索互联网大数据与征信的关系；Equifax（艾克飞）通过加大研发投入及收购行为布局大数据产品与服务；FICO（费埃哲）在传统FICO信用模型中引入社交媒体、电商、移动用户数据，提高了模型的用户区分度。另一方面，一些新兴的创业公司利用自身的技术优势，通过走差异化道路，给用户提供个性化的信用产品和服务。如ZestFinance公司，利用大数据技术为缺乏征信数据而只能接受高利贷的人群进行信用评估服务，采集了海量跟消费者信用弱相关的数据，利用基于机器学习的大数据分析模型进行信用评估，处理效率提高了近90%，模型性能提高了40%，相关贷款人的违约率降低了将近50%。总的来看，由于国外征信体系较为完善，大数据征信作为传统征信的补充，仅在市场细分领域具有一定的应用价值，更多的是以提供征信增值服务的形式出现的。

2. 大数据征信在国内的应用情况。政策层面，我国政府出台了《社会信用体系建设规划纲要（2014-2020年）》、《国务院积极推进“互联网+”行动的指导意见》、《促进大数据发展行动纲要》等顶层制度设计文件，将“互联网+”、“大数据发展”上升为国家战略，为发展大数据征信创造了良好的政策环境。实践应用中，BAT、京东、宜信等公司也纷纷涉足大数据征信。2015年年初，央行下发《关于做好个人征信业务准备工作的通知》，要求包括芝麻信用、腾讯征信、前海征信等8家企业做好开展个人征信业务的准备工作，开启了个人征信市场化的大门。就征信领域而言，互联网金融的快速发展催生大数据征信在风控、消费金融及精准营销等领域的应用。各大互联网公司、电商平台及网贷公司纷纷搭建自己的信用评价模型，推出各种信用分，如芝麻信用的芝麻分、考拉征信的考拉分、前海征信的好信度、京东金融的白热度等等，在服务于企业信用风险控制的同时，力图通过大数据分析、挖掘来寻找新的盈利增长点。但总的来看，由于市场监管体系不完善，法律制度建设滞后，市场的巨大需求和目前落后的征信体系形成较大反差，迫使企业利用科技和大数据的力量在征信与信用管理领域进行一次真正的创新，加之央行对个人征信市场开放的限制，互联网及大数据技术的发展迅猛，特别是互联网金融的快速发展，在风险控制等方面提出了更高的要求，催生了大数据征信的快速发展。

四、大数据征信面临的主要挑战

在大数据时代，大数据征信将在金融等领域发挥着越来越重要的作用。但我们也应看到，由于政治、经济、文化等多重因素的影响，大数据征信在中国现阶段仍然面临着诸多挑战。

1. 大数据征信重构信用主体信用状况的准确性问题。大数据征信的数据主要来自互联网大数据、企业大数据、政府大数据和个人大数据等几大块，其中刻画个人信用的数据又主要来自互联网和个人提交的数据，包括身份数据、行为数据、社交数据、网上消费及交易数据等。如何科学确定信用评价的维度并赋予这些数据在各个维度中的权重决定着信用主体信用状况刻画的精准度，这也是大数据征信企业最为核心的竞争力所在。此外，准确刻画信用主体的信用状况除了要获取足够多的有价值的数据外，还需要综合考虑经济环境、文化背景、社情民意等因素，需要充分吸收利用这些领域的最新研究成果，来印证、丰富大数据信用评价模型，提高信用评价的准确性。要做到这一点，需要在学界和业界形成良性的互动，是一个长期的过程。

2. 个人隐私保护问题。大数据征信的核心是信息的收集和处理，在这个过程中如何平衡个人隐私保护与信息利用关系到产业创新与隐私保护的协调问题，至关重要。从大数据征信的数据获取途径看，主要有自有平台累积数据、通过交易获取数据、通过技术手段获取数据、用户自己提交数据、基于综合分析获得数据等。在获取数据的过程中，需要综合考虑法律、技术、运作机制等因素对个人隐私保护的影响，如法律对个人信息的保护、数据交易过程中的匿名化处理、原始数据采集授权及二次加工使用授权、侵犯个人隐私的救济渠道等，这些都是大数据征信需要认真考虑和解决的问题。

3. 数据的所有权、控制权、收益权问题。由美国倡导并实践的数据开放运动已经持续了一段时间，在全球范围内引起了广泛共鸣。而英国在此基础上更进一步，提出了“数据权”的概念。数据承载着信息，信息蕴含着价值。数据权概念的提出意味着数据价值的归属需要明确界定，由此引申出数据的所有权、控制权和收益权问题。由于大数据征信具有数据来源的多源性、技术处理的复杂性以及应用场景的广泛性等特点，在中国不完善的征信体系及特定的法律文化背景下，数据的所有权、控制权和收益权问题也尤为复杂。这里需要考虑的问题有：不同途径获取的数据所有权归谁？二次加工、三次加工的数据所有权归谁？涉及个人信息的数据个人是否有控制权？如何实现控制权？数据交易过程中，个人如何实现数据的收益权？这些问题仍需要我们在现有法律及政策框架下作进一步的讨论和研究。

4. 政策及监管的不确定性问题。大数据征信作为传统征信的补充，受《全国人民代表大会常务委员会关于加强网络信息保护的决定》、《征信业管理条例》、《征信机构管理办法》等法律法规的约束。但作为一种新兴的征信形式，大数据征信涉及问题的复杂程度已经超出了这些法律法规规制的范围，特别是在数据的采集、加工、使用和交易方面，多数大数据征信机构都在一定程度上存在着违法采集个人信息的行为，只不过是以一种不平等或隐蔽的方式来规避法律管制，如将获取个人信息与提供服务捆绑在一起，利用网民个人信息保护意识淡薄等弱点，使用复杂的免责条款来规避法律责任，使用流氓软件非法获取个人信息，利用技术优势非法获取个人信息，非法交易个人信息等。这些问题的出现一方面是由于网络用户个人信息的自我保护意识和手段的不足，另一方面也反映出现行的立法及监管措施的缺乏。随着隐私观念深入人心及互联网活动对个人生活的全面深入，这些问题都将倒逼监管层出台更多措施来保护个人权利、规范行业发展，特别是近期央行拟发放个人征信牌照，即是对此做出的积极回应。

五、结论

大数据征信作为一种新的征信技术面临诸多挑战，同时也面临着难得的发展机遇，特别是在国家政策层面加大对大数据产业的支持、积极推进互联网与金融业深度融合的背景下，大数据征信将大有可为。与国外业已形成的较为完善的征信体系相比，我国征信体系建设还有很长的路要走。在互联网和大数据时代，创新是主线，作为在征信领域的本土化创新，中国的大数据征信完全可以实现弯道超车，引领征信发展的新潮流。与此同时，我们也应清醒的认识到，在当前中国经济社会转型的关键期，发展大数据征信需要政府加强引导与适度监管，从构建和完善适应大数据征信的监管法律制度入手，做好金融信用信息基础数据库等金融基础设施建设，加强基础理论研究，为大数据征信产品开发和服务创新创造良好条件，营造良好信用环境，真正使大数据征信成为服务社会经济发展的助力器。

参考文献：

[1] （英）维克托・迈尔―舍恩伯格，肯尼思・库克耶，著.盛杨燕，周涛，译.大数据时代[M].杭州：浙江人民出版社，2013.

[2] 中国电子技术标准化研究院.大数据标准化白皮书，2014.

[3] 王忠.大数据时代个人数据隐私规制[M].北京：社会科学文献出版社，2014

[4] 美国总统行政办公室.大数据：抓住机遇、保存价值，2014-5.

大数据时代的主要特征篇（8）

中图分类号：TP391.41 文献标识码：A

数码艺术设计是现代艺术品最常用的艺术设计手段，是指利用数字化形式、以计算机设计为主的艺术设计，①②③已广泛用于广告设计、电子游戏、动漫制作以及影视特效等产品设计中，可以平面也可以是立体的二维、三维的数字化作品，可以是静止的也可以是动画的艺术产品。而三维人体造型艺术产品是结合人体生理学特征，通过数字化手段设计的模拟人形艺术产品，包括模拟人形玩偶、仿真机器人设计等等，是现代艺术设计手段与人体生理学完美结合的产物。因此，人体造型艺术设计产品不仅要具有艺术美学特征，还要考虑人们对于真实人体的视觉审美效果，也就是要能够真实地反映人体平面和三维的特征，既要有艺术设计上的夸张表现，又要充分尊重人类自然审美观，保证模拟人形产品的“仿真性”。这就要求艺术家在利用数字化设计人体艺术品之前，充分了解人体平面与三维数据特征，才能做到产品的“逼真性”，在这方面人体解剖学无疑可以为人体造型艺术提供基本的人体特征数字，在三维人体造型艺术产品设计过程中做出了巨大贡献。然而，由于人体解剖学数据主要来源不是人类活体生理特征数据，当艺术发展到一定高度时，其对人体艺术设计的发展和充分展现人类自然生活状态下的模拟人产品设计反而带来了阻碍。而且随着更多的展现现代人体艺术产品的涌现，更需要有效采集大量的充分的人活体数据特征，以适应高度艺术化的、模拟真实人类产品设计的需求。艺术设计工作者为了有效采集人类活体的平面与三维特征数据，开始应用现代的录影、摄像等手段进行人活体数据采集，在一定程度能够满足人们在动漫及电子游戏等产品的个体化三维艺术设计需要。然而，普通的录影、摄像设备等无法在活体状态下去精确地、大量地数字化人体表面，尤其是内部结构特征。而整体的、精确的、数字化人类活体表面和内部结构特征，则是三维人体造型艺术产品能否真实反映人类自然美的关键。

1 数码艺术与人体特征数据采集

人体数字化三维造型艺术设计的发展通常认为起源于上世纪60年代，作为现代艺术设计的代表性人物乔治·开普斯和罗伯特·劳申伯等开始尝试数码艺术设计，数码艺术设计随着现代计算机技术的发展，逐渐形成独立的“数码艺术设计”学专业。数码艺术设计的特点是既要包含艺术的美学效应，又要表现出通常绘画艺术难以表达的美学效应，因此数码艺术产品往往具有华丽的必须形式、充满想象和奇幻的空间立体效应，带给人一种视觉上的刺激和精神上的强烈震撼。数码艺术设计已经在现代电子游戏、动漫制作、影视特效以及广告产品设计中广泛使用，数码艺术设计不仅是平面设计，也包含立体设计，如现代3D动漫大量借用了计算机设计手段。

艺术设计永远离不开社会和科技，数码艺术设计也是随着现代社会及科技发展而诞生的，借助于计算机数字化革命的到来形成的独特的艺术设计形式。因此，数码艺术设计与以往的艺术设计不同，其主体不仅仅是人类，在人的能动思维下，还必须借助计算机设计软件，进行一个人机联动的全新的艺术创作形式。因此，数码艺术设计实际上就是一个现代科技的多学科交叉的产物。③同以往的艺术设计主要要求设计者具备艺术创作能力和艺术鉴赏能力不同，数码艺术设计还要求设计者要了解计算机数字化处理原理，掌握计算机软件应用和超强的空间艺术想象能力，才能够将数字化设计真正地与艺术美学结合，创作出具有艺术震撼效果的数码艺术设计产品。但同时，所有的艺术设计产品，如传统的绘画艺术、雕塑艺术、摄影艺术产品等等，都必须表现出艺术特质和灵魂，因此，数码艺术产品也不能丢弃传统艺术的表现形式和美学特性，也必须遵循大众的艺术审美观，尤其在人体数字三维造型艺术设计方面，更要尊重人类自身的审美观和人类性别的差异特征。而要保证人体数字三维造型艺术设计的真实感，就必须有来自人类活体的特征数据作为数码艺术设计基础。

在早期人体艺术设计中，为了获得有关人体表面和立体的特征性数据，艺术家开始从事人体生理解剖学研究，通过测量死者的人体数据，而将医学与艺术结合。在这方面达·芬奇和维萨利无疑做出了巨大贡献，达·芬奇曾详细绘制了人体解剖学图谱，并采用数学方法计算人体解剖学获得的人体特征数据，丰富了和完善人体艺用解剖学。④因此，在艺术设计的早期，设计者采用的人体各种数据，不论是人体表面还是内部的结构数据，主要来源于人体解剖学。然而，人体解剖学数据对于艺术设计而言，存在一个致命的缺陷，就是这些人体数据主要采自人类死亡后的人体特征数据，由于人体死亡后的脂肪溶解、肌肉萎缩以及脱水等等因素的影响，尸体缺乏人类活体的美感，而且与人活体数据存在一定差距。随着现代科技进展，人们为了弥补来自解剖学数据的不足，开始尝试使用现代电子影像设备，如摄像机等采集人类活体数据。这些数据可以很好地复制出模特者的表面特征，但这些数据也存在一定的缺点，那就是这些数据仅来自个别的“模特”，虽可以代表一个个体的特征，却不能反映人类男性或女性活体特征的普遍性。

2 电子计算机断层摄影采集人类活体数据

在20世纪末，伴随计算机科学的发展，现代医学检测技术也获得突破性进展，其中最具代表性的成果就是现代可视医学的发展，尤其是影像医学的飞速发展，使得人们可以直接观察人活体表面的、活体内部结构以及人体深层次结构变化。作为现代可视医学的代表，电子计算机断层摄影（Computed Tomography，CT）是现代最重大成果之一，CT是利用计算机数据处理功能与医学X线扫描相结合形成的现代数字化可视医学检测技术，1969年由Hounsfield设计成功，1979年因此获得诺贝尔医学生理学奖。CT的发展先后经历了平面CT以及三位立体CT的发展过程，现代立体CT（多层螺旋）已经广泛应用与医学人体结构观测中。⑤⑥CT的基本原理是利用X线具有穿透人体软组织能力，既可以观察人体表面结构，也可以观察人体内部组织结构，同时利用计算机技术可以快速、大样本采集和处理数据能力，再将采集的人体数据进行数字化处理，通过精确的数据反映活体人体特征。⑦⑧⑨CT在医学诊断方面已经广泛普及，然而，使用CT采集人类活体平面及三维数据，应用于现代人体数字三维造型艺术设计还是新的尝试。⑩

利用CT采集人体特征数据的优点是，不仅可以测量人体的表面，采集人体平面数据，也可以通过多层螺旋CT观测机体结构获得三维立体数据，通过计算机处理数据还可以大样本采集数据，快速、自动化处理数据，更具有科学性，能真实反映人体特征数据。利用三维重建技术还能准确获得人体立体的特征数据，而且可以精确测量至0.01mm，并能够在人活体状态下观察人体内部结构特征。作为艺术设计工作者，不仅需要平面观察和设计，更要采用立体的方式进行艺术设计，尤其是设计模拟人形产品时。现代影像医学CT为我们提供了一份不可多得的人体可视性医学与艺术观察相结合的工具，作为可视性医学技术的代表——CT不仅能定量的、平面的观察和采集人体数据，而且可以多角度、全方位、立体地观察人体和采集数据，其精确的数据采集及三维重建技术优势为艺术研究开辟了新的手段。因此，艺术不仅可与医学解剖学完美地结合，艺术同样也可以与现代医学技术相结合，利用现代医学技术作为基础创作出更为完美的模拟人类艺术作品。

3 CT采集人体数据的应用

模拟人形产品设计首先要保证“模拟”更具有“真实感”，也就是不仅仅神似，还要形似，才会给观赏者带来“模拟”的“真实感”。豘为了评价CT在人体数据采集中的优点和科学性，研究曾选择了40例健康自愿者进行人活体数据CT测量，然后利用CT计算机处理系统对采集的人体数据进行分析，再利用人体比例计算公式，对人体特征性数据进行计算，分析了男女性别在形体方面的差异。豙数据采集基本情况如下，选取40例健康志愿者，其中男、女各20例，年龄从18岁到40岁，全部志愿者的年龄平均为24.3岁。选取的20例男性健康志愿者身高平均为1735.50mm，身高范围在1700mm至1760mm；选取的20例女性健康志愿者身高平均1628.00mm，身高范围在1600mm至1660mm。数据采集以骨骼特征明显的部位为基点，如手足、臂长及头部等，研究结果发现20例女性健康志愿者头高与身高比为15%，头高平均为243.7590mm；20例男性健康志愿者头高与身高比为13.2%，头高平均为228.8075mm，20例女性志愿者头高/身高比值与20例男性志愿者比较有1.8个百分点的不同。20例女性志愿者大腿长度/身高比值与20例男性志愿者比较也有高达1.6个百分点的差异，如男性平均大腿长度占身高26.6%，女性平均大腿长度占身高25%。男性与女性头高/身高比的不同，以及男性与女性腿长/身高比例的不同，可能是男女体格特征差异的重要表现。这种骨骼特征的明显差异，更科学地阐述了男女性别差异造成的人体特征差异，也为人体艺术设计男、女模拟人形产品形态差异提供了重要的科学依据。因此，利用CT采集人活体数据，不仅可以大样本采集，而且更精确、更科学。

人体造型艺术设计已广泛应用于动漫、电子游戏及影视中，为了增加视觉欣赏效果，现代人体造型艺术更多地使用了三维人物造型设计形式。三维人物造型艺术设计需根据应用的目的进行相应的艺术设计，如影视作品中的三维成像人物设计，通常要根据影视作品的内容需要，首先要进行美术创作（绘画等），然后才利用计算机进行人物造型设计。随着现在立体电影的大范围普及，为了使影片能够真实地反映目标人物，影视制作已经开始规范和要求在人物设计方面，需要对造型进行写实化、再结合艺术设计进行人物作品创作。因此，现代影视作品展示给人们的是具有真实感和震撼视觉的艺术写实效果，其中代表性作品有《贝奥武夫》。此影片在之中方面，可谓已经可以做到以假乱真的完美视觉效果，角色已经让人无法分辨是动漫作品还是真人演出，这就是现代计算机技术与艺术医学相结合的代表性作品。而且现代影像医学CT在精确测量以及多方位观察人体方面更具有得天独厚的优势，如果能够把CT采集的大量人活体数据应用于模拟人形产品设计中，必将带来更为真实的视觉效果。

注释

①　黄鸣奋.数码艺术50 年:理念、技术与创新文艺理论研究,2004(6):80-86.

②　王燕.绘画艺术的延伸与发展:数码艺术.内蒙古师范大学学报(哲学社会科学版),2008(6):38-39.

③　孟显波.绘画艺术的延伸与发展——数码艺术[J].美术大观,2006(10):59.

④　张宝才.人体艺术解剖学[M].辽宁美术出版社,1998.

⑤　Chen DM, et al. Application of spiral CT with multi-functional reconstruction in the evaluation of complex bone and joint trauma[J]. J Practical Medical Imaging,2007.8(2):89.

⑥　Liu J, Qiu DW. Research on three-dimensional reconstruction of CT images and its application in the diagnosis of lumbar spondylosis[J]. China Medical Herald,2010.7(3):93.

⑦　张绍祥等.第3例中国数字化可视人体数据集报告[J].第三军医大学学报,2003.25(15):1332.

⑧　Qi J, Zhang X. Preprocessing of 3D body data before statistic analysis[J]. J Textile Res, 2006.27(1):42.

大数据时代的主要特征篇（9）

[中图分类号]F407.22[文献标识码]A[文章编号] 1673-5595（2014）04-0001-05

能源价格一直是经济研究者关注的重要课题，由于能源市场参与主体的多元化，不同理性的参与主体的影响会在能源价格上有所体现，因此，能源价格影响因素的复杂性和综合性表明能源价格是一个多维的非线性系统，如果只是通过线性多元回归模型进行预测往往预测精度难以保证，因此必须对能源价格进行非线性特征研究以便探寻能源价格的一般性内在规律和非线性特征。目前对石油价格和天然气价格非线性特征的研究并不多，主要集中在石油价格的分形特征和混沌特征的研究方面。比如，孟刚等利用1976―2004年的世界平均石油价格进行了研究，认为石油价格市场是一个分形市场。[1]王洲等在非线性系统及复杂性理论框架内，采用相空间重构技术定量地研究了石油价格的混沌特性，并且对石油价格进行了预测。[2]魏学薛等以美国市场西德州轻质原油（WTI）价格和北海布伦特（Brent）原油价格为研究对象进行了研究，得出结论：国际石油价格收益率序列不是独立同分布序列，有一定的非线性结构并且价格波动呈现群聚性特点。[3]何凌云、李君臣等以Brent和WTI原油价格为研究对象，应用R/S分析法研究了上述原油价格的分形特征，得到了相应的Hurst指数，并且发现了价格系统对信息的长期记忆性。[45]

可以看出，近年来关于能源价格非线性特征的研究不多。目前BDS（Brock Dechert Scheinkman）法和替代数据法是应用比较广泛的非线性特征研究方法。鉴于此，本文利用BDS法和替代数据法，以布伦特原油现货价（BrentOil）、大庆原油现货价（DaqingOil）以及NYMEX天然气期货价（NYMEXGas）和亨利中心天然气现货价（HenryGas）为研究对象，研究上述能源价格的非线性特征，为进一步寻找石油和天然气价格的内在的规律性以及今后的能源价格的非线性预测提供一些有益的启示。

一、方法论

（一）BDS法

能源价格时间序列往往是自相关的，要消除其自相关的影响，通常拟合p阶自回归模型，在选择合适的阶数p后，计算自回归模型的残差序列，判断该残差序列的BDS统计量是否为独立同分布。如果检验结论不是独立同分布，则意味着能源价格序列在某个显著水平下是内在非线性的。

（二）替代数据法

替代数据法主要由检验统计量和零假设构成。其基本逻辑是根据原始时间序列的均值和方差等线性性质，构建零假设，即构建相应的高斯线性随机过程，该随机过程产生相应的替代数据。通过对比原始数据与替代数据的检验统计量来说明原始数据中是否存在确定性的非线性特征。

1. 零假设

零假设1：原始数据由独立同分布（IID）的随机变量产生。

该假设根据高斯型的随机变量分布产生替代数据，并且替代数据和原始数据的均值、方差和幅值分布等特性一致，但是替代数据不具有原始数据之间的关联性。该零假设用于分析原始时间序列是否存在确定性成分。

零假设2：原始数据是由均值、方差和频谱线性相关高斯过程所产生。

该零假设的目的在于检验原始数据是否存在非线性成分，替代数据的生成有两种方式：一种是用自回归模型产生替代数据，另一种是用随机化相位方法来生成该假设的替代数据。其思想是通过重构原始数据的功率谱以保证替代数据同原始数据的线性相关性。本文采用Lei M给出的改进算法产生相应的替代数据[7]，重构原始数据的Fourier频谱。首先对原始数据进行Fourier变换：

该零假设产生的替代数据和原始数据的幅值分布一致，而且替代数据也具有原始数据的静态、单调非线性性质。所产生的替代数据是非线性的，而这种非线性不是由动力系统产生的。[8]

2. 检验统计量

如果原始数据与基于零假设所产生的替代数据的检验统计值显著不同，则该零假设被拒绝，说明两者有本质不同。否则，该零假设不被拒绝，说明原始数据与零假设基本一致。检验统计量有两种形式，即中枢性和非中枢性检验统计量。Theiler等建议采用中枢的、与替代数据的产生方法无关的检验统计量。[9]本文选择关联维数作为检验原油和天然气价格的检验统计量。

C（l）=1n2∑ni=1∑nj=1θ（l-Xi-Xj），

D2=liml0lnC（l）lnl

其中，・是Euclidean范数；θ是Heaviside函数，即如果r≤0，则 θ（r）=0；如果r>0，则θ（r）=1；Xi是时间序列重构相空间后的第i行向量。在本文中，根据自互相关函数估计延迟时间，重构相空间的延迟选为1，嵌入维数2～15。

二、实证研究

（一）数据选择和处理

由于获取数据的有限性，本文选取布伦特原油现货价、大庆原油现货价以及NYMEX天然气期货价和亨利中心天然气现货价的日数据为研究对象，数据来源于WIND数据库。用于实证分析的是上述能源的日数据时间序列的对数收益率序列，即生成原始数据，这样可以将时间序列的趋势去掉。

（二）数据的统计分析

由表1看出，布伦特原油现货价、大庆原油现货价以及NYMEX天然气期货价和亨利中心天然气现货价的收益率序列的峰度和偏度系数分别不等于3和0。大庆原油现货价和布伦特原油现货价收益率的偏度小于零，说明低于平均收益率的天数要略小于高于平均收益率的天数，而NYMEX天然气期货价和亨利中心天然气现货价收益率的偏度大于0，说明低于平均收益率的天数要略大于高于平均收益率的天数。以上能源价格收益率的JB统计量在1%的显著性水平下拒绝收益率服从正态分布的假定，且有“尖峰厚尾”特征。因此拒绝原假设，即四种能源价格收益率序列不服从正态分布，存在长相关特征并具有一定的非线性结构，这同有效市场假说是相悖的。下面运用基于BDS法和替代数据法对以上四种能源价格收益率进行非线性特征研究。

（三）BDS法非线性特征检验

在实证研究中，BDS检验需要选取一个适当的参数ε值。其中选取ε值的一个标准：ε取值太大会高估嵌入空间中向量间的贴近程度，ε取值太小会导致过度接受零假设。对于大样本（N>500）情况，Brock等建议取值为序列标准差的05、075、10、15和20倍。因此，利用上述BDS统计分析法，ε取值为05、075和10，嵌入维数为2～10。

由表2可以看出，当ε=05、075、10时，随着嵌入维数的增大，BDS统计值均显著增加，这说明上述BDS统计值均拒绝时间残差序列是独立同分布序列的IID假设，从而说明上述能源价格时间序列中具有一定的非线性结构，存在非线性的相关关系，为了准确地描述能源价格时间序列的变动，必须使用非线性模型。值得注意的是，当ε=05、075和10时，NYMEX天然气期货价和亨利中心天然气现货价的BDS统计值大于布伦特原油现货价和大庆原油现货价的BDS统计值，说明相较布伦特原油现货价和大庆原油现货价而言，NYMEX天然气期货价和亨利中心天然气现货价的非线性特征相对要强。

（四）替代数据法的非线性特征检验

虽然BDS法能够对时间序列进行非线性特征检验，但是BDS法无法判断被检验的序列是确定性还是非确定性非线性序列，而替代数据法能够很好地弥补这一缺陷。因此，本文进一步对上述能源价格时间序列采用替代数据法的三种零假设和关联维数统计量进行检验。

首先，对上述能源价格时间序列进行零假设1检验。根据零假设1，在置信度为95%时，替代数据集产生39组数据。与原始数据一样，替代数据具有同样的方差、均值和概率分布。但是替代数据不具有原始数据之间的关联性。由图1可看出，随着嵌入维数不断增加，原始数据和替代数据的关联维数有显著性差异，这说明原始数据不是由独立同分布（IID）的随机变量产生的，即零假设1被拒绝。结果显示上述能源价格包含了确定性成分，但还不能确定这种确定性是线性的还是非线性的。因此，进一步假设四种能源价格与零假设2一致。

根据零假设2，四种能源价格的替代数据与原始数据具有相同的功率谱，但是不包含非线性确定性成分。由图2可看出，随着嵌入维数不断增加，原始数据和替代数据的关联维数有显著性差异，这说明原始数据不是由均值、方差和频谱线性相关高斯过程所产生，即零假设2被拒绝。这意味着原始数据具有非线性确定性成分。但是，还不能确定这种非线性是否来自于非线性动力系统。为此，将进一步假设原始数据与零假设3一致。

根据零假设3，四种能源价格的替代数据与原始数据具有相同的功率谱和概率分布。由图3可看出，随着嵌入维数不断增加，上述四种能源价格的原始数据和替代数据的关联维数有显著性差异，这说明原始数据不是由线性相关的随机过程经静态非线性变换所产生，即零假设3被拒绝。结果显示该原始数据的非线性特征是内在的和确定性的。图1由零假设1产生的替代数据和原始数据比较图2由零假设2产生的替代数据和原始数据比较图3由零假设3产生的替代数据和原始数据比较由图1、图2、图3可看出，随着嵌入维数的不断增加，原始数据的关联维数增长变得缓慢，而替代数据的关联维数倾向于快速地增加。这一结果表明上述能源价格来自于复杂的非线性系统。同时还可以进一步看出，嵌入维数小于6时，上述能源价格的原始数据和替代数据没有显著性差异，因此，嵌入维数低于6时，上述四种能源价格时间序列可以用少于6个经济变量进行线性模拟短期预测。

三、结论

基于BDS法和替代数据法，本文对布伦特原油现货价（BrentOil）、大庆原油现货价（DaqingOil）以及NYMEX天然气期货价（NYMEXGas）和亨利中心天然气现货价（HenryGas）进行了非线性特征检验，得出以下结论：

第一，从基本统计量分析可以看出，四种能源价格峰度和偏度系数分别不等于3和0，其中大庆原油现货价和布伦特原油现货价收益率的偏度小于零，说明低于平均收益率的天数要略小于高于平均收益率的天数，而NYMEX天然气期货价和亨利中心天然气现货价收益率的偏度大于0，说明低于平均收益率的天数要略大于高于平均收益率的天数。四种能源价格都存在“尖峰厚尾”的特征，即以上原油和天然气价格收益率序列不服从正态分布，存在长相关特征并具有一定的非线性结构，这同有效市场假说是相悖的。

第二，从BDS法检验结果看，当ε=05、075和10时，随着嵌入维数的增加，BDS统计值均显著增大，并且相关统计量在5%的显著性水平下拒绝独立同分布的零假设，表明上述四种能源价格时间序列中具有一定的非线性结构，存在非线性的相关关系。同时可以看出，相较布伦特原油现货价和大庆原油现货价而言，NYMEX天然气期货价和亨利中心天然气现货价的非线性特征相对要强。

第三，从替代数据法的非线性特征结论看，随着嵌入维数的不断增加，原始数据的关联维数增长变得缓慢，而替代数据的关联维数倾向于快速增加。这一结果表明上述四种能源价格来自于复杂的非线性系统。同时在嵌入维数小于6时，上述四种能源价格的原始数据和替代数据没有显著性差异，因此，在嵌入维数低于6时，上述四种能源价格时间序列可以用少于6个经济变量进行线性模拟短期预测。

[参考文献]

[1] 孟刚，唐雄，张意翔. 国际石油市场的分形特征与价格突变分析[J].统计与决策，2006（12）：5354.

[2] 王洲，马燕林. 国际石油价格时间序列的混沌分析与预测[J]. 资源科学，2008（12）：17911796.

[3] 魏学薛，任彪. 国际原油价格非线性结构的BDS检验[J]. 统计与管理，2009（1）：5758.

[4] 何凌云，郑丰. 基于R/S分析的原油价格系统的分形特征研究[J]. 复杂系统与复杂性科学，2005（10）：4651.

[5] 李君臣，董秀成，高建. 世界原油价格的不确定性研究――基于R/S方法的世界原油价格非线性分析[J]. 价格理论与实践，2009（6）：5354.

[6] BROCK W A， W D DECHERT， J ASCHEINKMAN， et al. Test for Independence Based on the Correlation Dimension[J]. Econometrie Reviews， 1996，15（3）：197235.

大数据时代的主要特征篇（10）

定义大数据

大数据是什么？大数据本身的产生是互联网及其延伸所导致的一个自然现象。一是广泛应用，二是成本急剧下降。体现在几个方面：摩尔定律驱动的指数增长模式、技术低成本化的万物数字化、宽带移动泛在互联驱动的人机物广泛连接、云计算模式驱动的数据大规模汇聚。这就是我们讲的摩尔定律指数增长。按照IDC的统计，2003年、2009年到2012年，大数据从5百万TB到8亿TB到27亿TB，增长速度非常之快。这是大数据的几个主要特征。大数据不仅是量大，重要的是多元。另外它和过去的信息化是不一样的，大数据的很多东西不是靠过去那种主动采集产生的，而是有目标的按照结构化的方式采集的，很多是信息系统通过各种各样的交互自然产生的。

大数据的意义和价值何在？第一，它提供了我们人类认识一个复杂系统的新思维、新手段。实际上如果说我们做到一个无尽大或者不断逼近现实世界里的一个数字化的话，实际上我们用大数据构建了一个数据空间，现实世界的数据空间，也就是这个数据在逼近我们的现实世界，这就可以按照科学研究的第四范式，基于大数据触摸、理解或者逼近复杂系统。随着问题空间的数字化，能不能得到一个数据空间，这个空间里就有很多规律可循，可以挖掘。所以从传统思维到今天的大数据思维，这也是大家经常谈到的几个很重要的变化，从样本到全体、从精确到近似、从因果到关联度，这是一系列的变化。

第二，大数据也会成为促进经济转型的一种新的引擎。大数据这个产业本身一方面促进产业升级，激发商业模式创新、促生新业态，不断改善民生服务。大数据时代有一句话，信息技术的定位。信息技术不仅是一个独立存在的行业，同时也广泛渗透到别的行业，成为该行业的倍增器或者催化剂，而现在这个时代，倍增和催化大概已经不够了，它甚至会成为一个行业的颠覆者。第三，大数据成为提高政府治理能力的新途径。第四，大数据成为提升国家综合能力和保障国家安全的新利器。

大数据应用尚处于发展初期

大数据产业生态系统已经初步形成。一个方面是基础设施，各个计算设备、软硬件、数据处理的不同方法以及各个领域的特定大数据应用形成了大数据产业生态链。那么技术平台是什么？技术平台就是云计算。云计算为数据存储、融合和分析提供了高伸缩性的平台。这个平台向上是支撑各种应用（以服务化的方式），向下管理各类资源。而这个平台一个很重要的特点就是全面走向“软件定义”。就是硬件资源虚拟化、管理功能可编程，对网络化、规模化的各种资源进行灵活高效的调用。

从应用来讲，大数据的应用还处于发展初期，全世界都是如此。中国的大数据应用也才刚刚起步。目前，互联网行业是大数据应用的领跑者，同时也在向别的行业大量拓展。现在 “大数据”这个词用得过热。很多应用也就是过去数据量的增加，有的应用甚至是换了一个“大数据”的马甲而已。从深度挖掘和融合应用角度来看，实际上多元数据的融合才是大数据一个非常重要的特征。虽然大数据应用呈现发展初级阶段特征，还处于“盲人摸象”的尝试阶段，但其巨大潜力已被广泛认知，同时引发新一轮信息化建设热潮，这将成为信息化3.0阶段的重要建设内容。

新时代下的计算和网络能力足够强，设备和技术的成本迅速降低，云计算公用事业化，万物互联达到人机物融合，渗透率跨过了临界值，大数据分析挖掘手段以及利用大数据的方式影响了我们的方方面面。国家也制定了“互联网+”行动计划，推动移动互联网、云计算、大数据、物联网等方面的发展。

我理解的“互联网+”首先是加法，其次为升级、延伸。这个“+”会带来颠覆性的影响。除了成为行业的倍增器也会成为行业的颠覆者。所有的行业都离不开它，离不开三个关键词：跨界、融合、创新。

“互联网+”

是信息化3.0的指南

“互联网+”本质上是传统行业/产业信息化的深化和泛在化，同时它也是孕育新兴形态的一个平台，是互联网技术、模式、思想与传统行业的深度融合，它需要我们促进信息基础设施的完善、数据资源的积累、新型业态的诞生和成长。“互联网+”，毫无疑问，就是现在信息化3.0这个时代的基础设施、思维模式和实施指南。也就是说，数据的深度挖掘和融合应用会成为新一代信息化应用的主要特征。

十八届五中全会公报指出“实施网络强国战略，实施‘互联网+’行动计划，发展分享经济，实施国家大数据战略”。从这些方面都体现了我们在信息化3.0时代，随着互联网的不断延伸和扩展，网络强国战略恰逢其时。信息化3.0时代在应用上有很多创新，能不能在基础设施、技术上自主可控甚至引领，是值得我们探究的事情。

大数据时代的主要特征篇（11）

大数据概念和传统数据概念具有较大的区别。就目前状况而言，其概念具有较大的模糊性和不确定性。“较为统一的认识是大数据有四个基本特征：数据规模大（Volume），数据种类多（Variety），数据要求处理速度快（Velocity），数据价值密度低（Value），即所谓的四V特性。”[1]被誉为“大数据商业应用第一人”的维克托・迈尔・舍恩伯格在《大数据时代》一书中前瞻性地指出：大数据带来的信息风暴正在变革我们的生活、工作和思维，大数据开启了一次重大的时代转型。他在书中用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。因此，大数据是这个时代的重要特征，它深刻地影响着人们的生产和生活。

21世纪初的flas的兴起，为动画产业和新媒体的结合奠定了坚实的基础。新媒体是大数据时代下的重要平台，其具有极强的包容性和纳构性。这为动画的极速发展做好了承载基础。大数据语境下的动画必须与时俱进，能够在新的条件下做好面对各种变化的准备，和传统背景下的动画相比较，大数据语境下的动画产业具有以下特点：

（1）交互性。大数据语境所呈现的是广袤的数据信息，而所有的数据不具备单独的意义，在整体基础上才会显示出其价值。而在这样的逻辑条件下，数据的主体，即参与数据的人，具有参与的主体性。这导致大数据语境具备“去中心”、“非标准”、“整体性”等特征。因此，交互性是这个时代的重要特征。从动画发展而言，交互性带来了主客双方的积极参与，双向建构能够极大地促进动画的发展。创作者和观者之间的距离被大数据消解掉，创作主体和观者之间的认知发生变化。二者主体意识更明确，观者能够通过各种数据的传递给动画创作者直接反馈信息，动画创作者能够最快速地接收新思想，从而完善作品。

（2）成年化。大数据所映射的人群更多是成年人，在以大数据为依托的各种媒体平台中，成年人是最为活跃的人群。相对低龄人群而言，他们更具有参与意识，主体意识更明确。因此，在动画产业中，首先反映在受众年龄上。由于不断地有成年人踏入互联网平台，自身发展起来的创作欲望得到了极大的释放，各种动画作品相继投放到大数据平台。而活跃在这个平台的大量成年人拥有话语权。他们带来的效果之一就是促进了动画受众的大龄化。相较之传统动画以低龄人群为主的策略，大数据给出的答案很明确――成年人同样是最广泛的受众，并且有不断扩张之势。

（3）价值取向的大众化。随着大数据背景下的新媒体平台的自由与开放特征的彰显，人人都是参与者，人人都是主体。从客观上促进了动画产业在价值取向上的大众化。大众化是大众文化的产物，是对精英文化的消解，是大众自我建构意识和自我身份认同的表现。因此，大数据背景下的动画产业所具有的价值取向大众化特征，能够促进主体的多样性，能够带来受众的多样性。不仅如此，“艺术源于生活”的创作理念能够得到最大程度的彰显，动画产业也将呈现出创作上的丰富性和接受上的直接性。

通过分析可以看出，大数据语境下的动画发展具有广阔的发展空间，同时拥有巨大的艺术接受者群体。在这样的背景下，动画产业应该顺势而为，不断超越自身困境，完善发展路径和创新机制。就目前的动画自身而言，从内涵上来讲，还有较大的完善空间。只有在突破自身局限的探索中，动画产业在大数据背景下才能够真正从容地多维发展。探寻发展路径，可以从以下几方面做尝试：

（1）以核心价值为导向的叙事逻辑。核心价值体现一个时代的整体价值取向，具有极大的普遍性和认同感。动画产业是文化产业的重要组成部分，其核心应该是有助于受众整体情感的抒发，而非小众群体情感的肆意宣泄。以《疯狂原始人》为例，其被认为是一个核心价值取向主流得近乎平庸的故事，从叙事结构上来讲，其近乎平铺直叙，毫无耳目一新之感，但就是这样的一部动画电影，却取得了巨大的成绩，在受众心目中留下了难以磨灭的影响。归根结底，该动画电影以核心价值为导向的叙事逻辑更偏重动画精神的传递，叙事结构上的波澜不惊往往能够最大限度地为观者注入创作者感情。因此，大数据语境下的动画发展，不能以小众取代大众，以“非主流”取代“主流”，相反，应该高扬核心价值观，产生普遍的认同感，这是当下动画发展值得深思的方面。

（2）以传统文化元素为动力的创作模式。传统文化元素能够极大地激发观者的文化认同感和文化自豪感，有助于动画创作者和接受者的双向建构。以中国传统文化为例，可以取材用于动画创作的范围极其广泛。以20世纪初期万氏兄弟的动画为例，其动画中的形象均取之于中国古典文学。《大闹天宫》是中国动画源头的经典作品，其中的孙悟空形象既吸收了古典文学中的形象，也借鉴了中国京剧、昆曲等的脸谱和打扮，融入了创作者的主体精神。当然，以传统文化元素为动力进行创作，应该注重以下几方面内容：第一，要充分尊重传统文化元素本来面貌。在当下的很多动画作品中，不乏吐槽传统文化，糟蹋传统文化的现象出现。这种现象除了给传统文化带去不良影响外，更多的是体现了创作者以及创作团队的肤浅，同时也给整个作品带来不良影响，当然这种现象也是对受众极不负责的行为，是极不尊重受众的行为。第二，对传统文化要持“取其精华去其糟粕”的客观态度。传统文化中不乏一些脱离时代，不符合当下实际的内容。动画创作者及团队应该与时俱进，和时代相结合。将传统文化中最经典的东西放大，让受众能够在其中感受到传统文化的魅力所在。第三，将传统与现代有机结合。大数据背景下的动画产业发展具有时代特征。因此，在动画创作中，应该将传统文化和时代特征有机融合，让受众真正感受到动画作品的当下性，而非一部针对传统文化的说教片。以上三方面，是在运用传统文化元素进行动画创作过程中应该关注的问题。只有如此，体现传统文化的动画作品才是具有灵性和活性的作品。

（3）建立国际视野下的动画发展机制。动画从二维动画发展到三维动画，是计算机技术发展的产物，随着技术的不断进步和发展。三维动画也将呈现出更加广阔的发展空间，相比较而言，国外三维动画发展较早，且已经达到技术与艺术统一的层次，国内三维动画发展相对较晚，但发展迅速，潜力巨大。因此，我们在不断探索和发展自身动画的前提下，应该建立起全球视野，吸收和借鉴国外发展的成果，不断自我创新，循序渐进地发展自身动画。这是大数据语境下动画发展的必然趋势，也是各个领域发展的趋势。同时，建立和探索有利于动画发展的机制，将促进动画发展的速度。

参考文献：

[1] 马建光，姜巍.大数据的概念、特征及其应用[J].国防科技，2013，34（2）.

返回列表

大数据时代的主要特征大全11篇

大数据时代的主要特征篇（1）

大数据时代的主要特征篇（2）

大数据时代的主要特征篇（3）

大数据时代的主要特征篇（4）

大数据时代的主要特征篇（5）

大数据时代的主要特征篇（6）

大数据时代的主要特征篇（7）

大数据时代的主要特征篇（8）

大数据时代的主要特征篇（9）

大数据时代的主要特征篇（10）

大数据时代的主要特征篇（11）

推荐精选

推荐范文

相关期刊