数据分析分析技术大全11篇

时间:2023-06-06 16:07:09

绪论:写作既是个人情感的抒发,也是对学术真理的探索,欢迎阅读由发表云整理的11篇数据分析分析技术范文,希望它们能为您的写作提供参考和启发。

数据分析分析技术

篇(1)

在生物信息学的成果的理论基础之上,通过统计的方法查找未知的生物化学功能的疾病基因的位置。这个方法预先通过患病家族连锁分析,再推断包含这些基因的染色体区域片段,然后检查该区域来寻找基因[1]。

数据挖掘在DNA数据分析的发展状况

现今所采用的是分子生物学与微电子技术相结合的核酸分析检测技术[2]。DNA芯片技术的基本原理是将cDNA或寡核昔酸探针以105~106位点/cm2>/sup>的密度结合在固相支持物(即芯片)上,每个位点上的cDNA或寡核昔酸探针的顺序是已知的,将该探针与荧光标记的待测样品DNA,RNA或cDNA在芯片上进行杂交,然后用激光共聚焦显微镜对芯片进行扫描,并配合计算机系统对杂交信号做出比较和检测,从而迅速得出所需的信息。

基因数据挖掘常用的方法:①核酸与蛋白质比较的预测分析:蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。②针对核酸序列的预测方法:针对核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DN段的假想产物与某个已知的蛋白质或其他基因的产物具有较高序列相似性的话,那么这个DN段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其他的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。

案例分析

疾病是由于基因的片段内的某个位置存在或发生改变而引起的,也就是发生突变。能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。对基因的数据挖掘,就是对这些突变位置的寻找,并且找出该位置与所有者身患的疾病之间的关系。

方法的选择:笔者在设计中选用单纯的DNA序列进行比较,基因在计算机的表示和存储时,可以使用一条很长的字符串来表示基因的某一条序列,使用文件的形式进行对基因工作者的提取成果创建一级数据库,使用文件修整的方法进行数据的清洗,以满足数据在二级数据库中的一致性。同时在文件比较过程中,生成某两个数据文件的差异状况,保存在二级数据库库中,进一步的操作是对差异的位置的某个类型所占的比例。最后通过事先的对患者患病信息的统计得到的某种疾病在群中所占的比例,与其相比较,如果这两个比例相等,则可以认为这个位置的某个类型引起疾病的发生。从医学院得到一些基因片段文件信息和患者(所有者)患病情况。

系统的实现:基因片段在计算机中以文件形式存储,用文件名标识其所有者(源体)。片段起始地址和长度信息和所有患者患病情况保存在本机数据库中。在程序测试过程中,将片段复制成40份,对其中部分文件的序列进行稍作修改,对所有患者的患病状况进行稍作修改,以创造测试环境。显示在与基因数据挖掘软件同在一根目录下的序列文件的集合。

其中一个文件所存储的基因信息,见图1。

启动统计程序界面,单击清空数据库中的临时用表数据,将数据库中有可能的杂音信息去掉。并对其中的所有文件进行统计前片段剪切,使所有片段的起始地址和长度都相同,避免发生序列移位。

没有进行片段剪切之前,浏览文件所存的片段信息,片段剪切完成之后,设置进行比较操作的甲、乙组的文件添加,因为本次测试只检验片段中的一块区域(文件中片段的所有信息),所以在起始序号那里添加为0,终止序号那里添加为175。这样则可以保证统计文件的所有信息都被统计。

单击结果显示按钮,可以见到程序以表格和条形图标方式。可以看到1、3、5、12、14、16、18、13、31、34、87、94、139、166位置的条形段较高。说明在这些接受统计的片段中,在上面提到的位置处存在的差异较大,与某遗传疾病的关联的可能性就越大。

如果用户想要在初步统计结果的基础上,按照数据库中所有者的疾病状况进行详细统计的话,单击菜单栏的详细统计按钮,选择按疾病详细统计,则将弹出窗口。

选择弱视,输入,则在文本框中显示与其关联的位置为1、3、5、12、14、16、18、13、31、34、87、94、139、166。

由此,用户可以根据本系统所给出的预测对弱视遗传疾病与序列中的特定位置,选择适当算法进行进一步的计算及检验,证明预测结果是否符合关联理论。数据挖掘方法体系中的智能聚类的相关技术则可较好的解决类别数判定、结果验证等问题。

结 论

对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,需要一些新的和好的算法;但技术和软件还远没有达到成熟的地步,因此需要不断探索及研究。

参考文献

篇(2)

1.1信息安全分析引入大数据的必要性

大数据具有“4V”的特点:Volume、Variety、Velocity和Value,可实现大容量、低成本、高效率的信息安全分析能力,能够满足安全数据的处理和分析要求,将大数据应用于信息安全领域能够有效的识别各种攻击行为或安全事件,具有重大的研究意义和实用价值。随着企业规模的增大和安全设备的增加,信息安全分析的数据量呈指数级增长。数据源丰富、数据种类多、数据分析维度广;同时,数据生成的速度更快,对信息安全分析应答能力要求也相应增长。传统信息安全分析主要基于流量和日志两大类数据,并与资产、业务行为、外部情报等进行关联分析。基于流量的安全分析应用主要包括恶意代码检测、僵木蠕检测、异常流量、Web安全分析等;基于日志的安全分析应用主要包括安全审计、主机入侵检测等。将大数据分析技术引入到信息安全分析中,就是将分散的安全数据整合起来,通过高效的采集、存储、检索和分析,利用多阶段、多层面的关联分析以及异常行为分类预测模型,有效的发现APT攻击、数据泄露、DDoS攻击、骚扰诈骗、垃圾信息等,提升安全防御的主动性。而且,大数据分析涉及的数据更加全面,主要包括应用场景自身产生的数据、通过某种活动或内容“创建”出来的数据、相关背景数据及上下文关联数据等。如何高效合理的处理和分析这些数据是安全大数据技术应当研究的问题。

1.2安全大数据分析方法

安全大数据分析的核心思想是基于网络异常行为分析,通过对海量数据处理及学习建模,从海量数据中找出异常行为和相关特征;针对不同安全场景设计针对性的关联分析方法,发挥大数据存储和分析的优势,从丰富的数据源中进行深度挖掘,进而挖掘出安全问题。安全大数据分析主要包括安全数据采集、存储、检索和安全数据的智能分析。(1)安全数据采集、存储和检索:基于大数据采集、存储、检索等技术,可以从根本上提升安全数据分析的效率。采集多种类型的数据,如业务数据、流量数据、安全设备日志数据及舆情数据等。针对不同的数据采用特定的采集方式,提升采集效率。针对日志信息可采用Chukwa、Flume、Scribe等工具;针对流量数据可采用流量景象方法,并使用Storm和Spark技术对数据进行存储和分析;针对格式固定的业务数据,可使用HBase、GBase等列式存储机制,通过MapReduce和Hive等分析方法,可以实时的对数据进行检索,大大提升数据处理效率。(2)安全数据的智能分析:并行存储和NoSQL数据库提升了数据分析和查询的效率,从海量数据中精确地挖掘安全问题还需要智能化的分析工具,主要包括ETL(如预处理)、统计建模工具(如回归分析、时间序列预测、多元统计分析理论)、机器学习工具(如贝叶斯网络、逻辑回归、决策树、随机森利)、社交网络工具(如关联分析、隐马尔可夫模型、条件随机场)等。常用的大数据分析思路有先验分析方法、分类预测分析方法、概率图模型、关联分析方法等。可使用Mahout和MLlib等分析工具对数据进行挖掘分析。综上,一个完备的安全大数据分析平台应自下而上分为数据采集层、大数据存储层、数据挖掘分析层、可视化展示层。主要通过数据流、日志、业务数据、情报信息等多源异构数据进行分布式融合分析,针对不同场景搭建分析模型,最终实现信息安全的可管可控,展现整体安全态势。

2安全大数据分析的典型应用

2.1基于用户行为的不良信息治理

中国移动开展了基于大数据的不良信息治理工作,主要针对垃圾短信和骚扰诈骗电话开展基于异常行为的大数据分析。通过开源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大数据分析平台,采集用户的行为数据,构建用户行为分析模型;分别提出了异常行为分类预测模型、统计预测分析模型、社交网络分析模型等,将用户的行为数据输入到模型中,可以精准地挖掘出违规电话号码,并且发现违规号码与正常号码之间存在大量相异的行为特征。通过用户的行为,构建多维度的用户画像数据库,支撑全方位的大数据不良信息治理服务,支撑大数据不良内容的智能识别等。实践表明,大数据分析技术能够挖掘出更多潜在的违规号码,是对现有系统的有效补充。除此之外,中国移动还将大数据技术应用在安全态势感知、手机恶意软件检测和钓鱼网站的分析中,提升了现有系统的分析能力。

2.2基于网络流量的大数据分析

在互联网出口进行旁路流量监控,使用Hadoop存储及Storm、Spark流分析技术,通过大数据分析技术梳理业务数据,深度分析所面临的安全风险。主要分析思路是采集Netflow原始数据、路由器配置数据、僵木蠕检测事件、恶意URL事件等信息,采用多维度分析、行为模式分析、指纹分析、孤立点分析及协议还原等方法,进行Web漏洞挖掘、CC攻击检测、可疑扫描、异常Bot行为、APT攻击、DDoS攻击挖掘等分析。

2.3基于安全日志的大数据分析

基于安全日志的大数据分析思路主要是融合多种安全日志,进行数据融合关联分析,构建异常行为模型,来挖掘违规安全事件。主要的安全日志包含Web日志、IDS设备日志、Web攻击日志、IDC日志、主机服务器日志、数据库日志、网管日志、DNS日志及防火墙日志等,通过规则关联分析、攻击行为挖掘、情景关联分析、历史溯源等方法,来分析Web攻击行为、Sql注入、敏感信息泄露、数据分组下载传输、跨站漏洞、尝试口令破解攻击等应用场景。基于安全日志的大数据分析已经在国际上有广泛的应用。如IBMQRadar应用整合分散在网络各处的数千个设备端点和应用中的日志源事件数据,并将原始安全数据进行标准化,以区别威胁和错误判断;IBMQRadar还可以与IBMThreatIntelligence一起使用,提供潜在恶意IP地址列表,包括恶意主机、垃圾邮件和其它威胁等;IBMQradar还可以将系统漏洞与事件和网络数据相关联,划分安全性事件的优先级等。ZettaSet海量事件数据仓库来分析网络中的安全漏洞和恶意攻击;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全数据仓库)。Orchestrator是端到端的Hadoop管理产品,支持多个Hadoop分布;SDW是构建在Hadoop的基础上,并且基于Hive分布式存储。SDW于2011年BlackHat网络安全会议面世,SDW可从网络防火墙、安全设备、网站流量、业务流程以及其它事务中挖掘安全信息,确定并阻止安全性威胁。处理的数据质量和分析的事件数量比传统SIEM多;对于一个月的数据负载,传统SIEM搜索需要20~60min,Hive运行查询只需1min左右。

2.4基于DNS的安全大数据分析

基于DNS的安全大数据分析通过对DNS系统的实时流量、日志进行大数据分析,对DNS流量的静态及动态特征进行建模,提取DNS报文特征:DNS分组长、DNS响应时间、发送频率、域名归属地离散度、解析IP离散度、递归路径、域名生存周期等;基于DNS报文特征,构建异常行为模型,来检测针对DNS系统的各类流量攻击(如DNS劫持、DNS拒绝服务攻击、DNS分组异常、DNS放大攻击等)及恶意域名、钓鱼网站域名等。

2.5APT攻击大数据分析

高级可持续性威胁(APT)攻击通过周密的策划与实施,针对特定对象进行长期的、有计划的攻击,具有高度隐蔽性、潜伏期长、攻击路径和渠道不确定等特征。现已成为信息安全保障领域的巨大威胁。“震网”潜伏3年,造成伊朗纳坦兹核电站上千台铀浓缩离心机故障。收集业务系统流量、Web访问日志、数据日志、资产库及Web渗透知识库等,提取系统指纹、攻击种类、攻击时间、黑客关注度、攻击手段类型、行为历史等事件特征,再基于大数据机器学习方法,发现Web渗透行为、追溯攻击源、分析系统脆弱性,加强事中环节的威胁感知能力,同时支撑调查取证。

篇(3)

中图分类号:TP399文献标志码:A 文章编号:1009-3044(2008)26-1622-01

The Application of OLAP Technology For Tax Data Analysis

LV Jia

(School of Computer Science & Technology, Soochow University, Suzhou 215006,China)

Abstract: Introduce the application of OLAP technology for tax data analysis,provide assistance decision function for the tax administration department.

Key words: tax data analysis; OLAP

1 引言

随着税务信息化建设的深入开展,特别是在国税系统内基本上已经以省级集中的模式完成了各个应用系统的数据集中工作,税务机关积累了大量的涉税信息,作为信息化高级阶段的数据分析利用已经渐渐成为税务信息化工作的重点。如何突破传统的统计报表模式,利用OLAP技术和丰富的数据资源进行税收数据深度分析,从而更好的为税收管理和辅助决策服务,是当前税收分析工作必须思考的问题。

2 数据分析

联机分析处理OLAP(On-Line Analytical Processing)是基于数据仓库的一种数据分析技术。它使分析人员、经理及管理人员通过对信息的多种可能的观察角度进行快速、一致和交互的存取获得对信息的深入理解。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。

OLAP技术在税收数据分析中可以应用于同行业税负分析。受市场均衡作用的影响,同一产品在生产技术工艺、原材料能源消耗方面有相近之处,适用税收政策有统一的要求,因此反映生产成本费用方面的指标有相同的规律特征。根据这种规律特征,以此检验个体数据指标的表现,找出差异较大的个体予以预警。

在具体实现时,使用星型架构进行建模。星型架构通过使用一个包含主题的事实表(用来存储数据和维关键字)和多个维度表(存放维的层次、成员类别等维的描述信息)来执行决策支持应用。在星形架构中主体是事实表,而有关维的细节则构作于维表内以达到简化事实表的目的,事实表与维表间有公共属性相连以使它们构成一个整体。

OLAP的基本多维分析操作有钻取、切片和切块、以及旋转等。钻取是改变维的层次,变换分析的粒度。切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。

当在OLAP服务器上建立好分析模型后,可以使用MDX多维查询语句进行查询,获取联机分析得出的多维数据集。MDX查询语句类似关系数据库中的SQL语句,也是通过SELECT语句获得查询结果。SELECT 语句可指定一个结果集,其中包含从多维数据集中返回的多维数据子集。若要指定结果集,MDX 查询必须包含以下信息:

1) 层次结构的轴或集的数目。最多可在 MDX 查询中指定 128 个轴;

2) 要包括在 MDX 查询的各个轴上的每个维度的成员;

3) 用于设置 MDX 查询上下文的多维数据集的名称;

4) 来自切片器轴的成员,将在该轴上对来自查询轴的成员进行数据切片。

3 结束语

如何从大量积累的历史数据中分析出有价值的信息,OLAP技术为此提供了一个有效的工具,通过建模后对数据切片旋转等操作,可以方便地对各项数据进行分析,从而为领导提供辅助决策功能。

篇(4)

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2017)03-0104-02

1 综述

1.1 简介

在数字化时代,需要新一代系统架构提升业务创新能力。在新一代系统架构中,大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭建大数据平台时,就着手大数据治理相关建设。

1.2 需求和意义

从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全,提升大数据平台服务能力,让大数据平台变得易使用、易获得、高质量。

但是,目前很多技术解决方案存在诸多安全和效率隐患:业务系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶段的应用角度不同,需要降低系统间的集成复杂度。

2 功能设计

2.1 总体架构

本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格式分为非结构化数据、结构化数据;按数据模型分类为范式化模型数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据处理架构;并提供数据中心平台与安全管理方案,为企业级用户建立一个通用数据处理和分析中心。如图1所示。

2.2 在线数据

在线数据在线通过接口去获得的数据,一般要求为秒级或速度更快。首先应当将数据进行区分:在线数据、或归档数据。本平台中采用:Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续的数据流称为DStream(离散流),一个DStream是RDD弹性分布式数据集的micro-batch微批次,RDD是分布式集合能够并行地被任何函数操作,也可以通过一个滑动窗口的数据进行变换。

2.3 归档数据

归档数据是在线存储周期超过数据生命周期规划的数据,处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技术生态体系内的框架进行计算,这里不详细阐述。

2.4 非结构化数据

通常非结构化的数据不一定具备字段,即使具备字段其长度也不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。

针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中,需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。

2.5 结构化数据

结构化数据具备特定的数据结构,通常可以转换后最终用二维的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要对象。

本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现,而非Hadoop的基于Java的Map-Reduce机制,将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作,为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。

结构化数据根据采集频度可以继续分类为:非实时数据、准实时数据。

2.6 准实时数据

通常准实时数据是指数据存储在平台本身,但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询,但数据的再处理度不高,具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架,Redis作为高速缓存去缓存数据热区,减小高并发下的系统负载。

2.7 非实时数据

非实时数据主要应用于支持分析型应用,时效性较低。通常用于数据的深度利用和挖掘,例如:因素分析、信息分类、语义网络、图计算、数值拟合等。

非实时数据根据数据模型可继续分类为:范式化模型数据、维度模型数据。

2.8 范式化模型

范式化模型主要是针对关系型数据库设计范式,通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区,建议使用并行MPP数据库集群,既具备关系型数据库的优点,又兼顾了大数据下的处理。

2.9 基于维度模型

维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术,而在大数据和开源框架的时代下,本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式,而是参考了MPP并行数据库的思想另起炉灶,省掉不必要的shuffle、sort等开销,使运算得到优化。

3 应用效果

本系统在不同的业务领域上都可以应用,以2016年在某银行的应用案例为例:该银行已完成数据仓库建设,但众多数据质量问题严重影响了数据应用的效果,以不同的数据存储方式,以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施,以元数据、数据标准、数据质量平台为支撑,实现了数据管控在50多个分支,60个局,1000余处的全面推广,实现了全行的覆盖;管理了120个系统和数据仓库,显著提升了新系统的快速接入能力;通过14个数据规范和流程明确了数据管控的分工;数据考核机制的实施,使其在数据质量评比中名列前茅。

4 结语

本文介绍了大数据下数据分析方法及实现技术的大体设计和思路,从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。

篇(5)

所谓大数据,一方面是指在一定时间内无法被常规信息技术和传统数据库管理软硬件工具感知、获取和处理的巨量数据集合;另一方面,是指形成、管理、挖掘大数据, 快速搜集、处理、分析大数据的技术和能力。

大数据的主要特点是海量、非结构化和半结构化、实时处理。大数据技术,或大数据分析技术,就是对这些数量巨大的海量数据进行搜索、整理、分析、加工,以便获得有价值的产品和服务,以及提炼出具有深刻见解和潜在价值信息的技术和手段。

1 大数据分析在公共交通中的应用

交通拥堵日益严重,交通事故频繁发生,这些都是各大城市亟待解决的问题,科学分析交通管理体系成为改善城市交通的关键所在。因此,高效、准确地获取交通数据是构建合理城市交通管理体系的前提,而这一难题可以通过大数据管理得到解决。

大数据分析技术改变了传统公共交通的路径:大数据可以跨越行政区域的限制;大数据可以高效地整合交通信息;大数据可以较好地配置公共交通资源;大数据可以促进公共交通均衡性发展。在大数据中,随着数据库摄入更多数据,所消耗的计算工作量反而递减,配置成本也随之减小,但所做的计算则更加精准。大数据在公共交通中的应用表现在:一旦某个路段发生问题,能立刻从大数据中调出有用信息,确保交通的连贯性和持续性;另一方面,大数据具有较高预测能力,可降低误报和漏报的概率, 可随时针对公共交通的动态性给予实时监控。因此,在驾驶者无法预知交通拥堵的可能性时,大数据可帮助用户预先了解。

2 大数据分析在医药领域中的应用

在医学领域,我们正处在一医学信息爆炸的时代。基因序列、各种医学图像、电子病历记录和多中心临床药物试验等,使生物医学领域跨入网络化的大数据时代。如何从医疗大数据中提取出有用的信息是目前亟待解决的问题,构建医疗大数据系统需要将各家医院通过互联网连接,实现各家医院之间的数据共享。将医疗数据存于专门的数据库中,在信息协作平台上将各种医疗信息分类整合,建立成一个相互共享的网络,从而实现医疗数据信息的共享。

大数据技术的核心就是预测,使用大数据分析技术可以提高诊断疾病的准确率,对有效地治疗疾病具有重要价值。其中最好地体现在传染病预测上,因为传染病的发生、发展、分布与地理地貌、生态景观、人文环境有密切关系,特别在全球气候变化和经济全球化背景下,自然环境及人类社会活动对传染病的影响越来越重要。因此,时间和空间信息对传染病的预测、预警具有重要意义。利用大数据可对传染病疫情的时间、空间信息进行多维搜索,检索、处理和分析这些疫情信息可实现对传染病的流行趋势及影响范围进行预测、预警,对提高传染病防控的针对性、预见性和主动性,抑制流行病的蔓延,以及制定卫生决策都具有十分重要的意义。

3 大数据分析在移动通信网络优化中的应用

当前的大数据技术面临着数据过大和安全隐患越多这两个问题。在移动通信网络发展的过程中,网上用户在不断增加,通信网络的范围在不断扩大, 而移动通信网络所产生的数据量也在不断上升。大数据技术和移动通信网络的安全问题密切相关,一旦技术出现漏洞,移动通信网络的数据就会出现安全隐患。大数据技术中存储功能的是云储存技术,它将大量的网络数据放在统一的平台之上,加大了数据丢失的风险,影响移动通信网络的安全。

优化移动通信网络,需要运用大数据技术的储存功能。移动通信网络的用户在不断变化,每天都要更新大量的数据,而且这些数据都需要进行妥善管理和保存。在这一过程中,可以应用大数据技术的存储功能, 将存储虚拟化作为解决存储问题的有效策略。

优化移动通信网络,需要获取相关的数据信息。移动通信网络的用户非常多,而且其所跨越的时间、空间维度都很大,这些用户在移动通信网络留下的海量的数据信息,使数据获取工作难以继续。在进行数据的获取和收集工作时,移动通信网络可以应用大数据技术,减少人力和物力的投入,同时增加数据的准确度。

4 结语

本文是大数据技术在实际生活领域的应用,分别阐述了大数据分析技术在公共交通、医药领域、移动通信网络优化中的具体运用。借助大数据技术的即时性、准确性和预测性,将其应用到人们的日常生活领域,提高了人们的生活质量。

参考文献

[1]陈美.大数据在公共交通中的应用[J]. 图书与情报,2012(06):22-28.

[2]张春丽,成.大数据分析技术及其在医药领域中的应用[J].标记免疫分析与临床,2016(03):327-333.

[3]汪敏,廖名扬.大数据分析在移动通信网络优化中的应用研究[J].通讯世界,2017(02):123.

[4]祝兴平.大数据分析技术及其在数字出版中的应用[J].出版发行研究,2014(04):13-16.

[5]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J]. 软件学报,2014(09):1889-1908.

作者简介

篇(6)

随着时代的发展和信息技术水平的提高,大数据的发展已经遍布于各行各业,当然在交通运输方面也是如此。而且交通运输部因为运用了大数据分析云平台,在感知识别、网络传输、智能处理以及数据挖掘面都有了非常好的效果。而且在重大工程的实验中,通过加强对物联网、云计算等新技术的研究,还能提高本行业的信息化技术水平。

一、大数据时代智能交通系统的优劣分析

1、大数据时代改变传统公共交通管理路径。大数据的特点是内容丰富和全面,而且还有自己的传输方式,所以不受任何区域的限制。在传统的交通管理中,很容易因为不同区域的信息不够畅通,导致交通管理的效果不是很好,同时经常出现各种信息丢失的情况。而把大数据分析云平台的技术应用到交通管理中,不但能很好的完成不同信息的传递,而且还能最大限度的利用这些数据,发挥他们的作用,提高交通管理的质量和效率。2、大数据下智能交通的优势分析。首先,通过大数据分析云平台的应用,能在很大程度上降低各种费用,而且它还能很好的选择最为行之有效的车辆配置方案,保证道路交通一直处于比较畅通的状态。其次,当出现各种交通问题的时候,通过大数据的分析能给问题的处理和交通的调度提供良好的基础,提高交通的畅通性。最后,在交通监管的系统中,通过大数据分析,还能很好的完成各种事件的预测,降低失误的发生率。3、大数据下智能交通的弊端。由于大数据的应用能提高传递信息的效率,也就间接的会影响到相关安全隐患问题的发生。例如,在大数据下的智能交通,会因为相关人员的位置以及路线信息造成丢失,就会间接的给人们的生命财产造成威胁。除此之外,每个地方都有交通数据,而这些数据还能被大数据管理和应用,而很多车辆计算交通数据都是以静态方式存储,所以使系统所具备的特点无法被除本人以外的事物进行检索。

二、智能大数据的融合

1、关于成熟度的融合。在新时期下,无论是大数据的应用技术还是现代智能交通的技术都发展的非常速度,而且也越来越成熟。在现代化的社会中,无论是智能卡扣电子警察还是智能监控系统,都已经对处理的技术进行了智能化的应用,而且完整度和深度也在慢慢的加深。所以在这种情况下,大数据时代下智能交通很有可能成为新兴的应用领域中最先推广和运用的领域。2、关于技术的融合分析。就目前的大数据分析云计算平台来说,这项技术的应用结构和智能交通的平台系统结构融合度是非常高的,而且的大数据分析云平台技术在智能交通领域中的应用,给社会带来了很大的好处和效应。所以说,这项技术可以作为整个智能建设中的领导者,带领其他的子模块进行很好发展。3、关于群众基础的分析。对智能交通来说,智能交通面向的服务群里就是人民大众,广大人民群众来说,智能交通直接影响着人们的出行,给人们带来非常方面的出行信息,在很大程度上方便了人们的出行,而且也降低了整城市的运营成本。更重要的是,人民群众的生活也越来越有秩序,也会给交通执法人员降低出勤的频率。

三、云平台技术特点的分析

篇(7)

doi:10.3969/j.issn.1673 - 0194.2015.18.046

[中图分类号]TP391 [文献标识码]A [文章编号]1673-0194(2015)18-00-02

新疆油田公司经过10多年的数字油田建设,于2008年建成数字油田,油田中心数据库包括勘探、开发、储运、生产辅助、经营管理等业务领域的各类数据,涉及油田开发的数据包括单井、区块的日月报数据、分析化验数据、试井与生产测井数据、井下作业数据、井史数据以及地理信息数据等,种类丰富齐全,质量达到标准要求,为生产数据分析应用提供了数据资源基础。2010年,新疆油田启动智能化油田建设工作,包括油气生产物联网(A11)项目及单井问题诊断和优化系统研发工作,加大了油田自动化数据采集的力度及智能化分析应用。通过近几年的研究与实践发现,智能油田的全面感知、分析预测、优化决策等均与大数据分析有关,根据油田大数据分析发现油水井生产规律,可以更好地指导油田生产及优化决策。

1 油田大数据的概念及处理流程

大数据首先具有四个主要特点:数据量大(Volume)、产生速度快(Velocity)、数据类型多(Variety),数据的真实性(Veracity),合称4V或4Vs。大数据由巨型数据集组成,其数据量超出人们采用常规方法在可接受时间内收集、使用、管理和处理数据的能力,但最终体现为价值,实现数据信息知识智慧的转变。在油田生产中大数据分析的概念可理解为:在油田生产、管理中产生的具有连续变化、能够反映油田客观规律的各类数据,以及对这些数据的分析处理。

大数据的处理主要包括7个步骤,分别是:数据采集和提取集成、数据清洗、数据分析从而发现有价值的规律、建立分析预测模型、结果展示可视化和知识表达、结果验证,以及对模型的效果评估优化,如图1所示。

2 大数据分析平台及体系架构研究

结合目前新疆油田生产数据建设情况,以及油田生产应用需求,构建新疆油田大数据分析平台及体系架构,如图2所示,主要包括数据抽取、分布式存储、大数据分析及展示应用4层架构。

数据抽取层主要是实现分布在各数据库或系统中的数据整合,并转换成适合数据挖掘或建模的形式,构建样本数据集;存储层主要是实现汇总数据、模型数据、分析数据以及元数据等各类数据的存储,相当于数据仓库;分析层是基于大数据建模算法和工具,挖掘数据中隐藏的模式或关系,采用数据建模软件(如SPSS Modeler、Hadoop等)建立分类或预测模型(规则、公式或方程式),从而生成预测结果,确定评估方法并利用测试样本,结合专家经验不断提升模型精度,辅助油田生产决策;数据应用层将建立的数据模型封装成可运行软件,包括建模算法的实现、数据的可视化和界面设计等,最终展示给用户使用,实现人机交互。

3 大数据分析技术研究

通过上述研究分析总结出大数据分析需要的两大技术:一是大数据抽取及预处理技术,二是大数据分析技术。

3.1 大数据抽取及预处理技术

数据抽取就是将多种结构和类型的数据抽取转化为单一的或便于处理的结构类型。不同时间、不同地点、不同名称的相同数据所表达的内涵和算法要求一致,是标准化、规范化的自然语言集合,便于计算机理解,是数据提取的关键。

数据清洗主要用于确定有用记录和字段,检查数据是否存在缺失、数值异常等情况,解决办法可用剔除法或使用估计值、平均值填补,错误数据可利用逻辑关系手动替换。

数据构建是为了满足大数据建模需求而创建的新字段,以作为特征参数,如平均值。

数据变换是把原始数据转换成为适合数据挖掘的形式,如归一化处理(概念、时间、度量、语义)等。

3.2 大数据分析技术

大数据分析主要包括聚类分析、因子分析、相关分析、回归分析、A/B测试以及数据发掘等,上述方法在油田常用的有聚类分析、因子分析、回归分析和数据发掘。

聚类分析是把具有某种相似特征的物体或者事物归为一类,目的在于辨别在某些特性上相似(但是预先未知)的事物,并按这些特性将样本划分成若干类,使在同一类内的事物具有高度同质性,而不同类的事物则有高度异质性。

因子分析是用少数几个因子去描述多个指标或因素间的联系,即将相互比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原数据的大部分信息。

回归分析是在一组数据的基础上,研究一个变量与其他变量之间的相关关系,寻找被随机性掩盖的变量之间的依存关系。通过回归分析,可以把变量间复杂的、不确定的关系变得简单化、有规律化。

数据挖掘是大数据时代的关键技术,是指从非完整的、海量的、有噪音的、模糊且随机的数据中挖掘隐含在内且人们未提前得知的有用信息的过程。一般来说,数据挖掘的功能有两类:描述和预测。描述性挖掘用于展现集体数据的一般特性,而预测性挖掘用于推算处理数据,完成预测目的。数据挖掘功能同目标数据的类型有关,有些功能适用于不同类型的数据,有些功能则只适用于某种特定数据。数据挖掘功能能够让人得知未知信息,提升数据价值,从而应用到不同领域。

4 大数据分析在油田生产中的应用研究

4.1 异常井自动识别

异常井作为影响产量的主要因素之一,目前被越来越多的油田生产管理人员重视,原来的异常井发现主要依靠人工发现,需要人工查阅大量的油田生产资料才能最终确定,这种方式存在异常井检索工作量大、发现周期长的弱点,影响异常井的及时诊断和措施制订。采用聚类分析和数据发掘方法对异常井进行自动识别,根据异常井的定义:油井当天产量较上月产量波动大于正常范围的井为异常井,排除作业井、调开井、常关井及停电井等因素影响,并采用技术实现算法的编译,系统架构B/S模式进行,目前已广泛应用于油田日常生产,实现了异常井的及时发现,提高了进一步诊断的及时性,提高了员工工作效率,如图3所示。

4.2 异常井智能诊断

异常井诊断作为油田生产必须的一项日常工作一直困扰着油田生产业务人员,目前,大部分油田异常井诊断主要依靠人工完成,人工诊断工作量大且受人为经验的影响,诊断符合率低,可能会导致后续措施制订失误,影响单井生产。因此,采用灰度图像处理技术和人脸识别算法建立抽油井特征功图库,通过油井当前功图与特征功图的相似度对比,实现油井工况的自动诊断,由于一种工况可能有多种表现形式,导致功图解释存在多种情况,因此,可采用因子分析法,分析每种工况下所关联的因子变化情况,建立参数诊断规则库,通过相关因子的指标项对比分析,确诊异常原因,如图4所示,为制订合理的进一步措施提供充分可靠的依据,从而提高单井的生产时率。

4.3 间抽井开关井计划制订

随着油田开发进入后期阶段,地层能量逐年匮乏,目前越来越多供液不足的井涌现出来,我们将其定义为间抽井(间歇出油的井),目前,新疆油田主要由人工制订下个月的间抽井开关井计划,但计划是否合理还需进一步验证,因此,如何更好地控制间抽井开关时间,对于开源节流、节能减排起着至关重要的作用。可采用因子分析和回归分析方法,挖掘影响间抽井开关时间的因素,如动液面、沉没度、液面上升速度等,建立分析预测模型,对模型曲线进行归一化处理,从而供业务人员合理制定间抽井开关制度,达到节能减排、提质增效的目的。

4.4 油井清防蜡预测

目前油田上对油井清蜡措施的实施都按照人工制订的计划执行,平均每口井1个月清蜡1次,这导致有些井还未结蜡就提前清、有些井已结蜡还未清等不合理情况时有发生,不但浪费人力物力,而且影响油井生产。采用因子分析方法通过油井历次结蜡周期、油井工况、清蜡方式以及用量等参数建立油井结蜡预测模型,采用回归分析方法构建预测模型分析曲线,分析曲线上每个清蜡节点时间,推算出该井的合理清蜡周期,从而指导油井合理有序地清蜡,提高油田精细化管理水平。

5 结 语

通过大数据分析能发现油田生产作业规律,可以很好地解决油田生产业务问题;通过对油田管理数据的分析,能够发现并解决管理中存在的问题和瓶颈;也可以通过各种相关数据的可视化对比分析,发现过去无法关注的问题,这些是大数据分析的核心价值所在,大数据应用的最终目标是预测未来,在认识客观规律的基础上进行分析预测,从而指导油田生产。

主要参考文献

[1]葛春燕.数据挖掘技术在保险公司客户评估中的应用研究[J].软件,2013(1):116-118.

[2]杨泽民.数据挖掘中关联规则算法的研究[J].软件,2013(11):71-72.

[3]钟瑛,张恒山.大数据的缘起、冲击及其应对[J].现代传播:中国传媒大学学报,2013(7).

[4]April Reeve.大数据管理――数据集成的技术、方法与最佳实践[M].余水清,潘黎萍,译.北京:机械工业出版社,2014.

篇(8)

本文讨论了一些站点分析的相关技术信息和几种网站分析浏览者行为的理论与算法,及数据仓库的相关理论知识。并对站点日志数据进行了实例分析,并指出了站点分析技术发展的方向。

一、绪论

互联网技术不断革新与发展,给全球经济带来新的革命,从而也影响着人们的生活。互联网为企业提供了一种真正属于自己并面对广大网民的信息载体,企业通过这一载体,可以自由地将企业的产品、服务等其他相关信息在线。

电子商务就是网上实行各种商务活动的总包装,种种所谓电子商务解决方案,实际上就是实现各种网上商务活动的硬件与软件系统。它将影响到每一个人、每一个企业。电子商务的主体是我们每一个人、每一个企业,电子商务发展的过程就是对人们的生活、企业的运行的一种模式的一个巨大改变的过程。对于进入虚拟世界的商家而言,仅仅吸引注意力还不行,对它们而言,站点的访问率绝对不仅仅是一个数字,它还是一种信息,如果网站能够从网络中获得网民的信息并从中分析其行为诱因,那么就容易掌握网民的需求,从而利用互联网去创造更多商机。

电子商务站点用户行为的分析这一问题也因此成为现如今的热门话题,被人们普遍关心起来,尤其是被众商家所重视。Web站点的日志数据正以每天数十兆的速度增长。如何分析这些数据,如何从这些大量数据中发现有用的、重要的知识(包括模式、规则、可视化结构等)也成为现在人们最关注的信息。

在此情况下,站点用户行为分析就可为网站或商家提供出大量有价值的信息,包括站点的受欢迎度的对比、商业广告点击情况总括、产品的反馈信息、站点各种信息的点击情况等等。另外,还可根据不同的页面内容来分类浏览者,以便做出更合理的页面分类,促使网站逐步向个性化、最优化状态发展。这一技术对互联网的发展壮大有着不可忽视的巨大作用,它的发展对信息技术亦将产生深远的影响。

在电子商务早期阶段时,Web站点数据流分析通常是在主页上安装计数器以及在一个外部日志文件上运行简单的统计程序记录点击率。但是,简单的点击计数既不准确也远未达到营销目的所需的详细程度。因此,各公司开始寻找更先进的分析工具,这类工具可以提供谁在访问公司Web站点以及访问者一旦进入站点后将做些什么的全面信息。站点开始分析的地方是Web服务器的访问日志。每当用户在站点上请求一个网页时,这个请求就被记录在访问日志中。如:目前有多少用户正在访问站点、他们正在看哪些网页以及他们在站点中呆了多长时间。显然,日志分析和行为概况的正确组合可以对Web站点的成功产生直接影响。此外,从日志分析中得到的信息是很难从真实世界中捕获到的,但这些信息却可以较容易地在线收集到。Web数据流分析工具的这些最新进展可以使网站获得有关上网客户和他们习惯的详细报告。

二、站点信息统计方法

Web页面数据主要是半结构化数据,计算机网络技术和信息技术的飞速发展,使得半结构化数据呈现日益繁荣的趋势。半结构化数据,是一种介于模式固定的结构化数据,和完全没有模式的无序数据之间,在查询前无法预先确定其具体的类型和格式;同时它们相应的数据结构是不固定、不完全或不规则的,即这些数据有的本身就没有结构,有的只有十分松散的结构,有的数据的结构是隐含的,需要从数据中进行抽取。而有时,尽管数据本身是有精确结构的,但为了一定的目的,而故意忽视它的结构。半结构化数据具有以下五方面的

主要特点:

1.结构是不规则的。包含异构数据、相同的数据信息用不同类型或不同的结构表示。

2.结构是隐含的。如电子文档SGML格式。

3.结构是部分的,有时部分数据根本无结构,而部分数据只有粗略的结构。

4.指示性结构与约束性结构。传统的数据库使用严格的分类策略来保护数据。而指示性数据结构是对结构的一种非精确的描述。它可接受所有新数据,代价是要频繁修改结构。

5.半结构化数据通常在数据存在之后才能通过当前数据归纳出其结构,称之为事后模式引导。模式有时可被忽略,同时数据与数据模式间的区别逐渐消除。

三、数据分析的方法

Web页面的数据通常是利用统计模型和数学模型来分析的。使用的模型有线性分析和非线性分析;连续回归分析和逻辑回归分析;单变量和多变量分析以及时间序列分析等。这些统计分析工具能提供可视化功能和分析功能来寻找数据间关系、构造模型来分析、解释数据。并通过交互式过程和迭代过程用来求精模型,最终开发出最具适应性的模型来将数据转化为有价值的信息。

知识发现是从数据仓库的大量数据中筛取信息,寻找经常出现的模式,检查趋势并发掘实施。它是分析Web页面数据的重要方法。知识发现与模式识别的算法有以下几种:

1.依赖性分析

依赖性分析算法搜索数据仓库的条目和对象,从中寻找重复出现概率很高的模式。它展示了数据间未知的依赖关系。利用依赖性分析算法可以从某一数据对象的信息来推断另一数据对象的信息。例如:在杂货店中,一堆椒盐饼干放在陈列饮料的走道上,这是因为经过依赖性分析,商店认为:很大一部分买饮料的顾客如果在取饮料的路上看到椒盐饼干的话就会购买,因而此种分析影响了商店布局。

2.聚类和分类

在某些情况下,无法界定要分析的数据类,用聚类算法发现一些不知道的数据类或怀疑的数据类。聚类的过程是以某一特定时间为依据,找出一个共享一些公共类别的群体,它称为无监督学习。分类过程,这是发现一些规定某些商品或时间是否属于某一特定数据子集的规则。这些数据类很少在关系数据库中进行定义,因而规范的数据模型中没有它们的位置。最典型的例子是信用卡核准过程,可确定能否按商品价格和其它标准把某一购买者归入可接受的那一类中。分类又称为有监督学习。

3.神经网络

神经网络通过学习待分析数据中的模式来构造模型。它对隐式类型进行分类。图像分析是神经网络最成功的应用之一。神经网络用于模型化非线性的、复杂的或噪声高的数据。一般神经模型由三个层次组成:数据仓库数据输入、中间层(各种神经元)和输出。它通常用恰当的数据库示例来训练和学习、校正预测的模型,提高预测结果的准确性。

4.数据挖掘中的关联规则

关联规则是数据挖掘的一个重要内容,通常关联规则反映的是数据间的定性关联关系。如一个商品交易数据库,一条记录表示用户一次购买的商品种类,每个属性(A、B……)代表一种商品,每个属性都是布尔类型的。一条关联规则的例子是:{A、B}{D}[2%][60%],规则的含义是“如果用户购买商品A和B,那么也可能购买商品D,因为同时购买商品A、B和D的交易记录占总交易数的2%而购买A和B的交易中,有60%的交易也包含D”。规则中60%是规则的信任度,2%是规则的支持度。数据挖掘就是要发现所有满足用户定义的最小信任度和支持度阀值限制的关联规则。数据只是定性地描述一个交易是否包含某商品,而对交易量没有定量描述,这种布尔类型数据间的关联规则被称为定性关联规则。但数据记录的属性往往是数值型或字符型的,这些数据间也存在对决策有帮助的关联规则,相对于定性关联规则,这些规则被称为定量关联规则。

另外,数据挖掘目前仍面临着数据质量的问题。由于数据仓库中的数据来自多个数据源,而在合并中存在很多障碍,如:没有建立合并视图所需的公共关键字;数据值相互抵触;元数据的说明不完备或丢失;数据值的不洁净等等。数据挖掘是在标准化的数据基础上进行的,因而这些都会严重破坏数据的准确性,导致最终决策的失误。所有这些问题都在等待着人们去发掘更好的解决方法。

参考资料

1.周斌,吴泉源,高洪奎:“用户访问模式数据挖掘的模型与算法研究”,《计算机研究与发展》,1999 vol.36 No.7 P.870-875;

2.Srikant R,Vu W,Agrawal R.Mining association rules with itemconstrains.IBM Almaden Research Center,Tech Rep:97.056,1997;

3.Park J S,Chen M,Yu P S.Aneffective hash based algorithm for miningassociation ru1es.In:ACM InternationalConference on Management of Data,Caliform,1995;

篇(9)

传统信息系统对数据的创建和使用的依据仅建立在业务流程和业务模型的基础上,实现底层业务关系数据的增删查改基础操作,而对海量数据、对不同类型和范畴数据的价值提取却存在不少的缺陷。与之相比,基于数学分析理论的数据分析技术侧重于海量数据处理,跳出传统信息系统的形式约束,可对已收集到的数据进行进_步统计分析和挖掘,从而获取这些数据更深层的意义或规律,更深入发掘数据背后的隐藏价值,能进一步提高信息利用率,提高数据效益。

 

如今,传统信息系统已逐渐无法满足对大数据的处理需求,中国的互联网、政府、金融、通讯等行业和企业都在逐步深入和逐步拓展对大数据和数据分析技术的应用,从结构化数据到半结构化、非结构化数据,以充分挖掘各行业数据的表层及潜在或隐藏的价值。同样,近年来,随着电力行业的信息化不断推广和深入,诸如电力营销管理、营配信息集成、GIS、资产管理等大型、复杂业务系统的建设和广泛投运,使得各层面的电网单位均面临着对诸如电费详单、用户分布、业务峰谷、服务器性能、存储数据等方面的巨大数据量的处理和管理上的难题,加之相对于金融、通讯等行业,电力行业的业务和用户数据的变化性和多样性较低,在价值提取方面更具难度,需要寻求适应企业自身需求的数据分析技术对这些数据进行更有效的统计、挖掘或预测。

 

1电力行业信息系统现状和数据分析需求一般情况下,基于信息系统的各项业务均存在峰谷分布特性,即在某_时段会集中发生大量业务操作,此时用户访问量大、操作数多、服务器资源消耗高、网络带宽占用大、数据库读写频繁;反之,在另一时段则是业务低谷期,此时很少外部用户访问业务系统,可分配服务器的一部分计算资源进行数据整理或备份操作。

 

应用系统层面上,根据电力营销系统的历史业务记录,可以看出,在用户缴费方面,本地供电局每月的用户缴费行为大体上集中出现在当月的第一周之后因此供电局需在用户缴费前完成大量的电费计算、核查和发行操作以确保用户可以顺利完成缴费。

 

服务器运维层面上,服务器计算资源的消耗与应用系统业务使用量成正相关关系,业务繁忙程度越高,服务器出现资源异常的可能性就越大,所以保障服务器正常运转的需求也越高。以电力营销系统为例,其系统架构总体上采用客户机一负载均衡设备一应用服务器一数据库集群一存储设备的结构建设,其中数据库的IO、日志文件同步等指标可在一定程度上反映出当前业务量情况所示为某月各工作日对数据库3个性能指标的执行等待时间统计,可以看出,从该月第二周开始逐步出现一定程度的数值升高,此处反映该时段内集中出现的客户缴费行为,引起数据库读写量和事务量上升,从而增加了事务的等待时间。

 

另外,服务器硬件发生故障的概率虽然大体上随着设备使用时长的增长而提高,但某些情况也会存在一定的偶然性和突发性。当在业务过程中出现硬件故障,尤其是在业务高峰期,会出现较为严重的影响,这也要求运维人员对业务高峰有一定的估测能力以及对设备故障有足够快的响应速度。

 

综上,不论是面向客户的行业主营业务,还是内部的服务器性能消耗和信息系统曰常使用,各项数据都在各方面存在一定的规律性特点或互相关联的因素,这不仅对上述的业务量或服务器性能统计来说如此,对行业内的各类具体数据同样适用。然而,目前对这些数据的利用往往只停留在表层的增删查改操作上,并不能很好地抽象出其中的特征或模式,造成信息利用率的下降。电力行业的数据具有数据量大、类型多、价值高的特点,对控制管理和企业盈利的影响甚多,有专家分析称,数据利用率每提高10°%,电网的利润则可提高20°%~49°%。为了适应大数据的逐步普及、适应企业的改革与转型、满足新阶段对信息技术的要求,亟需寻求合适的技术充分利用这些数据,实现对变化趋势的预测和拓展企业核心能力、提高企业经济效益的目的。2数据分析技术在电力行业的应用常用的数据分析方法包括聚类分析、相关分析、回归分析等涉及统计学和概率论的理论,目前市面常用的数据分析软件有SPSS、Stata、SAS、R、Matlab等系统,分别适用于不同专业程度的应用场景。

 

如今各行业已开始探索和采用这些技术来处理与行业自身相关的各项数据,例如对根据时间和话费等指标分析移动通信客户的消费行为[2]、利用收集的资料分析及发现银行零售业务的潜在客户[3]、利用关联分析等方法评价病人病因、处方及药物副作用[4]等,同样,在电力行业,可以从客户用电量、用电时间、客户分类和分布状况、季节和气候变化、政府法规政策、信息系统使用情况、计算和存储资源消耗状态等各项指标着手进行分析,实现相同或类似的目的。

 

利用数据分析技术处理电力行业数据,优化企业管理模式,提升企业经营水平,其适用场景包括以下方面。

 

2.1客户信息分析

 

类似于通讯行业的客户行为和消费分析,根据电力营销的大量的历史数据,一是可利用聚类分析的方式,在时间、空间和客户性质上分析客户的用电行为和用电规律,采用手动标签类别特征或对数据特征做自动聚类的方法,对客户群进行不同粒度的细分,从而可在不同层面制定不同的更具针对性的营销方案和服务模式,也可避免供电业务的一刀切问题;二是可利用关联分析的方式,统计收集到的可能与客户用电存在影响关系的电价、气候、环境、政策、交通等因素,提取这些因素与客户用电数据的相关性,找出对其存在显著影响性的成分,并据此优化客户的用电需求预测模型,从而通过多维的因素对市场和业务进行分析和预判,也可实现避免客户流失和发掘潜在客户的目的。

 

2.2业务服务质量提升

 

目前,电力业务普遍只为客户提供基础性的供电服务,仅确保客户能够正常用电。而随着企业的改革和转型,更大的需求是以客户为中心,从客户体验出发,提供更为全面和丰富的电力增值服务,可从地区、行业、客户等不同层面的用电明细历史数据提取出各自的用电规律和特殊需求,制定合理、优化的营销方案或业务套餐,或让客户根据自身的用电行为和趋势调整相应的用电方案,提高客户的用电效益。

 

2.3协助优化丨DC资源

 

如前文所述,信息系统的资源使用量往往取决于其业务的使用情况。对于营销系统,可从大量的客户缴费时间、缴费数量和对应的服务器资源使用记录中拟合出服务器资源随时间变化的占用曲线,并根据实际情况进行适当的业务窗口或后台数据处理窗口调整,在确保业务正常进行的前提下降低业务高峰和提高空闲时段的资源利用率,此外,对业务量和数据存储量的综合测算,可对系统的存储资源占用量趋势做出更为准确的短期和中期预测,避免存储资源池的短缺或浪费问题;类似地,对于企业门户、办公自动化、人力资源等内部业务系统,用户访问量分布和各端点间的数据交互数量则是影响其服务器计算和存储资源使用的主要因素,也是形成对服务器的采购、运维和升级的具体需求的来源之一。

 

2.4营销稽查数据的进一步分析

 

本地供电局于2013年建成在线稽查业务精益化管理平台,投运至今成效明显,其中部分重要规则共筛查差错样本2000多个,纠错挽回或减少经济损失约450万元,为营销稽查工作、营销业务单位自我诊断、风险管控提供了强有力的支持。在此基础上,根据对差错数据的数量、区段、等级、来源的分析,结合营销客户信息分析,可推断差错的性质、原因和客户用电行为、营销方案、收费操作之间的联系程度,趋利避害,进一步规避问题数据乃至偷电行为的出现。

 

2.5为电力基础设施建设提供支持

 

电力基础设施的选址往往需要以大量的前期调研为依据,其影响涉及地区性质、行业分布、人员密集程度、交通流量、气候条件等社会环境因素,此外,随着社会发展和城市建设,若干已有的线路规划、高压杆塔、变压器,乃至变电站、发电设施都可能成为发展阻碍成分,进行改建则需进一步花费人力财力。通过对相关数据的分析,可以预测当地的电力使用量和发展趋势为基建选址提供更多的客观的参考依据。

 

数据分析技术对电力行业信息数据的应用并不只局限于上述的若干场景,在未来的信息技术发展过程中,各个信息系统、业务线条、电力运营单位之间的数据界限将逐渐淡化,形成具有更高关联度的大数据整体,而大数据技术也会得到更广泛的应用。

 

篇(10)

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2017)03-0245-03

Application of Big Data Analysis Technology in Wind Power Equipment Anomaly Prediction

ZHANG Hui-ting, WANG Jian, LING Wei-qing

(CIMS Research Center,Tongji University, Shanghai 201804, China)

Abstract: According to the working conditions of wind turbine generator monitoring complex, large amount of data, multi-source, complex, the characteristics of rapid growth, the abnormal current prediction methods in the face of big data to ensure accuracy and rapid processing, the proposed combination of Hadoop batch processing technology and BP neural network of wind turbine online anomaly prediction model, abnormal prediction of equipment state information. The experimental results show that the method has good acceleration effect under the premise of ensuring the accuracy, which can provide important reference information for the wind farm maintenance staff.

Key words: wind turbine; anomaly prediction; Hadoop batch processing;BP neural network

风能作为一种蕴藏量巨大且无污染的可再生能源,受到世界各国的关注与日俱增。但是,风电机组的故障率会随着运行时间的加长而不断升高,这就需要对机组主要部件的故障做好预防工作。目前,风 电 业 主 广 泛 采 用 数 据 采 集 与 监 控(supervisory control and data acquisition,SCADA)系统监测风电机组及其部件的运行状态,然而,SCADA 系统的监测项目针对各自监控的对象,仅仅依靠对监测数据设置阀值来进行越限报警,而且在线监测信息量大、采集数据点密,传统的监控系统难以满足海量监测稻莸脑谙叽理需求[1]。因此,如何通过风电机组状态监测大数据进行快速有效的机组设备异常预测成为了新的课题。

较多研究者通过建立状态参数预测模型,分析风电机组运行状态的真实变化情况。文献[2]通过对齿轮箱温度趋势的分析建立了预测模型,该模型是基于单一运行参数针对某个子系统构建的,预测精度有待提高。文献[3]首先建立了主轴轴承、齿轮箱的多元线性回归温度预测模型来对部件温度进行一步超前预测。文献[4]提出了一种基于最小二乘支持向量机的风电机组故障预警方法,利用实际风场机组运行监控数据验证了此方法的可行性,但是,对于结构复杂的海量监测数据,该方法在保证精度的情况下难以满足我们对于处理速度的要求。

针对如上问题,本文提出了结合Hadoop批处理技术和BP神经网络状态参数模型的风电机组异常预测方法。首先,使用Hadoop平台存储海量历史状态监测数据,依据选取的状态参数,实现基于BP神经网络的异常预测算法,然后使用MapReduce框架并行的对预测模型进行训练,以获得较好的加速效果,最后,通过实验验证该异常预测模型的有效性和精确性。

1 风电设备异常预测模型体系概述

1.1 模型框架

基于模型预测精度与数据处理速度的需要,本文基于Hadoop集群,运用MapReduce框架,提出了兼顾预测精度与运行速度的风电设备异常预测模型,该模型的框架结构如图1所示,主要包括数据采集层、存储层、分析层、应用层等4个模块。

具体模块描述如下:

1)数据采集层。主要包括风电设备的状态监测数据、天气数据、地理信息数据

以及各种特殊传感器等业务系统的生产运行管理数据。这些数据来源不一、模态各异,而且存在大量的重复数据,该模块主要完成异常数据和重复数据的清除工作,清理后的数据使用Sqoop等大数据连接器技术传输到分布式数据库或者文件系统中,Sqoop在传输数据时会自动对其格式进行标准化的调整,减少了人为的序列/反序列化操作。

2)存储层。本文主要采用HBase,Hive等分布式数据库作为存储介质,HBase是一个构建在HDFS上的分布式列存储系统,它具有高可靠、高性能以及可伸缩等特点,可以方便地在服务器上搭建起大规模结构化存储集群。Hive是基于Hadoop的一个数据仓库工具,提供类sql查询功能,可以将sql语句转译为MapReduce作业并在Hadoop上执行,便于大批量数据处理任务的并行运行[5]。这些分布式数据库都具有高容错率和高吞吐量的特点,可以很好地满足海量历史监测数据的存储要求,并且适用于数据的批处理访问模式。

3)分析层。集成有训练好的BP神经网络预测模型,基于SCADA状态监测数据、天气数据以及地理信息数据,应用大数据分析技术进行风电设备的异常状态预测。

传统的BP神经网络训练方法在处理海量数据集时面临耗时长,甚至是内存不足无法训练等问题,本文在开源云计算平台Hadoop 的基础上,实现了基于MapReduce框架的BP神经网络并行化运行方式,可以并行的对训练样本进行批量训练,大大地提升了模型的精度和运行速度。

4)应用层。该模块使用训练好的异常预测模型,结合在线输入的监测数据,进而获得状态参数的预测值,计算模型输出值与实际监测值的残差,当残差发生剧烈波动时,判断风电设备的运行状态出现异常,并通过数据可视化技术对相关人员进行展示。

1.2 基于MapReduce的BP神经网络预测模型

BP神经网络是一种按误差反向传播算法训练的多层前馈网络,在各个领域得到了广泛的应用,它能够很好地表示任意的非线性映射关系,而无需事前了解描述这种映射关系的数学方程。BP神经网络的拓扑结构包括输出层、输入层和若干隐层,它的学习算法使用最速下降法,通过不断调整网络的权值和阀值来使网络的误差平方和最小。有研究表明,只要隐层含有足够多的神经元数目,仅仅包含一个隐层的神经网络就能够以任意精度逼近一个连续的非线性函数[6]。因此,本文采用只含有一个隐层的神经网络模型,模型示意图如图2所示:

为了运用并行运算的方法来减少算法运行时间,本文参考文献[7]中对 BP神经网络算法的MapReduce并行化方法,在Map阶段对每个权值的变化量进行计算并输出,然后在Reduce阶段对各个权值的总变化量进行统计,之后再统一调整权值,并且使用批处理的方式进行训练。

1.3 风电机组异常预测运行流程

受风速的波动变化和天气的季节性变化影响,风电机组的运行环境经常发生剧烈的动态变化,因而需要在不同的运行工况之间进行频繁地切换,导致设备状态监测数据的幅值在正常运行状态下也会发生较大的变化,这意味着我们不能根据幅值的大小来判断机组的运行安全程度。而目前主流的做法都是采用阀值报警的方法,即如果监测信号达到了报警阀值,则判断机组的运行状态出现异常,这导致了很多漏报和误报的情况发生,为了提高风电设备异常预测的精确度,本文采用了残差分析的方式对机组的运行状态进行判断,基本流程如图3所示:

具体过程阐述如下:

1)选取风电机组正常运行状态下的 SCADA 数据,经过预处理得到可用的监测数据,然后将这些数据按一定的比例划分为训练数据和测试数据。

2)训练数据经过归一化处理后,选取风速、齿轮箱油温、机舱振动传感器X、机舱振动传感器Y,机舱振动有效值和发电机转速等6个状态参数为模型的输入参数,对BP神经网络模型进行训练,直到模型的输出值误差达到理想的范围。

3)用预测模型对目标参数进行预测,与实际值对比,获得残差,如果残差没有超过阈值,则判断状态正常。

4)如果残差超过阈值,则采用式(1)计算均方根误差(root-mean- square-error,RMSE),来衡量残差变化的剧烈程度,应用目前流行的滑动窗口技术,可以更加准确的反映其变化趋势,本文通过计算每天的 RMSE,来获得 RMSE 的变化情况。

[D=1mi=1mxi-x2] (1)

式中:D为均方根误差;m 为样本数;x为模型的预测值;xi为实际值。

5)当RMSE超过阈值,则判断机组状态出现异常。

1.4 实验结果与分析

为了模拟风电场大数据风电机组异常状态预测的相关情况,在实验室搭建的Hadoop平台上对本文所述方法进行了仿真实验,Hadoop集群由一个主节点(Master)

个两个从节点(Slave)组成,各节点是由Windows Server 2012 上的Hyper-V管理器创建的虚拟机,节点的内存为2G,硬盘为200G,在开发的过程中用到了Eclipse、Hive、HBase等工具。

实验采用某风电公司风电场提供的2015年6月到2016年9月产生的实际运行数据,其中包含37台风机的监测数据,选取其中15台风机2016年7月份共15组监测数据,按一定的比例抽取数据作为测试样本,对模型进行训练,每组训练1000次,使得模型输出值误差范围达到满意的效果,进而得到性能良好的神经网络预测模型。

为了验证模型状态参数预测的精确度,选取对应1台风机2016年7月份的共15组监测数据作为测试样本对模型进行测试,预测下一时刻齿轮箱油温平均值,如图4所示为其中2台风机实际监测值与模型预测值的对比效果,其中,预测值为蓝色曲线,真实值为红色曲线,可以看到,两条曲线基本吻合,验证了模型的有效性和精确性。

图4 模型预测效果对比图

为了测试模型并行化之后的加速效果,对同样大小测试数据集分别在单机和集群环境下测试程序运行时间,发现当测试数据量较小时,单机所用时间少于集群运行时间,而随着数据集的增大,集群的计算优势就越来越明显。

1.5 结束语

针对在海量历史监测数据基础上如何快速有效的对风电设备的异常运行状态进行预测这一问题,本文基于当前主流的大数据技术,设计并实现了风电设备的异常预测模型。基于Hadoop的MapReduce框架,通过对训练样本学习得到并行化的BP神经网络预测模型,提高数据批处理的效率,加速风电机组异常状态预测的计算过程和数据处理的效率。实例表明,在正常运行工况下,预测模型能准确地对状态参数进行预测,同时具有出较好的加速效果,满足海量监测数据环境下风电机组在线异常状态预测的要求。

参考文献:

[1] Bin Lu, Yaoyu Li, Xin Wu and Zhongzhou Yang. A Review of Recent Advances

in Wind Turbine Condition Monitoring and Fault Diagnosis[J]. PEMWA 2009, IEEE, 2009(6): 1-7.

[2] 郭鹏, David Infield, 杨锡运. 风电机组齿轮箱温度趋势状态监测及分析方法[J]. 中国电机工程学报, 2011,31(32): 129-136.

[3] 张小田. 基于回归分析的风机主要部件的故障预测方法研究[D]. 北京: 华北电力大学, 2013.

[4] 许骏龙, 李征. 基于支持向量机的风电机组故障预警[J]. 工业控制计算机, 2013(8): 54-56.

篇(11)

中图分类号:P816 文献标识码:A 文章编号:1009-914X(2015)13-0016-01

一、前言

电力用户用电信息采集系统是国家电网公司实现智能化用电的主要方法,通过采集电力用户的用电信息,能够减少电力公司的运营成本,并且还可以减少设备维护,延长设备的使用寿命。

二、 用电信息采集系统现状与分析

用电信息采集系统一般由主站、远程传输通信通道和本地数据采集通道三部分构成。用电信息采集的实现主要依赖于通信通道的选择,在通信方式上一般采用两级通信方式,一是远程传输通道,是指集中器到主站(供电公司)之间的通信方式;二是本地数据采集通道,即集中器到采集器或电能表之间的通信方式。

1、远程传输通道现状与分析远程通信是指采集终端和系统主站之间的数据通信。通过远程通信,系统主站与用户侧的采集终端设备间建立联系,下达指令和参数信息,收集用户用电信息。远程通信信道可采用光纤专网、GPRS/CDMA无线公网、230MHz无线专网和中压电力线载波等。综合考虑系统建设规模、技术前瞻性、实时性、安全性、可靠性等因素,确定具体通信方式。

2、远程传输通道可以采用以下几种方式:

(一) 借助移动运营商的无线传输方式,如中国移动或中国联通的GSM/GPRS和中国电信的CDMA-1X优点:覆盖面广,接入容易,在一定程度上解决了少量数据采集的需求,按流量计费;缺点:能提供的带宽很低(一般只有几十千比特),且存在不稳定性,满足不了实时采集的要求。在地下配电室、移动电话用户集中区、楼宇密集区对通信质量影响很大。处理网络问题依赖第三方的协调。

(二) 借助于固网运营商的宽带城域网,如ADSL或LAN优点:传输速率高,适用于有网络端口环境下的表计集抄;缺点∶目前运行费比GPRS/CDMA方式贵。处理网络问题依赖第三方的协调。此外还有通过电话线调制的方式上传数据,这种方式曾经用于调度自动化的远动数据传输,但由于接续时间长,容易掉线,与电话用户挤占通道资源、带宽较低、运行不稳定等因素很快就被淘汰。这种方式多用于试点,已陆续转为其他通信方式。

以上几种远程数据通信方式,普遍存在以下问题:通道不能专用用电信息涉及商业机密,公用网络承载业务复杂,用电数据以内网转外网再进入内网的方式进行数据转发,存在着数据泄漏和易被攻击的隐患,难以达到国家电网公司对于生产经营信息安全分区与隔离的要求。易受到天气、地理、人群密度等多方面因素的影响多点间难以实现同步的实时采集与分析,关口电量、大客户与居民用电信息存在比较大的时延差,使线损分析、营业数据动态分析偏差较大。运营成本较高以上海市为例,640万居民用户按照每100户一个集中点计算,70万大用户按照每个用户一个集中点计算,共有76.4万个集中点。按照10元/月进行计算,每年仅运行费用就达9200多万元。基于这一原因,许多供电公司只能采用加大采集间隔,或有选择地抄收部分而不是全部表计参数,牺牲应用性能来维持系统的正常运行。

3、无线宽带通信目前主要的无线宽带接入方案有WiMax和McWill。WiMax支持ATM和IP两种数据接口,主要应用于高速传输的数据业务,同时也支持语音、视频等多媒体业务的传输。McWill是完全基于IP分组交换的宽带无线系统,采用宏蜂窝网络结构。McWill是大唐基于SCDMA衍生出来的宽带无线技术,由大唐旗下的信威公司拥有知识产权。

三、分析电力用户用电信息采集系统不良数据的必要性

用电信息的采集系统建设工作是一项复杂而系统的工程,其涉及到通信体系的建设、信息采集终端的架构、采集系统主站的建设等几个方面。整个采集系统建设工作涉及到复杂的用户类型,而且用户数量众多,同时还需要解决信道不稳定、算法不统一以及公共网络信道故障等问题。在这个过程中,将使得不良数据出现,例如线路的功率异常、电量异常、电压数据异常等现象。采集系统获得的数据中不良数据比例虽然很低,但是其存在直接影响到信息的准确性以及客观性,可能造成计费错误以及用电习惯分析不准确等问题,从而造成不良的社会影响。因此,如何处理好其中的数据畸变问题是当前用电信息采集系统优化及完善的一个重要内容。

四、导致不良数据的主要原因及主要类型

1、导致不良数据出现的主要原因

(一)数据采集、存储过程中的不良数据

电力数据的采集终端主要用于配网的使用,但是配网运行过程中存在诸多的问题,而且用电电压的稳定性不足,造成信息通道噪声较大。所以,在设备的应用过程中就会在数据的采集、传输环节中出现数据遗漏、数据误差等现象。同时,所应用的数据处理芯片中可能存在BUG,从而导致电力数据超出边界,或者电力数据读数偏大等现象。

(二)电力系统故障导致的数据错误

当线路中由于部分故障而导致电流出现不正常时,例如出现了接地问题、连电问题等时,将会导致供电网络的功率数据、用电数据出现故障。

五、电力用户用电信息采集系统不良数据处理方法

不良数据点(包括漏点数据、畸变数据等)若没有进行处理,直接参与统计分析,对系统数据将造成较大的影响,使整体负荷曲线、负荷特性等数据失真。可使用短期负荷预测的方法进行修正。

采用短期负荷预测方法对不良数据进行修正的原理是:辨识出历史日中的正常数据点和可疑数据点;以正常数据点为已知条件,采用短期负荷预测方法完成对可疑数据点的预测,用预测结果修正这些可疑数据点、。其修正步骤如下(适合功率、电压、电流、电量等)。

1、辨识可疑数据点

不良数据点往往具有数值突变的特征。通过这个特征可以辨识出历史负荷数据中的可疑不良数据点。对于采集系统来说,其负荷数据中存在的正常的随机变化量幅度不同,通过提高或降低判断标准,即可收紧或放宽对可疑数据点的认定。任何一种可疑数据判断机制都可能造成一定的误差(误判或漏判),但是,在采用短期负荷预测进行不良数据修正时,由于依据的是有规律的预测结果完成修正,所以所认定的可疑数据点多几个点或少几个点并不会对修正结果造成太大的影响。该算法可满足实际数据估算的要求。

2、修正可疑数据点

修正历史数据中的可疑数据是用电信息采集系统的要点和难点之一。准确修正可疑数据点的数据要比辨识它难得多。因此,传统的负荷预测系统无法很好地处理不良数据修正问题,只能依靠预测人员的人工经验来解决。采用短期负荷预测方案进行不良数据修正则可代替人工修正方式,减少预测人员的工作量,同时减少由于人工修正带来的人的主观因素影响。

根据已运行的采集系统数据分析,实际电力系统中每日不良数据点数一般不超过5%,以每天采集96点为例,不超过5点,即:91。则上述修正方案相当于,在以已知的91点数据为优化目标的情况下,对该日96点数据进行短期负荷预测,统计表明,这样条件下的预测准确度高达97.59%以上。满足系统实用化要求。

六、结束语

通过以上详细的分析以及探讨,我们能够看出电力用户用电信息采集系统数据分析与处理技术在电力公司中的作用。所以,我们必须加大资金投入力度,进行广泛推广以及应用。

参考文献

[1]莫维仁,孙宏斌,张伯明.面向电力市场的短期负荷预测系统设计及实现[J].电力系统自动化.2001(23):41―44.