名称 | 简介 | 添加时间 | ||||||||||
|
||||||||||||
|
||||||||||||
详情 | ||||||||||||
作者:ecawen 发表于[2017-09-29] [2017-09-29]被用户:ecawen 修改过
本文共 [737] 位读者顶过
目录
一、 背景... PAGEREF _Toc458697829 \h 1 二、 问题描述... PAGEREF _Toc458697830 \h 2 三、 总体方案... PAGEREF _Toc458697831 \h 3 3.1. 总体逻辑架构... PAGEREF _Toc458697832 \h 3 3.2. 总体数据流... PAGEREF _Toc458697833 \h 5 四、 方案详述... PAGEREF _Toc458697834 \h 6 4.1.数据准备... PAGEREF _Toc458697835 \h 8 4.2.行为建模与异常行为监测... PAGEREF _Toc458697836 \h 10 4.3.安全趋势预测... PAGEREF _Toc458697837 \h 16 4.4.其他业务简介... PAGEREF _Toc458697838 \h 20 五、 工作开展规划... PAGEREF _Toc458697839 \h 20 5.1.工作内容... PAGEREF _Toc458697840 \h 21 5.2.角色划分... PAGEREF _Toc458697841 \h 22 5.3.近期工作... PAGEREF _Toc458697842 \h 24 [出自:jiwo.org] 一、 背景随着互联网技术的迅猛发展和新应用的不断推广,互联网已经渗透到社会和生活中的方方面面,已经成为政府、企业以及个人工作和生活必须的平台和工具。与此同时,各种病毒、蠕虫、DoS、特洛伊木马、扫描、欺骗等攻击给网络的正常使用带来了严重的威胁。网络与系统的漏洞给攻击者带来了可乘之机,给政府、公安、银行乃至军事机构带来了极大的损失。 除了传统的网络安全,数据安全面临的形式也越来越严峻。层出不穷的数据泄密事件,比如斯诺登事件、如家客户信息泄露事件等,表明数据安全是信息系统需要解决的重要难题。由于现有的安全技术大多将主要精力集中在“防外”, 对外来攻击进行响应, 而对于内部网络受外界未知攻击后, 产生的后果以及内网用户可能进行的破坏性行为考虑得较少,所以相对于网络安全,数据安全需要引起更多的关注。 总而言之,最大程度地保护网络、系统和数据的安全已经成为当前一个非常重要非常迫切的任务,是几乎所有的信息系统建设无法回避的工作。
二、 问题描述传统网络安全、数据安全技术,如各类软、硬件防火墙,普遍采用“栅栏式”防护策略,给网络和应用系统人为添加了很多限制,任何数据访问动作都需要经过所有预设规则的过滤,不仅影响系统的用户体验,也增加系统运行负担。此外,现有安全软件中,生成一条内置规则,一般需要漏洞发现、攻击模拟、报文分析、特征提取和规则生成等多个阶段。随着攻击手段不断更新,这样的规则生成过程也需要不断重复,耗费大量人力成本。 明朝万达提出的“动态安全,集中管控”思想,打破了僵化的传统思维,以全新的视角定义数据安全业务,变被动防御为主动审查,放宽用户准入而加强行为监测,在允许用户正常使用网络的同时, 尽量限制其有害行为。因此, 发现并定位用户的网络、数据有害行为, 然后进行适当的控制就是本方案要解决的主要问题。
三、 总体方案本方案以多源异构、跨域关联环境下挖掘数据深层价值的大数据思维,结合移动警务平台建设中的业务场景,描述实现大数据安全分析的方案。 3.1. 总体逻辑架构大数据安全分析系统从逻辑上划分为数据接入、数据存储、数据分析和业务应用4个层次,如 REF _Ref458695364 \h 图 1所示:
图 SEQ 图 \* ARABIC1大数据安全分析平台总体逻辑架构 数据接入层负责从物理上分离的多个数据源接收数据,经过预处理后导入数据存储层。各类数据源产生的数据存储在本地或者通过网络发送给大数据平台。数据接入层提供文件、网络、数据库等多种接口接收数据。 数据存储层负责提供大规模结构化、非结构化数据的分布式存储能力,为后续数据关联、数据挖掘及机器学习等复杂计算提供支持。各类原始数据按照后续数据分析和业务应用要求分别存储在不同的物理或者逻辑库中。经过数据分析层处理后的数据,按照不同业务种类存入对应专题库,通过统一数据服务总线对外提供数据服务。 数据分析层负责提供大规模数据分布式处理能力,将原始数据加工成为业务系统可直接使用或展示的数据。数据分析层的能力包括集合碰撞、模型构建等,它将低价值密度的原始数据加工为高价值密度的结果数据,支撑数据服务总线对外提供细粒度的数据服务。 业务应用层是大数据安全分析平台的价值体现,直接面对业务需求,解决用户难题,是打动用户的关键所在。
3.2. 总体数据流系统架构设计遵循流行的Lambda架构,分为实时处理层、批处理层和数据服务层,如 REF _Ref458695384 \h 图 2所示。
图 SEQ 图 \* ARABIC2大数据安全分析平台总体数据流图 原始数据接入平台后复制为两份,分别进入实时处理层和批处理层,最后通过数据服务层为业务系统提供数据支撑。 实时处理层提供流式计算能力,以准实时的方式处理数据,如实时监测数据违规操作等。处理后的数据存入对用户提供实时数据服务的高性能数据库,这类数据存储周期较短,一般为一天左右,只存储批处理层还没有产生的数据。 批处理层提供海量数据的批处理能力,是数据挖掘、机器学习等数据深度价值挖掘的主要场所。 批处理层包含多个定时任务,以全量或增量方式处理数据集合,处理后的数据存入大规模实时查询数据库。 数据服务层提供多层次的数据服务能力,按照业务需求提供数据关联、即席查询、全文查询、结构化查询等多种服务。单纯从数据访问速度的角度来看,数据服务层按照存储容量和存取性能的差异,提供数据存储的多级缓存机制。 四、 方案详述与传统安全系统的实现方案不同,本方案对网络和系统危害行为的识别不依赖系统预置的强大安全规则库,而是通过自适应的方式不断进行自我完善。具体来讲,系统初期可以预置少量或者不予置规则,依靠初步异常行为监测模型,发现用户违规行为并经过人工研判生成可信样本数据;这些样本数据用来训练或改进复杂的机器学习模型,而新模型又用来发现新的异常行为。这样,平台的运行过程既是异常行为发现过程,又是自我调整和不断改进的过程。 该方案将人类对安全事件的认知融合到平台的精炼过程(通过人工研判步骤),但并不完全依赖人类的参与。专业人员的安全知识,也就是对异常行为的研判,会随着平台的运行得到持续放大。更多的人工研判结果会纠正平台对安全事件的认知偏差。通过这样的人机交互和回馈过程,平台形成数据安全事件处理的闭环机制。 原始数据流被分割为小批次数据流,单批数据首先进入平台的实时判定模块,该模块依靠规则库和行为判定模型进行违规操作识别,可疑数据存入可疑行为库,通过人工研判生成异常行为和正常行为数据,违规数据直接存入异常行为库;实时判定模块无法识别的数据存入分布式存储系统,定期执行的各种数据分析算子对原始数据进行批量分析,识别其中的异常行为并存入可疑行为库;同样地,这些数据经过人工研判环节生成异常行为和正常行为数据,这两类数据作为正、负样本,用来训练或改进高级机器学习模型。 除了算法模型以外,平台的异常行为发现和自适应能力,主要取决于接入数据的质量。接下来,本节详细介绍如何产生高质量的数据以及如何进行行为建模和异常行为监测。 4.1. 数据准备数据准备是大数据安全分析系统的根本,是系统能否取得成功的基础因素。因此,大数据安全分析系统的规划必须从数据生产的源头开始,确保系统能够接入安全分析所需的全部数据。其次,系统接入的原始数据必须按照分析需求进行预处理,将原始数据变换为各类数据挖掘和机器学习算法能够处理的数据。 4.1.1. 数据生产数据生产是数据探针对设备数据的采集、日志的产生、外部系统数据导入等过程。 针对不同的设备一般需要定制化的数据探针,数据格式一般也是固定的,由设备厂家提供,比如交换机厂家提供的NetFlow数据格式等。不同的NetFlow版本能够支持的数据字段也不同,所以需要规定交换机支持的NetFlow版本,其他通用设备也需要做标准化规定。 各应用系统产生的日志信息是分析用户行为最重要的数据,所以系统应尽可能详细地记录用户使用应用产生的数据,至少记录用户使用应用系统完成某个目标所经历的关键步骤。但是,过多日志行为会增加业务系统服务器压力,拖慢系统运行速度,增加页面响应时间,影响客户体验,严重时会造成系统瘫痪。在环境允许的情况下,应用系统在设计之初,就需要同时制定日志策略,定义哪些行为需要在哪些关键节点,记录哪些信息。 外部系统数据主要是指人员、设备基础信息、IP地址信息及社会管控资源。这些数据大多涉及保密、安全等问题,需要针对不同的应用场景定义允许同步到数据中心的字段。 4.1.2. 数据预处理数据预处理对各类探针采集到的数据以及其它数据进行统一的流式标准化处理,将不同来源的数据进行格转、关联、标注等,提高数据的质量和关联性,方便开展更为复杂的大数据应用。如REF _Ref458695825 \h图 4所示:
数据提取:从采集的海量数据中提取有用信息,例如用户ID、系统ID、行为时间等。 数据清洗:包括垃圾数据标注、格式转换与清洗。 数据关联:按照用户制定的规则对各类数据进行关联,比如包含TCP五元组的数据,通过与IP地址库关联将IP地址替换为地理位置。 数据标注:根据样例或用户规则,确定如空间位置、区域、信息方向、数据敏感级别等标示。 所有采集到的数据,接入分布式缓存处理服务器,然后由在数据预处理服务器上部署的数据预处理软件进行处理。 4.2. 行为建模与异常行为监测平台通过建立用户行为模型,依靠数据挖掘和机器学习算法,实现用户行为分析和异常行为的自主监测。机器学习包含无监督学习和有监督学习。通常,前者性能较差,只能提供异常行为的粗略识别,后者需要大量学习样本。 要对行为建模,必须首先给出行为的明确定义。不同的行为分析视角,决定了不同的行为定义,继而决定了不同的行为模型。本方案分别从独立行为、行为集合和行为转换三个视角,使用基于单个行为特征、行为集合统计特征和行为过程的三类行为建模方法。另外需要说明的是,这里所说的行为与原始数据中的一条记录并不是一一对应关系,平台需要先从原始数据中提取行为数据,然后开始行为分析过程。 4.2.1. 行为特征分析基于行为特征的异常分析,是针对单个行为而言的。一个行为数据通常包含但不限于如下特征: 1) 用户使用网络的时间:用户动作发生的时间段比如早、中、晚;或者子、丑、寅等。 2) 访问的系统:系统类型,比如查询类、管理类、监控类或者直接系统名称 3) 访问操作的分类:浏览、查询、上传、下载、修改、删除 4) 访问的内容类型:文本、视频、音频、图片 5) 访问操作的数据流量 6) 终端环境信息 一种数据源产生的数据往往只包含部分行为特征,所以行为特征提取需要经过特征扩张(数据关联)、特征重要性评估(频繁项集挖掘等)、特征修剪、特征向量化等过程。其中特征向量化是指将提取到的特征转化为机器学习算法能够处理的数据,比如将单词转换为TF-IDF值。 经过特征工程处理,原始数据转换为机器学习模型可处理的行为数据。本方案假设初始阶段没有训练样本可用,采用初级算法模型识别异常行为;随着平台运行时间的推移,样本容量不断增长,当平台拥有一定数量以及大量样本时,就可以训练出令人满意的高级算法模型。异常行为发现流程如 REF _Ref458695881 \h 图 5所示: 在样本容量很小时,平台采用聚类分析方法,对单一类型的行为数据先采用Canopy算法进行粗聚类,得到数据集聚合的类别数量,然后采用K-Means聚类方法进行更高精度的聚类。K-Means聚类大概流程为:首先利用Canopy算法确定K个聚类中心,然后分别计算集合中的数据距离这些聚类中心的距离,数据点划分到距离其最近的中心的类别中,接着对每一个类别重新寻找质心,形成新的聚类中心;重复这一过程,直到聚类结果令人满意为止。在聚类结果中,平台可以发现数据集中的孤立点或者稀疏点集,这些点代表的行为即为异常行为。 仅依靠人工研判就可以生成一个小范围的正常行为库。对单一类型的行为数据集,对应存在一个该类型的正常行为库。这种情况下,平台采用KNN算法发现异常行为,新的行为如果与该库中的每一个案例的距离都大于设定的阈值,则该行为是异常行为;异常行为经过人工研判为正常行为的,则用该行为更新正常行为库。 当具有足够的正常行为和违规行为数据时,平台用这些数据作为样本,训练高级分类算法的模型。本方案选择随机森林作为高级分类算法,训练得到的模型分别部署在实时处理模块和离线处理模块,提供较高精度的异常行为发现服务。随机森林算法采用有放回抽样的方式建立多个训练样本,分别训练出多个决策树模型。对于一个未知行为数据,随机森林算法采用多个决策树投票的方式给出该行为是否违规的概率。 总的来说,聚类算法不依赖任何样本数据发现未知异常行为,KNN算法只依赖少量正常行为数据样本发现未知异常行为,随机森林算法需要大量正、负样本找到行为数据的规律,从而提供较高精度的异常行为发现功能。 4.2.2. 行为统计分析行为统计异常分析与行为特征异常分析过程非常相似,采用相同的算法和异常行为发现流程;但是,后者分析的对象是单个用户行为,而后者分析的对象是一组行为,称为事务。事务的涵义因实际应用场景而不同,比如,一个HTTP会话中,所有行为构成一个事务。 行为统计异常分析的目标是找出某个用户的异常行为,所以分析之前需要将同一个用户的所有行为数据拟合到一起,然后按照不同维度建立统计数据,每一个维度的统计数据作为事务的一个特征,最后经过特征向量化等过程,事务数据经上一节提到的聚类、分类算法处理,得到用户异常行为数据。 4.2.3. 行为过程分析从动态的角度出发,一个用户完成一个业务操作,需要进行一系列有时间顺序的行为,也就是业务流程,也称为业务过程。基于各类应用检测组件、探针等采集到的日志数据,过程挖掘能够获取过程知识,发现、监测和改进实际系统行为模式。过程挖掘的结果是过程模型,是指那些表明行为者与其环境间的相互作用的模型,或者是表明各个行为者之间的相互作用的模型,采用过程模型语言来表达,比如Petri网。以策略管理中新增一个策略为例,其对应的过程模型(Petri网)如 REF _Ref458695961 \h 图 6所示: 如果应用系统在每个任务(用矩形框表示)前后都记录日志,那么通过过程挖掘,平台就可以发现这样一个模型。刨除数据残缺等因素,如果平台发现某个过程没有用户状态检查事件,直接到了表格确认事件,那么很可能是黑客在篡改策略数据,这样的过程就是异常过程;相同角色的用户,过程模型差异很大,则是异常过程。 此外,系统完成一个业务操作的过程是在程序开发前就定义好的,如果能够获得这些过程定义,那么可以不用过程挖掘,直接判断一个用户行为序列的合法性,同时,过程挖掘还有助于发现系统原有业务过程的漏洞,辅助进行过程重建。 4.2.4. 实现概要本方案使用无监督学习和有监督学习相融合的建模策略。在系统运行初期依靠无监督学习粗略发现异常行为,通过人工研判产生有监督学习的训练样本。大数据安全分析平台实现的无监督学习算法能够持续发现新类型的异常行为,而有监督学习算法能够持续扩大人类对异常行为的先验知识。这两类算法分别应用于行为特征异常分析和行为统计异常分析中。 进一步地,本方案采用先进的过程挖掘方法,从应用系统日志中挖掘用户行为过程,以动态视角对用户业务操作建模,并以此为基础进行异常行为发现。 为提高异常行为发现的精确率,继而减少人工研判的工作量,本方案采用多模型综合判定的方式,对用户行为数据进行异常识别投票,当多数模型给出异常判定结果时才作为异常数据。 4.3. 安全趋势预测不同于面向全社会的各类信息安全、网络安全、移动安全等趋势分析,本方案中安全趋势预测的目标主体是单个企业、政府部门或金融机构等。这类单位面临的主要安全问题是本单位数据泄露、数据毁坏、违规应用行为以及传统的网络安全和信息安全问题。对于网络安全和信息安全趋势,预测人员可以结合赛门铁克、赛迪等专业机构发布的预测数据和本单位网络、应用、操作系统等情况,进行预测分析。本方案重点关注数据安全趋势预测,根据历史数据的因果规律预测安全事件未来的走向,为本单位总体安全防护策略提供决策支持。
4.3.1. 总体流程安全趋势预测流程如 REF _Ref458695983 \h 图 7所示。进行数据安全趋势预测需要首先确定预测目标主体,针对单位实际情况确定应用系统、数据资源、部门、业务线、安全事件种类为预测目标主体,预测目标是安全事件个数。针对上述两项需要对应确定预测因素。按移动警务项目的需求,确定网络总流量、网络流量方差、网络活跃度、会话时长方差为预测因素。 4.3.2. 模型构建本方案采用的模型分为线性预测模型和非线性预测模型两类。接下来,本节将针对这两类模型,分别介绍典型算法、模型构建过程。 4.3.2.1. 线性预测模型最简单的线性预测模型是一元线性回归模型,用公式y=a+bx来表示,其中y是因变量对应本方案中安全事件数量,x是自变量对应一个预测因素。模型构建的任务是利用历史数据(也就是x和y值的有序对集合),估计a和b的值。预测的任务就是给定一个新x值,求得y的值。 一元线性回归是一个主要影响因素作为自变量来解释因变量的变化。但是本方案中,安全事件数量的变化受多个重要因素的影响,需要用前文提到的网络总流量、网络流量方差等多个影响因素(即预测因素)作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元线性回归,用公式y=a0+i=1naixi表示。同样地,模型构建利用历史数据来估计a0~an的值。 与其他数据挖掘算法一样,线性回归模型的最终效果取决于特征的选择,也就是从原始数据中统计哪些指标作为因变量。在安全趋势预测中,各类预测目标主体具有部分共同特征(如网络总流量),还具有各自的独有特征。特征选择过程与传统数据挖掘类似,需要经历特征扩张、特征关联分析等过程。 线性回归模型可用于实时安全趋势预测中。通过设定一个滑动窗口,以增量方式定时统计一段时间内数据的特征,并利用学到的模型估计安全事件个数,实时给出当前时间段内的安全趋势。 虽然线性回归模型易于建立和运行,也便于理解和解释,但是它要求数据间满足或近似满足线性关系。安全趋势预测在很多情况下数据间并不满足线性关系或者难以用线性关系近似模拟,这种情况下就需要考虑使用更复杂的非线性预测模型。 4.3.2.2. 非线性预测模型本方案采用时间序列非线性预测模型进行安全趋势预测。时间序列模型,首先在分类数据中按固定时间段(周、月、季度、年等)进行统计得到所需的预测因素和对应的预测目标数据,按时间先后顺序将这些数据排成一个序列;然后通过编制和分析时间序列,根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,借以预测下一段时间可能发生的安全事件数量。时间序列非线性预测模型主要包括二次抛物线等曲线模型和神经网络等人工智能方法。 曲线预测模型本质上与线性回归模型类似,比如二次抛物线模型y=a0+a1t+a2t2也是利用历史数据确定a0、a1、a2的值,不同的是因变量只有一个:时间。神经网络预测模型通过不断根据输入的训练样本,调整网络的各层权重,使网络的输入和输出以一定精度向给定的样本模式逼近,通常需要大量训练样本。 4.3.3. 实现概要项目实践中,单独一种预测算法很难满足所有需求,所以需要多种算法融合使用,这种融合除了类似异常行为监测的多模型投票模式之外,还有多个模型的分层使用。 趋势预测大多采用时间序列的方法,只有时间这一个自变量,仅仅统计安全事件的个数,然后按时间排列做预测的方式,难以捕获很接近的时间函数。本方案采用三级预测方式,先用简单线性回归估计基础特征值,然后将多个基础特征值用较复杂的多元回归等算法将多个特征值映射到一个与时间直接相关的变量上,最后采用时间序列趋势模型预测安全趋势。 例如,分别通过简单线性回归模型来估计,前面提到的网络总流量、网络流量方差、网络活跃度、会话时长方差4个特征,然后用这4个特征作为因变量来估计安全事件个数,最后安全事件个数再与时间建立预测模型。 4.4. 分析结果展示在前述第三节逻辑架构的业务层中包含用户行为统计、异常行为发现、异常行为研判、行为策略管理、安全事件告警、安全事件溯源、安全事件统计、安全趋势预测、安全态势展示和系统运维10项业务应用。本方案重点描述异常行为发现和安全趋势预测2个与数据挖掘、机器学习直接相关的业务应用。 另外8个业务应用只涉及传统业务如增、删、改、查等功能。其中用户行为统计提供按用户、时间段等结构化查询统计功能;异常行为研判提供用户对异常行为的研判功能,研判结果为违规、正常或者不确定;行为策略管理提供用户管理简单违规行为识别的策略管理,这些策略将在实时处理模块直接对用户行为作出判断;安全事件告警提供用户安全事件实时告警的功能,按照用户个性化设置的告警条件,采用弹窗、短信等方式通知相关安全事件的发生;安全事件溯源提供事后的追踪溯源功能,使用户可以查阅每个安全事件的来龙去脉;安全事件统计提供用户按结构化条件进行查询统计的功能;安全态势展示提供安全事件热力图等方式的展现功能;系统运维提供用户管理和维护系统的功能。 五、 工作开展规划本方案的落地实施需要做一些准备工作,总体目标是建立一整套大数据项目实现体系,包括从业务规划、产品设计、产品开发、测试及实施等环节。 5.1. 工作内容鉴于公司目前大数据方面业务和技术现状,个人认为大数据项目落地实施的准备工作主要包括以下几点: 1) 数据搜集。数据是大数据项目的基础,它与业务相互驱动。一方面,在不了解真实数据情况下,通用的大数据业务与技术规划可以起到一定的开拓作用,为数据标准制定等提供参考;另一方面业务的实现需要数据支持,没有数据就是无米之炊,无法开发出一个“有用”的产品。 2) 基于数据的业务规划。获取到数据之后,通过观察和简单分析,确立有价值的业务方向。跟未获得数据时规划的业务不同,此时确立的业务必须能解决某个用户痛点问题或者创造能引起用户兴趣的价值。 3) 数据分析。大数据的基本思想是以数据为中心来建立应用体系,它强调数据的重要性。任何一个有价值的大数据应用至少需要经历想象、分析、验证、实现四个阶段。数据分析利用专门的工具,比如excel、R语言,找到数据中的规律。用于分析的数据可能需要多源数据关联产生,整合数据特征,通过特征工程选择用于算法模型的特征,然后将这些特征建立多种算法模型,并验证效果,最终确定落地实施的算法模型以及对应的特征。数据分析是大数据应用非常重要的阶段,也是大数据应用区别于传统应用的关键所在。 4) 算法研究。针对某个具体问题,通常会有多种算法模型可用,但是这些已知(或者说分析工具能提供)的算法效果可能无法令人满意,比如生产环境中预测模型的精确率,如果低于80%,那么它是没有意义的,这时候就需要根据具体数据优化算法或者考虑其他的算法。算法研究的任务是追踪本领与算法的应用情况,尤其是主流大公司在类似业务上的应用情况,并拿过来解决实际业务问题。 5) 基础平台。大数据基础平台是一项基本工作,拥有一个平台至少会让团队的人对大数据处理工具有个直观的认识。当然最重要的还是让验证代码能够跑起来,将整个数据处理流程打通。现实运行的一个demo的演示作用,要远远大于一个精彩的产品规划。 6) 技术预研。手头有了数据,确立了算法模型之后,我们需要用他数据处理工具提供的算法库来实现,要在大数据平台上验证数据分析的结果。当工具中的算法库不包含确立的算法时,我们需要自己实现这些算法。 7) 建立一整套大数据项目实现体系。通过上述实践,团队成员能够熟悉一个大数据项目从想象到落地的大概流程。这样的经验对团队设计大数据产品、制定项目方案以及客户交流都能起到很好的促进作用。 5.2. 近期工作近期需要进行的工作有以下几项: (1)大数据试验平台搭建 前提:采购服务器到位。 任务:安装常用大数据处理工具软件包括Hadoop、HBase、Kafka、SPARK Streaming等 时间:5个工作日 (3)数据搜集和数据分析 前提:需要其他部门同事的合作,拿到本公司内部V3系统的日志数据和其他可能的数据;demo数据展示部分需web开发支持。 任务:拿哪些数据和元数据,基于这些数据作分析,最后实现一个验证demo。 时间:走通大数据处理流程的各个环节,完成demo,需要2个月时间 (3)基于区块链的可信数据中心可行性分析 前提:需要研究区块链理论知识、跟58同城的人交流。 任务:最终产出可行性分析报告,如果情况允许,在公司实验平台上验证一个初步方案。 时间: 可行性分析报告,视交流情况而定,预估20个工作日;实现验证依赖可行性分析确定的软、硬件要求,预估40个工作日。 5.3. 人员需求按照基于公司部署的V3等数据,年前完成Demo开发的要求,至少需要4个人参与,人员及主要职责分别为: 架构师1人(兼任算法工程师、平台运维工程师): 1) 系统整体技术架构、业务到技术实现转化。 2) 针对特定业务和数据选择合适算法、根据算法实现效果改进算法。 3) 大数据处理和监控平台安装、根据应用运行情况调整各个工具参数、排除日常出现的系统故障。 数据分析师1人: 1) 根据采用的算法给出针对具体数据的算法结果评估。 2) 确定数据关联关系,数据特征选择等。 3) 为算法代码实现提供理论支持。 研发工程师2人: 1) 中级1人:利用M/R原语、开源算法库等设计大数据处理具体实现步骤、代码开发。 2) 初级1人:代码开发。 Web展现部分需要外部支持 |