2023-01-17 00:50来源:m.sf1369.com作者:宇宇
对于一个数据应用架构来说最重要的是要形成一个完整的数据链,应用和后台计算模型能形成一个闭环。虽然我不懂安全领域的相关算法,只能随意YY,但是几个元素我觉得应该一定少不了:
1.实时性。考虑到请求量压力可能很大,这就意味着对计算系统有很高的要求。对于每个请求要在足够短的时间内通过算法给出判定,实时性应该在ms级别,你说得三个框架里只有storm才能达到这个实时水平。
2.相关性事件。用户的访问行为进行安全判定时可能不只是基于单次访问,而是根据前后几次访问连续事件才能进行判定(犹如一个有限状态机)。而在分布式情况下对于事件顺序的判定是很有难度的事情,这里涉及到分布式系统的时钟问题,需要根据实际情况来做设计。
3.模型训练。分离线和在线两种,离线训练使指每隔一定周期(比如一天)根据存储系统内的历史数据训练计算模型和参数,然后更新判定算法。在线模式是根据用户行为在访问周期内就实时更新判定算法,相对来说后者难度更大一点,但是效果会更好一点。
4.维护和演化。产品级的数据应用不是功能做出来就可以了,所谓道高一尺魔高一丈,我猜想安全领域应该是非常需要向前演化算法策略的。也就意味着,你的系统可能随着系统发展或者相关算法开发人员的研发,需要在实施时接入不同的数据(比如说今天需要实时的x参数作为计算参数,明天需要实时的y参数作为计算参数)。这时候架构要支持快速接入新的监控参数的能力。需要注意的是数据产品不会是一个孤立单一的应用,是一组应用的集合。
通信、多媒体传输压缩、音视频处理、音乐语音处理、语音识别、图像识别、医学工程、医学检测、工业检测、雷达声纳、股票分析等等,太广了。
借助工具未至科技魔方是一款大数据模型平台,是一款基于服务总线与分布式云计算两大技术架构的一款数据分析、挖掘的工具平台,其采用分布式文件系统对数据进行存储,支持海量数据的处理。采用多种的数据采集技术,支持结构化数据及非结构化数据的采集。通过图形化的模型搭建工具,支持流程化的模型配置。通过第三方插件技术,很容易将其他工具及服务集成到平台中去。数据分析研判平台就是海量信息的采集,数据模型的搭建,数据的挖掘、分析最后形成知识服务于实战、服务于决策的过程,平台主要包括数据采集部分,模型配置部分,模型执行部分及成果展示部分等。