日志数据处理中心简介
大约 2 分钟
项目背景
目前入职于某通信公司,每日产生大量的日志数据(每日数据量亿级),由于工作事务,没有进行进一步利用,导致大量珍贵的日志数据白白浪费.
现决心构建一个日志数据处理中心,将日志数据进行清洗、聚合、存储、分析、可视化,从而提高日志数据的价值,提高公司业务效率,为公司决策提供数据支撑.
项目目标
- 支撑工作中常用的热数据即时查询,冷数据任务查询.
- 完成数据的基本分析,辅助控制投诉处理.
- 进一步完成数据的挖掘,分析,预测,预测分析,为客户线路质量优化提供解决方案.
- 完成数据定期汇总,绘制统计报表,完成数据可视化大屏展示.
项目架构
项目存储采用hadoop+hive,实时日志存储在elasticsearch,冷日志存储在hadoop.数据输入输出采用logstash,数据可视化采用kibana.数据操作客户端用java编写.
实时日志Elasticsearch
随时需要快速查询的日志数据,例如今日日志,昨日日志 秒级响应
冷日志Hadoop+Hive
需创建查询任务的日志数据,例如上周日志,上月日志 分钟/小时响应
数据输入输出logstash
logstash作为数据输入输出,负责将数据从各种来源输入到Elasticsearch,从Elasticsearch输出到Hadoop
数据可视化kibana
kibana作为数据可视化,绘制统计报表,完成数据可视化大屏展示
批量任务操作客户端java
java作为数据操作客户端,负责数据批量任务操作,例如数据统计,数据预测,数据挖掘,数据预测分析,并将数据存入mysql数据库方便数据可视化
数据流转
各个VOS采集数据,通过logstash输入到Elasticsearch,通过logstash输出到Hadoop,通过kibana可视化,通过java客户端操作