干货从几十台到几千台服务器的运维监控该

云智慧有幸邀请到精硕科技运维总监顾凯先生,为大家带来《从几十台到几千台服务器的运维监控该怎么做?》精彩分享。

AdMaster精硕世纪科技(北京)有限公司是领先的营销数据技术公司,利用先进的大数据技术帮助品牌指导营销策略并预先量化营销效果。AdMaster架起了品牌、广告主与消费者之间的桥梁,是贯穿各行业和领域的数据枢纽。我们与国际、国内超百家媒体及上下游合作伙伴保持长期合作关系,保证了AdMaster作为数据枢纽的多方数据源对接和融合。通过监测和分析不同行业的品牌在多种平台上的数字营销投放,AdMaster已经建立了行业标准、媒介规划工具,并积累了丰富的实践案例,帮助品牌实现数字营销投资收益的最大化。AdMaster成立于年。发展至今,现已为超过80%的国际、国内品牌提供数据服务,品牌范围覆盖各行各业。我们在北京、上海、广州有2个研发中心和3个办公室。我们的竞争优势来源于技术的不断创新,并拥有多项研发专利技术,技术研发人才占公司总人数的一半。我们是AdMaster,用数据科技创造快乐世界!。

入职AdMaster五年多,经历了公司从几十台到几千台服务器的飞速增加阶段,目前AdMaster每天增长量数据量超过5T,每天请求数超过亿,每天计算超过0亿条记录,每天计算任务数超过10万个,0亿记录的秒级查询,万级的QPS。

多年以来一直以稳定运行为前提,确保业务永不掉线,带领运维团队自主开发了运维系统,包含,资产管理,工单管理,监控系统,域名管理,公有云管理,私有云管理等平台,并将运维数据进行分析整理,将运维工作透明化,可视化。

这次主要给大家介绍一下从几十台到几千台服务器的运维过程中,监控系统的变迁经历。常说一千个人心中有一千个哈姆雷特,一千个运维的心中有一千种运维的方法,没有一个方法是万能的、可以适用所有的场景,具体问题还得具体分析,我将这五年的经历大致分了三个阶段:

第一阶段:台以下

第二阶段:~0台

第三阶段:0+(0以上和0以上没啥区别了)

每个阶段的分界点也不是那么精确的,就是一个大概的时期,变化都是一个逐渐的过程。

一、机器数量小于台的阶段

这个时期需求简单,主要用于通知问题、快速定位解决问题,大致总结一下,主要需求就三点:

1.简单,易用;

2.稳定运行;

3.能够报警,邮件,短信。

基于以上需求,可以使用比较流行开源的监控软件Nagios,Cacti,Zabbix,Ganglia,etc。流行的开源产品有较多的文档,可快速上手,并且有大量的前人使用经验,可以避免许多问题,即使遇到问题也容易找到解决办法。其中邮件报警一般是都支持的,短信需要自己对接一下短信平台。

我们在早期的时候选择了Nagios和Cacti,选择Nagios主要是个人原因,我最熟悉,使用Cacti是因为对交换机的监控特别方便,几乎是傻瓜式的。其实在这个阶段,不管是哪一个监控产品,基本都可以满足需求,选择的因素还是看个人喜好,这个时期运维同学是可以偶尔任性一下的。

二、机器数量到0的阶段

这个时期,需求开始变得复杂,不过主要还是用于通知、告警,避免同样的问题再次发生,我在这个时期主要做了以下事情:

1.统一监控内容:将基础监控进行统一,默认每个机器都包含CPU,内存,磁盘空间等基础信息监控;

2.覆盖式监控:将所有机器均纳入监控,除去基础监控以外,最重要的当属业务监控,尽可能的覆盖业务流程,通过自定义监控减少和去除重复的问题,保障业务稳定运行。

3.及时通知,确保无漏报:将所有监控分类,根据重要程度、紧急程度等,分别用邮件,







































北京中科是公立医院吗
丹芪偏瘫胶囊



转载请注明地址:http://www.jiankongxingye.com/jksp/26839047.html
  • 上一篇文章:
  • 下一篇文章: