除了显示基本的利用情况和使用情况的数字_网络监控

当前位置:监控行业 >> 网络监控 >> 除了显示基本的利用情况和使用情况的数字

除了显示基本的利用情况和使用情况的数字

在来自hadoop流水线的数据可用之前,对于不经常出现的新进请求从每分钟数据中同步每小时/每天的数据

cuckoo-write是量度的获取点,并暴露了一个api用于写量度除了将这些量度存储在manhunttan,cuckoo-write还保证这些量度被发送到正确的服务进行索引最近两周的数据会以分钟的粒度进行存储,而其余的数据以小时的粒度

服务日志的生命与任务被调度到的瞬态资源容器的生命之间的耦合导致了我们在针对日志丢失引起的事故进行分流时的很多不确定

尽管我们之前的系统能够很好的服务twitter,我们还是迁移到了一个新的分布式警告系统中这带来的额外好处有:

loglens服务的优先级从高到低排序如下安防监控行业排名:部署的简易性,实时日志的可用性,花销,旧日志的可用性和在有限的开发者投资的情况下可靠操作服务的能力

时间序列数据库

警告执行隔离,使得一个错的警告并不会影响其他的警告

将相对昂贵的基于manhattan计数器的聚合替换为低消耗、高延迟的hadoop批处理流水线

跨dc的冗余:一些最关键的量度发送到不止一个数据中心中进行冗余备份这使得我们可以对抗单数据中心失效的情况

cql查询引擎

几乎所有的时间集都会经常被更新,使得基于最近更新的缓冲不再高效

可视化

我们的时间序列数据库基于服务所在的组或以小时和天的粒度支持数据聚合过去,我们使用manhattan计数器来完成基于时间的聚合我们观察到了两个在每小时和每天数据安防监控发展趋势中的通用的访问模式,从而帮助我们重新设计我们的聚合流水线这两个访问模式就为:

twitter的监控工程团队为我们的内部工程团队提供了全栈的库和多个服务,来监控服务的健康状态、遇到问题发出警告、通过提供分布式系统的调用踪迹来支持肯本原因的调查以及通过创建了一个聚合应用/系统日志的可搜索索引支持诊断监控工程团队的主要工作包含四个方面:

学习到的教训

容错:作为twitter最关键服务的其中一种,我们需要在即使发生数据中心失效等灾难性故障时,也能够提供高可用的监控服务为了达到该目标,我们遵循了两个原则:

时间序列数据库查询引擎cuckoo-read处理来自我们的警告和仪表盘系统的时间序列数据查询以及用户初始监控行业品牌化的特定查询流查询以cuckoo查询语言cql进行指定

警告/可视化

来源:大数据杂谈订阅号

量度可以通过三种方式进入我们的监控框架大部分的twitter服务都运行一个python搜集代理,来将量度放入时间序列数据库和hdfs监控团队也支持一个普通statsd服务器的简单修改版——statsite,来放松度量到我们的主时间序列度量获取服务cuckoo-write或像carbon这样的其他获取服务最后,在获取的便捷性比性能更重要的地方,监控团队提供了一个http api通过这些方法,我们能够支持来自运行在twitter数据中心的twitter服务器或为了利用中心化的监控栈而运行在外部aws等数据中心安防监控行业网的其他公司的大量客户

量度收集中的“推”vs“拉”:在我们编写上次博客的时候,我们的所有量度都是从我们的收集代理中“拉”下来的我们发现了两个问题:

我们的收集流水线缺少服务质量隔离针对各种服务,很难设定一个最优的收集超时的阈值一个服务的收集时间比较长可以引起使用相同收集代理的其他服务的延迟

时间集索引服务nuthatch保留着量度元数据的踪迹,并维护一个量度键到成员集的映射(例如,从宿主组到每个宿主的映射)和时间戳下面的浏览工具显示了一个数据的用例工程师可以快速导航这些服务、源以及服务中可用的量度

动态配置

在这些观察的基础上,我们针对新的聚合流水线,做出以下选择:

通过这些改变,我们看到了明显的收集可靠性的视频监控需求分析改善然而,随着我们转向自助的“推”模型,计划请求的增长情况变得更加困难了为了解决该问题,我们计划实现服务定额以解决不可预测/没有限制的增长

虽然收集和存储数据非常重要,数据对我们工程师而言仍然没有任何意义,除非它被可视化呈现使得工程师能够马上识别出其中的关联工程师使用cql查询语言来在一个浏览器内绘制时间序列数据的图表在一个监控产品中,一个图标是最基本也是肯本性的可视化单元图表通常称会被嵌入或组织进仪表盘中,但它也可以进行特殊创建,以在执行一个部署或诊断事故的时候能够快速分享信息此外,工程师可以使用的还包括一个创建仪表盘所使用的命令行工具、可重用监控组件的库以及一个自动化所用的api

在节点失效时视频监控需求分析的警告评估

我们通过统一可视化和警告的配置改善了用户监控数据的认知模型警告只是应用于与可视化和诊断所使用的相同的时间序列数据的预测由于所有相关的数据都在一个地方,这使得工程师们可以更加容易的解释服务的状态

利用率

基于时间的聚合

http://mp.weixin.qq.com/s?__biz=mza5nzkxmzg1nw==&mid=&idx=1&sn=fcd981b132d5557b08ed2c44&scene=1&srcid=0510pa95mn7ddrw4sga7mnaz#wechat_redirect

时间集索引服务

在这种情况下,我们将收集模型从“拉”换为了“推”,增加了我们的服务隔离每一个宿主上的收集代理只收集运行在该宿主上的服务的量度此外,除了由服务发出的量安防监控市场度,每一个收集代理分别发送收集的状态追踪量度

由于我们团队的工程师数量有限,我们曾想加入日益壮大的、致力于oss twitter zipkin的zipkin开源社区来加速我们的开发速度结果,监控团队决定通过open zipkin项目来彻底开源zipkin从此,我们开始与开源社区合作建立控制和框架模型以保证改变能够被规律性的评阅、合并和发布这些模型被证明非常好:380个下拉请求已经在8个月内被合并到70个社区推动的版本中所有的文档和通信也都起源于open zipkin社区未来,twitter会将来自open zipkin项目的zipkin版本直接部署到产品环境中

架构

利用这一新的流水线,我们以更低的硬件代价取得乔安安防监控怎么样了重大的效率提升而且,我们还通过减少时间序列数据库中的负载,改善了系统的可靠性

随着twitter和监控技术的发展,服务拥有着希望看到他们对我们平台的使用情况我们将所有的读写请求保存到了cuckoo,然后使用它们去计算一个简单的利用率量度——读/写率这一追踪数据也可以用于我们的发展规划和能力规划中

分布式系统追踪框架

全球敏捷运维峰会【北京站】

仪表盘和图表携带了很多工具来帮助工程师深入了解他们所包含的量度它们可以利用栈来改变数据的排列和表示方式,填充选项;它们可以在线性和log图表尺度间切换;它们还可以选择不同的时间粒度(每分钟、每小时或每天)此外,当数据进入流水线或潜回历史数据时,工程师还可以选择近乎监控行业前景实时的查看在不同的办公室,这些仪表盘就出现在大屏幕或一个工程师的显示器上twitter的工程师就生活在这些仪表盘中

给定我们数据集的规模,保证低延迟和高可用性的情况下服务所有的查询是非常具有技术难度的每天,超过3600万个查询是实时执行的,而我们的工程师依靠这些查询和监控系统来满足他们的服务sla

nuthatch使用一个中间缓存来减少存储操作的数量,以改善性能和降低开销在该设计中,一个无状态的路由器服务负责接收进行的请求,并决定请求应该被转发到哪些worker碎片以使用兼容的随机一个带有自身in-memory缓存的worker碎片的集合通过从缓存或manhattan存储中读取数据来处理请求

更重要的是,n安防监控行业现状uthatch提供了成员关系解析和cql查询引擎的单个查询支持,使得工程师能够针对给定的键查询成员关系,然后利用sum()和avg()等函数将所有的时间序列聚合在一起在下面的查询例子中,nuthatch负责识别所有的nuthatch.router服务以及在“/update/request/”范围内的源,并提供cql查询引擎的数据以提取存储中特定时间序列的数据集

在可视化的用例的,每个仪表盘可以包含上百个图表,而每个图表又可能包含上千个数据点为了满足所需的浏览器图表性能,我们开发了一个内部使用的的图表库

没有简单的方法可以区分服务失效和收集代理失效这两种情况服务响应超时和丢失的收集请求都表现为空的时间序列

l安防监控系统的发展oglens是一个提供服务日志的索引、检索、可视化以及分析的服务它的灵感来源于存在于开发者在运行aurora/mesos上的服务时的感受中的两个特殊的差距

客户可以通过一个自助的入口来部署它们的服务该入口为他们能力和突发头空间有限的服务日志提供了一个索引日志可以保存在hdfs 7天,一个缓存节点实时服务最近24小时的日志,而更老的日志按需提供

可视化服务允许工程师与警告系统进行交互,并为查看警告状态、参考运行手册以及暂停警告等行动提供了一个ui

经平台同意授权转载

由于该想法已经发挥作用,这些工具已经允许用户利用两种方法来跨越读和写之间的缝隙——通过仅仅减少他们写的未使用的量度的数量或通过将单独的量度替换为安防监控行业排名聚合的量度结果,一些团队已经能够将其量度的数量减少一个量级

cuckoo-read原本就支持cql查询查询引擎由三个组件构成:解析器、重写器和执行器解析器负责将查询字符串解析为内部的抽象语法树(abstract syntax tree,ast);然后,重写器处理ast节点,并利用更简单的计算来替换其中一部分节点以改善性能;最后,执行器从下游服务中提取数据并计算结果

在区域失效时的跨数据中心的警告失效备援

在快速检索构成一个服务的很多组件所产生的所有独特日志时的困难增加了实时事故的反应时间

作者:张天雷

据评估,警告系统每分钟处理超过25000个警告考虑到可扩展性和在节点失效时失效备援的冗余性,警告评估被划分到不同的盒安防监控行业排名子中

nuthatch服务的挑战来自即将被索引的流入量度集和来自cql查询引擎的成员请求的巨大的数据量一个通用的索引或缓冲引擎在这种情况下并不适用——时间集数据拥有以下特性:

我们的数据流水线以天为单位来聚合时间数据,而且我们将输出存储在hdfs和vertica中我们的用户可以通过三种不同的方式来访问这些数据首先,我们会给每个团队发送周期性的使用和利用报告其次,用户可以利用tableau将vertica数据进行可视化,从而允许他们对数据进行深入分析最后,我们还提供了一个带有详细可执行建议的utilization api除了显示基本的利用情况和使用情况的数字,该api还被设计为可帮助用户发觉哪些特定安防监控发展方向组的量度还没有被使用

“twitter的监控团队为其内部工程团队提供了全栈的库和多个服务而其监控技术也为网站发展提供了有力的支持本文分享了twitter监控技术在可视化、警告、分布式追踪系统、日志聚合/分析平台、利用率方面的概况,以及学习到的教训”

每小时数据的延迟要求比每分钟数据的要求要低很多用户通常对每小时数据拥有更高的延迟容忍度

分布式追踪系统(zipkin)

量度获取

2016年6月11日,dba+社群联合运维帮、linux中国开启全球敏捷运维峰会第二站:北京站!峰会力邀来自百度、新浪、58到家、小米、搜狐畅游、浙江移动、新炬网络、日志易等互联网与传统企业的资深大咖,汇聚500+行业精英!原价169元的门票限时免费,原价599元的vip票安防监控新闻,限时199元(优惠码:dbavip)!登录峰会官网http://gdevops.com/抢座吧~

时间序列数据的写会引起大量成员集的更新请求的量如此之大,以至于manhattan存储系统不能有效的进行处理

我们为运行在我们自己拥有和操作的数据中心,以及部署在amazon aws和google compute等外部公有云中的所有应有和服务都实现了这些功能

用于警告和可视化配置的统一对象模型

当服务降级或损坏时,我们的警告系统将情况告诉给工程师为了使用警告,工程师在量度上设置了条件当这些条件满足时,我们提醒工程师

警告

所有的twitter量度都被发送或存储在twitter的时间序列数据库——cuckoo它实际上是有t做安防监控怎么样witter的分布式键值存储系统manhattan所支持的两个服务——cuckoo-read和cuckoo-write刚开始,cuckoo-read和cuckoo-write曾是一个服务但是,由于读写负载的不同特性,他们被划分为了两个服务,使得每一个服务都只实现特定的任务

日志聚合/分析

twitter服务每天处理大量的推送由于负责提供针对支撑twitter的服务的可视化功能,我们的监控服务可称的上是最大规模的内部系统自从我们在两年前的一篇博客中讨论以后,请求的量以及硬盘中的数据容量都已经大大增加现在,我们的时间序列量度获取服务每分钟处理超过28亿的写请求、存储4.5pb的时间序列数据和处理25000个查询请求

监视安防监控公司

原文链接:

在一个成员集内的大部分成员,即使一些成员非常高频率的加入或离开,仍然保持相对稳定

数据访问通常发生在小时/天边界的回滚之后(例如,由于数据收集发生在晚上9点到10点,大部分的每小时数据读访问都发生在晚上10点以后)

在cql,时间学习通过一个包含服务、源和量度的数组进行唯一标识该结构不仅直接映射了服务的组织方式,也使得我们可以简化存储中的数据划分

消除/解耦合对其他库/服务的非必需的依赖:在我们的有些开发过程中,我们有意的移除了对一些广泛使用的twitter front end、tfe等内部框架的依赖,以避免这些系统失效引起的宕机事件在其他情况下,我们使用manhattan和zoo专门的集群和实例来将我安防监控市场们的失效和我们所监控服务的失效解耦合开来

无影响的部署,使得用户不会损失可视能力

我们的移动架构一再过去两年中发生了一些变化以下就是我们现在的系统架构:

日志聚合/分析平台

针对聚合结果采用高密度存储(磁盘 vs ssd)

随着我们的系统变得越来越复杂,我们需要一个轻量级的机制来将配置变化配置到大量的服务器中,使得我们能够在不重启服务的情况下快速替换为开发进程的一部分我们的动态配置库提供了一种部署和升级针对mesos/aurora服务及部署在专门机器上的服务的配置的标准方法该库采用zookeeper作为配置的信任源我们使用一个命令行工具来解析配置文件,并在zookeeper内更新配置数据依赖该数据的服务会在安防监控行业现状几秒内收到有关变化的一个通知:

白殿疯用醋
白癜风要怎么治疗好

转载请注明地址:http://www.jiankongxingye.com/wljk/2546.html

上一篇文章：银行在设备的选择上

下一篇文章：责任编辑:王逊

最新文章

热点文章

推荐文章