Products
GG网络技术分享 2025-11-23 04:15 11
弹性计算

妥妥的! 第七十六期:3000台服务器不宕机微博广告系统全景运维大法。微博现在日活达到了2亿, 微博广告是微博Zui重要且稳定的收入来源,没有之一,所以微博广告系统的稳定性是我们广告运维所有工作中的重中之重。
我跟你交个底... 告警有hen多的问题, 我们遇到的问题Ke以分为以下四个方面:
告警
hen多时候,网络抖动、拥堵、负载暂时过高或者变geng等原因,会触发报警,但这类报警要么不再重现,要么Ke以自愈。
行吧... 但是因为监控指标的增多, 加上我们的指标是实时性变化的,数据要求又比较高,这些原生软件不再满足我们需求了。
成dou网站建设公司_创新互联, 为您提供网站制作、微信公众号、外贸建站、动态网站、网站收录、品牌网站建设
整一个... 比如说流量突增的时候,需要查kan是不是同单元dou出现了这个情况。
现在拿到了一个非常重要的容量值及消耗比来进行容量评估, 呃... 用于描述当前的容量消耗情况。
说到底。 互联网广告中的出价模式—联盟、 RTB、RTA 好对友 |雇佣远程员工,花对等的钱,找值得的人 3000台服务器不宕机微博广告系统全景运维大法 那些年,我在阿里是怎么获取流量的? 一条互联网广告的“奥德赛”之旅 早期ToB创业的“快”与“慢” Z世代的社交网络大迁徙 继新华社、共青团揭露美国大学生数学建模竞赛是一个骗局外这个美国认证协会又被央视点名 商业的速度,不是越快越...
先说说简单介绍一下弹性计算的架构,弹性计算依托于 Kunkka 自动化运维平台,以及 Oops 监控平台, 打脸。 在业务压测的情况下获取业务指标监控,将数据送到容量决策系统,Zuo出是否扩缩容的决定。
再说一个,关于分类计算,不同的需求推送给不同的计算节点。存储也进行了分类,实时性要求比较强的话会直接放到内存,以Zui精细粒度进行存储。
前三个小时的数据是按秒存的, 按天计算的数据是按 秒、 秒存的,一些单机数据是按分钟存的。
再说一个, 微博广告的业务数据有特殊性,一般运维关注的数据是系统的性Neng,系统的性Neng数据有时候来源于业务日志,别担心...。
分享复制链接分享到 QQ分享到新浪微博扫一扫.非著名运维的博客06-091685.,我爱我家。
醉了... 无论是否重要、 优先级如何,告警dou通过邮件、短信、App PUSH 发送到接收人,就像暴风一样袭击着接收人,接收人没有办法从中获取到有效的信息,经常会让真正重要的告警淹没在一大堆普通告警中。
我们基于历史数据给予分析, 制定了三条水位线,包括平安线、警戒线和致命线, 出岔子。 拿当前消耗值与水位线进行对比,在不同阶段采取不同的措施。
下图是我们的九宫格, 主要原因是时效性比较强,正常来说是以产品为页面以业务线为格子, 我开心到飞起。 每个格子记录的是单机的详细信息。
比如一个硬盘在接近 % 的时候开始告警了你让它告吗?好像得告, 总体来看... 但似乎不告也Ke以。
切中要害。 这样的自动化运维平台大体上满足了运维的日常操作需求, 在 Kunkka 平台中还有自动扩缩容的功Neng,我们针对这个功Neng进行延伸。
我们现在也进入了自动化运维的阶段,在新的虚....我们的服务器在 3000台以上,业务线及辅助资源各种各样,产品迭代非常快,且依赖关系复杂,流量变...,搞一下...
我天... 接下来我们计算过的数据还有一部分会存储到 Redis 通过 WatchD 作为告警中心的数据, 主要原因是告警数据一般dou只要求当前数据,不会有人需要查kan上个月这台机器的负载有没有告警。
Ru果在这一组服务器当中单机故障数超过一定的比例,这个格子会变颜色,破防了...。
比如Dashboard 的展示数据会直接被放到内存里。再说一个,上文提到的在线扩缩容数据,会相应获取数据给用户,其他相关的获取需求 API 也会进行分类获取,放心去做...。
带宽限制:微博和云服务商之间确实是拉了专线, 但是微博和云服务商不只是微博广告的一个业务,还有hen多其他大户,这玩意儿...。
中分析 批量运维工具 持续集成和发布 基于这些功Neng和需求, 我们广告运维自主研发了 Kunkka平台、资产管理、自动化上线等运维平台。 资产管理是基于公司 CMDB获取到主机云服务器, 针对微博广告对资源的管理需求自建定制化的资产管理平台,摸鱼。
也是没谁了... 在自动扩所容的基础上,根据时间段,流量进行动态判断,自动决策的扩所容够功Neng。
不忍卒读。 这样就Neng够快速查kan在故障出现的前后哪些
再说一个一部分是运维比较关心的数据, 今天来了多少流量?流量有多少是正常的?有多少是异常的?平均耗时是多少?针对这一部分,我们采取了实时数据计算的方法,一言难尽。。
针对广告业务的监控流向, 我们把数据分成两类,有一部分精密数据的计算,我们采取的是离线分析的方式,的工具进行拆洗、计算,计算之后落存储。
作为监控系统, Oops 在架构上并没有什么出奇的地方,所有的监控无非就是四个阶段:
前面进行的数据采集、计算,以及动作的串联,dou是为了完成再说说一个目标,服务扩容成功,稳了!。
哈基米! 第三张图是拿到这些数据之后自动平台显示应该扩容了。蓝色跟绿色的流量线Yi经降下来了 大部分量调到
比如说监控数据,就按监控数据的方法计算;告警数据,就按告警数据的计算。 我当场石化。 而且按照用户读取的需求进行分类存储,保证了高并发数据的实时性。
出现流量突增的情况时 Skyline 会 Luminosity 寻找相似的情况,查kan相同的时间内是否有其他地方出现流量异常,并将根源问题展示在 TOPN 上。
针对这种抖动, 我们增加了一些策略,抖动的时候会前后比较,监测重复性,kankan是不是具备告警的意义,通过增加告警策略这种方式来进行收敛,与君共勉。。
所有的监控系统dou逃不开这四个阶段,只是根据业务的不同进行了定制化的工作。
所以 Alert 节点计算之后的数据直接存在 Redis, Redis 把这个数据拿出来之后经过告警中心根据告警规则进行清洗,通过各种方式推送到需求方,一言难尽。。
微博现在日活达到了 亿, 微博广告是微博Zui重要且稳定的收入来源,没有之一, 太治愈了。 所以微博广告系统的稳定性是我们广告运维所有工作中的重中之重。
在数据采集阶段, 在数据产生的服务器上,针对不同的需求按不同的时间进行分类聚合,到头来向后推送的数据是 key-value、计算方法这种模式,推送给 Proxy。
Oops 整体架构面临的挑战
等故障出现的时候, 开发人员就会去翻监控图,去查kan大概是哪些原因导致了故障,差点意思。。
所以在正常的运维工位上dou会有这样的大屏幕, 运维Ke以一目了然发现自己所有负责的业务线情况,而不是让一台台机器在这里展现,这样就没有办法kan到业务线情况了。九宫格Ke以让运维geng加直观地kan到当前的告警情况,我始终觉得...。
针对这些问题,我们采取了以下措施:
生态伙伴招募六牛科技APICloud环信合伙人登录客服云运维干货:3000台服务器不宕机,微博广告系统全景运维大法发布于 2019-10-22 15:00:41 扯后腿。 | 阅读 32366.微博现在日活达到了 2 亿,微博广告是微博Zui重要且稳定的收入来源,没有之一,所以微博广告系统的稳定性是我们广告运维所有工作中的重中之重。
这个数据并不精准, 但我们Ke以接受部分损失,只需要保证数据的趋势是正确的,划水。。
存储的数据提供一个 API, 、分类存储,这种分类的需求来源于用户,需要kan用户有什么要求,要什么样的数据,何不...。
在云服务商方面我们常用阿里云、华为云跟一部分自建的私有云。DCP 混合平台是我们微博再说一个一个团队Zuo了几年的平台, 抓到重点了。 它Neng够对接云服务,快速生成
每一条曝光对于广告dou是真金白银,对精准性要求比较高,单独通过性Neng监控的日志收集方法是不Neng满足需求的, 醉了... 这也是我们面临的挑战。
以上措施Neng解决告警问题中 % 的问题, 现在大家dou在朝着geng高级的方向发展,我们也简单Zuo了一些探索,醉了...。
踩雷了。 一边有一个相对个性化的展示叫九宫格。我们的九宫格其实吧是一个结合报警功Neng的监控,它是一个页面但具备了告警功Neng。
新闻名称:3000台服务器不宕机, 微博广告系统全景运维大法 层次低了。 网址分享:https:///news/.html
我们的好多变gengdou是在 Kunkka 平台上操作的, 麻了... 开发有时候会选中一个通知,现在是变geng,告警请忽略。
但是微博广告的业务日志是收入,hen多业务日志 别怕... 是一条dou不Neng丢的,比如说结算的曝光。
再说一个, 监控系统一般dou会具备告警功Neng,有告警就会有告警问题,接下来会详细地介绍告警问题,别担心...。
再说一个一些历史性的数据需要出报表的, 比如说要kan前一周的数据,前一个月的数据,按照大数据的方式存到 OpenTSDB 当中,总体来看...。
运维人员需要关注所有部分, 从系统到服务、接口等等,维度hen多,一旦有问题,各种策略dou会触发报警,报警数量多到一定程度,大体上等于没有报警。
这个工具避免了人工操作, 通过 Skyline 将数据进行平滑,提供一份准确的数据,我们只需要通过这份数据, 摆烂。 进行规则判断,决定是否需要告警就好了减少了对数据准确性判断的复杂过程。
美团点评技术团队美团 O2O 排序解决方案——线下篇 - 20151207美团O2O排序解决方案——线上篇 - 2015-11-16 17:00美团点评旅游搜索召回策略的演进 - 20170616 - AIQ去哪儿网机票搜索系统的高并发架构设计 20170421 - AIQ搜狗搜索广告....架构、 搜索、推荐、广告系统优质资源.
简单来说... 一旦发生问题,第一个反应并不是上服务器kan一下系统怎么了,而是翻监控,kankan哪些监控指标发生了问题,所以监控系统会越来越多地面向于问题定位这个方向。
摆烂。 而且一般在流量增加的时候他们的扩容也是非常猛烈的, 所以带宽是否可用,也是我们在日常演练过程中非常注意的现象。
调整一下。 分享复制链接分享到 QQ分享到新浪微博扫一扫.系统信息CSDN认证博客专家CSDN认证企业博客码龄22年.通过实战案例与Zui佳实践, 帮助你掌握数据库开发与管理的核心技Neng,提升数据库应用性Neng。
Ru果说现在Yi经高于致命线, 则需要扩容,让 出岔子。 这个值geng加接近平安线,保证系统的稳定性。
没眼看。 Proxy 拿到Yi经被打包的数据进行拆包, 然后送给不同的计算结点,再按照 Key 进行计算,打时间戳。
说到监控,不得不说监控遇到的hen多问题。市面上有hen多开源的监控软件, 比如说常见的 Zabbix,在监控数据量少的情况下不管是基础监控还是业务监控,这些开源软件dou是Ke以直接满足需求的,嗯,就这么回事儿。。
补救一下。 研发之道的博客3000 台服务器不宕机,微博广告系统全景运维大法 由 Finalizer 和 SocksSocketImpl 引起的 Fullgc 问题盘点 爱奇艺效果广告的个性化探索与实践 深度学习技术在美图个性化推荐的应用实践 UC 信息流推荐....Java技术江湖的博客5)CPU又4核,如何编程让4个核dou跑满6)数组连续子数组的Zui大和 7)1到100的随机数,生成1到10000的随机数 8)linux常用命令 作者:风来了 链接:....
部署效率:我们通过扩容演练来寻找整个扩容过程中的瓶颈, 比如我们下发是通过 DCP 对接云服务商来完成扩容的。
真正的服务器扩容到线上之后怎么样才Neng保证服务是健康可用的呢?我们还有再说一个一套辅助系统叫扩容演练。 总结一下。 在实时演练过程中, 要注意以下几点:
因为 Dashboard 越来越多,即便是经验非常丰富的工作人员也hen难快速地定位到原因会出现哪个方面、该去kan哪张监控图。
接着是根因分析部分,因为监控的覆盖面越来越广,监控精确性越来越高。
接下来kan一下监控图, 下面三张图是范冰冰宣布分手拿到的流量,我们的反映是非常灵敏的,平均耗时也涨上来了,反思一下。。
比如现在的消耗度远远低于平安线,说明现在服务器部署有冗余,我们Ke以进行逐步的缩容,YYDS!。
在真正的线上扩容过程中,DCP 有时要一边承载几千台节点的扩容并发。DCP 的效率是否Neng够满足?在扩容演练过程中需要确认这一点,一阵见血。。
分享概要 1、 运维自动化 2、弹性计算 3、智Neng监控 4、服务治理 一、前言 微博现在日活达到了2亿,微博广告是微博Zui重要且稳定的收入来源,没有之一,所以微博广告系统的稳定性是我们广告运维所有工作中的重中之重。
微博广告的运维主要负责资产管理、 服务稳定性维护、故障应急处理以及成本控制等多个责任,造起来。
同一个原因可Neng会触发一个服务池里面的所有实例dou报警,比如一边无法连接数据库,其实只需要报一次即可。
拿到这个消耗比之后是不是就Ke以扩容了?还是Ke以缩容了?此处还需要一个评估标准, 是 % 就扩?还是 % 再扩?,绝绝子...
在原有告警数据流情况下引入了工具 SkyLine,这个工具包含了多种算法,在异常检测环节中,Neng够将我们传入的数据自动去抖动,提供平滑的数据,等你再拿到这个数据时就不需要再检测是不是告警,我舒服了。。
详细定义告警级别,发送优先级、升级策略等,可有效减少粗放模式下告警接收量。比如一些低优先等级的告警会让它告,处理的级别会低一点,我当场石化。。
还面临定位方面的挑战,在监控越来越完善的基础上,hen多开发的操作情况发生了变化,格局小了。。
Demand feedback