从携程到知乎,运维人该如何觉醒?

最近互联网也是非常有意思,接二连三的发生故障,让我们一起先回顾一下。

2015年5月11号晚上21点左右开始,网易的网易新闻、云音乐、易信、有道云笔记等移动应用均无法正常刷新,网易名下的游戏也全线瘫痪。故障原因:骨干网络遭受攻击。

2015年5月27日下午,部分用户反映其支付宝出现网络故障,账号无法登录或支付。故障原因:光纤挖断。影响时长:4个小时

2015年5月28日上午11:09,携程官网及APP出现故障无法打开,到28日23:29全面恢复,整个过程耗费12个多小时。故障原因:误操作。影响时长:12个小时左右

2015年6月5日 今日头条网首页和APP都无法访问,直接提示500错误。故障原因:不明 影响时长:30分钟左右。

2015年6月15日12点30分 知乎网无法打开,直接提示【服务器提出了一个问题】错误,在13点45分左右的时候,知乎页面恢复正常。故障原因:机房故障 影响时长:60分钟左右



 

到底是怎么了,是什么让我们的互联网业务如此脆弱?真的是运营商老是在后面干坏事?还是我们的系统架构不给力?还是我们运维能力真的很弱?如果广义的去看这个,我还会把它归结成运维问题。不过对于以上的故障,从运维的角度来说,我依然会说官方结论不够专业,希望内部不是这样的哈。

1、网易说骨干网收到网络攻击影响业务,貌似那天好像也就网易业务受到影响?

2、光纤挖断影响四个小时,从这么核心的业务来说,第一原则一定是恢复业务,我想支付宝即使没做双活,肯定也会有一个可用的备份中心,为什么没切过去了?一定是内部出了乱子。不过阿里流弊的地方,负面的事情他可以变成正面,他们把"5.27"变成了技术保障日,大肆宣传。

3、携程事件,我之前写过一篇文章【携程事件:运维债务的深度分析和解决方案】,不详谈了。

4、今日头条,500内部错误,这条新闻可以让自己上头条,但也没有正式的给出解释。从500错误的恢复时间来说,有点长,500错误是十分好定位,我的怀疑是数据库的压力不够,导致后面的扩容变更,也只有数据库分库分表扩容时间需要这么长了。另外头条君的首页上直接给个500的错误,技术表述,十分的不友好,建议你服务降级啊,推个大众版的新闻,不做个性化推荐,这个可以做一个缓存就可以解决的。

5、知乎故障,直接说是机房故障,太简单了,但我觉得最大的可能应该是Tengine后端服务超时导致的,而非简单的一个机房故障引起。

在每一次故障发生的时候,其实都是伤害了我们的用户,内部的表述就是可用性或者质量。因此我们必须要足够的重视,更需要我们把它变成宝贵的经验。那到底什么是可用性和可靠性?影响可用性的因素有哪些?运维如何提高可用性?等等。

(责任编辑:安博涛)

分享到:

更多
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
  • 微笑/wx
  • 撇嘴/pz
  • 抓狂/zk
  • 流汗/lh
  • 大兵/db
  • 奋斗/fd
  • 疑问/yw
  • 晕/y
  • 偷笑/wx
  • 可爱/ka
  • 傲慢/am
  • 惊恐/jk
用户名: 验证码:点击我更换图片
资料下载专区
图文资讯

网络安全:互联网安全 如何防范木马及病毒

网络安全:互联网安全 如何防范木马及病毒的攻击

一、计算机中毒有哪些症状? 人生病了,会有各种各样的症状,同样,电脑中毒了也会有...[详细]

加强网站服务器安全维护的技巧

加强网站服务器安全维护的技巧

计算机系统服务器的维护工作十分重要,稍有不慎就会使整个网络陷入瘫痪。目前,网络经...[详细]

电脑离线就安全?这个软件一样能远程窃取数

电脑离线就安全?这个软件一样能远程窃取数据

以色列的一个研究团队已改良了窃取离线电脑数据的方法。人们一直认为这种离线电脑在面...[详细]

如何在Linux上最妥善地管理加密密钥?

如何在Linux上最妥善地管理加密密钥?

存储SSH加密密钥和牢记密码可能是一件让人很头痛的事儿。不过遗憾的是,在如今恶意黑...[详细]

如何在 Linux 上运行命令前临时清空 Bash

如何在 Linux 上运行命令前临时清空 Bash 环境变量

我是个 bash shell 用户。我想临时清空 bash shell 环境变量。但我不想删除或者 unset...[详细]

返回首页 返回顶部