容错计算是什么?

  • 内容
  • 评论
  • 相关

容错计算,也有人称为高可用性计算和高可靠性计算,就是在系统存在故障的情况下,仍能正确地执行给定的算法。为了实现这一点,必须使系统具有故障检测与诊断、功能切换与系统重组(reconfiguration)、系统恢复与重新运行、系统的重构(reintegration)与可扩展等功能,而且这些功能不能影响系统的正常运行或至少不能使系统的性能下降到不能容忍的程度。

容错计算的重点是保证任务在被处理的过程中不会异常终止,以及任务完成后输出结果的正确性。

可靠性是指在规定的使用条件下和规定的时间内完成规定功能的能力,通常用多少个“9”来衡量。比如人们所讲的达到 4 个“9”的可靠性,就是说任务顺利完成的概率为 99.99%;同理,5 个“9”的可靠性就是 99.999%。

严格来讲,容错计算也属于集群的范畴,只不过参与集群的计算机处理同样的任务——并行或者接力。容错计算需要投入更多的计算资源,所以造价较高。对于一些非关键的任务,人们出于成本的考虑,一般较少采用容错集群系统。

接力容错

接力容错又叫串行容错,由若干台计算机参与同一个任务的计算,但是同一时刻只由一台计算机处理任务,只有当这台计算机出现故障时,才由下一台计算机接力处理;类似,如果此台计算机又出现故障,那么继续由其他计算机接力;只有当全部计算机都出现故障时,任务处理才会被中断,示意图如图 1 所示。

其实我们可以及时维修故障计算机并让其再次加入容错集群参与下一次的接力活动,这样就能最大限度地保证任务顺利完成。只有在全部计算机同时出故障(或者几乎同时出故障以至于人们还来不及维修)的情况下,租户的任务才会被中断,如供电异常(断电、电压过高或过低等)、雷击都可能导致参与容错集群的计算机同时出故所以云端的建设,供电和防雷是重中之重。

在条件允许的情况下,应采用多路市电接入,每路市电分属于供电部门不同的变压器,甚至是不同的电网,机房配备不间断电源和发电设备,这样就形成了三级供电保障:市电、不间断电源、发电设备。

接力容错示意图
图 1  接力容错示意图

本文标题:容错计算是什么?

本文地址:http://www.hosteonscn.com/5642.html

评论

0条评论

发表评论

邮箱地址不会被公开。 必填项已用*标注