比如:MTBF中的故障数可以近似理解为Outage,系统重启属于Total Outage, 模块Crash属于Partial Outage
MTBF测试报告提升可靠性都是需要降低故障数减小downtime
在系统和应用设计中都需考虑如何减少错误,或者出现错误如何恢复。
终端上的一些后台服务可以近似理解为服务端应用,虽然不能完全照搬上文中提到容灾和恢复的场景,但是可以借鉴其中的一些思路。
终端上可以通过参考DPM的概念增加数据衡量指标,但可能不需要也不现实每个场景都执行100万次操作,可以依据实际情况调整标准要求
可以参考Failover策略中错误探测,隔离,恢复的操作在出现错误时及时发现,恢复重新启动来减少对用户造成的负面影响,恢复时间即Failover Recovery Time就成了一个关键指标
1.可靠性的定义在我们考虑可靠性预计之前,让我们来看看可靠性的定义。普遍被接受的可靠性的定义是产品在其*应用环境条件下和在规定时间内正常工作的概率。这就涉及到两个判断问题:1/ 怎样才算"正常工作"?2/ 什么是"*的应用条件"?如果一台汽车的收音机具有合适的AM接受功能,但不能接收FM电台,是不是整台汽车不可靠?如果某司机驾驶汽车通过积水的道路,在行进过程中汽车突然走不动,是不是说明汽车不可靠?上述两个问题的回答当然是否定的。因此,可靠性工程师在计算MTBF之前应对各种不同类型的问题进行分类。
2.通过预计计算来得到MTBF有几个个普遍被接受的标准可用来计算MTBF。大多数**规划都用版本的MIL-STD-217 FN2和GJB 299B,而许多商用产品规划则用Bellcore方法来计算MTBF。GJB 299B是中国国内自己的预计标准。每个标准都包括用于典型电子
磁带机产品的MTBF值不应低于20000小时。通常,我们在产品的手册或包装上能够看到这个MTBF值,如8000小时,2万小时,那么,MTBF的数值是怎样算出来的呢,假设一台电脑的MTBF 为3万小时,是不是把这台电脑连续运行3万小时检测出来的呢?
答案是否定的,如果是那样的话,我们有那么多产品要用几十年都检测不完的。MTBF计算中主要考虑的是产品中每个器件的失效率。但由于器件在不同的环境、不同的使用条件下其失效率会有很大的区别,例如,同一产品在不同的环境下,如在实验室和海洋平台上,其可靠性值肯定是不同的;又如一个额定电压为16V的电容在实际电压为25V和5V下的失效率肯定是不同的。所以,在计算可靠性指标时,必须考虑上述多种因素。所有上述这些因素,几乎无法通过人工进行计算,但借助于软件如MTBFcal软件和其庞大的参数库,我们就能够轻松的得出MTBF值。
讯科标准检测成立几年,有多个MTBF测试案例,如果您需要我们服务或者协助,请致电我们给您**满意的服务。