- 现代电子装联工艺可靠性
- 樊融融编著
- 2020-08-27 21:06:25
第1章 现代电子装联工艺可靠性概论
1.1 电子设备可靠性的基本概念
1.1.1 电子设备可靠性问题的产生
现代电子设备,特别是军用电子装备越来越朝向轻、薄、短、小、高密度化、高自动化和高精度方向发展,其发展的主要技术矛盾在于:若不采取专门措施来提高其可靠性,那么设备越复杂、越精确,则其可靠性就越低。例如,一台现代电子装备系统由若干元器件及各种制造环节(工艺)集合而成,它们彼此间又是相互依赖的复杂系统。如果其中有一个元器件损坏或某一个制造环节不完善,那么整个系统就会失效。可见一个现代电子装备系统工作的可靠性并不超过构成系统中可靠性最小的元器件的工作可靠性及各制造环节的工艺可靠性。
在第二次世界大战末期(1944—1945年),特别是在朝鲜战争时期(1950—1952年),据美国相关资料报导,无线电通信设备有14%的时间,水声设备有48%的时间,雷达设备约有84%的时间等是处于非工作状态的;仅1949年就约有70%的海洋用无线电电子设备是处于非工作状态的……因此,查明不可靠性的原因,提高无线电电子设备可靠性问题,在美国就已经成为全国性的刻不容缓的事情。美国陆军、海军的数十个军事部门大规模地进行了设备的调查工作。也就是从这时开始,可靠性的统计研究方法得到了公认。
1.1.2 电子设备可靠性的定义与数学描述
1.可靠性的定义
根据国家标准GB 6583—1994的规定,产品的可靠性是指产品在规定的条件下、在规定的时间内完成规定的功能的能力。
电子设备或系统实际使用的可靠性叫做工作可靠性。工作可靠性又可分为固有可靠性和使用可靠性。固有可靠性是产品设计和制造者必须确立的可靠性,即按照可靠性规划,从原材料和零部件的选用,经过设计、制造、试验,直到设备或系统出产的各个阶段所确立的可靠性。使用可靠性是指已生产的产品,经过包装、运输、储存、安装、使用、维修等因素影响的可靠性。
从现代观点看,随着微组装工艺技术的不断引入,可靠性包含了耐久性、可维修性、设计可靠性及工艺可靠性四大要素。
●耐久性:产品使用的无故障性或使用寿命长就是耐久性。例如,当空间探测卫星发射后,人们希望它能无故障地长时间工作,但从某一个角度来说,任何产品都不可能100%不会发生故障。
●可维修性:当产品发生故障后,能够很快、很容易地通过维护排除故障,就是可维修性。而像飞机、汽车都是价格很高而且非常注重安全可靠性的要求,这一般通过日常的维护和保养来大大延长它的使用寿命,这是预防维修。
●设计可靠性:这是决定产品质量的关键,由于人-机系统的复杂性,以及人在操作中可能存在的差错和操作使用环境的种种因素影响,发生错误的可能性依然存在,所以设计的时候必须充分考虑产品的易使用性和易操作性,这就是设计可靠性。
●工艺可靠性:高密度、微组件、微焊接技术在现代电子制造中越来越普遍。美国是世界上第二个发射卫星的国家,就是这种提高国家威望的大事,也曾因为涉及焊接的一点小问题而受挫折。当今国内外电子产品由制造因素导致的失效中,约有80%是出自焊接质量问题。而在焊点的失效中,面阵列封装器件(如BGA、CSP、FCOB等)焊点的失效又约占整个焊接缺陷的80%左右。显然解决面阵列封装器件(如BGA、CSP、FC0B等)的焊点失效问题,是改善现代电子产品制造质量和可靠性的重中之重,这就是工艺可靠性所面临的挑战。
2.电子设备可靠性的数学描述
在可靠性的定量测定方面,使用最广泛的是统计方法,概率论和数学统计学是研究可靠性问题的主要工具。概率论能确定影响可靠性的可变随机变数的大数与可靠性数量特征之间的相互关系。因此,可靠性理论的许多概念与概率论中所用的概念有关。
概率论能研究普遍现象,多次试验时重复的现象称为普遍现象。如果在多次试验时,每一次试验必然发生某一事件,则该事件称为必然事件。如果某一事件明知不会发生,则称为不可能事件。在每一次单独试验中不可能预言的事件称为随机事件。
除随机事件之外,概率论还研究随机变数及随机过程(随机函数)。由于试验的结果可取某一值的变数,如产品尺寸与其额定值的误差,焊点失效前的工作时间等,因而称为随机变数。
与某些非随机变数的不同值相符的随机变数的集合,如焊接温度的起伏等,称为随机过程或随机函数。
准确地预言随机变数、随机过程及随机事件是不可能的。但是,如果研究的不是每一个随机事件、随机变数或随机过程,而是它们的集合,则可用数学方法来说明其特征。
假设做N次试验时,某一事件A出现K次,这时,K/N的比例称为随机事件A的频率并以W(A)表示,即
W(A)=K/N
当试验次数增多后,事件A出现的频率就显得较稳定,即在相同条件下进行多次试验时,事件的频率近似于P,即
P(A)=K/N (1.1)
P(A)称为事件A的概率并写成
P=P(A) (1.2)
从式(1.1)和式(1.2)可看出,做N次试验时,事件A约发生NP次,而不发生N(1-P)次。
显然,随机事件的概率在数量上符合条件
0≤P≤1
如果A是不可能事件,则P=0;如果A是必然事件,则P=1。对于随机事件,研究计算概率的基本法则是:
(1)如果事件A1,A2,…,An是不相容的,则
P( A1+A2+…+An )=P(A1)+P(A2)+…+P(An)
(2)对立事件Ā的概率可表示为
P(Ā)=1-P(A)
(3)几个独立事件联合发生的概率等于这些事件的概率之积,即
(4)如果事件A和B不是对立和独立的,即如果A和B是任何随机事件,则
P(A+B)=P(A)+P(B)- P(AB);
P(AB)=P(A)PA(B)
式中 PA(B)——在发生事件A的条件下,事件B出现的概率。
随机变数往往是离散的或连续的,它可用概率分布函数来说明。设ζ为一随机变数,取小于某个x的值,有
P(ζ<x)=F(x)
这一事件的概率称为概率分布的积分函数或随机变量的概率分布定律。如果其导数存在,则该函数的导数为
F(x)=F'(x)
称为随机变量的概率分布函数或密度。
随机变量与概率分布函数一样,可用下列数量分布特征来说明。
(1)随机变量ζ的平均值或数学期望:
(2)随机变量绝对值的平均算术值或数学期望:
(3)随机变量的随机(平均)值b,即其值在区间(-b<ζ<b)内,存在于区间内的概率等于0.5。
b值由下式计算。
(4)随机变量ζ的平方平均值:
(5)随机变量的方差:
(6)随机变量的概率分布函数。
在电子装联工艺随机变量的概率分布函数最常用的是下述几种。
① 正态分布。
式中 σ——随机变量的方差;
α——当f(x)具有最大值时的x值(α为随机变量ζ的平均值)。
② 泊松分布。
③ 威布尔分布。威布尔分布是由瑞典物理学家Wallodi Weibull于1939年引进的,是可靠性分析及寿命检验的理论基础。
威布尔统计用应力(或者时间)来描述故障的累积故障率F(σ)之间的关系。
式中 σ0——尺度母数(总体参数),累积故障率为63.2%时的对应值定义为σ,它没有平均数;
m——形状母数,是表示偏差程度的重要参数,所谓的威布尔系数,每每指的就是m;
σμ——位置母数,由于在其以下的应力不会产生破坏,所以F(σ)=0。
图1.1所示是用威布尔图表示的案例,纵轴是二重对数(lnln(1/(1-F(σ))),横轴是对数。数据附载于直线上,该直线的斜率即m值。
威布尔从20世纪30年代开始研究轴承寿命、结构强度和疲劳等问题。他采用了“链式”模型来解释结构强度和寿命问题。这个模型假设一个结构由若干小元件(设为n个)串联而成,于是可以形象地将结构看成是由n个环构成的一条链条,其强度(或寿命)取决于最薄弱环的强度(或寿命),如图1.2所示。
图1.1 用Sn58Bi焊接1608元件的抗拉强度在-40~80℃温度循环的变化
图1.2 串行“链式”模型(最弱强度模式)
单个链的强度(或寿命)为一随机变量,设各环强度(或寿命)相互独立,分布相同,则求链强度(或寿命)的概率分布就变成求极小值分布问题,由此给出威布尔分布函数。由于零件或结构的疲劳强度(或寿命)也应取决于其最弱环的强度(或寿命),因此,也应能用威布尔分布描述。
根据1943年原苏联学者格涅坚科的研究结果,不管随机变量的原始分布如何,它的极小值的渐近分布只能有3种,而威布尔分布就是第Ⅲ种极小值分布。
由于威布尔分布是根据最弱环节模型或串联模型得到的,它能充分反映材料缺陷和应力集中源对材料疲劳寿命的影响,而且具有递增的失效率。所以,将它作为材料或零件的寿命分布模型或给定寿命下的疲劳强度模型是合适的。
在概率论的随机过程中,如果概率分布函数不取决于时间读数的开始,则随机过程称为平稳随机过程。对于平稳随机过程来说,在对许多系统观察而得的ξ时间平均值相等。
1.1.3 可靠性准则
上述探讨的可靠性的数量定义,不能从数量上表达可靠性。但对作为设备系统最重要的数量特征的可靠性概念提出要求的话,就有必要对一些基本准则做出定义。利用这种准则就可以从数量上对设备系统的元器件和仪器等的可靠性进行评估,并对各种产品的可靠性做出比较性的评价。因而,我们将特征、标准等称为可靠性准则。根据这种准则就可以来评估产品的可靠性。以下是最广泛使用的可靠性准则,例如:
(1)在规定的时间间隔内产品正确工作的概率。
(2)故障强度。
(3)正确工作的平均时间。
(4)产品的故障频率。
(5)在两次维修之间的设备平均使用时间。
(6)其他如说明产品可靠性指标的不同系数也可成为可靠性准则,诸如:
① 排除故障所引起的停工时间与设备系统总的工作时间的比值;
② 由于某元器件而引起的设备系统故障数与系统故障总数之比;
③ 同型设备系统在不同的安装地点的环境因素下对可靠性的影响;
④ 在实验室(工作场地)条件下获得的有效工作特征与作为模拟真实环境条件下获得的有效工作特性之比,可作为估计真实环境对设备系统可靠性起不良影响的准则;
⑤ 将训练良好的人员在工作中所获得的设备系统特性与训练中等或训练不好的人员所获得的设备系统特征进行比较,就可确定出服务人员的工作质量;
……
1.1.4 可靠性的数量特征
可靠性的数量特征具有随机性质。利用它,就能判断出设备系统的可靠性。这些数量特征其用途各不相同。一部分特征只能评估一些普通元器件的可靠性,如电阻器、电容器、半导体器件等,也就是说这些普通元器件是不进行修理的,且发生故障后就不再用了。而另一部分数量特征则可用于评估作为普通元器件的总和的复杂设备系统的可靠性,这种设备系统的任何故障都可以排除,排除故障后仍可使用。
我们把具体的元器件、组件、机械装置、仪器仪表和系统的可靠性准则的数值统称为可靠性数量特征。
设备系统的可靠性取决于设备系统中的元器件的数量和质量,取决于元器件的工作规范,取决于电路和结构设计方案。设备系统中所用元器件通常是按较复杂的工艺流程制造的。因此,其使用寿命及参数就有偏差。由此可得出结论,两个相同的设备样品其可靠性也是不一样的,故只能对在试验时和使用过程中获得的大量数据运用统计学的方法,对其做出数量上的评估。因此,概率论就是在计算可靠性特性时使用的一种数学工具。因而,可靠性的数量特性应具有概率性质。
可靠性的评价可以使用概率指标或时间指标,这些指标有:可靠度、失效率、平均无故障工作时间、平均失效前时间和有效度等。
1.可靠度R或可靠度函数R(t)
产品的可靠度是指产品在规定条件下和规定时间内,完成规定功能的概率。
假设N个产品从时刻“0”开始工作,到时刻t失效的总个数为n(t),当N足够大时,有
R(t)=[N-n(t)]/N=N(t)/N (1.3)
式中,N(t)表示到t时刻仍在正常工作的产品数,R(t)称为残存率。
现在即使是民用产品对可靠度的追求也是非常高的,例如,现在车用电子设备的可靠度设计要求达到1ppm,而美国的阿波罗探月宇航飞船的可靠度要求达到10亿分之一的水平(可靠度为99.999 999 9%)。
2.失效概率F或累积失效概率F(t)
失效概率F是表征产品在规定条件下和规定时间内,丧失规定功能的概率,也称为不可靠度。它也是时间t的函数,记做F(t),显然
F(t)≈n(t)/N (1.4)
将式(1.3)与式(1.4)相加可得
R(t)+F(t)=[N-n(t)]/N+n(t)/N=1
显然R(t)、F(t)为互为对立事件。
3.失效概率密度或失效概率密度函数f(t)
失效概率密度表示失效概率分布的密集程度,或者说是累积失效概率函数F(t)的变化率。当Δt足够小时,则可近似地表示为
f(t)≈ [F(t+Δt)-F(t)]/Δt
由式(1.4)可得
f(t)≈ [n(t+Δt)/N-n(t)/N]/Δt=n(Δt)/NΔt (1.5)
n(Δt)表示在(t,t+Δt)时间间隔内失效的产品数。
4.平均寿命μ
不管哪类产品,平均寿命在理论上的意义是类似的,其数学表达式也是一致的。
假设被试产品数为N,产品的寿命分别为t1,t2,…,tn,n为在t时间内的故障数,则它们的平均寿命为各寿命的平均值,即
一般说来,电子元器件的平均寿命越长,在短时间内工作的可靠性越高。但是,可靠性与寿命虽然密切相关,但又不是同一个概念,不能混为一谈。不能认为可靠性高,寿命就长;也不能认为寿命长,可靠性就必然高,这与使用要求有关。通常所指的高可靠性,是指产品完成要求任务的把握性特别高;而长寿命,是指产品可以很长时间工作而性能良好。如海、地缆线通信设备所用元器件要求使用20年而性能良好,体现了长寿命;而导弹工作时间不一定长,但工作时间内(几秒、几分或半小时)要求高度可靠,万无一失,这就体现为高可靠性。
平均寿命μ对不可修复或不值得修复的产品和可修复的产品有不同的含义。
(1)MTTF。对于不可修复的产品,其寿命是指产品发生失效前的工作时间或工作次数。因此,平均寿命是指产品在丧失规定功能前的平均工作时间,通常记做MTTF(Mean TiMe To Failure),单位为“小时”。
(2)MTBF。对可修复的产品,寿命是指两次相邻故障间的工作时间,而不是指产品的报废时间。因此,对这类产品的平均寿命是指平均无故障工作时间,或称平均故障间隔时间,也即产品在总的使用阶段累计工作时间与故障次数的比值,记做MTBF(Mean Time Between Failures)。它是衡量一个产品的可靠性指标(仅用于发生故障经修理或更换零件能继续工作的设备或系统),单位为“小时”。
关于MTBF值的计算方法,目前最通用的权威性标准是MIL-HDBK-217、GJB/Z 299B和Bellcore,分别用于军工产品和民用产品。其中,MIL-HDBK-217由美国国防部可靠性分析中心及Rome实验室提出并成为行业标准,专门用于军工产品MTBF值的计算;GJB/Z 299B是我国军用标准;而Bellcore由AT&T Bell实验室提出并成为商用电子产品MTBF值计算的行业标准。
MTBF计算中主要考虑的是产品中每个元器件的失效率。但由于器件在不同的环境、不同的使用条件下其失效率会有很大的区别,所以在计算可靠性指标时,必须考虑这些因素。而这些因素几乎无法通过人工进行计算,但借助于软件如MTBFcal和其庞大的参数库,就能够轻松地得出MTBF值。
就MBTF本身而言,是关系着广大消费者的稳定性指数。MTBF值越高,表示设备系统的稳定性越好。例如,每天工作三班的公司如果要求24h连续运转,无故障率P(t)在99%以上,则单台设备系统的MTBF必须大于4500h。而对由多种和不同数量的设备系统构成的生产线要求就更高、更复杂了。
其实,我们不必关注MTBF值如何计算,只要知道选择MTBF值高的产品,将给我们带来更高的竞争力。当然,也不是MTBF值越高越好,可靠性要求越高的设备系统成本也越高,根据实际需要选择适度可靠就行了。
MTBF并不是在实际运行中检测出来的,它是通过国家标准的检测算法换算出来的。
5.失效率λ(t)
所谓失效率,可理解为在单位时间内发生故障的产品数与在该时间段内正确工作的产品平均数之比。显然失效率也是时间t的函数,记做λ(t),故也称为失效率函数。因此,可以按下式计算失效率λ (t)。
式中 n(t)——在t~t+Δt时间段内发生故障的产品数;
Δt——时间间隔;
N(t)——在Δt时间间隔内正确工作的产品平均数,,其中,Ni-1为在Δt时间间隔开始时正确工作的产品数,Ni为在Δt时间间隔结束时正确工作的产品数。
由各种电子元器件组成的电子设备系统的λ(t)曲线,随着时间的推移,形成类似“浴盆”形状,故称为“浴盆曲线”,如图1.3所示。
典型的失效率曲线是“浴盆曲线”,其沿时间轴方向大致可划分为3个阶段,即早期失效期、偶发失效期和耗损失效期。
(1)早期失效期:早期失效期的失效率曲线为递减形式,即新产品失效率很高,但经过磨合期,失效率会迅速下降。形成此现象的原因主要是元器件、材料存在缺陷和生产工艺不良,工艺过程控制不严,产品后工序环境和操作条件差等所导致。
图1.3 设备系统的失效率λ(t)随时间变化的典型曲线(“浴盆曲线”)
为避开早期故障期,产品的早期设计、元器件的选定和保管、制造工艺的管理等是非常重要的。由于在产品的早期阶段对上述所可能存在的不良是不可能完全预测的,因此,开始时,必须对各制品进行百分之百的检查,采用比正常工作条件还要高的负荷条件进行筛选和分类,如图1.4所示。
图1.4 制品的可靠性试验和寿命的应力-强度模型
在图1.4中假定某制品的实际工作环境的负荷强度概率分布如图中的B分布,而设计某制品时的负荷强度概率分布曲线A应高于B(在曲线B的左侧)。由于降低成本的原因,设计的制品的负荷强度概率分布曲线A,通常不会偏离实际的负荷曲线B太多。因此,在A、B两条分布曲线之间的底部免不了会出现制品的低负荷强度部分(A曲线的左侧)落入实际负荷曲线的高负荷区(B曲线的右侧),即出现如图1.4(a)中的B、A二曲线间底部的重叠区。位于该区域的制品在投入市场的初期是最易发生故障的。为此,对具有负荷强度概率分布为A的曲线的制造,在比预测的实际负荷高的负荷条件下进行筛选,以剔除早期易失效的制品,即相当于电子元器件或设备的可靠性试验中的老化试验。通过该试验相当于将曲线A左侧底部重叠的区域切除掉,使B、A二曲线之间分离开,如图1.4(b)所示,这样就可以达到降低早期故障的目的。
(2)偶发失效期:在此期间,系统进入了连续的可靠性设计的稳定期,如图1.4(b)所示。在此期间实际负荷分布曲线B和制品强度分布曲线A之间没有重叠,故不存在未预期的别的因子作用而产生的故障。
偶发失效期的失效率为一个平稳值,产品系统可靠性在经历早期失效期后,一些因材料和制造工艺的不良及问题得到暴露和排除,意味着产品进入了一个稳定的“使用寿命”期,其特点是失效率低,且λ(t)=λ(为常数),工作稳定。失效率λ(t)越低,可靠性越高。工业部门最常用1×10-9h作为失效率λ(t)的单位,定义为106个元器件工作103h后出现1个元器件失效,称为1Fit。目前对元器件失效率共分为7个等级,如表1.1所示。
表1.1 失效率λ (t)的分级
(3)耗损失效期:随着应用时间的增加,制品强度概率分布曲线A徐徐变形而落入低负荷侧,即和实际负荷分布曲线B产生了重叠,如图1.4(c)所示。
耗损失效期的失效率曲线为递增形式,即产品进入老年期。由于机械零部件的磨损,元器件的大量老化,制品的负荷强度不断降低,故其失效率随时间的增加而快速增加,产品需要更新。
提高可靠性的措施可以是:对元器件进行筛选;对元器件降额使用,使用容错法设计(冗余技术),使用故障诊断技术等。
6.故障
将元器件、仪器仪表及系统等工作不可靠的事件称为故障。故障的概念直接与可靠性概念有关。由可靠性的定义可知,当设备系统的本身参数不能保持在给定的范围内时,尽管系统仍保持其工作能力,但我们也说它发生了故障。
故障并不一定是元器件和零部件发生了电气损坏或机械损坏,当由元器件的参数超出了容许范围而使得系统调节受到破坏时,故障就可能发生。
故障可能是随机事件或规律事件。如果许多系统中的相同元器件发生机械损耗或电气损耗,则这种故障是规律事件。以概率论及数学统计学为基础的作为一门科学的可靠性,基本上将故障看做随机事件。
作为随机事件的故障可能是独立的或非独立的。若系统中一个元器件不成为其他元器件发生故障的原因,则这种故障就是独立事件。由于其他元器件发生故障而引起的故障称为非独立事件。
由于老化的缘故,使得参数长期、逐渐地变化,这样也会使故障突然发生。故障可能是彻底的和间歇性的。间歇性的故障延续一段短时间后,系统就能自动恢复可靠地工作。彻底的故障则要在修理过程中将故障排除之后系统才可能可靠地工作。
不影响可靠性的辅助元器件所发生的故障有时称为次要故障。这种故障与决定可靠性的故障不同。如信号灯烧毁,保护层破坏等都属于次要故障。