λDUとは

システムが持つハードウェアの故障率を一般に「λ(Lambda)」で表します。λDUとは、「Dangerous Undetectable(検知できない危険側故障率)」を表します。なにかの危険リスクを低減するための保護システムがあった場合、そのシステムに故障が発生した場合、保護システムの役割を果たせず危険リスクの低減ができなくなるような故障を危険側故障と言います。そのような故障のうち、発生しても直ちに認知できない(故障したことが判らない)故障を「Undetectable」すなわち検知できない危険側故障といいます。

故障の分類

システムがもつ故障率「λ」を分類すると次の図のようになります。

lambda

まず左半分の安全側故障について説明します。

もしもあなたがアパートの2階に住んでいたとします。下の回には怖いお兄さんが住んでいて、万一にもお風呂のお湯をあふれさせようものならば、命の危険があるという設定としましょう。つまりこの場合お湯があふれること=危険な事態 とします。

この設定の場合、下のように「断水」したという故障を考えましょう。

lambda_S

これも故障は故障ですが、結果的にはお湯はあふれず命の危険にもつながりません。このような故障を安全側故障と言います。

その一方つぎのような場合はどうでしょうか。

lambda_du

このような故障は、お風呂のお湯をあふれさせてしまい1Fのお兄さんから命の危険が迫ります。このような故障を危険側故障と言います。

さらに上の例ではこの故障はもう一つの特徴があります。まさに「あああ!あふれる!」という保護動作をする瞬間になって初めて、回らないことに気づきました。もっと以前に回らない状態になっていたはずですが、使う時になって初めてわかりました。これを検知できない故障と言います。

λDUとは、故障の分類の中で「もしも発生したらシステムが危険な方向にゆく」「発生してもわからない(必要な時になって初めてわかる)」故障を指します。

危険の定義や使われ方によって変わる

さて、上記の例では「安全側」に分類された断水故障ですが、これは危険の定義によって変化します。どんな故障も安全側なのか危険側なのかは、システムがその部品にどのようにふるまうことを期待するのかによって変化します。

たとえば私は毎日どうしてもお風呂に入らなければならないとします。中年ですからね。加齢臭がひどいので1日お風呂に入れないと事件です。まして明日は大切なお客様と面会の予定だとします。

このような設定の時、「危険=お風呂に入れないこと」だとすると断水は危険側故障です。またもしも私が一軒家ならば、お湯があふれても安全側です。このように故障の分類は、その部品がどのように使われているのかや、そもそもどのようにふるまうことが危険につながるのかなど、危険の定義や使われ方によって変化します。

故障の仕方をFailure Modeと言い、その部品や機器が引き起こす故障を洗い出して影響を調べる分析手法をFMEA(Failure Modes and Effects Analysis)と言いますが、上記のように部品だけを見ても故障の分類は決まりません。その部品や機器が使われているプラントやシステムの原理を理解しておくことと、リスク分析によってどのようなリスクを低減する必要があるのかなどを理解しておく必要があります。

 検知できない故障はやっかい

つぎに「検知できない」について考えてみましょう。検知できない故障はすごく厄介です。前述のお風呂の蛇口のように、壊れていることが判らなければ、「イザ!」という時に必要な安全動作ができませんから、リスクを回避(軽減)することができません。もっともお風呂の例で言えば、湯船半分段階で故障が判明しても、あふれる時点までに修理できるか微妙です。正確に言えば「検知できない、または検知しても適切に修理することができない」がλDUと言えます。まずはこれが厄介な点です。

さらに厄介な点があります。λDUは蓄積するんです。たとえばその故障だけでは事件にはならないほどの故障だったとしましょう。または対策メカニズムでその故障が発生していても、事件にならないような仕組みが働いている場合でも同じです。どちらにしても、”今”は安全状態ですね。しかしその故障が発生していることが検知できない場合、「さらにもう一つの故障」が発生して、その2つの組み合わせで事件になる可能性があります。これをλDUの蓄積と言います。潜在故障は、多重故障を引き起こすカギになります。

そこで、自動車の機能安全規格ISO-26262では、この潜在故障の存在割合とLFMという故障率の割合指標で評価することとしています。IEC-61508では、SFFと言う指標を用いてシステムを多重化した場合の完全性レベル(SIL)を主張する際の制限値に用いています。

どちらも、潜在故障(検知できない故障)は蓄積し、多重の故障を発生させることによってシステムが危険な状態になる可能性を示唆しています。