(2013/4/30 投書自由時報自由評論網)
上週四高鐵因為無法排除的故障,造成停擺四個小時,最後據稱只花幾分鐘重新開機就排除故障、重新營運,因此事後媒體撻伐,要高鐵檢討,甚至行政院長下令要懲處相關人員。
看到這樣的狀況,不免令人憂心。高鐵停止營運,需要檢討的是配套的疏運問題,但對於當機系統的處置,從軟體錯誤排除的角度而言,事實上是應該嘉許的。
高鐵除了是大眾運輸系統,同時也是攸關人命的軟體系統。動輒三百公里時速,任何差錯都是傷亡慘重的重大事故。歷史上,因為軟體系統的疏失,造成的損失不計其數,包括一九九六年因為一行指令的錯誤,造成歐洲太空總署的阿利安五號火箭發射失控,損失三百億台幣。二○○九年六月一日,法國航空空中巴士A330失事,造成兩百二十八人喪生,據調查是因為一連串的信號收送與處理不一致所造成。
在軟體的錯誤類型中,有所謂的海森堡不可測錯誤,導因於系統部署與偵錯有時序上的間距而無法偵測。這種問題導致的軟體失控,有可能重新開機後,因為不一致狀態的清除,而暫時恢復,但將來是否會再度被觸發,除非找到錯誤源頭,否則都將是無法斷定的未爆彈。
對於人命攸關的軟體系統,若只靠重新開機了事而暫時恢復、不去追查問題來源,才是不可取的做法。