Tales from the Field

2006年01月05日

高可用性に関する書籍、『Blueprints for High Availability』5

 今までキチンとした紹介をしてなかったので、あらためて『Blueprints for High Availability』という本を紹介したい。

 以下は、Amazonのレビューに書いた文章だが、少し大げさに書いているものの、恐らく可用性について書かれた現在最も優れた本であることは確かだ。
 著者達は、ベリタスのEvan MarcusとSun MicrosystemsのHal Sternという人だが、別に自社製品の解説や宣伝ではない。固有の製品名も出てくるが、どのベンダーであれ推奨するわけではなく、あくまで公平に、現在入手可能なソリューションの一つとして出てくるだけだ。
 残念ながら邦訳は出ていないが、平易な文章で書かれているので、それほど難しくはないと思う。
 もう少し詳しい紹介と、部分訳は本宅を参照して欲しい。


 この本は、高可用性とディザスターリカバリーについて書かれた、もっとも包括的で優れた本だ。高可用性やディザスターリカバリーとは何か、そしてシステムを高可用に設計し、高可用に維持するためには何を考えなければならないか、この本一冊で学ぶことができる。
 また、社会システムほど可用性が求められないシステムであっても、限られた費用と資源の中で可用性を最大にしなければならないのも事実だ。つまり、どんなシステムであれ、システムを設計しインプリメントし運用するすべての人は、この本から多くのことを学ぶことができるだろう。
 第二版で追加されたニューヨーク商品取引所(NYBOT)の物語は感動的ですらある。NYBOTは9.11のテロで壊滅的な被害を受けたにも関わらず、8時間後にはディザスター・リカバリーが完了した。そこにあるのは、必要なものは単なる技術ではなく、準備、考え方、注意、細部への気配りであり、そして何よりも重要なのはシステムを高可用に保とうという強い意志だということだ。
 この本を貫いているのは、いかに高可用を実現するか、ITシステムを構築する人間が本当に考えなければならないのは何か、という哲学だ。


Blueprints for High Availability
Evan Marcus, Hal Stern 著
Publisher: John Wiley & Sons Inc
ISBN: 0471430269

2005年12月01日

データセンターラックと高可用性

 データセンターの環境をめぐる実話から二題

 (今どきいないとは思うが)あるユーザーでは、クラスタを構成する二台のマシンのキャスターを外して縦に重ねて設置していた。
 下のマシンが故障して交換しなければならなくなった時、注意深く上のマシンを持ち上げたが、LANケーブルが外れ業務が停止してしまった。

 スペースを節約したいなら、当然きちんとしたラックマウント型のマシンを購入し、ちゃんとラックに格納するべきだ。

 別のユーザーでは、ちゃんとラックに格納していたが、故障が発生してシステムボードを交換する必要が生じた時、マシンの背面の扉を開けるだけのスペースがなく、結局マシンを停めて移動するしかなかった。

 マシンを設置する時には、取扱説明書などに書かれている保守エリアをちゃんと確保する必要がある。
 スペースのコストも馬鹿にならないし、マシンの設置スペースが足りなくなっても、すぐには広げて貰えないので、ついつい狭い空間に詰め込んでしまいがちだが、重要なシステムであるのなら十分な保守エリアを確保するべきだ。

 故障した時以外でも、十分なスペースを空けておかないと、通行人がケーブルを引っかけたり、思わぬ事故を招きやすい。

2005年11月16日

高可用性と単一故障点をめぐる実例(その2)

 引き続き、高可用性と単一故障点をめぐる話題。

 あるユーザでは、停電に備えて二つの電力会社から電力を引いていた。
(これは、電力が自由化されているアメリカではよくある対策みたいだ。日本でもできる?)
 ただ、電線は建物の直前にある1本の同じ電柱を共用し、建物に引き込まれていた。理論上は、その電柱は単一故障点に相当するが、誰も気にはしなかった。
 ある日、そのまさかが起きてしまった。
 建物の近くの道路で交通事故が起り、衝突した車が「その」電柱をなぎ倒したのだ。

 あるユーザでは、停電に備えて*最新式のガスタービン発電機を屋上に備え付けていた。ある日、停電が起きたので管理者たちは屋上までせっせと階段を上って行った。(停電なので当然エレベーターは使えない)
 そして、いざ発電機を動かそうとした時、ある重大なことに気が付いた。
 なんと、ガスタービン発電機用のジェット燃料を誰も買っていなかったのだ。
 この話の教訓は、「何も仮定するな。すべてをテストしろ」でもある。実際にテストし、訓練していたなら、燃料がないことにすぐ気が付いただろう。

*)なぜか、この種の実例には停電・電力がらみの話題が多い。コンピュータ関連機器を除けば一番起りやすいからだろうか?
 恥ずかしながら、私のいる部門のメールサーバーの電源も、つい最近まで二重化されていなかった。何千人かの従業員が利用しているサーバーであるにも関わらずだ。
 あなたの会社は大丈夫ですか?

2005年11月10日

SPOF(Single Point Of Failure)−単一故障点4

 SPOF=Single Point Of Failureは日本語で何と言ったらいいだろう?
 「単一故障」では故障のことを言っているようだし「Point」であることが分からない。自分は「単一故障点」と訳しているのだが、どうでしょうか?

 さて、システムの可用性を高める上で、最も重要で最も分かりやすい一つが、「単一故障点を無くす」ということだ。つまり、あらゆるハード、あらゆるソフトを二重化・冗長化して、一つが故障しても業務が継続できるようにしなければならない。
続きを読む

Tales from the Field5

 Blueprints for High Availabilityという本には、Tales from the Fieldという囲み記事がたくさん載っている。経験豊富な二人の著者が実際に経験したり、見聞きした話だが、ためになる話、面白い話が多いのでいくつか紹介していくことにします。
 記事のカテゴリーが「Tales from the Field」となっているのがそうです。