2005年12月

2005年12月23日

SAフォーラム(サービス・アベイラビリティー・フォーラム)4

 可用性に関してはSAフォーラムという団体もある。

 一言で言うと、通信・ネットワーク・コンピューター関係の標準化団体だが、サービスレベルで可用性を達成するのに必要な様々なインターフェース仕様を標準化しようという団体だ。
 オープンの世界では今まで、システム・インターフェースのようなカーネルに近い所から徐々に標準化が進んできたが、ついに可用性の切り口で標準を作ろうという所まで来たということだろうか。

 SAフォーラムでは次の3つの切り口で仕様を作っている。

  • HPI: ハードウェア・プラットフォーム・インターフェース
  • AIS: アプリケーション・インターフェース仕様
  • SMS: システム・マネージメント仕様

 詳細はSAフォーラムのWebを参照。

 SAフォーラムは基本的に仕様を決めるだけの団体なので、OSDLが密接に絡んで技術的な検討や実装(OpenHPIやOpenAIS)を行っている。

 SAフォーラムの仕様書についても、徐々に本宅の方で解説していきたいと思います。(いつになることやら分かりませんが・・・)
続きを読む
kxa00121 at 21:10|この記事のURLComments(0)TrackBack(0)Linux 

2005年12月21日

キャリアグレードLinux4

 OSDL(Open Source Development Laboratory)というLinuxのビジネス利用を推進している業界団体が開発している仕様に『キャリアグレードLinux』というものがある。

 キャリアというのは電話会社などの通信事業者のことで、当然そのシステムには極めて高い可用性が求められる。許される停止時間はコンマ数秒という世界である。そのような水準の高信頼性・高可用性がキャリアグレードと呼ばれる。

 キャリアグレードLinuxとは、現在のLinuxをその水準に引き上げるために不可欠な機能の標準として仕様化したものだ。

 今のところ、次の仕様書が存在する。

  • 可用性
  • クラスタリング
  • サービスアビリティー
  • 標準適合
  • セキュリティー
  • ハードウェア
  • 性能

 詳細についてはOSDLのサイトを参照。
 本宅の方で仕様書も少し訳してみようかとも思っています。
続きを読む
kxa00121 at 10:20|この記事のURLComments(0)TrackBack(0)Linux 

2005年12月14日

高可用性とバックアップ

 可用性にとってバックアップの持つ意味は重要だ。

 まず、故障のライフサイクルは以下のように考えられる。

故障発生(t1)→停止→切替え(t2)→デグレード状態→復旧のための停止(t3)→定常状態への復旧(t4)

この故障発生から定常状態までが一つのライフサイクルだが、実は停止時間はもっと長くなりうる。データが復旧出来なかった場合、バックアップからデータをリストアしなければならない。

 つまり、停止時間とは、故障が発生してから通常の状態に復旧するまでの時間ではなく、最後にバックアップした時(t0)から通常の状態に復旧するまでの時間となる。

最新バックアップ(t0)→故障発生(t1)→停止→切替え(t2)→デグレード状態→復旧のための停止(t3)→定常状態への復旧(t4)

 たとえハードウェアRAIDのレプリケーション機能などを使っていたとしても、重要なデータが失われる可能性は常にあり、バックアップは最後の防衛線となる。

 バックアップが企業の生き残りにとって極めて重要であるにもかかわらず、システムを設計する際には後回しにされがちだ。その結果、バックアップ用に専用ネットワークが必要になっても、PCIスロットに空きがないなどという馬鹿げた話になることすらある。

 バックアップにまつわる話も少し紹介していくことにする。

2005年12月01日

データセンターラックと高可用性

 データセンターの環境をめぐる実話から二題

 (今どきいないとは思うが)あるユーザーでは、クラスタを構成する二台のマシンのキャスターを外して縦に重ねて設置していた。
 下のマシンが故障して交換しなければならなくなった時、注意深く上のマシンを持ち上げたが、LANケーブルが外れ業務が停止してしまった。

 スペースを節約したいなら、当然きちんとしたラックマウント型のマシンを購入し、ちゃんとラックに格納するべきだ。

 別のユーザーでは、ちゃんとラックに格納していたが、故障が発生してシステムボードを交換する必要が生じた時、マシンの背面の扉を開けるだけのスペースがなく、結局マシンを停めて移動するしかなかった。

 マシンを設置する時には、取扱説明書などに書かれている保守エリアをちゃんと確保する必要がある。
 スペースのコストも馬鹿にならないし、マシンの設置スペースが足りなくなっても、すぐには広げて貰えないので、ついつい狭い空間に詰め込んでしまいがちだが、重要なシステムであるのなら十分な保守エリアを確保するべきだ。

 故障した時以外でも、十分なスペースを空けておかないと、通行人がケーブルを引っかけたり、思わぬ事故を招きやすい。