ニュース

2006年02月09日

ライブドアが意外と技術系っぽいことについて1

 このブログの趣旨からは少し外れますが、「虚業」とか言われて叩かれてるライブドアが「意外(?!)」と技術系であることを援護する記事をいくつか読みました。

ITmediaニュース:こんな時だからこそ安定したサービスを」――ライブドアの技術者魂

はてなCTO伊藤さんのブログ「ライブドアの技術の話」

ライブドアが意外と技術系っぽいことについて - 圏外からのひとこと
ライブドアが普通に技術系であることについて -- 圏外からのひとこと

404 Blog Not Found:TVではかき消せない、permalinkの威力

 一般の新聞や週刊誌では虚業だ何だって論調が目立ちます(確かに発行株式とか時価総額は大分水増しされたものだったけど)が、ライブドアの技術陣は地道にそして先鋭的にウェブビジネスのインフラを構築し運用しているのだ。偉いんだ!って記事です。

「自社でサーバーを設計するなどレイヤ0から独自の技術を持っており、連日のテレビ放映による影響でも落ちないサイトを維持し、オープンソースの自社製フレームワークで大規模なサイトを超短期で構築して自分たちで運用している。オープンソースのライブラリ開発者、メディア執筆者を多数輩出した企業であり、特に Lightweight Language を活用するウェブプログラマに与えた影響は非常に大きい...ライブドアはそういう技術的な側面を持っている企業です。(中略)
一日何億もあるページビュー、何万というトランザクションをエラーを出さずにさばき続けるのにいったいどんな技術が必要か、想像したことはありますか。」(上記伊藤さんのブログ)

「だから、「中の人」として「数の暴力」に対抗する方法は、サービスを遺漏無く走らせ続けるという点に尽きる。「止めぬが勝ち」であり、そして価値なのだ。どんなOBの証言より、そのことは雄弁なのだ。少なくとも、「東証は止まったけどうちのサービスは止まりませんでしたよ」ぐらいは、言う資格があると思う。」(404 Blog Not Found)

 私も可用性には設計やら日頃の運用が大切だとか偉そうなことを書いてますが、会社的にも個人的にも大変な時期なのに、こうやって大規模なサーバー群をノーダウンで維持し続け黙々と仕事を続けているエンジニアたちの事を考えるとすごく偉いなと思って、ちょっと涙が出てきます。(少しプロジェクトX風)
 正直、今までライブドアが技術的にどうかとか余り評価してなかったんですが、24/356システムを維持している方々の技術力と努力を分かってないのは私自身でした。かなり反省です。
 広い意味でのIT業界の端くれにいる人間としては陰ながら応援しちゃいましょう。
 そういえば、このサーバもほとんどタダみたいな金額で使わせてもらってるんだから、もっと応援しなくちゃね。

 堀江さん自身、本当は経営オンチの技術屋さんで、そんで変な方向に行っちゃったんじゃないでしょうかね。

2006年01月18日

東証の成長曲線2

14時40分から株式全銘柄の売買停止=東証

 東京証券取引所は18日の14時25分時点で注文件数が700万件程度、約定件数が400万件程度に増加。処理能力の限界に接近したため、14時40分以降、全銘柄の株式やCB、社債などを終日売買停止にすると発表した。(H.K)
[ラジオNIKKEI2006年01月18日]


 これは結果論ですが、近いうちに取引量が処理能力を越えることが見えていたのでしょうから、もっと効果的な手が打てたのではないでしょうか?
 予想以上にネット取引が急増(ホリエモン的には「想定外」?)したとはいえ、見通しが甘かったのかなぁと思います。

 Blueprints for High Availabilityの高可用性設計原理#7が「成長をデザインしろ」でした。(本宅参照)

 CPU、メモリ、I/O、ディスクはいつかは必ず枯渇するし、関連して電源容量や空調の容量も増やす必要が出てきます。そして、もしかしたらデータセンターも。
 システムを設計する時のゆとりや将来のスケーラビリティーを考えさせる事例です。

2006年01月04日

Linuxと高可用性〜ダンプが必要なOSを作った覚えはない〜3

 Linuxと高可用性というのも、本質的に相容れない物のような気がしている。

 こちらの記事「ダンプが必要なOSを作った覚えはない」を読んで頂きたい。

 もちろん、ダンプ機能はキャリアグレードLinuxでも色々な要件があがっているビジネス・ユースでは必須の機能だが、正直これがオープンソース・コミュニティーの本音だろう。

 実際、自分のPCの調子が悪くなっても、それが回避さえできれば根本的な原因が何であるかは二の次だ。例えば、ソフトをインストールし直して問題なく動けば、根本原因を探ることなど詮なきこと、時間の無駄ですらあるかもしれない。

 しかし、ビジネスの世界ではそうも言っていられない。不具合の原因が何なのか徹底的に究明して、必要ならば対策を取るのが当たり前だ。それが、ビジネスのプロセスというものだからだ。

 このプロセスの違い、根本的な行動原理の差が、たとえLinuxをビジネスに使うメリットがデメリットを上回るとしても、どうも引っかかるのである。

2005年11月20日

ITpro:名証システム障害、原因は外注先オペレータの“操作ミス”(ヨミウリの記事はガセでした)

 先日の名証のトラブルの原因は、どうも単純なパスワード入力ミスとかじゃないみたいだ。(ヨミウリの記事はガセでした)

 詳しくはITproの記事参照。

ITpro:名証システム障害、原因は外注先オペレータの“操作ミス”

 キャンセルって、CTL-Cですかね?
 Oracleって、コマンドが中断されてもロールバックしてくれないの?
 Oracle始め、今どきのミドルウェアはパラメータ設定ミスとかあっても、ほとんどノーチェックで突っ走りますからね。しかも、原因が容易に特定できるようなエラーメッセージは絶対に出力しないし。

 運用する側にも問題があったみたいだけど、もっと人に優しいソフトにしてくれないと、ヒューマン・エラーはなくなりません。(これをヒューマン・エラーと言うのなら。ですけど)

2005年11月19日

可用性とセキュリティ

 名古屋証券取引所で11/4にシステムが起動できなかった件も、人為ミスが原因のようだ。

富士通がまた原因、陳謝

 名古屋証券取引所で4日午前の取引を停止させたシステム障害は、システム管理を委託されている富士通の関連会社社員が前々日にシステムの終了処理をした際、パスワードの入力を誤ったことが原因とわかった。(YOMIURI ONLINE)

 セキュリティも、やりすぎは考え物ということか?
 いや、人間が誰しもがミスを犯すものと考え、あらゆる自体が起こり得ると想定していれば、こんなことにはならなかっただろう。

 パスワードを変えた後の変更手順はどうなっていたか?
 次回にシステムを立ち上げる人が立ち会わなくて良かったのか?
 パスワードが分からなくて起動できない場合の対処方法は考えてあったのか?

教訓:何も仮定するな

2005年11月12日

冗長化の一つの方法

 東証のニュースについて、同じソフトを二重化するだけではなく、異なったソフトを用意する方法について触れた。
 この「多様化」が可用性を高める上では有効だ。

 こちらの記事(米人気サイトでアクセス障害」,その真相は?)を読んで頂きたいが、DNSの階層のもっともトップにあるルート・サーバが世界には13台あるそうだが、どのように冗長化されているかの一端が知れて興味深い。続きを読む

2005年11月10日

「ソフトは二重化できない」?????

「ソフトは二重化できない」――東証の取引停止、原因はプログラムミス

 東証のシステムは、ハードを二重化してバックアップ体制を整えているが、ソフトは富士通に委託して構築した独自仕様品。「ソフトのバックアップを整えることは、現実的には不可能」(天野富夫常務取締役)。今後はテスト態勢を見直し、チェックを厳重にするなどして障害を防ぐとした。

 「ソフトは二重化できない」と言っているのが何を言おうとしているのか良く分かりませんね。何か誤解を招く表現だし。
続きを読む

意外なところにあったNTT Comの「単一故障点」

意外なところにあったNTT Comの「単一の障害点」

NTTコミュニケーションズのネットワーク障害は、分電盤の故障が原因。電源系統については十分な冗長化を図っていたが、障害が起きたのはそれ以外の部分だった。

 大分前の話ですが、こんな話もありました。
 単一故障点を無くすのがいかに難しいかの実例です。
(もっとも、この例はそれほど難しくないような気もしますが・・・)

2005年11月04日

ディザスター・リカバリー以前

 今週は立て続けに社会システムがダウンしました。
 詳細はまだ明らかになっていないものの、テスト不足やら運用方法の問題など基本的なところができていないとしか思えません。
 これでは、DRどころの話じゃないですね。まずは可用性というものを勉強し直した方がいいのでは?

名証でもシステム障害、午前の取引中止

 名古屋証券取引所で11月4日、相場報道システムに障害が発生し、午前の市場取引が中止された。障害の原因は不明だが、その後システムは復旧し、午後の取引は通常通り12時30分から行われる予定。

東証、システム障害で株売買停止

 東京証券取引所で11月1日、システム障害が発生し、午前9時から株式の全銘柄、転換社債型新株予約権付き社債全銘柄、交換社債全銘柄の立会取引を一時停止している。復旧のめどは立っていない。

2005年09月28日

「直下型」でも行政・金融機能維持を…地震対策大綱2

「直下型」でも行政・金融機能維持を…地震対策大綱

 大綱は、維持すべき首都中枢機能として、国会や主要行政機関のほか、日銀や都市銀行などを挙げた。行政機関は、建物の耐震化や非常用電源、食糧などの備蓄を進め、「地震発生後3日間程度は外部の援助なしで機能すること」を目標とした。金融機関はデータを支店と重複させるなどして機能を維持し、国際的な信用不安を避けるため、決済システムは24時間以内に回復させる必要があるとした。

24時間では遅すぎる。せめて12時間位を目標にして欲しい。
ちなみに24時間に触れた報道は読売のみ。