バックアップとアーカイブの違い―アーカイブならではの課題と対策

コラム
アーカイブ

「バックアップ」という言葉は、ビジネスだけでなく日常でも使うことが多いですね。スマートフォンを水没させてしまって写真が全部消えた・・・というときに「バックアップしておけばよかった!」と悲鳴をあげた経験がある方もいらっしゃるでしょう。一方で「アーカイブ」という言葉は、どうでしょうか?両方ともデータを複製して保存する行為ですから似ているのですが、その役割には違いがあります。どこが違うのでしょうか?また、バックアップだけしていればよいのでしょうか?

1.「バックアップ」とは

データの「バックアップ」とは本稼働システムのデータの複製、もしくは差分/増分データを定期的に保存することを言います。

データリストア*1で本稼動データを復旧することが目的ですので、対象データはシステムが生成・更新したデータファイルだけでなく、プログラムコード、システム設定情報、など広範囲に及びます。最新状態を復元するのが一般的ですが、障害理由によってさらに以前のデータ復元も必要になることもあり、バックアップデータは世代管理されて保存されます。

また、バックアップには、システムハードウェア障害やプログラム不具合をリカバリーするためのバックアップと地震や津波を想定した事業継続目的の2種類があります。前者は、最新データの保存やバックアップ作業の自動化のためにDisk to Disk方式、オンライン方式、クラウド利用などが主流です。一方、後者は災害だけでなく、ウィルス、ハッカーなどに対しても「最後の砦」と位置付けられ、磁気テープや光メディアなどを利用したオフライン方式も大規模事業者などを中心に広く使われています。

*1)リストア:バックアップされたファイルやデータを使って、元の状態に戻すこと。誤って削除したデータを復元したり、不調になったシステムを正常な状態に戻すための操作。また、ほかのシステムにデータを移す目的ですることもある(出典:ASCII.jpデジタル用語辞典)

2.「アーカイブ」とは

データの「アーカイブ」とは本稼動データの中から、長期保存が必要なデータを選別して保存することを言います。

法律などで一定期間の保存が義務付けられたデータや、図面などのように再利用が想定されたデータ保存も増加していますが、昨今の保存データ急増理由の背景にあるのは、お客様や世間からのクレーム、訴訟、風評などに対して自己防衛のための証拠として関連データを残しておくこと、またもうひとつがビッグデータビジネスなどとも言われているように、将来価値を生みそうなデータだから残しておきたい、という理由です。

このようにアーカイブデータの多くは再利用が想定されていないにもかかわらず、保存期間が長くデータ容量が大きいことから、安価な保管が要望されます。また、ほとんど使わないと言いつつも、いざ必要なときには膨大な保存データの中から必要なデータだけをリストアできる仕組みが必要です。さらに、証拠性担保のために、改ざんできない保存方法であることの説明が求められる場合もあります。アーカイブには、バックアップとは違った、アーカイブならではの課題があるのです。

3.「アーカイブ」ならではの課題―アーカイブデータも“バックアップ”するのか?!

アーカイブについてもう少し話を進めましょう。

業務システムの軽量化を図るため、アーカイブデータの保存後には、オリジナルデータを削除する運用が一般的です。したがって、アーカイブデータは「原本」であり、紛失や破壊に最善の注意が必要です。また、アーカイブデータは基本的にはそれ以上の更新はないため、複製をどのようなメディアにいくつ作成するか、それをどこに保管するかという保護対策がとられます。

このように複製作成という意味ではアーカイブもバックアップの一種とも言えるかもしれませんが、次のようなアーカイブ独特の課題があります。

  • ①全社や経営の課題というより事業部門や業務部署ごとの課題なので、費用は部門負担であり、ゆえに安価に抑えたい
  • ②データ容量が大きいので簡単には複製を作れない。また、複製の数が多いと記録メディアの寿命管理(コンバート)作業が負担
  • ③データの保全だけでなく、取出しソフトウェアやメディアの取出しメディア装置(ハード)の保全も併せて必要

4.「アーカイブ」に必要な保護策

では、アーカイブを行うには、具体的にどのような対策が必要でしょうか。

◆記録メディアの品質不良対策

①磁気テープ正副2本使用
磁気テープを使用したデータアーカイブの場合、アーカイブデータを磁気テープ正副2本に記録することが推奨されています(JIS Z6019*2に規定)。

②冗長型ディスク使用
RAID*3を使用したサーバや分散ストレージ方式のクラウドなど、冗長度の高いストレージに保存することが望ましいとされています。

◆記録メディアの寿命管理
記録メディアにはメーカーが加速試験などで算出した製品寿命があります。寿命が来る前に、余裕をもって新しいメディアに移行することが望ましいとされています。参考までに、LTOなど最近の磁気テープの寿命は30年(以上)とされていますが、JIS Z6019では10年を目安にコンバートすることを推奨しています。クラウドはアーカイブを意識したサービスではないので、寿命管理は実施されていません。I/Oエラーが発生したら部品を交換するという方式になるため、冗長度が重要です。

◆取出しソフトウェアの寿命管理
アーカイブシステムは登録したデータをそのまま取り出せる仕組みであることが必要です(真正性)。したがって、アーカイブシステムは記録メディアの寿命管理(コンバート対象期間)に合わせて登録/取出しソフトウェアの寿命管理も行う必要があります。一方、取り出したデータがアーカイブした顧客にとって意味のあるデータとして利用できるかは顧客側の責任とするのが一般的な考え方です(完全性)。

◆取出しメディア装置の寿命管理
機器の保守期間は一般的に3年から5年程度です。記録メディアの寿命管理に合わせた機器装置の維持が必要です。このため予備装置の保有や交換用部品の自社管理などの対策が必要になります。

◆データの破壊・改ざん対策
アーカイブデータが破壊・改ざんされていないことを説明できる方法として、WORM方式(Write Once Read Many)の記録メディアを使用して保存することが推奨されています(SEC Rule 17a-4*4やJIS Z6019)。 なお、タイムスタンプや電子証明書も同様な目的で利用されていますが、これらは改ざんされていないことの説明にはなりますが、改ざんや破壊自体を防止することはできません。

◆保管場所の被災対策

保管場所自体の被災対策として別地保管という方法があります。複製データを記録した記録メディアを同時被災しそうもない場所に保管する方法です。 バックアップの手法としてよく利用されていますが、アーカイブとしては以下の問題があります。アーカイブの別地保管はこの課題を解決している方法である必要があります。
  • ①アーカイブデータはTB(テラバイト)やPB(ペタバイト)の大容量となる場合があり、月や期ごとに保存データが追加された場合、毎回全データの複製を作成して別地保管するのは作業面もコスト面も大きな負担になる
  • ②別地保管場所にも取出しメディア装置と取出しソフトウェアが保存されている必要があり、保管費用がふくらんでしまう

*2)JIS Z6019:磁気テープによるデジタル情報の長期保存方法
*3)RAID:ハードディスクを複数台用いてアクセスを分散させ、高速、大容量で信頼性の高いディスクシステムを実現する技術(出典:ASCII.jpデジタル用語辞典)
*4) SEC Rule 17a-4:米国証券取引委員会が定めるブローカー/ディーラー間のレコードの保管のルールの一つ

5.「アーカイブ」に関する日本独自の傾向

(1)安全・安心は確率ではなく「他社に説明できること」が重要
クラウドサービスの代表格であるAmazon S3の耐久性(durability)は99.999999999%(イレブンナイン)だそうです。S3領域の複数の機器に対する冗長構成によって実現していると説明されています。
とても高い信頼性と思われますが、日本の企業では「正副2本のLTOに記録して、システムから切り離したテープ保管庫に保管しています。LTOは10年を目安にコンバートします。」という方式のほうがデータアーカイブ策としては選択されるようです。

(2)アーカイブを経営課題と考える経営者はまだ少ない?
アーカイブは製造業では設計・開発・品証、建設業では設計・工事現場などの業務の一環と考えられているようです。BCP(事業継続計画)のような経営課題ではなく、本社情報システム部門が全社を取りまとめているわけでもありません。
今のところ経営者がアーカイブで気にするのは「業界の他社動向」のようですが、経営者にとって、アーカイブがコンプライアンスだけでなく訴訟対策や風評対策など説明責任の一環としても重要であり、また事業競争力向上の手法としても重要視されるのも、遠くない未来だと考えられます。

まとめ

さて、「アーカイブ」について、知っていただけましたでしょうか。バックアップとアーカイブは片方だけでなく、両方が必要ですし、アーカイブの重要性は日本でも今後ますます高まるでしょう。ぜひアーカイブを知って、みなさんのビジネスの味方につけてください。

関連記事