アーカイブ概論(その1)

アーカイブについての考え方、理解を進めるため、「アーカイブ概論」と題しまして、Archiware社のマーケティング部長マーク・バチュカス(Marc M. Batschkus)氏が同社のブログ記事として公開しました。医師でもあるバチュカス氏は、データの再利用を前提とした長期保管に最適なP5 Archiveの利点をバックアップとの違いなど、基本的なコンセプトの再確認をしながら解説しています。下記に第1回目の内容を翻訳して公開します。(担当 た)

■ アーカイブとは?

アーカイブとひとくちに言っても、人によって利用形態は大きく異なります。単に参照用としてのデータ保管から再利用を目的とするもの、収益を目的とした利用から顧客へのサービス提供など、アーカイブにできることやアーカイブがもたらすメリットに対する考えも幅広く実に多様性に富んでいます。このように、アーカイブの理解のされ方は人それぞれで多岐に及びます。実はこの「アーカイブ」という単語は非常に古い歴史を持っています。そこで改めて語源を遡って、アーカイブの隠れた可能性を再発見してみたいと思います。

「Archivum」とは、古代ローマ人が 文書の巻物を保管した建物(書庫)を称して使われていた単語です。単なる文書を収蔵した建物ではなく、特に既に日常に使われなくなった書類を収蔵するための専用の建物です。もちろん現代人は書類として巻物は使いませんが、コンセプトや機能は同一のものです。こんにち我々がアーカイブするファイルも、毎日の業務に使われなくなったデータです。つまり、アーカイブの本質的とは「データを移行すること」だと言えます。アーカイブされたデータはアーカイブ先の場所に移され、元にあった場所からは消去されます。元々データが存在していた場所からは無くなっているというのが「バックアップ」と決定的に違う点です。バップアップは、「現在使用中のデータを消失に備えて複製する」ことだからです。もちろんこの定義には例外もありますが、それについてはのちほど解説します。

■ まずは長期計画を立てる

アーカイブとは長期計画で実行されるプロジェクトです。だからこそ、いま現在から将来にわたって誰が関わるかを見据えて綿密に計画を立てなければなりません。そこで次に挙げるチェック項目を検討していくことですべての役割分担と受益者を特定をしておくのがいいでしょう。

まずはアーカイブに関わるすべての人物からの意見をすべてかき集めてみましょう。より多くの観点からの意見をアーカイブを実施する人間やデータを再利用する人物から吸い上げて集められれば、アーカイブのプロジェクトはよいよいものとなります。運用の利便性も、できるだけ多くの意見を聞き出すことで導きだすことができます。先を見通し、将来発生するであろうタスクにまで視野を広げ、将来起こりうるワークフローの変化、そして将来入社する社員など、将来新しく関わることになる人間のことも考慮に入れます。アーカイブに織り込むべきメタデータの策定や、運用マニュアルをどのように整備すれば将来役立つかなどについても検討します。

■ 「状況別運用実例集」を作ろう

アーカイブ計画を練り上げる上で最も効果的な手段は、使用例を書き出して文書化することです。想定される状況や場面ごとに、特定のタスクごとにシステムを操作する一部始終を仔細に書きだしたものです。

アーカイブされたデータを運用する際に考えられるすべてのタスクを挙げたうえで書き出します。誰が担当し、受益者は誰なのか、事前準備はどのようにするのか、などについてです。

たとえば、運用例のひとつはこのようになるでしょう。

担当Aさん(〇〇担当など、役割も併記する)
- Aさんの持つデータの内容(具体的に)
- Aさんが、業務に必要なデータをアーカイブ済みデータから再利用することになった場合
- Aさんが過去の番組「××」関連のデータを検索する
- Aさんがリストアしたいデータを特定した場合のリストア実施方法
- リストアされたデータの運用方法(誰が何にどのように使うのか)

できるだけ複数のシナリオを用意し、運用実例を事細かく具体的に書き上げます。
これらの策定には、できるだけ多くの人員で考えながら導き出したほうがいいでしょう。
この作業を通じて、アーカイブが最も効果的に機能するにはどのようなメタデータを織り込むべきか、あるいは運用ワークフローを実施すべきか、への理解が深まります。

運用実例集の策定についての参考は次のリンクが参考になります(英文)
http://www.wikihow.com/Write-a-Use-Case

■ アーカイブ用のストレージ

記憶媒体の歴史に目を向ければ、記録密度と保存期間がトレードオフの関係にあることがわかります。石に刻まれた文字情報はきわめて長期間にわたって保存されますが、情報の記録密度はとても低くなります。ハードディスクドライブはその反面気の遠くなるような密度で情報が記録される一方、データの保存期間は短く、さらに読み出しを行う技術環境に依存するなど、使用期間も限定されてしまいます。LTOテープは二十年から三十年間の保存に耐える技術ですが、歴史的な情報保存手段からすれば、それでもごく短期間しかデータを保持できません。だからこそデータの移行作業はデジタルデータのアーカイブにとって切り離して考えることができないものとなっています。LTO-7のドライブでLTO-5のテープが読めるなど、LTOは世代間のデータ移行がしやすいように規格が制定されています。また、10年間は販売継続が保証されているなど、移行の実施も事前計画がしやすいようになっています。結果的にLTOは記録密度、テラバイトあたり単価、高いマーケットシェア、金融から鉱工業、保険、放送、学術研究う分野など幅広い分野での実績、計画的な世代間マイグレーション、耐久性、読み書き速度など、あらゆる面で優れた特長をもっており、実績面も含めて現在考えられる、事実上唯一の長期アーカイブ用記録媒体だと言えます。
今後も将来にわたってLTOが現在の役割を続けていくことが予想されます。もちろん今後ディスクメディアや新しい技術がこのマーケットシェアを浸食していく事もあるかもしれません。

最近の調査では、アナログで記録されている映像、音声などのうち、今後視聴状態を維持するためにデジタイズとアーカイブが必要な媒体がいかに危機的な状況に置かれているかを示す調査報告が公開されています。

http://www.dpconline.org/newsroom/not-so-new/859-new-dpc-tech-watch-report-preserving-moving-pictures-and-sound

現在では、アーカイブ先のストレージ媒体はディスクかテープかのどちらかの判断になります。データ量、利用パターン、保全性、予算、双方の長所などを総合して勘案することになるでしょう。

■ メタデータ、それはアーカイブ(書庫)を開く鍵

アーカイブを紐解く鍵として、メタデータは決定的な役割を果たします。たとえばアーカイブされてから数年が経過したデータでは、個別のファイル名などの細かい情報はおそらく誰も憶えていません。キーワードや説明として記録された摘要、パラメーター、すなわちメタデータを手がかりにして目的のデータにたどり着くしかありません。メタデータには大きく分けて2種類のメタデータが存在します。ひとつめは「記述型メタデータ」、もうひとつは「テクニカルメタデータ」です。「記述型メタデータ」は、人の手によって手作業で入力されるものです。たとえば被写体に含まれる人物名や撮影地、被写体についての説明などです。

「テクニカルメタデータ」は、撮影に使われたカメラや、レンズ、解像度、コーデックなどです。多くは収録時にファイルに自動的に埋め込まれ、アーカイブ時に抽出してすばやく再利用することができます。FCP Xでのショット検索機能に使われるのもその一例です。このメタデータ形式は自動的に生成されるので非常に便利です。

その他には「テクニカルメタデータ」「記述型メタデータ」以外に、第3のメタデータとも呼ぶべきアクセス権限や再配布権限などの管理用のメタデータもアーカイブシステムの運用上必要になります。

メタデータスキーマとは、アーカイブで使用されるテクニカルおよび記述型メタデータの集合体で、より高速に目的のファイルを特定し、データを復元するためのものです。メタデータスキーマの策定には将来にわたっての運用も考えながら注意深い検討と熟考が必要です。運用する組織やワークフローなど、特定の用途と運用形態にあわせてどのメタデータ項目をスキーマに織り込んでいくかは、アーカイブ計画ごとに異なります。事前に準備した「状況別運用実例集」があれば、運用に必要なスキーマに含まれるべき項目は自ずと導き出せることでしょう。

メタデータに関してもうひとつ重要なことは、その一貫性です。アーカイブするファイルへの一貫したタグ付け作業は、アーカイブの資産価値を飛躍的に高めます。アーカイブされた後に将来誰が検索をかけても、容易に目的のファイルを特定し、すばやく復元することができます。P5 Archiveは非常に強力なメタデータフィールドとドロップダウンメニューを備え、メタデータスキーマの効果的な運用ができる設計となっています。