連載コラム

機密情報自動検出ソフトウエア開発

[ 2009年4月13日 ]

機密情報99.9%自動検出ソフト開発、今年度事業化へ

キーワード+学習型フィルターで実現

従来検出できなかった内容の類似した文書ファイルも検出

三菱電機(下村節宏執行役社長)情報技術総合研究所(神奈川県鎌倉市大船)は、機密情報を高精度で自動検出できる『機密情報自動検出ソフトウエア』の開発に成功し、先ほど発表した。検出精度は99.9%、過剰検出は僅か1.3%。今後はメールに含まれる機密情報を検知するシステムやPC・サーバー内の機密文書ファイルを検出するシステム等の開発を行い、今年度内の事業化を目指す。

製品特長と開発背景・開発内容を撫中達司・同研究所ビジネスプラットフォーム技術部長が次の様に解説する。
「今回発表する機密情報自動検出ソフトウエアの特長は二点。一つが、検出漏れと過剰検出が少ない高精度検出を実現したこと。もう一つは人手による複雑な検出条件設定が不要であること」。また、開発背景と内容については「企業の機密管理強化に伴い、文書が機密情報かどうかを自動で検出する情報漏えい防止ソフトウエアへのニーズが高く、世の中には『キーワード検索』と『フィンガープリント』の二つのやり方があるものの、キーワード検索は高い検出精度を得られるキーワード選定が難しく、一方のフィンガープリントでは登録した機密文書からハッシュし、フィンガープリントという証明データを出すほか、検出対象となる文書も同様にハッシュしてフィンガープリントしたものを照合することで機密か非機密かを判定するが、検出する範囲が限定されるなどの課題がある」ため、「検出条件を自動作成する点でキーワード検索より容易。更にフィンガープリントに比べ(パソコンや電子メールなどの文書も検出可能と)検出範囲が広くなったのが、今回開発ソフトウエア」と解説。

一方、具体的な特徴として「キーワード検索に加え『学習型フィルター』を併用することで、高い精度での条件設定が容易」。

実際、キーワード検索は人手によってキーワードを作成するが、対象となる文字列のパターン照合で見るのに対し、学習型フィルターを搭載したことで、機密文書と非機密文書それぞれのサンプルを学習させ、更に文字列の出現頻度を統計的な特徴として学習させた上、その中から特徴の類似性を検出することで高い検出を可能にした。

その結果、精度は「当社内の1万4000件の文書ファイルを対象とした場合、機密文書の漏れが0.1%、つまり全体の99.9%(当社従来89.7%)を機密として検出でき、逆に機密文書でない文書を検出する過剰検出ミスは1.3%、残り98.7%(同96.4%)の高精度を実現した」。

なお、期待値(検出精度99.9%)を出すための学習数(サンプル文書)は500文書が一応の目安であり、また使用中の文書も学習型フィルターにより検出精度が高まることで可能と付け加えた。

(2009年4月10日発行号より)

安全・安心情報の「セキュリティ産業新聞社」 ホームページ http://www.secu354.co.jp/

「セキュリティ産業新聞」最新号より

セキュリティ産業新聞社は、安全・安心情報を提供する「セキュリティ産業新聞」を月2回(10日、25日)に発行するほか、Webサイト(www.secu354.co.jp)の運営、セキュリティに関連する各種セミナーの企画・運営、セキュリティ機器等に関する調査・分析などを行っています。

バックナンバー

PAGE TOP