テクノロジー
製品
リソース
会社
日本語
テクノロジー
製品
ブログ
リソース
会社

Eメールセキュリティに対する各種AIアプローチの比較

Dan Fein, Director of Email Security Products

近年、人工知能(AI)のイノベーションはEメールセキュリティの環境を一変させましたが、各システムの違いが何なのかを判断することは難しいことも多いと言えます。現実には、AIという用語の傘の下には明確に区別されるアプローチが含まれ、このテクノロジーにより真の保護が提供されるのか、防御の思い込みだけなのかが分かれます。

1つの後ろ向きアプローチでは、すでに悪意あるものと判断された何千ものEメールをマシンに入力し、これらのEメールに含まれるパターンを探すようにトレーニングして将来の攻撃を見つける方法がとられています。もう1つのアプローチは、AIシステムを使って組織の現実のデータ全体を分析し、「正常」とは何かという概念を確立してから、攻撃を示すかもしれないかすかな逸脱を見つけるというものです。

以下に、各アプローチの相対的メリットを比較しました。特に、データセットでトレーニングされた機械学習システムをすり抜けるために最新のニュースを活用した新しい攻撃を念頭に置いています。以前に特定された「既知の悪」でマシンをトレーニングすることは、ある種の時間がたっても変化しない特定のコンテキスト、たとえばEメールの背後の意図 を識別することなどにしか有効ではありません。しかし、効果的なEメールソリューションとなるには、組織のコンテキストでの「正常」を理解することにより不審で異常なEメールを識別し、新しい攻撃でも捕捉することができる自己学習型アプローチも取り入れなければなりません。

シグネチャ - 後ろ向きのアプローチ

過去数十年間、サイバーセキュリティテクノロジーは以前に見られた攻撃が再度発生することを防ぐことでリスクを緩和しようとしてきました。その昔、特定の種類のマルウェアあるいは攻撃のインフラの寿命が数か月、数年であったころには、この手法でも満足できました。しかし、このアプローチではどうしても悪意あるアクターとのいたちごっこになります。将来の検知を導くのに常に過去を見ている状態です。攻撃の寿命が短くなり、1つのドメインが1つのEメールで使われた後まったく見られなくなってしまうような状況において、この過去を向いたシグネチャベースのアプローチはよりインテリジェントなシステムへと幅広く置き換えられています。

「悪い」Eメールを使ってマシンをトレーニング

よくあるAIアプローチは、何千あるいは何百万ものEメールを含むきわめて大量のデータセットを利用するというものです。これらのEメールを取り込むと、悪意あるEメールに共通したパターンを探すようにAIがトレーニングされます。その上でシステムはそのデータに基づきモデル、ルールセット、そしてブラックリストを更新します。

この手法は従来のルールやシグネチャに対する改良ではありますが、依然として後手であり、新しい攻撃インフラや新種のEメール攻撃を阻止することはできません。これは、不完全な従来のアプローチを自動化しているに過ぎません。ただ人間がルールやシグネチャを更新する代わりに、マシンがそれをやっているだけです。

このアプローチだけに依存することには、1つの、しかし致命的な欠陥があります。それは、これまでに見たことがない、新しいタイプの攻撃 を阻止することができないということです。成功のためには「患者第一号」(最初の被害者)が存在しなければならないということを、受けいれているのです。

業界はこのアプローチに付随する問題を認識し始めており、自動化されたシステムとセキュリティ研究者ともに膨大なリソースがこの問題の解決に投入されつつあります。たとえば、「データ拡張」と呼ばれるテクニックの使用もその1つです。これは、すり抜けた悪意あるEメールをもとに、オープンソースのテキスト拡張ライブラリを使って “似たような” Eメールを作成することにより多数の “トレーニングサンプル” を作成し、 すり抜けたフィッシングメールだけではなく、それに似た他のメールもマシンに学習させ、類似の言葉遣いをする、同じカテゴリの将来の攻撃も検知できるようにするものです。

しかし、解決できない問題にこのような膨大な時間と手間をつぎ込むことは、大きな無駄となってしまうかもしれません。なぜ欠陥のあるシステムを補修しようとして、仕組みを根本から変えようとしないのでしょうか?このアプローチの限界を指摘する前に、攻撃の性質がまったく新しいものとなっている状況を見てみましょう。

「フィアウェア」の台頭

パンデミックが世界を襲い、各国政府が渡航禁止や厳しい行動制限を課すなかで、間違いなく世の中全体に恐怖と不安が起こりました。このブログで以前にも解説しましたが、サイバー犯罪者達はこれにすばやく便乗し、情報を求める人々の気持ちを利用して、COVID-19に関連するEメールを装った、マルウェアや認証情報抜き取りリンクを含むメールを送信しました。

これらのEメールは多くのケースにおいてCenters for Disease Control and Prevention (疾病対策予防センター)を偽装しており、またパンデミックの経済的影響が出始めると、Small Business Administration (連邦小企業庁) を騙ったものが多くなりました。世界の状況がシフトすると、攻撃者の戦術もそれに対応したのです。さらにその過程で、COVID-19に関係する130,000以上の新しいドメインが購入されました。

ここで、Eメールセキュリティに対する前述のアプローチが、これらの新しいEメール戦術にどう対抗できるか考えてみましょう。問題は、‘COVID-19’という言葉が発明されてもいないときに、どうしたらその言葉を含むEメールを探すようモデルをトレーニングできるのか?ということになります。

COVID-19 はその最も顕著な例となりますが、攻撃者達がこのアプローチのツールを回避するのに利用し、フィッシングメールで受信者のさらなる関心を惹きつけようとする、ありとあらゆる新しい想定外のニュースのサイクルに同じ理由付けが当てはまります。さらに、Eメール攻撃がまさにあなたの組織を標的としたものであった場合、これには特別に作成した、教師あり機械学習ではとてもトレーニングできない細かな特定の事柄について言及したニュースが含まれている可能性があります。

これは、将来に備えるために過去の攻撃を振り返るケースがEメールセキュリティにおいてまったくないと言っているのではありません。ただ、今はそういう状況ではないということです。

意図を特定する

Darktraceはこのアプローチをある特定の目的に使っています。それは将来も有効で時が経っても変わってしまわないもの、つまりEメールの言葉の使い方とトーンを分析することにより意図を識別することです。たとえば、「これは勧誘しようとしているものか?送信者は機密性が高い情報を出すよう誘導 しようとしているか?これは脅迫か?」といった問いをするのです。ある程度の時間をかけて収集されたきわめて大きなデータセットでシステムをトレーニングすることにより、たとえば、勧誘とはどういったものかを理解し始めることができます。これにより、共通の特徴に基づいて将来の勧誘の事例を簡単に見つけることができるようになります。

このような方法でシステムをトレーニングすることは、その時々のニュースやフィッシングEメールのトピック とは異なり、基本的なトーンや言葉遣いは時が経っても変わらないからです。勧誘の試みは常に勧誘の試みであり、必ず共通の特徴を持っているはずです。

こうした理由から、このアプローチは大きなエンジンの中のごく小さな一部として機能します。脅威の性質について追加的な兆候を提示するものではありますが、それ自体が悪意あるEメールの判定に使われるものではありません。

未知の未知を検知する

意図を識別するために上記のアプローチを使うことに加えて、Darktraceは教師なし機械学習を使用します。これはあらゆるEメールから何千ものデータポイントを抽出し、推定を行うことから始まります。これらの一部はEメール自体から直接取得され、他には上記の意図判定タイプの分析によってしか得られないデータもあります。また、組織のEメール、ネットワーク、クラウド環境全体に存在するすべてのデータのより幅広いコンテキストでEメールを見ることから得られる考察もあります。

このように、格段に大きくより包括的なインジケータのセットと、Eメールについてのより詳細な説明が得られて初めて、トピックとは無関係な機械学習エンジンにデータを入力し、そのデータを何百万もの角度から調べ、組織の正常な「生活パターン」というより幅広いコンテキストに照らして相応しいかどうかを理解することができます。すべてのEメールをあわせて監視することにより、機械学習エンジンは次のような事柄を判定できます:

  • この人は普段ZIPファイルを受信しているか?
  • このサプライヤーは通常Dropboxへのリンクを送信するか?
  • この送信者がこれまでに中国からログインしたことはあるか?
  • これらの受信者は通常同じEメールを一緒に受信することがあるか?

このテクノロジーは組織全体でパターンを識別し、組織の成長と変化に応じて進化する「自己」の意識を獲得します。何が「正常」でなにがそうでないかということに対するこの本質的な理解によって、AIは単なる「既知の悪の新しい変化形」ではなく、真の「未知の未知」を発見することができるのです。

この種の分析は言語やトピックに依存しないという追加的利点があります。脅威を示す特定のパターンを探す代わりに、異常の検知に的を絞っているため、組織がコミュニケーションに主に使う言語が英語、スペイン語、日本語、その他どのような言語であっても関係なく効果を発揮できるのです。

両方のアプローチを重ね合わせることにより、Eメールの背後の意図を理解し、さらに そのEメールが通常のコミュニケーションのコンテキストに照らして 相応しい かどうかを理解することができるのです。そしてこれらすべては、仮定を行ったり、この脅威を以前に見たことがあるかどうかに関係なく実行されます。

長年の開発

現在では、Eメールセキュリティに対する従来のアプローチが失敗したことはほぼ理解されています。既存のレコメンデーションエンジンがなぜサイバーセキュリティ空間に適用されつつあるのかもこのことから理解できます。一見すると、これらのソリューションはセキュリティチームにとって魅力的です。しかし高度に標的型の、まったく独自のスピアフィッシングEメールはこれらのシステムを簡単に回避してしまいます。初めて遭遇したEメール脅威を阻止するのにこれらのシステムに頼ることはできません。これらは以前に見られたトピック、ドメイン、ペイロードを持つ既知の攻撃に依存しているためです。

効果的な、多層的AIアプローチは長年の研究開発を要します。悪意あるEメールを無害なコミュニケーションから区別する問題を解決するための単一の数学的モデルというものは存在しないのです。多層的なアプローチでは、競合する数学的モデルのそれぞれに強みと弱みがあることを前提としています。これらのモデルが持つべき相対的な重み付けを自動的に判断し、これらを相互に比較して全体的な「特異性スコア」をパーセンテージとして出力します。これにより、1つのEメールが組織全体のEメールトラフィックフローと比較して具体的にどの程度異常なのかを表すことができます。

Eメールセキュリティは過去の脅威を見て明日の脅威を予測できるという考えをきっぱりと捨てる時がきたのです。効果的なAIサイバーセキュリティシステムは過去の攻撃に依存することなく異常性を識別することにより、まったく独自で新しい攻撃を、受信箱に到達する前にキャッチすることができます。

Eメールセキュリティについて詳しく知る

Dan Fein

Based in New York, Dan is the Director of Product. He joined Darktrace’s technical team in 2015, helping customers quickly achieve a complete and granular understanding of Darktrace’s product suite. Dan has a particular focus on Darktrace for Email, ensuring that it is effectively deployed in complex digital environments, and works closely with the development, marketing, sales, and technical teams. Dan holds a Bachelor’s degree in Computer Science from New York University.