ブログ(脅威調査)

ニューラルネットワークを応用した合成メディアの作成による情報操作

FireEyeのデータサイエンスおよび情報オペレーション分析チームは、Black Hat USA 2020 Briefingに合わせて、本ブログ記事を公開しました。この記事では、オープンソースで事前学習済みニューラルネットワークを悪意のある目的で合成メディアを生成するためにどのように活用できるかを詳しく説明しています。プレゼンテーションを要約すると、まず最初に、機械学習モデルを微調整して、テキスト、画像、オーディオのドメインでカスタマイズ可能な合成メディアを生成する方法について、3つの連続したPoC(概念実証)を示します。次に、Mandiant Threat Intelligenceによって最前線で検出された、情報操作(IO)のために合成的に生成されたメディアが武器化された例を示します。最後に、合成で生成されたコンテンツを検出する際の課題を概説し、合成で生成されたメディアが私たちのような見え方、話し方、書き方をする未来に向けての潜在的な道筋を明らかにします。

ハイライト

  • オープンソース、事前学習済みの自然言語処理、コンピュータビジョン、音声認識ニューラルネットワークは、攻撃的なソーシャルメディア主導のIOキャンペーンのために武器化することができます。
  • 攻撃者が匿名で、プロプライエタリな学習データセットを使用して、信頼できる偽コンテンツを生成して配布することができるシナリオでは、検知、帰属、および対応は困難です
  • セキュリティコミュニティは、AI研究者、政策立案者、およびその他の利害関係者がオープンソースモデルの有害な使用への緩和策を支援することができ、またそうする必要があります。

背景:合成メディア、生成モデル、転移学習

合成メディアは決して新しい開発ではありません。特定の意図のためにメディアを操作する方法は、メディアそのものと同じくらい古いものです。1930年代には、ソビエトの秘密警察の署長がヨーゼフ・スターリンと並んで歩いているところを撮影され、彼自身が大粛清で逮捕されて処刑された後、公式の報道写真から削除されています。このようなデジタルグラフィックの操作は、Photoshopの登場で顕著になりました。そして、2010年代後半には「ディープフェイク」と呼ばれるようになりました。フェイススワッピングやリップシンクなどのディープフェイク動画も長期的には気になるところですが、本ブログ記事では、テキスト、静止画像、音声の領域での、より基本的な、しかしより信憑性の高い合成メディア生成の進歩に焦点を当てています。合成メディアを生成するための機械学習アプローチは、生成モデルに支えられています。これは、米連邦政府の意見公募サイトへの大量投稿を捏造したり幹部を騙して24万ドルを引き出すため声を複製するのに効果的に悪用されてきました。

合成メディア生成が可能なモデルを生成するための必要な事前学習には、数千ドルの費用と、数週間から数ヶ月の時間がかかり、高価なGPUクラスタへのアクセスが必要になることがあります。しかし、転移学習を応用することで、このような時間と労力を大幅に削減することができます。転移学習では、膨大なデータが利用可能な初期タスクのために事前学習済みの大規模な汎用モデルから開始します。次に、モデルの獲得した知識を活用して、別の小さなデータセットでさらに訓練を行い、次の関連するタスクで優れた結果が得られるようにします。モデルをさらに訓練するこのプロセスはファインチューニングと呼ばれ、一般的にはゼロからの事前学習に比べて少ないリソースで済みます。あなたがプロのテニスプレイヤーであれば、バドミントンを上達させるためにラケットの振り方を一から学び直す必要はありません。

Figure 1

図1:機械学習研究の文化が、豊かなオープンソースモデルのエコシステムを生み出している。

しかし、実際には、事前学習済みのモデルを共有して初めて、転移学習のメリットが実現されます。図1に示されているように、リソースの豊富な産業界や学術研究者は、一流のカンファレンスでSOTA(State of the art: 最先端技術)の成果物が認められたときに、モデルのチェックポイントを公開するのが一般的だということがわかります。コードは一般的にGitHubリポジトリの形で公開され、広範なHOWTOガイドや十分に文書化されたREADMEが含まれています。これにより、誰でも簡単に初期論文の図を再現することができ、このソースコードを自分の研究やプロジェクトの出発点として利用できる可能性があります。このプロセスがループして再生されることで、健全で自己強化的なモデルのサプライチェーンが確保され、最終的には科学的イノベーションのスピードが速くなります。しかし、この新興モデル共有エコシステムは、非専門家の参入障壁を下げるというメリットがある一方で、オープンソースのモデルを悪意のある目的で利用しようとする者には優位に働きます。

しかし、この参入障壁はどの程度下がったのでしょうか?ファインチューニングは、ゼロからモデルを訓練する場合と比較して、時間、コスト、データサイズ、計算量の何分の一かで実行できます。GPUアクセスが可能なクラウドホスティングされたノートブックでも、1日だけのクラウドGPUインスタンスの予約でも、これらのモデルの1つを微調整するのに数十ドルかかることになります。スキル的には、ファインチューニングは必ずしも些細なことではありませんが、「とても難しい作業」でもありません。

ここで取り上げた事前学習済みモデルは、それぞれ去年のうちにリリースされたものなので、次のセクションで紹介するデモは、今という瞬間のレンズを通して見るべきです。しかし、オープンソースのリリースは加速しており、信頼性の高い合成コンテンツを生成するためのハードルは今後さらに低くなるでしょう。

見ざる

最初のPoCとして、StyleGAN2 がどのように微調整され、ターゲット個人になりすましたカスタムの似顔絵を生成できるかを実演します。StyleGAN2 は、前身の StyleGAN と同様に、生成的敵対的ニューラル ネットワーク(GAN)として設計されています。GAN は、データの新しいインスタンスを生成するジェネレーターと、これらのインスタンスが実際の学習データセットに属しているかどうかを判断して真正性を評価する識別器の 2 つのネットワークで構成されています。事前学習済みの StyleGAN2 から画像を生成すると、事前学習済みの画像と同じような向きで表示される、ランダムで高品質で多様性の高い画像が出力されます。これらの画像は StyleGAN2 のオリジナルの学習セットには存在しませんが、生成モデルから完全に作り出されたものです。

StyleGAN2 は、プライベートなデータセットを微調整して、オープンソース・モデルのユーザーがコントロールできるカスタム・タスクの出力を生成することもできます。図 2 に示すように、オンライン画像検索サービスから俳優のトム・ハンクス氏の画像を数百枚ダウンロードし、事前学習済みモデルが必要とする顔中心の 512x512 ピクセルの画像になるようにトリミングしてから、わずかに小さい学習率でこの新しいデータセットに StyleGAN2 を向けることで、StyleGAN2 の学習を継続しました。1 台の GPU で 1 日もかからずに微調整を行った後、微調整された StyleGAN2 モデルを使用して、本物のオンライン画像と高いレベルで類似性を示すハンクス氏の偽画像を任意の数だけ生成しました。理論的には、任意のターゲットからトリミングされた画像を収集し、同様のエクササイズを実行して、任意の数の偽物画像を生成することができます。

Figure 2

図2: StlyeGAN2を微調整することで、インターネット上で自由に入手可能な画像(左下の3枚の画像など)から、好みのターゲットの似顔絵(右の3枚の画像など)を安価で大規模に生成することができる。

聞かざる

2つ目のPoCとして、オーディオ領域に切り替えて、SV2TTSがどのようにオーディオサンプルを微調整して、ターゲットとなる個人の声になりすますことができるかを実証します。SV2TTSは複雑な3段階のモデルで、リアルタイムに任意のテキスト入力からキャプチャした参照スピーチへの音声複製(テキストから音声への変換)を行うことができます。SV2TTSは、3つの基本的なニューラルネットワークで構成されています。まず、スピーカエンコーダは、何千人もの講演者で訓練され、人間の音声の抽象表現を学習し、浮動小数点値の圧縮埋め込みに圧縮されます。次に、GoogleのTacoTron2をベースにしたシンセサイザーがテキストを入力として受け取り、人間の声を数値表現したメル・スペクトログラムを返します。最後に、DeepMindのWaveNetをベースにしたボコーダーは、メル・スペクトログラムを受け取り、それを聞き取り、理解できる出力波形に変換します。

事前学習された SV2TTS は、数百人程度の音声から任意のテキストを用いて音声を生成することができますが、図 3 に示すように、任意のテキストを用いて任意の音声で音声を生成するように微調整することもできます。必要なのは、インターネット経由で自由に録音できる音声サンプルを収集し、その結果得られた M4A ファイルのいくつかを事前学習済みのSV2TTS モデルにロードし、それを特徴抽出器として使用して新しい音声波形を合成することだけです。ハンクス氏を例にして、IO キャンペーンでプッシュされているナラティブのタイプをテーマ別に代表的な携帯電話品質のコメントに似ているように私たちが選んだ入力テキストのいくつかの部分で、このプロセスの結果を示します。ここでの具体的な例は、ややロボット的で真偽不明の兆候を示していますが、声のトーンは(私たちの主観的な見解では)ハンクス氏のものに似ています。元のSVT2TTS学習データセットには、テキストも声も存在しません。特筆すべきは、これを行うためにGPUを必要としなかったことです - 事前学習済みモデルは、どこにでもあるラップトップのCPUコアを使用して手元で微調整されました。

Figure 3Play Audio Clip 1Play Audio Clip 2Play Audio Clip 3

図 3: SV2TTS を微調整することで、インターネット上で録音した音声ファイルや動画ファイルを使って任意のターゲットから携帯電話品質の音声を生成し(左下の 3 つのサンプルクリップなど)、微調整後にその話者に任意のカスタムテキストを口述させることができる(右の 3 つの音声サンプルなど)。

言わざる

私たちの最後のPoCはテキスト領域で、ソーシャルメディアのIOキャンペーンでプッシュされたナレーションを反映したカスタムのソーシャルメディア投稿を生成するためにGPT-2がどのように微調整できるかを実証しています。GPT-2はオープンソースのニューラルネットワークで、因果言語モデリングタスクで訓練されたもので、その目的は前の文脈から文中の次の単語を予測することです。事前学習済みモデルは、最終的に言語生成が可能です:このモデルによって次の単語を正確に予測できれば、次の単語を予測するために順番に使用することができ、最終的にはモデルが完全に首尾一貫した文章や段落を生成するまで、次の単語を予測するために使用することができます。

事前学習済みGPT-2モデルの出力は、比較的フォーマルな文法、句読点、構造を表示し、元の平凡なデータセット内に存在するテキストに対応しています。より短い、非公式な文法、不規則な句読点、構文のクセなど、GPT-2の生成物を、ソーシャルメディアをスクロールしているときに遭遇するであろう投稿のように見せるために、追加の学習データを使って、新しい言語モデリングタスクでGPT-2を微調整しました。このデータは、ロシアの有名なインターネット調査局(Internet Research Agency)またはIRAの「トロール工場」が運営するアカウントからのオープンソースのソーシャルメディアの投稿で構成されています。私たちは、これらのソーシャルメディアの投稿を事前学習済みモデルで処理することで、シングルGPU上でGPT-2を数時間かけて微調整しました。結果として得られたフェイク投稿は、短いながらも辛らつで、政治的な問題に対する怒りを表現し、ハッシュタグや絵文字のような特異性を含み、生成されたテキストの最後の位置に現れるようになりました。

Figure 4

図4:GPT-2を微調整することで、実際のユーザーが定期的に見せる意味あるスタイルを表現したソーシャルメディアの投稿を生成することができる。右の3つのテキストサンプルは、微調整後のモデルによって生成されたもの。

インターネットの合成メディア

IOアクターは、合成メディアの増強を容易に助長するであろう様々な戦術を使っています。例えば、私たちが発見した「Distinguished Impersonator(著名人物を騙るなりすまし )」と呼ばれる影響力のあるキャンペーンでは、ジャーナリストのペルソナを偽装し、実世界の専門家や政治家に手を差し伸べて、イランの政治的アジェンダを推進するための音声やビデオのインタビューを偽装して勧誘しています。もう一つよく使われる手法は、クロスプラットフォームのオンライン・ペルソナを開発して、ターゲット・グループに潜入したり、特定の視聴者に捏造したコンテンツを広めたりすることです。他にも、偽のペルソナを阻止するために実在の人物の写真を使用したり、政治的なコメントを「アストロターフ」するためにソーシャルメディア上で同一のテキストを繰り返し使用したりするなど、きわめて一般的な手法があります。合成メディアは、このような戦術の使用と有効性を悪化させる可能性を秘めています。

実際、人工的に生成されたプロフィール写真を使用した偽のペルソナや偽のソーシャルメディア・アカウントのネットワークがすでに頻繁に発見されており、このような使用が広まっています。例えば、香港の民主化抗議デモや新型コロナウイルス感染症(COVID-19)の大流行をめぐる親中派の意見を推し進める人為的に生成された写真を多用した偽のソーシャルメディア・アカウントの大規模なネットワークが発見されています。私たちは、アルゼンチンのある地域で政府高官を支援するためにデザインされたと思われる最近の活動で、合成プロフィール写真を使用した偽アカウントを特定しました。また、親キューバ政府と反米意見を主張するソーシャルメディア主導の影響力作戦では、認証されていないアカウントの1つのネットワークの背後にある運営者は、画像生成ツール「thispersondoesnotexist」によって配置されたテキスト・ボックスを、使用前にStyleGAN2で生成されたものであることを示すテキスト・ボックスを完全に切り取ることさえしませんでした。図 5 に示した IO キャンペーンで積極的に使用されている人為的に生成された画像の例は、背景をぼかしてクローズアップされた顔の画像、耳、首、肩の周りの異常、眼鏡やイヤリングなどのアクセサリーの完全なレンダリングの難しさ、信頼できる領域の外に生成された亡霊のように見える髪の毛など、いままで観察された一般的な例を示しています。

しかし、この戦術がエスカレートしていくことは容易に想像できます。この戦術では、例えば特定のマイノリティグループに対応するターゲットグループや地理的な実在の人物のイメージに訓練された人工的に生成されたプロフィール写真を使って説得力のあるペルソナが作成され、それを使って政治的対立を扇動したり、敵意や暴力を煽ったりします。本物の政治専門家の声で訓練されたDistinguished Impersonatorに似たキャンペーンで、合成的に生成された音声インタビューを使用すれば、実在の人々に直接働きかける必要がなくなるため、アクターの負担が軽減されます。また、合成メディアは、多様なテキストベースのコンテンツを大規模に普及させようとするアクターの障壁を大幅に下げることができ、記述されたコンテンツの大規模な集大成を作成するために必要な労力や、同一のテキストの抜粋を繰り返し再利用する必要性を減らすことができます。

Figure 5

図 5: IO キャンペーンで積極的に使用されている人為的に生成された疑いのあるプロフィール写真と、人為的に生成された画像を見分ける手がかりとなる、認証されていない写真の例を示している。

検出の回避

合成メディアは、期待される効果を得るために圧倒的に信頼できるものである必要はありません。人々は、短くて権威のある、エラーだらけのソーシャルメディアのテキストを、その言語的特徴や出どころをあまり気にすることなく、すぐさま消費することに慣れています。ユーザーは質の低いオーディオやビデオの断片を消費することに慣れており、大多数のユーザーは、フィードをスクロールして高速で書かれたコンテンツを飲み込む際に、ソーシャルメディア・アカウントのプロフィール画像をざっと見ただけでは判断できません。急速で大量の情報消費を特徴とする世界では、一部の声優ユーザーでさえも疑問を抱かないような「そこそこ良い」ものであればいいのです。

前のセクションで議論されたさまざまなIOアプリケーションの背後にある統一的なテーマは、脅威アクターが低コストでキャンペーンを拡大し、検出をよりうまく回避できるようにするのに大きく貢献するということです。特にファインチューニングは、ブルーチームにとって問題となります。これは、潜在的な脅威アクターのファインチューニングデータセットが、テスト時には防御側には非公開である可能性が高いため、心配な点です。この概念は、図6で実施したテキストベースの検出実験に示されています。GPT-2 をリリースした後、OpenAI は、GPT-2 と同じアーキテクチャやトークナイザーを共有していない RoBERTa に基づいて微調整された分類器とともにソースコードをリリースしました。

私たちは最初にこの RoBERTa モデルを使用して、捏造された GPT-2 生成テキストと本物の GPT-2 事前学習データセットを確実に区別できるという知見を検証しました。細かく調整されたIOテキスト世代(すなわち、図4で以前に説明したもの)を区別するために、分類器を使用して同じ演習を実行したとき、精度は著しく低下しました。事前学習されたスコア分布が1に傾いているという事実は、事前学習された世代の検出モデルが、分類しきい値が0.5の世代を「偽物」として簡単に分類できることを意味します。この結果、図6の青で示されているように、検出モデルの精度スコアは97%以上になります。しかし、赤で示すように、分類器が出力するスコアの分布が偶然に近づくにつれて、検出精度は微調整された世代では78%程度まで低下します。そのため、もし脅威アクターが自分たちで収集したカスタムのデータセット上で微調整を行った場合、合成世代を作成するために使用されるデータと、ブルーチームが適切な検出モデルを構築するためにアクセスできる、あるいは知識を持っているデータとの間に、問題のある非対称性が生じる可能性があります。以前には、テキストの長さが短いほど検出モデルが分類しにくいことが示されていました。ツイートに触発された私たちの実験はこの知見を裏付けていますが、将来のジェネレータと検出器のいたちごっこの関係において、異なるデータセット、モデルの複雑さ、入力の長さ、ハイパーパラメータがどのようにこの効果に寄与するかを解明するためには、さらなる研究が必要です。

Figure 6

図6: 1つ目のプロットは検出モデルが返すスコアを示し、2つ目のプロットはそのスコアから得られる精度を示している。

結論

合成メディアの生成は、金銭的にも必要な計算能力の面からも、より安価で、より簡単で、より浸透していて、その能力はこれまで以上に信頼性の高いものになっています。画像生成機能や商用サービスでさえも、すでに単にヘッドショットや顔の生成を超えて、全身ショットや高度なビデオ生成へと移行しており、エンドユーザーは、特定の属性をより詳細なレベルで生成することができ、コンテンツ作成のために無料または商用のローコードまたはノーコードのアプリケーションを使用することができるようになることで、コンテンツ生成のコントロールと容易さが増していくでしょう。

本ブログ記事では、現在の情報操作戦術にすぐに適用できる合成メディアの技術的な検出・緩和能力の開発に、研究コミュニティが引き続き注目していく必要性を強調しています。機械学習分類器モデル透かしのような統計的な検出アプローチ、指紋やフォレンジック指標の署名ベースの識別など、複数の研究が可能であり、追求すべきです(例:図5)。第二に、異なる分野の研究者のコミュニティが、検出の課題を克服するためのアプローチについて団結することの重要性、将来の IO キャンペーンで合成メディアがどのように展開されるかを脅威モデル化して、潜在的な影響を先取りして対処できるようにすること、合成メディア生成機能の商業的なプロバイダに、脅威アクターによるサービスの悪用の可能性を認識して説明することを奨励するなど、このすべてに人間的な側面があります。コミュニティの努力以外にも、ソーシャルメディアやその他のコンテンツの消費者の意識を高め、脅威を誤認させない責任ある方法で合成メディアのリスクについて教育する必要があり、また、情報操作や合成メディアに対処するための法的・規制的アプローチを開発する必要があります。

 

本ブログは、米FireEyeが公開したAugust 05, 2020「Repurposing Neural Networks to Generate Synthetic Media for Information Operations」(英語)の日本語抄訳版です。

日本語版:Reviewed by Toru Tanimura