「私はロボットではありません」ー AI時代における CAPTCHA の新たな戦い

1.CAPTCHA とは
インターネットを利用する際、「信号機を選んでください」「歩道の画像をクリックしてください」といった認証を求められたことがある人は多いでしょう。これは「CAPTCHA(キャプチャ)」と呼ばれる技術で、「Completely Automated Public Turing test to tell Computers and Humans Apart(完全に自動化された公開チューリングテストでコンピューターと人間を区別する)」の略です。
一見すると単なる画像認証のように見えますが、その本来の目的は、人間とボット(自動化プログラム)を区別し、悪意のある自動操作を防ぐことにあります。

2.CAPTCHA の目的と重要性
では、なぜ CAPTCHA が開発されたのでしょうか。私たちが日常的に利用しているインターネットサイトは、基本的には人間の利用を前提に作られています。しかし、情報技術の進化に伴い、攻撃手法も巧妙化し、自動化されたプログラム、いわゆるボットによる不正アクセスやスパム行為が広範囲に行われるようになりました。ボット対策が施されていない脆弱なサイトでは、フォーム投稿を通じて悪意のあるリクエストが自動的に送信される事態が発生し、大きな問題となります。こうした自動化プログラム(以下「機械」と称する)による攻撃を防ぐために、CAPTCHA が活用されているのです。
3.reCAPTCHA の台頭と種類
reCAPTCHA とは、Google が2009年にリリースした CAPTCHA の後継版であり、元々はカーネギーメロン大学の研究者たちによって開発されました。reCAPTCHA は、コンピュータが識別しにくい情報の入力を求める仕組みです。その対象は文字に限らず、画像や写真、印刷物からの抜粋、チェックボックス操作など多岐にわたります。最近では、私たちが日常的に目にする機会も増えているのではないでしょうか。
例えば、以下のような3×3や4×4の画像から指示に合ったパネルを選ぶ形式が一般的です。

このプロセスでは、「他のユーザーの回答との類似度」を確認することで、ロボットとの違いを判別します。
具体的には次のような点で、機械は画像判別が困難とされています。
- ぼやけた画像や曖昧な要素を正確に理解できない
- 状況や文脈に基づいた判断ができない
- 画像データが頻繁に更新されることで学習が難しい
さらに、reCAPTCHA v2 では、チェックボックスをクリックする形式の認証も用いられています。

この仕組みでは、「チェックボックスをクリックするまでのマウスの動きやクリックのタイミング」といった操作過程を解析し、それを判断の材料としています。
また、reCAPTCHA v3 では、ユーザーが reCAPTCHA に至るまでの行動、例えば履歴や Cookie 情報を参照して人間か機械かを判断する仕組みが導入されています。このシステムは「reCAPTCHA スコア」を基準とし、人間特有の細かな動きをもとに数値化します(スコア範囲:0.0〜1.0)。スコアが低いほど、人間である可能性が高くなります。これにより、より精密なふるい分けが可能となっています。

4.reCAPTCHAの限界とAIがもたらす課題
AI技術の進化はこの CAPTCHA の機能向上に大きく貢献しています。たとえば、AIを活用することで、画像分析の精度が向上し、人間の動きの微妙な特徴をより正確に検出できるようになりました。さらに、深層学習技術は CAPTCHA のパターンをより複雑化し、ボットが突破しにくい仕組みを実現しています。また、大規模言語モデル(LLM)の活用により、複雑な認証プロセスを実現しつつ、正規ユーザーにとっての操作性を損なわない仕組みが設計されています。このように、AI技術は CAPTCHA の有効性を高めるための重要な役割を果たしており、進化する攻撃手法に対抗する新しい認証技術の開発を支えているといえます。
しかし、皮肉なことにAI技術の進歩は、従来の CAPTCHA を突破しやすくするという逆説的な結果ももたらしています。例えば、画像ベースの CAPTCHA はビジョントランスフォーマー(ViT)といった最新の画像認識技術(画像全体を複数のパッチに分割し、それぞれのパッチの特徴を抽出して画像の認識を行う技術)を利用することで高い精度で突破可能とされ、テキストベースのCAPTCHAもOCR(光学文字認識:画像から文字を読み取る技術)や機械学習モデル(SVM、CNN)を活用した攻撃の対象となっています。
さらに、3D CAPTCHA やゲーム要素を含む CAPTCHA でさえ、スクリーンショット解析や LLM(大規模言語モデル:大量のテキストデータを学習し、人間のような自然な文章を生成するAI)を利用した攻撃によって回避される可能性が指摘されています。加えて、ビデオベースの CAPTCHA も、視覚言語モデル(VLM:画像や動画の内容を言語で理解するAI))の進化により解析されやすい状況となっています。
このように、reCAPTCHA を含む従来の CAPTCHA は万能ではなく、AIを利用した攻撃に対する脆弱性が顕在化しているのが現状です。
5.現 reCAPTCHA に代わる新たな取り組み(2025年)
近年、AI技術の進化に対応するため、従来の CAPTCHA に代わる新たな認証方式が登場しています。その中のいくつかを紹介いたします。
BounTCHA
新しい認証手法として注目されている BounTCHA は、AIを活用した攻撃への対策として開発されました。従来の reCAPTCHA が画像認識やテキスト入力を使用しているのに対し、BounTCHA は動画を活用する点が特徴です。
この仕組みでは、ユーザーが動画を視聴し、指定された境界を特定し、スライダーを動かして適切なフレーム位置を選ぶことで認証が行われます。例えば、「鳥が飛びたつ瞬間を特定してください」という指示があれば、ユーザーは動画を確認し、鳥が飛ぶ瞬間のフレームを選択します。これは映像認識能力と操作の正確性が必要となり、それゆえに自動化を得意とする機械では再現が難しいとされています。また、単純な画像認識機能を有するだけでは、この種の問題を突破することが困難な仕組みになっているため、AIによる攻撃の成功率を低下させる効果が期待されています。

Illusion CAPTCHA
オーストラリアのニューサウスウェールズ大学やシンガポールの南洋理工大学によって発表された Illusion CAPTCHA は、視覚的錯覚を活用した新しい認証方式です。この CAPTCHA は、「人間には簡単だがAIには難しい」という特性を備えています。
LLM(大規模言語モデル)は「Chain-of-Thought(CoT)」という手法を用いることで、複雑な推論が求められる CAPTCHA にも対応できる力がつくため、従来のCAPTCHAが突破される可能性がより高くなります。その一方、推論を求める CAPTCHA は人間にとっても困難であり、しかも機械との差別化を図るための問題に対して、人間も LLM と似たような間違いをおかしてしまい、判断にならないという傾向があります。
Illusion CAPTCHA の強みは、視覚的錯覚を活用して「人間には簡単だがAIには難しい」という特性を持つ点です。またAIが誤った選択をしやすいような誘導質問も構造の中に取り入れているため、人間には正解がわかりやすい形になっています。
視覚的錯覚を利用した認証の一例がこちらです。右側の画像は単なるビル群ですが、視覚的な錯覚によってリンゴに見えるように感じられます。ただし、人間がそう認識しても、機械にはその錯覚を理解することは難しいというわけです。

Cryptographic Attestation of Personhood (CAP)
CAPTCHA とは少し異なりますが、従来の CAPTCHA や reCAPTCHA を超える新しいアプローチとして、Cloudflare(世界的なクラウドサービス企業)が提案した Cryptographic Attestation of Personhood(CAP)があります。この仕組みは「人間の暗号化証明」とも呼ばれ、Apple の Face ID などの生体認証技術を活用して人間性を証明します。
CAP の特徴は、認証プロセスがユーザーのデバイス内で完結する点です。これにより、生体情報が Cloudflare 側に送信されることはなく、ユーザーのプライバシーを保護しながら機械による不正アクセスを防ぐことが可能となっています。Cloudflare はプライバシー保護を重視しており、CAP においても、ユーザーの生体情報が Cloudflare のサーバーに送信されることはありません。

いかがでしたか。CAPTCHA は、機械による不正アクセスを防ぐための重要な技術です。しかし、AI技術の進歩に伴い、より高度な機能が日々模索されているのが現状です。これからも、攻撃者と防御側との技術競争は続いていくと思われます。その中でも、ユーザーの負担を軽減しながらも高いセキュリティを実現する、新しい認証方式の登場も期待されております。
日常生活の中で CAPTCHA の重要性について改めて考え、この技術を生み出した研究者たちへの感謝を忘れないようにしたいですね。
