大学などのアカデミアからのInvited Talkが主なキーノートとなっていたAAAI-26だが、今回はMicrosoftにおける最先端の研究を実施する組織であるMicrosoft Researchに存在するAI Frontier LabsのManaging Director(Corporate Vice President)であるEce Kamar氏によるセッションを紹介する。これは2026年1月24日の午後に行われたセッションである。Kamar氏はワシントン大学やトルコのサバンジ大学などでも講師として教育の現場に参加しているようだ。
Kamar氏はこのセッションでAIの現状を認識したうえでAAAI-26の主な参加者である学生に向けて、これから取り組む研究の方向についてのアドバイスをすることを説明。最後に「協業が重要であることを解説する」と語った。
最近のAIの隆盛が当時Googleで働いていた研究者らによる2017年の論文「Attention is All You Need」から始まったことを紹介した後で、多くの土台となるAIモデル(トランスフォーマーや拡散モデル)が登場したが、実際には多くの企業においてはAIの利用は失敗する確率のほうが高いことを説明した。
そして生成AIの最もわかりやすい応用例としてチャットボットを挙げて、すでに多くの利用者が毎日のようにAIを使っていると語り、AIがチャットボットからエージェントに進化していることを説明した。
そしてMicrosoft Researchによるエージェントをベースにした新しいソフトウェアスタックを紹介。
ここでは3つのカテゴリーに分けて紹介。Magentic-UIはユーザーとの対話を主軸としたユーザーインターフェース、その下にエージェントをオーケストレーションするスタック、そしてインフラストラクチャーとして小規模言語モデルであるPhi、GUIを認識するOmniparser、そしてComputer Use Agent(CUA)のための小規模言語モデル、Faraである。Kamar氏がCUAを選んだのは、Microsoft Researchとして最優先に取り組んでいるのがコンピュータを使って行うさまざまな操作やタスクにエージェントを応用するという分野が、最もMicrosoftの業務に影響を与えるからだろう。
小規模言語モデルを選択した背景としては70億のトークンを持つモデルでも高い性能を維持できていることに加えて、少ないフットプリントによってデバイス側での実行が可能になるからだ。
ここでCUAに特化したFara-7Bの動作を簡単に解説。
FaraはWebブラウザーで行うようなタスクを実行することに特化しており、ここでは航空券の予約を実施することを例として挙げている。Fara-7Bはコンピュータを操作するためにスクリーンショットだけを利用してそのページが何をするのか? を理解し、GUIを通じてクリックや文字列の入力などを行うという。またブラウザーのページ遷移を記憶しているため、目的が達成できない場合は後戻りして違う選択を行うことも可能であると説明されている。ブラウザーに表示された内容を理解し、コンテキストに従って操作を行うことで人間が操作する場合と同様にタスクを処理することができる。
ここでFara-7BのインターフェースとなるMagentic-UIについて説明。これはCUAのためのインターフェースで、Fara-7Bがバックエンドとなってコンピュータを操作するタスクを実行するためのプロタイプである。Magentic-UIについては以下の動画が参考になるだろう。完全にエージェントに操作を任せるのではなく、ユーザーである人間と対話しながらタスクを実行するオープンソースソフトウェアだ。
●参考:Magentic-UI: Open-Source Browser-Use AI Agent
学習するためのデータを合成するルーツがFaraGen、学習したデータを使うモデルがFara-7B、実際に操作を行うツールがMagentic-UIというスタックになる。FaraGenは学習のためのデータをリアルな操作歴やスクリーンショットだけでは不足するため、合成して学習するためのソフトウェアだ。
香港で行われたSIGGRAPHで自動運転のためのソフトウェアを開発するWayveがリアルな学習データだけではなく合成データによって強化学習をする意味を訴求していたが、Microsoftもコンピュータの操作のために合成データが必要であることを認識していると言える。
そして複数のエージェントを使うアプリケーションを開発するためのフレームワーク、AutoGenを紹介。
AutoGenは複数のエージェントをアプリケーションから使うというフレームワークで、Microsoft Researchの成果物だったが、現在はMicrosoft Agent Frameworkとしてプレビュー公開されている。つまりリサーチの段階からビジネスに使うためにAzureのチームに移行したという意味だろう。
ここではMicrosoft Agent Frameworkの前身がAutoGenであることが示されている。
次に紹介したのはAutoGenのGitHubページでも確認できるMagentic-Oneと呼ばれるMicrosoftが開発したマルチエージェントのアプリケーションだ。AutoGenはフレームワークであるためアプリケーションを開発する必要があるが、Microsoftが開発したマルチエージェントアプリケーションのリファレンスモデル的な位置付けになるのがMagentic-Oneということだろう。
Magentic-OneはマルチエージェントをオーケストレーションするOrchestrator、プログラムを書くCoder、実行するExecutor、ファイルを操作するFile Surfer、Webページを操作するWeb Surferなどから構成され、Microsoftが想定するコンピュータ操作を行う複数エージェントの実装例となる。
そして複数エージェントのオーケストレーションの中身を紹介。ここではOrchestratorがタスクを受け取ってからTask LedgerとProgress Ledgerの間でタスクの完了状態を常に監視するシンプルな仕組みによって他のエージェントと連携するようすが解説されている。
ここまではMicrosoftがカンファレンスで自社のソフトウェアを宣伝するという流れに沿っているが、学生に対するメッセージという色合いが強くなるのはここからだった。
このスライドでは蒸気機関車が建物から崩落している事故写真を使っているが、Kamar氏自身の経験として失敗談を紹介。それはCUAを使ってNew York Timesのサイトにあるクロスワードパズルを解くという簡単なタスクを実行した時のエピソードだ。それはエージェントがNew York Timesのサイトにアクセスした時にパスワードをリセットするという操作を行ったというものだ。これはエージェントがクロスワードパズルを解こうとした際にログインが必要だと判断し、クレデンシャルを持っていなかったことからパスワードリセットを行うためにメールアプリにアクセスを行い、実際にメールを送信していたという例を紹介した。これはKamar氏にとっては衝撃的だったようで、パズルを解くというタスクのためにパスワードのリセットを行うという操作は明らかにエージェントの権限を越えていると語った。
この失敗例からエージェントが単体で何のガードレールもなしに実行される状況を防ぐためには、人間とエージェントの協働が必要であると説明した。
そのためのツールとしてMagentic-UIを紹介。
実際にエージェントがWebを操作する際に、購買などの影響が大きい操作に対しては必ず人間の承認が必要であることを保証する仕組みが前掲したMagentic-UIのチュートリアル動画にも解説されている。
エージェントが単体で実行されるのが現在の姿であるとするなら、複数のエージェントが人間と協働してタスクを実行するのが近い未来、ここではSociety of Mindと紹介されているが、それが将来的には複数のエージェントが信頼や境界を確保する仕組みの中で協働するSociety of Agentsになると説明した。
Kamar氏は前半で紹介した新しいコンピューティングプラットフォームとしてFara-7BやPhi、Magentic-UIなどのスタックの上に実際のCUAの操作をシミュレーションする実験の場、Magentic Marketplaceを加えたリストを紹介。
Magentic MarketplaceはComputer Use Agent(CUA)が購買や予約などの市場で行うさまざまな操作を観察するためのシミュレーション環境であるとMicrosoft Researchのサイトでは解説されている。
●参考:Magentic Marketplace: an open-source simulation environment for studying agentic markets
エージェント同士が会話することで行われる購買などの行為を観察することで、エージェントの安全性や価格の変動などを確認できるシステムだ。実際にエージェントが対話することで価格が高寄りに定着してしまう「暗黙のカルテル問題」などが発生することが確認されているという。Magentic MarketplaceによってLLMがエージェントを通して経済活動を行うことで得られた知見やデータは以下の論文として公開されている。
●参考:Magentic Marketplace: An Open-Source Environment for Studying Agentic Markets
また選択肢が多すぎると高めの価格で満足してしまうという選択肢のパラドクスや入札などに素早く反応してしまうことでより良い入札を見逃してしまう傾向や「業界No.1」と言った根拠の薄いプロンプトによって影響を受けるプロンプトポイズニングなども確認されたという。
Kamar氏はAAAI-26に参加している学生に対して、マルチエージェントによるAIの社会実装はまだ多くの課題があること、研究の領域として時間を費やすことは大きな価値があることを強調した。
そしてマルチエージェントの実装に残る課題には単に大規模言語モデルだけに頼るのは不可能であり、複合的な発明が必要であること、そのためにはオープンソースによってコミュニティとして取り組んでいく必要があることを強調してセッションを終えた。
AAAI-26は理論の研究や応用などに関する論文発表が主な場だが、Microsoft ResearchのAI部門のトップがマルチエージェントにはまだ多くの課題があることを率直に認めたうえでオープンソース、コミュニティ、そしてアカデミアが協調して取り組んでいくことを強く訴えた内容となった。他のセッションではオープンソースやコミュニティと言った単語がほぼ聞かれなかったことを考えると、Microsoftがオープンソースを主軸に据えて研究を行うことを学生に訴えてクローズドなAIベンダーとの差別化を行った印象が強く残ったセッションとなった。

