DMN Insight

DMN Report #98 AI分野全体がAIエージェントに向かう理由

作成者: DMN事務局|Jul 4, 2024 5:19:20 AM
DMN Report #98
AI分野全体がAIエージェントに向かう理由
 

Aniket Hingane

AIの実用化に情熱を燃やし、複雑な概念や設計を簡潔な記事にまとめ、
複雑さを一度に理解できるように努めている
 

Why Entire AI field is headed towards AI Agents


生成AIは始まりに過ぎない。次に来るのはAIエージェントである。

Andrew Ng氏とAndrej Karpathy氏はそう語る。
 

この記事について

AIの未来はよりエージェンティックになっていく。この記事では、それが何を意味するのかを取り上げる。AI業界最高の頭脳がAIエージェントについてどのように語っているかご覧いただきたい。

 

この記事は、人工知能(AI)エージェントの概念と、未来を形作る上で重要性を増しているAIエージェントを探るものである。

 

読者がAIエージェントの包括的な理解、その中心的な特徴、そしてその幅広い応用を得られることを期待している。



Why Read It?

お見逃しなく - 仕事の未来は今まさに変わりつつある。

 

AI分野は、狭い範囲に特化したモデルを超えて、幅広い領域にわたって人間の知性を真に補強し、強化することができる、高い能力を備えた自律型エージェントの開発へと移行しつつある。このAIエージェントへのシフトは、私たちの働き方、生き方、テクノロジーとの関わり方を大きく変え、知的で適応性が高く、ますます便利なAIシステムの新時代の到来を約束する。

 

この記事を読めば、なぜAI分野全体が高度なAIエージェントの開発に引き寄せられ、人工知能へのアプローチや活用方法に革命をもたらす可能性があるのかが理解できるだろう。

 

経験豊富なAI愛好家であれ、この分野に足を踏み入れたばかりの新参者であれ、AIエージェントへの軌跡を理解することは、今後の変革の旅路に情報を提供し、積極的に参加するために不可欠である。



この記事はこんな方におすすめする:

  • 仕事の未来を理解したい人: AIエージェントは産業とあなた自身のキャリアをどのように再構築するのか?
  • AI分野のアーリーアダプターになりたい人: AIエージェントを作成し、その力を活用する方法を学ぶ
  • 競争力を高めたい人: 急速に進化する技術環境の中で、一歩先を行く



LLMとRAGがあるのに、なぜAIエージェントが必要なのか?

 

LLMとRAGモデルが言語生成で可能なことの限界を押し広げる一方で、AIエージェントの開発は、よりインテリジェントで、自律的で、多種多様なシナリオで人間と一緒に働くことができる多機能なシステムへの一歩を意味する。エージェントへのシフトは、実世界の問題を真に理解し、学習し、解決できるAIシステムを創造することである。

 

AIエージェントが必要とされる主な理由はいくつかある。

 

  1. 目標指向の行動: LLMとRAGモデルは、学習データのパターンに基づいて人間のようなテキストを生成することに主眼を置いている。しかし、柔軟で知的な方法で具体的な目標を設定し、それを追求する能力に欠けている。一方、AIエージェントは、明確な目標を持ち、その目標を達成するための行動を計画し、実行するように設計することができる。

  2. メモリと状態の追跡: 現在のほとんどの言語モデルには、永続的な記憶や状態追跡機能がない。各入力は独立して処理される。AIエージェントは内部状態を維持し、時間の経過とともに知識を蓄積し、その状態を将来の意思決定や行動に役立てることができる。

  3. 環境との相互作用: LLMはテキスト領域のみで動作し、物理世界との直接的な相互作用はない。AIエージェントは、デジタル世界であれ、ロボットシステムであれ、あるいはセンサーやアクチュエーターを介した物理的世界であれ、環境を知覚し、それに基づいて行動することができる。

  4. 転移と汎化: LLMは、学習データと同様の言語タスクを得意とするが、まったく新しい領域やタスクに知識を移行させるのに苦労することが多い。学習、推論、計画の能力を持つAIエージェントは、新しい状況への移行や汎化をよりうまく行える可能性がある。

  5. 継続的な学習: ほとんどの言語モデルは、一度訓練されると静的なものである。AIエージェントは、時間の経過とともに新しい環境や状況に接することで、その知識やスキルを継続的に学習し、適応させることができる。

  6. マルチタスク能力: LLMは通常、特定の言語タスクに特化している。AIエージェントは、複雑で多面的な問題に取り組むために、言語、推論、知覚、制御などの様々なスキルを流動的に組み合わせることができる一般的なマルチタスクシステムとして設計することができる。

 

AIエージェントで世界はどう変わるか

複雑な旅行を計画・予約するとしよう。

LLM:さまざまな観光地について説明したり、一般的な旅行のヒントを与えることができる。

RAG: 旅行先に関する関連ブログや記事を見つけることができる。

AI Agent: 上記の全てに加え、プラスアルファができる。

 
それは、

  • 予算に応じてフライトとホテルを検索する
  • 予約する
  • すべてをカレンダーに追加する
  • 出発前に関連情報のリマインダーを送信する


LLMとRAG、AIエージェントについて理解を深めよう

1. タスク志向と一般知識

  • LLM: 広範な言語理解と生成に優れている。巨大な情報ライブラリーのようなもの。
  • RAG:関連情報を見つけることでLLMを向上させる。それでも、焦点は知識とテキスト生成にある。
  • AIエージェント: 特定の目標を念頭に置いて構築される。言語を理解することと、現実世界やデジタル・システム内で行動を起こすことのギャップを埋める。

 

2. 多段階推論

  • LLMとRAG:主に単一の入力を処理し、それに基づいて応答を提供する。
  • AIエージェント: 複数のステップを連鎖させることができる:
  • RAGのように情報を取得する、情報を処理して意思決定を行う等

 

また、次のようなアクションを起こす:

  • 電子メールの送信
  • アポイントメントの予約
  • スマートホームデバイスの制御

 

3. 積極性

  • LLMとRAG:通常は直接プロンプトに反応する。
  • AIエージェント: プロアクティブである。AIエージェントはデータストリームを監視し、重要な変化を警告する。あなたの好みに基づいて行動を開始する。あなたのことを学びながら、時間をかけて行動を適応させる

 

4. 既存システムとの統合

  • LLMとRAG:自分自身の環境の中で活動する傾向がある。
  • AIエージェント: 様々なシステムやAPIとインターフェースするように設計されている:
    • メールやカレンダーにアクセス
    • データベースとの対話
    • 他のソフトウェアやデバイスの制御 など



AIエージェントのアーキテクチャとは?

AIエージェントのアーキテクチャは、その環境内で思考し、計画し、行動する力を与える重要な構成要素を包含している。この洗練された設計には、一般的に以下が含まれる:

 

  • 推論エンジン:自然言語を理解し、知識にアクセスし、複雑な問題を推論するために強力な大規模言語モデル(LLM)を利用するエージェントの心臓部。
  • 知識ベース: 事実情報、過去の経験、タスクに関連する嗜好を格納する、エージェントのメモリストアとして機能する。
  • ツール統合: エージェントがAPIを通じて様々なソフトウェアアプリケーションやサービスと相互作用することを可能にし、その環境を操作・制御する能力を拡張する。
  • 感覚入力: テキスト、画像、または様々なセンサーからデータを収集し、エージェントに周囲を認識する能力を提供する。
  • (おそらく)ユーザーインターフェース:人間のユーザーとのシームレスなコミュニケーションとコラボレーションを可能にするブリッジ。( ** 標準的なUXがあるかどうかはよくわからないが、すぐに必要になるか、まだあまり標準的でないかもしれない)

 

これらの要素が組み合わさることで、自律的に問題を解決できる知的システムが生まれる。AIエージェントは問題を分析し、段階的な計画を立て、自信を持ってそれを実行することができる。

 

これらのアーキテクチャ・コンポーネントは、それ自体で詳細な記事が必要である。

私はあなたがこの記事を楽しんだことを願っています!興味があれば私をフォローし、メールマガジンの購読をご検討ください。最新の記事、ヒント、インサイトをお届けします。

 

 

英語版参照元:

https://medium.com/@learn-simplified/why-entire-ai-field-is-headed-towards-ai-agents-a268ac9661ed

 

 

DMNでは、他にも様々なブログを「DMN Insight Blog」にて配信しております。
定期的に記事をご覧になられたい方は、ぜひご登録をお願いいたします!

「DMN Insight Blog」メールマガジン登録