Aniket Hingane
Why Entire AI field is headed towards AI Agents
生成AIは始まりに過ぎない。次に来るのはAIエージェントである。
Andrew Ng氏とAndrej Karpathy氏はそう語る。
この記事について
AIの未来はよりエージェンティックになっていく。
この記事は、人工知能(AI)エージェントの概念と、
読者がAIエージェントの包括的な理解、その中心的な特徴、
Why Read It?
お見逃しなく - 仕事の未来は今まさに変わりつつある。
AI分野は、狭い範囲に特化したモデルを超えて、
この記事を読めば、
経験豊富なAI愛好家であれ、
この記事はこんな方におすすめする:
- 仕事の未来を理解したい人: AIエージェントは産業とあなた自身のキャリアをどのように再構
築するのか? - AI分野のアーリーアダプターになりたい人: AIエージェントを作成し、その力を活用する方法を学ぶ
- 競争力を高めたい人: 急速に進化する技術環境の中で、一歩先を行く
LLMとRAGがあるのに、なぜAIエージェントが必要なのか?
LLMとRAGモデルが言語生成で可能なことの限界を押し広げる
AIエージェントが必要とされる主な理由はいくつかある。
- 目標指向の行動: LLMとRAGモデルは、
学習データのパターンに基づいて人間のようなテキストを生成する ことに主眼を置いている。しかし、 柔軟で知的な方法で具体的な目標を設定し、 それを追求する能力に欠けている。一方、AIエージェントは、 明確な目標を持ち、その目標を達成するための行動を計画し、 実行するように設計することができる。 - メモリと状態の追跡: 現在のほとんどの言語モデルには、
永続的な記憶や状態追跡機能がない。 各入力は独立して処理される。 AIエージェントは内部状態を維持し、 時間の経過とともに知識を蓄積し、 その状態を将来の意思決定や行動に役立てることができる。 - 環境との相互作用: LLMはテキスト領域のみで動作し、
物理世界との直接的な相互作用はない。AIエージェントは、 デジタル世界であれ、ロボットシステムであれ、 あるいはセンサーやアクチュエーターを介した物理的世界であれ、 環境を知覚し、それに基づいて行動することができる。 - 転移と汎化: LLMは、学習データと同様の言語タスクを得意とするが、
まったく新しい領域やタスクに知識を移行させるのに苦労すること が多い。学習、推論、計画の能力を持つAIエージェントは、 新しい状況への移行や汎化をよりうまく行える可能性がある。 - 継続的な学習: ほとんどの言語モデルは、一度訓練されると静的なものである。
AIエージェントは、 時間の経過とともに新しい環境や状況に接することで、 その知識やスキルを継続的に学習し、適応させることができる。 - マルチタスク能力: LLMは通常、特定の言語タスクに特化している。
AIエージェントは、複雑で多面的な問題に取り組むために、 言語、推論、知覚、 制御などの様々なスキルを流動的に組み合わせることができる一般 的なマルチタスクシステムとして設計することができる。
AIエージェントで世界はどう変わるか
複雑な旅行を計画・予約するとしよう。LLM:さまざまな観光地について説明したり、一般的な旅行のヒントを与えることができる。
RAG: 旅行先に関する関連ブログや記事を見つけることができる。
AI Agent: 上記の全てに加え、プラスアルファができる。
それは、
- 予算に応じてフライトとホテルを検索する
- 予約する
- すべてをカレンダーに追加する
- 出発前に関連情報のリマインダーを送信する
LLMとRAG、AIエージェントについて理解を深めよう
1. タスク志向と一般知識
- LLM: 広範な言語理解と生成に優れている。
巨大な情報ライブラリーのようなもの。 - RAG:関連情報を見つけることでLLMを向上させる。
それでも、焦点は知識とテキスト生成にある。 - AIエージェント: 特定の目標を念頭に置いて構築される。言語を理解することと、
現実世界やデジタル・ システム内で行動を起こすことのギャップを埋める。
2. 多段階推論
- LLMとRAG:主に単一の入力を処理し、
それに基づいて応答を提供する。 - AIエージェント: 複数のステップを連鎖させることができる:
- RAGのように情報を取得する、情報を処理して意思決定を行う等
また、次のようなアクションを起こす:
- 電子メールの送信
- アポイントメントの予約
- スマートホームデバイスの制御
3. 積極性
- LLMとRAG:通常は直接プロンプトに反応する。
- AIエージェント: プロアクティブである。
AIエージェントはデータストリームを監視し、 重要な変化を警告する。あなたの好みに基づいて行動を開始する。 あなたのことを学びながら、時間をかけて行動を適応させる
4. 既存システムとの統合
- LLMとRAG:自分自身の環境の中で活動する傾向がある。
- AIエージェント: 様々なシステムやAPIとインターフェースするように設計されて
いる: - メールやカレンダーにアクセス
- データベースとの対話
- 他のソフトウェアやデバイスの制御 など
AIエージェントのアーキテクチャとは?
AIエージェントのアーキテクチャは、その環境内で思考し、
- 推論エンジン:自然言語を理解し、知識にアクセスし、
複雑な問題を推論するために強力な大規模言語モデル(LLM) を利用するエージェントの心臓部。 - 知識ベース: 事実情報、過去の経験、タスクに関連する嗜好を格納する、
エージェントのメモリストアとして機能する。 - ツール統合: エージェントがAPIを通じて様々なソフトウェアアプリケーショ
ンやサービスと相互作用することを可能にし、その環境を操作・ 制御する能力を拡張する。 - 感覚入力: テキスト、画像、または様々なセンサーからデータを収集し、
エージェントに周囲を認識する能力を提供する。 - (おそらく)ユーザーインターフェース:
人間のユーザーとのシームレスなコミュニケーションとコラボレー ションを可能にするブリッジ。( ** 標準的なUXがあるかどうかはよくわからないが、 すぐに必要になるか、まだあまり標準的でないかもしれない)
これらの要素が組み合わさることで、
これらのアーキテクチャ・コンポーネントは、
私はあなたがこの記事を楽しんだことを願っています!
英語版参照元:
https://medium.com/@learn-simplified/why-entire-ai-field-is-headed-towards-ai-agents-a268ac9661ed
DMNでは、他にも様々なブログを「DMN Insight Blog」にて配信しております。
定期的に記事をご覧になられたい方は、ぜひご登録をお願いいたします!
→「DMN Insight Blog」メールマガジン登録