今日の AI 時代では、自律型エージェントは汎用人工知能 (AGI) への有望な道と考えられています。いわゆる自律エージェントは、自律的な計画と指示を通じてタスクを完了することができます。初期の開発パラダイムでは、エージェントのアクションを決定するポリシー機能はヒューリスティックによって支配され、ヒューリスティックは環境との相互作用の中で徐々に洗練されます。
近年の大規模言語モデル (LLM) の大成功により、人間のような知能を実現する可能性が示されています。したがって、LLM はその強力な機能のおかげで、自律エージェントを作成するためのコア コーディネーターとして使用されることが増えており、さまざまな AI エージェントが次々に登場しています。これらのエージェントは、人間のような意思決定プロセスを模倣することで、より複雑で適応性のある AI システムへの実行可能な道を提供します。
たとえば、LLM ベースのエージェントを使用して、建物、橋、ダム、道路などの複雑な構造を設計および最適化できます。以前、一部の研究者は、人間の建築家と AI エージェントが協力して 3D シミュレーションで構造環境を構築する対話型フレームワークを提案しました。インタラクティブ エージェントは、自然言語の命令を理解し、モジュールを配置し、アドバイスを求め、人間のフィードバックを組み込むことができ、エンジニアリング設計における人間と機械のコラボレーションの可能性を示しています。
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
AI 自律エージェントの目録、構築、適用、評価の完全な内容、全人代高陵の Wen Jiron 氏による 32 ページの概要
編集者: Du Wei、Chen Ping
今日の AI 時代では、自律型エージェントは汎用人工知能 (AGI) への有望な道と考えられています。いわゆる自律エージェントは、自律的な計画と指示を通じてタスクを完了することができます。初期の開発パラダイムでは、エージェントのアクションを決定するポリシー機能はヒューリスティックによって支配され、ヒューリスティックは環境との相互作用の中で徐々に洗練されます。
ただし、制約のないオープンドメイン環境では、自律エージェントが人間レベルの熟練度で行動することは困難なことがよくあります。
近年の大規模言語モデル (LLM) の大成功により、人間のような知能を実現する可能性が示されています。したがって、LLM はその強力な機能のおかげで、自律エージェントを作成するためのコア コーディネーターとして使用されることが増えており、さまざまな AI エージェントが次々に登場しています。これらのエージェントは、人間のような意思決定プロセスを模倣することで、より複雑で適応性のある AI システムへの実行可能な道を提供します。
現段階では、新興の LLM ベースの自律エージェントの総合的な分析を行うことが非常に重要であり、この分野の開発状況を完全に理解し、将来の研究にインスピレーションを与えることは非常に重要です。
この論文では、中国人民大学ヒルハウス人工知能大学院の研究者らが、構築、応用、評価の 3 つの側面に焦点を当て、LLM ベースの自律エージェントの包括的な調査を実施しました。
エージェントの構築に関しては、エージェントの属性を表現する構成モジュール、履歴情報を保存する記憶モジュール、将来の行動戦略を策定する計画モジュール、アクションの4つの部分からなる統一フレームワークを提案した。計画の決定を実行するモジュール。研究者らは、典型的なエージェント モジュールを紹介した後、エージェントのさまざまなアプリケーション シナリオへの適応性を高めるために一般的に使用される微調整戦略についてもまとめています。
次に研究者らは、自律エージェントの潜在的な応用例を概説し、自律エージェントが社会科学、自然科学、工学の分野にどのように利益をもたらすことができるかを探ります。最後に、主観的評価戦略と客観的評価戦略を含む、自律エージェントの評価方法について説明します。以下の図は記事の全体構成を示しています。
LLMに基づく自律エージェントの構築
LLM ベースの自律エージェントをより効率的にするには、考慮すべき 2 つの側面があります: 第 1 に、エージェントが LLM をより効果的に利用できるようにどのようなアーキテクチャを設計する必要があるか、第 2 に、パラメータを効果的に学習する方法。
エージェントアーキテクチャの設計: 本論文はこれまでの研究で提案されてきたアーキテクチャをまとめた統一フレームワークを提案するものであり、全体構成は図2に示すようにプロファイリングモジュール、メモリモジュール、プランニングモジュール、アクションモジュールから構成される。
分析モジュール
自律エージェントは、プログラマー、教師、ドメイン専門家などの特定の役割を通じてタスクを実行します。分析モジュールは、エージェントの役割が何であるかを示すことを目的としており、この情報は通常、LLM の動作に影響を与えるために入力プロンプトに書き込まれます。既存の研究では、エージェント プロファイルを生成するために一般的に 3 つの戦略が使用されています: 手作りの方法、LLM 生成方法、データセット調整方法。
メモリモジュール
メモリ モジュールは、AI エージェントの構築において非常に重要な役割を果たします。環境から知覚された情報を記憶し、記録された記憶を使用してエージェントの今後の行動を促進します。メモリ モジュールは、エージェントが経験を蓄積し、自己進化を実現し、より一貫性があり、合理的かつ効果的な方法でタスクを完了するのに役立ちます。
計画モジュール
人間は複雑なタスクに直面したとき、まずそれを単純なサブタスクに分割し、次に各サブタスクを 1 つずつ解決します。計画モジュールは、LLM ベースのエージェントに、複雑なタスクを解決するために必要な思考および計画能力を与え、エージェントをより包括的で強力かつ信頼できるものにします。この記事では、フィードバックなしの計画とフィードバックありの計画という 2 つの計画モジュールを紹介します。
アクションモジュール
アクション モジュールは、エージェントの決定を特定の結果出力に変換することを目的としています。これは環境と直接対話し、タスクを完了する際のエージェントの有効性を決定します。行動目標、方針、行動スペース、行動影響力の観点から紹介します。
上記の 4 つの部分に加えて、この章では、例からの学習、環境フィードバックからの学習、対話型の人間からのフィードバックからの学習など、エージェントの学習戦略も紹介します。
表 1 は、以前の研究と私たちの分類法の対応を示しています。
この章では、社会科学、自然科学、工学という 3 つの異なる分野における LLM ベースの自律エージェントの変革的な影響について検討します。
たとえば、コンピューター サイエンスやソフトウェア エンジニアリングでは、LLM ベースのエージェントにより、コーディング、テスト、デバッグ、ドキュメントの生成を自動化できる可能性があります。一部の研究者は、複数のエージェントが自然言語対話を通じて通信および協力してソフトウェア開発ライフサイクルを完了するエンドツーエンドのフレームワークである ChatDev を提案しています。ToolBench は、コードの自動補完やコードの推奨などのタスクに使用できます。 MetaGPT は、プロダクト マネージャー、アーキテクト、プロジェクト マネージャー、エンジニアの役割を果たし、コード生成を内部で監督し、最終出力コードの品質を向上させるなどの役割を果たします。
次の表は、LLM ベースの自律エージェントの代表的なアプリケーションを示しています。
この記事では、よく使われる 2 つの評価戦略、主観的評価と客観的評価を紹介します。
主観的評価とは、インタラクションやスコアリングなどのさまざまな手段を通じて LLM ベースのエージェントをテストする人間の能力を指します。この場合、評価に参加する人材はクラウドソーシングプラットフォームを通じて採用されることが多く、クラウドソーシングの人材は個人の能力差により不安定であると考える研究者もおり、専門家のアノテーションも評価に利用されています。
さらに、いくつかの現在の研究では、LLM エージェントを主観的評価者として使用できます。たとえば、ChemCrow の研究では、uatorGPT は、タスクの正常な完了と基礎となる思考プロセスの正確さの両方を考慮した評価を割り当てることで実験結果を評価します。もう 1 つの例は、Chat が LLM ベースのマルチエージェント審判チームを結成し、議論を通じてモデルの生成結果を評価したことです。
客観的評価には、LLM ベースの自律エージェントの機能を評価するための定量的メトリクスの使用を指す主観的評価に比べて、いくつかの利点があります。このセクションでは、指標、戦略、ベンチマークの観点から客観的な評価方法を検討し、総合します。
使用状況評価時にこれら 2 つの方法を組み合わせることができます。
表 3 は、以前の研究とこれらの評価戦略との対応をまとめたものです。