自律走行建機における深層強化学習を用いたリアルタイム障害物回避

自律走行建機の「脳」を選ぶ：DQN, PPO, SAC徹底比較とSim2Real実装の現実解

2026年1月5日更新 2026年3月18日約23分で読めます

文字サイズ:

自律走行建機の「脳」を選ぶ：DQN, PPO, SAC徹底比較とSim2Real実装の現実解

この記事の要点

深層強化学習による自律的な障害物回避
DQN, PPO, SACなど主要アルゴリズムの活用
シミュレーションから実機への転用（Sim2Real）

建設現場のDX（デジタルトランスフォーメーション）が叫ばれて久しいですが、現場での「自律化」はどの程度進んでいるでしょうか。特定のルートを走るだけのAGV（無人搬送車）レベルならまだしも、変化し続ける地形や予測不能な作業員の動きが混在する建設現場において、重機を自律走行させるハードルは極めて高いのが現実です。

製造業や流通業の現場支援を経て、現在株式会社テクノデジタルにて実用的なAIソリューションの設計・開発に携わる専門家の視点から言えば、現場の課題解決において最優先されるべきは、理論の美しさよりも「実際の業務でどれだけ効果が出るか」という点です。従来のルールベース制御や古典的な制御理論だけでは、非構造化環境である建設現場の複雑性には対応しきれません。そこで注目されるのが深層強化学習（Deep Reinforcement Learning: DRL）です。しかし、論文で「SOTA（State-of-the-Art：最先端）」と謳われる新しいアルゴリズムが、必ずしも現場の建機制御に適しているとは限りません。

本記事では、自律走行建機の実装において選択肢となる主要な強化学習アルゴリズム――DQN、PPO、SAC――を、理論的な優劣だけでなく「建機に実装して本当に使えるのか」という実用的な視点で比較・評価します。

特にPPO（Proximal Policy Optimization）に関しては、2026年現在で目新しいメジャーアップデートこそ確認されていませんが、TRPOの安定性を維持しつつ簡便な方策更新を行える手法として、連続値制御（ロボット動作や自動運転）への適応力が非常に高く、現在も実務で広く使用されている強固な基盤技術です。LLMのRLHF（人間からのフィードバックを用いた強化学習）関連においても、DPOからPPOへの移行戦略が実務で有効とされるなど、その信頼性は揺るぎません。最新の派手な機能やバージョンアップに依存するのではなく、データに基づきこうした安定したアルゴリズムをいかに現場へ適用するかが鍵となります。

サンプル効率、連続制御の滑らかさ、そして最大の難関であるSim-to-Real（シミュレーションから実環境への移行）の観点から、それぞれのアルゴリズムの特性と現場実装における最適な選択肢を考察します。

なぜ建機の障害物回避に深層強化学習(DRL)が必要なのか

建設現場における自律走行が、工場内の搬送ロボットと決定的に異なる点は、「環境の不確実性」と「相互作用の複雑さ」にあります。

ルールベース制御の限界と現場の不確実性

従来の自律移動ロボットで主流だったのは、LiDARやカメラを用いたセンサーフュージョンによって地図を作り（SLAM）、その地図上で経路計画（Path Planning）を行い、障害物があれば停止するか迂回するというアプローチです。これは「静的」または「予測可能」な環境ではうまく機能します。

しかし、建設現場はどうでしょうか。

地形の変化: 掘削や盛土によって、数分前まで走行可能だった場所が崖になっているかもしれません。
路面状況の多様性: コンクリート、砂利、泥濘地（ぬかるみ）。同じ出力でモーターやエンジンを回しても、路面抵抗によって進む距離も曲がる角度も変わります。
動的障害物: 他の建機や作業員が、予測困難な動きで死角から現れます。

これらすべての条件分岐を「if-then」のルールで記述するのは不可能です。また、従来の制御工学（PID制御やMPC：モデル予測制御）では、泥濘地でのスリップや油圧の非線形な応答を正確に数式モデル化することが極めて困難です。モデル化誤差が大きければ、制御は破綻します。

動的環境におけるリアルタイム判断の重要性

ここで深層強化学習（DRL）が輝きます。DRLは、環境との相互作用を通じて、「どのような状況（状態）で、どのような操作（行動）をすれば、もっとも安全かつ効率的にゴールできるか（報酬）」を試行錯誤しながら学習します。

数式で厳密に記述できない泥濘地での挙動や、複雑な障害物回避の機動も、ニューラルネットワークが「経験」として蓄積し、汎用的な方策（Policy）を獲得できるのです。特に、カメラ画像やLiDARの点群データを直接入力として判断を下すEnd-to-Endのアプローチが可能になれば、認識と制御の遅延を最小限に抑え、人間のような直感的な回避行動が実現できます。

比較対象となる3つの主要アルゴリズム

深層強化学習には数多くのアルゴリズムが存在しますが、建機の自律制御を設計する際、主に以下の3つが比較検討のテーブルに上がります。それぞれの特徴を、実際の建機の動作になぞらえて整理します。

DQN (Deep Q-Network)：離散的な行動選択の基礎

2013年に発表され、現在のAIブームを牽引するきっかけとなったアルゴリズムです。

仕組み: 行動価値関数（Q関数）をディープラーニングで近似し、「現在の状態で特定の行動をとった場合、将来どれくらいの報酬が得られるか」を予測します。
特徴: 離散的な行動空間のみを扱います。つまり、建機の操作を「前進」「右旋回」「停止」といったボタン入力のように区切る必要があります。
建機でのイメージ: ゲームのコントローラーで操作するような感覚。アクセル開度を「0%, 50%, 100%」のように段階的にしか選べない状態に似ています。

PPO (Proximal Policy Optimization)：安定性と実装の容易さ

OpenAIが2017年に発表した基幹手法であり、TRPO（Trust Region Policy Optimization）の安定性をより簡便な計算で実現したアルゴリズムです。ロボットや自動運転などの連続値制御に強く、現在も現場で広く継続使用されています。現場の声を丁寧に聞き取り、データに基づいた最適なアルゴリズムを提案するアプローチにおいても、PPOの安定性は高く評価されています。

また、大規模言語モデルの領域でも不可欠な技術として定着しています。たとえばChatGPTの2026年最新バージョンであるGPT-5.2（InstantおよびThinking）などの基盤となる、人間からのフィードバックを用いた強化学習（RLHF）プロセスにおいても重要な役割を果たしています。2026年2月に旧モデル（GPT-4oなど）が廃止され新アーキテクチャへの移行が進む中でも、RLHF自体はポストトレーニング手法として継続的に進化を続けています。現在ではGoogle Cloud Vertex AIにおいてRLHF tuning機能がPreviewで提供されるなど、モデル開発における最適化環境の選択肢も広がっています。言語モデルの実務では、まずDPO（Direct Preference Optimization）で学習を開始し、分布シフトの課題が生じた際にPPOへ移行するといったハイブリッドなアプローチも有力な選択肢となります。

仕組み: 現在の方策（Policy）を更新する際、以前の方策から大きく変化しないように制限（クリッピング）をかけます。この「Clipped Objective」と呼ばれる実装は、学習が不安定になって予測不能な動きをするリスクを抑えるため、安全性の観点からも強く推奨されます。
特徴: オンポリシー（On-Policy）手法に分類されます。学習に使うデータは常に「最新の方策」で収集したものでなければならず、古い経験データは使い捨てになります。
建機でのイメージ: 慎重なベテランオペレーター。急激な操作変更を嫌い、確実な範囲で少しずつ操作を改善していくスタイルです。

SAC (Soft Actor-Critic)：サンプル効率と探索能力

近年、ロボティクス分野で特に注目を集めているアルゴリズムです。

仕組み: 報酬の最大化だけでなく、「方策のエントロピー（ランダム性）」も同時に最大化するように学習を進めます。これにより、特定の局所的な解に固執せず、より幅広く探索を行います。
特徴: オフポリシー（Off-Policy）手法であり、過去の経験データ（Replay Buffer）を何度も再利用して学習できるため、サンプル効率に優れています。また、連続値制御に特化している点も大きな強みです。
建機でのイメージ: 好奇心旺盛な若手エース。失敗した過去の経験もしっかり反省材料とし、多様なアプローチを試しながら最適な操作を見つけ出します。

評価軸1：連続行動空間への適応性と操作精度

比較対象となる3つの主要アルゴリズム - Section Image

建機をスムーズかつ安全に動かすためには、アクセルやブレーキ、ステアリングだけでなく、作業機（ブーム、アーム、バケット）の繊細なマニピュレーション（油圧制御）が不可欠です。これらはすべて、0から100といったアナログな連続値として扱われます。

DQNの弱点である連続値制御の課題

DQN（Deep Q-Network）を採用する場合、本来は連続的な操作量を離散化（デジタル化）するプロセスを必ず挟む必要があります。例えば、ステアリングの切れ角を「左最大、左中、直進、右中、右最大」の5段階に強制的に分割するといった具合です。

このアプローチには、実機適用において致命的なハードルが存在します。

操作の不連続性（Jerky Motion）: 段階的な操作指令しか出力できないため、実際の動きがギクシャクし、車体への機械的負荷が不必要に増大します。特に建機の油圧機器にとって、急激なバルブの開閉はキャビテーション（気泡の発生）などを引き起こし、機材の寿命を著しく縮める要因となります。
次元の呪いによる学習停滞: 操作精度を上げようとして離散化の段階を細かく設定する（例：ステアリングとアクセルをそれぞれ100段階にする）と、行動の組み合わせが爆発的に増加します。結果として学習空間が広大になりすぎ、現実的な計算時間では学習が全く収束しなくなるリスクを抱えています。

したがって、数ミリ単位の精密な操作が求められる建機制御の現場において、DQNをメインの制御アルゴリズムとして選択することは、基本的には推奨されません。

SACとPPOが持つ連続空間での優位性

一方で、PPO（Proximal Policy Optimization）とSAC（Soft Actor-Critic）は「Policy Gradient（方策勾配）」ベースの手法であり、ニューラルネットワークの出力層から直接、連続値（例：アクセル開度 0.0〜1.0）を出力可能です。これにより、人間がレバーを滑らかに操作するような制御が実現できます。

PPO: 行動を正規分布などの確率分布として捉え、そのパラメータ（平均と分散）を出力します。学習初期は確率的な揺らぎによって幅広い探索を行いますが、学習が進むにつれて分散が小さくなり、無駄のない決定論的な動きへと洗練されていきます。安定した学習軌道を描きやすいのが特徴です。
SAC: 報酬だけでなく「方策のランダムさ（エントロピー）」を最大化する項を持つため、高い探索能力を維持したまま連続値を扱える点が最大の強みです。土砂の山や障害物が点在し、複数の局所解（Local Optima）に陥りやすい複雑な作業環境でも、より最適なアプローチ経路を見つけ出す能力に長けています。

狭所での切り返し旋回や、障害物ギリギリを通過するような繊細な油圧制御においては、連続空間をネイティブに扱えるSACまたはPPOが圧倒的に有利に働きます。

補足として、AI開発を支える周辺環境も急速に進化しています。たとえば、ChatGPTや、エージェント化および長文処理が強化されたGemini 3（2026年1月発表）などの最新の言語モデルが持つ高度な推論能力を活用し、PPOやSACの複雑な報酬関数設計、あるいはSim-to-Realに向けたシミュレーション環境の構築コードを効率的に生成・調整するアプローチが実用的になってきました。大規模言語モデルのポストトレーニング手法としてRLHF（人間のフィードバックからの強化学習）が継続的に進化している恩恵もあり、AIアシスタントの推論精度は向上し、長時間タスクの処理にも対応できるようになっています。Google Cloud Vertex AIなどではRLHFチューニング機能のプレビュー提供も始まっており、開発プロセス全体が大きく効率化されています。それでも、根幹となる強化学習アルゴリズムの物理的な挙動特性を正しく理解しておくべきであるという前提は揺るぎません。

評価軸2：学習効率とSim2Real（シミュレーションから実機へ）の壁

ロボティクス開発において、常に立ちはだかる壁が「Sim-to-Real」のギャップです。ROS（Robot Operating System）と連携したGazeboやIsaac Sim、MuJoCoといったシミュレーター上で完璧に動作するモデルを構築しても、いざ実機に適用すると、路面の摩擦係数やセンサーのノイズ、油圧システムの応答遅れといった現実世界特有の要因（Reality Gap）によって、想定通りに動かないケースは珍しくありません。

実機データ収集のコストとリスク

数トンから数十トン規模に及ぶ建機を使い、実環境で強化学習の試行錯誤をゼロから繰り返すことは、安全確保やコストの観点から非常に困難です。万が一の暴走リスクを考慮すると、まずはシミュレーター内で学習済みモデルを構築し、その後に実機で微調整（Fine-tuning）を行うアプローチが業界の標準となっています。

このプロセスで鍵を握るのが「サンプル効率（Sample Efficiency）」、つまり「いかに少ない試行回数やデータ量で目的の動作を獲得できるか」という指標です。実機での稼働時間は限られているため、この効率がプロジェクトの成否に直結すると言っても過言ではありません。

サンプル効率におけるSACの優位性

PPO（オンポリシー）: 取得したデータを使い捨てにする特性上、学習には膨大なサンプル数を要します。シミュレーター内であれば計算リソースと時間をかけることでカバーできますが、実機での微調整フェーズにおいては、データ収集にかかる時間がそのままボトルネックとなりがちです。
SAC（オフポリシー）: 過去の経験データをリプレイバッファに蓄積し、再利用しながら学習を進めるため、PPOと比較して圧倒的に少ないデータ量で性能を向上させられます。実機でわずかに稼働させて得たデータを、何度も学習プロセスに組み込めるメリットは計り知れません。

結果として、実機への適応フェーズにおいては、SACの方がより迅速に実用レベルの性能へ到達する傾向があります。

シミュレーション環境での学習安定性

一方で、学習プロセスの「安定性」という観点では、PPOに軍配が上がります。ハイパーパラメータの調整が比較的素直であり、初期段階で「とりあえず動くベースライン」を構築するまでのリードタイムを短縮できます。対するSACは、温度パラメータ（$\alpha$）をはじめとする設定がシビアであり、調整を誤ると学習が全く収束しないケースも報告されています。

なお、近年ではアルゴリズムの実装や複雑なシミュレーション環境の構築において、AI支援ツールを活用する開発スタイルが定着しつつあります。例えば、ChatGPTなどの大規模言語モデルが備えるエージェント機能を活用することで、PPOやSACの複雑なハイパーパラメータ調整を自動化するスクリプトの作成や、エラーのデバッグ作業を大幅に効率化できます。

さらに、モデルの微調整において人間のフィードバックを活用するRLHF（Reinforcement Learning from Human Feedback）のアプローチも、実機制御の文脈で示唆を与えています。大規模言語モデルのポストトレーニング手法として継続的に進化しているRLHFですが、Google CloudのVertex AIにおいてRLHF tuning機能がプレビュー提供される（公式ドキュメントより）など、人間の評価を基に報酬モデルを作成し最適化するプロセスがより身近になりました。建機制御においても、熟練オペレーターの操作感覚や安全性への評価（フィードバック）を報酬設計に組み込むような高度な調整が、こうしたクラウドAIの進化によって後押しされています。

しかし、Sim-to-Realを見据えたドメインランダム化（Domain Randomization）――シミュレーター内で建機の重量、路面摩擦、センサーの取り付け位置などをランダムに変動させ、モデルのロバスト性を高める手法――を適用するフェーズでは状況が変わります。高い探索能力を持つSACは、多様な環境変化に対しても柔軟に適応できる方策（Policy）を獲得しやすい傾向にあり、実機展開に向けた強力な選択肢となります。

評価軸3：リアルタイム推論速度と計算リソース

評価軸2：学習効率とSim2Real（シミュレーションから実機へ）の壁 - Section Image

建機に搭載できるコンピュータには物理的な制約が伴います。NVIDIA Jetson AGX Orinのような高性能なエッジデバイスを採用したとしても、システム全体を俯瞰すると、SLAM（自己位置推定と環境地図作成）や大容量の点群処理が常にバックグラウンドで稼働しているため、AIの推論に割り当てられるリソースは決して多くありません。

エッジデバイス（車載コンピュータ）での処理負荷

推論時の計算コストは、アルゴリズムの種類そのものよりも、実装するニューラルネットワークの構造（層の深さやユニット数）に大きく依存します。とはいえ、アルゴリズムの基本特性による違いも無視できません。

DQN: ネットワーク構造を極めてシンプルに設計できますが、前述した通り、建機の滑らかな連続制御には不向きな側面があります。
PPO: 推論フェーズではActorネットワークだけを稼働させれば良いため、計算負荷を比較的軽く抑えられます。
SAC: 実行時はPPOと同様にPolicyネットワークのみを使用するため、計算負荷の観点ではPPOと大差ありません。

ここで直面する最大の壁が「推論速度（レイテンシ）」です。例えば時速10kmで走行する建機は、1秒間に約2.8メートル前進します。もし推論に100ミリ秒（0.1秒）かかってしまうと、システムが判断を下した瞬間に車体は既に30センチも進んでいる計算になります。障害物回避の局面において、このわずかな遅延が致命的な事故を引き起こす要因になり得ます。

モデルの軽量化と推論レイテンシ

リアルタイム性を確保するには、モデルの軽量化が不可欠です。しかし、SACのような表現力の高いアルゴリズムを採用している場合、ネットワークを過度に小さくしてしまうと、本来の性能を全く発揮できなくなるジレンマに陥ります。

このような場面で有効な実践的アプローチが、推論頻度と制御周期の非同期化です。重い画像処理を伴うAIの推論サイクルは10Hz（0.1秒ごと）で回し、下位のモーター制御は100Hz（0.01秒ごと）で高速に稼働させるといったアーキテクチャを組みます。AIが算出した大まかな目標値に向かって、下位のPID制御器などが滑らかに補間しながら追従していく仕組みです。

この構成をとる場合、連続値を出力できるPPOやSACは、下位コントローラーとの親和性が極めて高いと言えます。一方、DQNのような離散的な出力では、このスムーズな補間処理を実現するハードルが跳ね上がります。

さらに昨今では、エッジデバイス向けの実装を効率化する手段も進化しています。例えば、ChatGPTの背後にあるGPT-4oや、2026年1月に発表されたGemini 3などの最新の大規模言語モデルを活用することで、Pythonで構築したPPOやSACのモデルを、推論の高速化に有利なC++やTensorRTへ移植する作業を大幅に効率化できます。Gemini 3などで強化された長文処理能力やエージェント機能により、複数ファイルにまたがる長時間の最適化タスクにも対応可能です。また、これらのAIモデルはRLHF（人間のフィードバックからの強化学習）によるポストトレーニングを通じて継続的に進化しており、ハードウェア固有の制約を考慮したより正確で安全なコード生成が期待できます。限られたリソース内で最大限のパフォーマンスを引き出すための強力な味方となります。

安全性担保のための冗長化コスト

自律走行建機を現場へ投入する際、AIの判断だけにすべてを委ねるわけにはいきません。推論モデルが未知の障害物に対して誤った出力をした瞬間に備え、ルールベースの安全装置（LiDARの直接検知による緊急停止など）を並行して走らせる設計が求められます。

この「冗長化」の処理もまた、エッジデバイスの計算リソースを消費します。つまり、AIモデルの推論負荷をギリギリまで切り詰めることは、フェールセーフ機構を確実に動作させるためのリソース的な「余白」を生み出すことと同義です。PPOやSACをいかに軽量かつ高速に実装できるかが、最終的なシステムの安全性を左右する決定打となります。

ユースケース別推奨アルゴリズムと実装戦略

評価軸3：リアルタイム推論速度と計算リソース - Section Image 3

これまでの比較を踏まえ、具体的な建機の運用シーンごとに最適なアルゴリズムを整理します。

比較項目	DQN	PPO	SAC
行動空間	離散（不向き）	連続（得意）	連続（得意）
サンプル効率	中	低	高
学習安定性	不安定になりがち	高い	設定次第
Sim2Real適性	低	中	高
推奨度	★☆☆	★★☆	★★★

ケースA：単純な搬送路での定型走行（PPO推奨）

障害物が少なく、比較的平坦な道を往復するダンプトラックのような用途であれば、PPOの採用が適しています。
学習の軌跡が安定しており、ハイパーパラメータの調整も比較的容易に行えます。PPOは、大規模言語モデルのポストトレーニング手法であるRLHF（人間のフィードバックからの強化学習）において中核を担うなど、業界標準として広く実績のあるアルゴリズムです。2026年現在でも、Google CloudのVertex AIでRLHFチューニング機能がプレビュー提供されるなど、AIの基盤技術として継続的に進化しています。建機の制御に適用した場合、急激な加減速を抑えたマイルドな挙動になる傾向があるため、土砂の荷崩れを防止する観点でも大きな安心感をもたらします。

ケースB：複雑な掘削・積み込み作業・不整地走行（SAC推奨）

狭い現場での障害物回避、泥濘地での姿勢制御、あるいは掘削のような物理的な接触を伴うタスクには、SACの導入を検討することをおすすめします。
確率的な方策を用いることで探索能力が極めて高く、複雑な状況下での「抜け道」を見つけるのが得意です。また、実機での追加学習（Fine-tuning）も効率的に進められます。導入の初期段階では、精緻な報酬関数の設計や学習調整の手間といったコストがかかりますが、最終的なパフォーマンスと未知の環境への適応力においてはSACに軍配が上がります。

段階的導入のためのハイブリッドアプローチ

実用的なAIソリューションを設計してきた一般的な知見として、エンドツーエンドの強化学習ですべての制御を完結させるのは、実運用においてリスクを伴う可能性があります。現実的な実装戦略としては、ROSを活用した以下のような階層的なハイブリッド構成が有効な手段となります。

安全層（ルールベース）: LiDARや深度カメラで直近の障害物を検知した際、強制停止するフェールセーフ機能。
AI層（強化学習 - SAC/PPO）: 障害物をスムーズに回避するための経路生成と速度制御。
制御層（PID/MPC）: AIの指令値を実際の油圧制御信号に変換し、機体に追従させる。

このようにシステムを階層化することで、AIが予期せぬ判断を下した場合でも最低限の安全性（衝突回避）を担保しつつ、AIならではの柔軟な回避行動を実現できます。

さらに昨今の開発現場では、エージェント化や長文処理能力が強化されたGemini 3（2026年1月発表）などの最新AIモデルを活用するアプローチが普及しています。複雑なSACの報酬関数設計や、Sim-to-Realのギャップを埋めるためのROSノード実装といった長時間の開発タスクにおいて、高度な推論能力を持つAIアシスタントを統合することで、開発サイクルを劇的に短縮できます。アルゴリズムの適切な選定はもちろんのこと、こうした最新の開発ツール群をいかに組み込むかも、プロジェクトを円滑に進めるための鍵となります。

結論：現場の制約条件から逆算するアルゴリズム選定

株式会社テクノデジタルにおける実用的なAIソリューション開発の知見に基づくと、深層強化学習は決して魔法の杖ではありません。しかし、各手法の特性を正しく理解して適用すれば、従来の制御理論では到達が難しかった高度な自律性を建機にもたらすことが可能です。

これからの自律走行建機開発においては、連続値制御と高いサンプル効率を両立する「SAC（Soft Actor-Critic）」が、一つのスタンダードになりつつあると考えられます。一方で、チームの技術的な習熟度や対象タスクの性質によっては、挙動が安定しているPPO（Proximal Policy Optimization）からPoC（概念実証）をスタートするのも、現場の声を反映した非常に賢明なアプローチと言えます。

アルゴリズムの名称だけで判断するのではなく、以下のような「現場の物理的制約」と「許容できるリスク」から逆算して選定する視点を忘れないでください。

推論のリアルタイム性: 搭載デバイスの計算資源で、要求される制御周期を満たせるか
サンプル効率: 実機での追加学習が必要な場合、現実的な時間内で収束するか
安全性の担保: 予期せぬ状態に陥った際、致命的な事故を防ぐフェールセーフが機能するか

また、今後の技術トレンドとして、AIによる開発支援の進化も見逃せません。現在、2026年1月に発表された「Gemini 3」などの大規模言語モデル（LLM）を活用することで、PPOやSACといった複雑なアルゴリズムの実装、さらにはSim-to-Realのシミュレーション環境構築が飛躍的に効率化されています。Gemini 3ではエージェント化や長文処理能力が強化されており、長時間の複雑なタスクを自律的に処理できるAIが登場しています。

さらに、Google CloudのVertex AIでは、RLHF（人間のフィードバックからの強化学習）のチューニング機能がPreview段階で提供されるなど、モデルの最適化手法も継続的に進化を続けています。こうしたLLMの高度な推論能力や自律エージェント機能を、強化学習の開発パイプラインや実機検証のプロセスにどう組み込むかも、今後のプロジェクトの成否を分ける鍵となるでしょう。

もし、現在の開発で「シミュレーターでは動くのに実機で動かない」「推論の遅延によって衝突のリスクがある」といった課題に直面しているならば、アルゴリズムの選定基準やSim-to-Realのアプローチを根本から見直す良いタイミングかもしれません。

自律走行建機の「脳」を選ぶ：DQN, PPO, SAC徹底比較とSim2Real実装の現実解 - Conclusion Image

コメントは1週間で消えます

コメントを読み込み中...