- 強化学習 (Reinforcement Learning)
- エージェントが環境と相互作用しながら試行錯誤し、行動の結果として得られる報酬を最大化するように最適な行動方策を自律的に学習する機械学習の一手法です。
- ロボティクス (Robotics)
- ロボットの設計、製造、運用、応用に関する学問および技術分野です。AI技術との融合により、自律性と知能が高まっています。
- 深層強化学習 (Deep Reinforcement Learning)
- 強化学習に深層学習を組み合わせた技術です。複雑な高次元データ(画像など)から直接学習し、高度な制御方策を獲得します。
- Q学習 (Q-learning)
- 強化学習の代表的なアルゴリズムの一つです。行動価値関数Q値を学習することで、最適な行動方策を導き出すモデルフリーな手法です。
- 方策勾配法 (Policy Gradient Method)
- 強化学習アルゴリズムの一種です。直接的に行動方策を最適化することで、連続的な行動空間を持つ問題にも適用しやすい手法です。
- Sim-to-Real
- シミュレーション環境で学習したAIモデルや制御方策を、実際のロボット(実機)に転移させて適用する技術です。開発コストとリスクを低減します。
- 報酬設計 (Reward Design)
- 強化学習において、エージェントが目標を達成するために適切な行動を取るよう誘導するための報酬関数を設定するプロセスです。学習の成否を大きく左右します。
- 探索と利用 (Exploration and Exploitation)
- 強化学習における二律背反の課題です。未知の行動を試して新たな情報を得る「探索」と、これまでの学習で最適な行動を選ぶ「利用」のバランスを取ることです。
- 状態空間モデル (State-Space Model)
- システムの状態変数を定義し、その時間的な変化を記述する数学的なモデルです。強化学習では、環境の挙動を予測するために用いられます。
- 世界モデル (World Model)
- 強化学習エージェントが自身の環境の内部表現を学習し、その環境の挙動を予測できるようにするモデルです。少ない実機データで効率的な学習を可能にします。
- オフライン強化学習 (Offline Reinforcement Learning)
- 事前に収集された固定データセットのみを用いて強化学習を行う手法です。実機での試行錯誤が困難な場合に有効です。
- マルチエージェント強化学習 (Multi-Agent Reinforcement Learning)
- 複数のエージェントが協調または競合しながら、共通または個別の目標達成のために学習する強化学習の枠組みです。
- ROS (Robot Operating System)
- ロボットソフトウェア開発のためのオープンソースフレームワークです。ハードウェア抽象化、デバイスドライバ、ライブラリ、可視化ツールなどを提供します。
- エッジAI (Edge AI)
- AIモデルの推論処理を、クラウドではなくデバイス(エッジ)側で実行する技術です。リアルタイム性、プライバシー、通信コストの面でメリットがあります。
- 自己位置推定 (Localization)
- ロボットが自身の現在位置を、周囲の環境情報やセンサーデータに基づいて推定する技術です。自律移動ロボットに不可欠です。
- 物体把握 (Object Grasping)
- ロボットが対象物を認識し、適切な方法で掴む(把持する)ための技術です。視覚センサや触覚センサと強化学習が組み合わされます。
- 軌道計画 (Path Planning)
- ロボットが開始点から目標点まで、障害物を回避しながら安全かつ効率的に移動するための経路や動作を生成する技術です。
- リアルタイム制御 (Real-time Control)
- ロボットの動作を、物理的な時間制約内で即座に反応・調整する制御です。強化学習ロボットの実用化に不可欠です。
- ドメインランダム化 (Domain Randomization)
- シミュレーション環境の物理パラメータや外観をランダムに変化させることで、学習したモデルの実機への転移性能を高める手法です。
- パラメータ調整 (Hyperparameter Tuning)
- 強化学習アルゴリズムの性能を左右するハイパーパラメータ(学習率、割引率など)を最適化するプロセスです。