強化学習の基礎・発展と機械・ロボット制御への応用【提携セミナー】

AI・機械学習 制御/メカトロ/自動化 研究・開発 IT・システム 専門技術・ノウハウ
強化学習の基礎・発展と機械・ロボット制御への応用【提携セミナー】
開催日時 | 【Live配信】2025/11/11 (火) 10:30~16:30 , 【アーカイブ(録画)配信】2025/11/20まで受付(視聴期間:11/20~11/30まで) |
---|---|
担当講師 | 小林 泰介 氏 |
開催場所 | ZOOMを利用したLive配信またはアーカイブ配信 |
定員 | 30名 |
受講費 | 55,000円(消費税込み・資料付き) |
★強化学習法の基礎、応用に向けた報酬の設計指針や対処法について解説
強化学習の基礎・発展と機械・ロボット制御への応用
【提携セミナー】
主催:株式会社技術情報協会
講座内容
これまでのAIは用意された膨大なデータセットからデータ間に潜む関係性を見出すことが中心的な役割でした.これに対して,最近はロボットやゲームAIなどのエージェントが自ら試行錯誤して得た経験データに基づいて学習して,目的を達成できる行動のルール(方策)を獲得する強化学習への注目が高まっています.
これは明示的な正解データを用意せずとも,望ましい結果を定量的に表すことでユーザーが思いもしない優れた方策を見出す事例が数多く報告され,家電からロボットまで幅広い分野で期待が高まっています.
本講座では,このような期待の技術である強化学習について,これまでのAIとは異なる学習方法が何故必要なのか?という根幹から,学習法の基礎を概説します.また,ロボットなどの機械制御への応用が特に期待される最新の強化学習アルゴリズムについてや,応用の際に悩みの種となりやすい 報酬の設計指針や対処法についても実際の応用事例と合わせて紹介します.
担当講師
国立情報学研究所 情報学プリンシプル研究系 助教 博士(工学) 小林 泰介 氏
セミナープログラム(予定)
1.強化学習とは
1.1 強化学習の目的
1.2 マルコフ決定過程
1.3 学習すべき要素
2.学習アルゴリズムの基礎
2.1 価値関数の学習
2.2 方策関数の学習
2.3 深層強化学習でのテクニック
3.最新のActor-Criticアルゴリズム
3.1 改善へのエッセンス
3.2 方策更新の制限:TRPO/PPO
3.3 直接的な方策勾配の計算:DDPG/TD3
3.4 方策エントロピーの最大化:SQL/SAC
4.モデルベース強化学習
4.1 世界モデルの学習
4.2 世界モデルの活用法
4.3 既存モデルの活用法
5.報酬設計の課題と対策
5.1 疎な報酬
5.2 多目的性
5.3 エキスパートの模倣
5.4 学習難易度の調整
【質疑応答】
公開セミナーの次回開催予定
開催日
【Live配信】2025/11/11 (火) 10:30~16:30
【アーカイブ(録画)配信】2025/11/20まで受付(視聴期間:11/20~11/30まで)
開催場所
ZOOMを利用したLive配信またはアーカイブ配信
受講料
1名につき55,000円(消費税込、資料付)
〔1社2名以上同時申込の場合のみ1名につき49,500円(税込み)〕
備考
資料は事前に紙で郵送いたします。
お申し込み方法
★下のセミナー参加申込ボタンより、必要事項をご記入の上お申し込みください。
★【LIVE配信】、【アーカイブ配信】のどちらかご希望される受講形態をメッセージ欄に明記してください。
※お申込後はキャンセルできませんのでご注意ください。
※申し込み人数が開催人数に満たない場合など、状況により中止させていただくことがございます。