プログラミング 強化学習(World Model + MPC)迷路デモ Transformerによる記憶付きDQNに、World ModelとMPCを組み合わせた迷路AIデモを解説。過去を覚え、数手先を先読みして行動するエージェントの仕組みを紹介します。 2026.01.13 プログラミング
プログラミング 強化学習(DL:DQN+Transformer:記憶)迷路デモ 局所観測の迷路ではなぜ強化学習は迷うのか?Transformerで過去16ステップを統合し、「記憶」を持つDQN迷路デモを可視化。ループ脱出の挙動を解説します。 2026.01.06 プログラミング