展開側邊欄位的漢堡樣式按鈕

已關閉

強化學習遊戲AI

案件編號 TK24110716MOXO83 ・2024/11/07 更新

  • 預算金額

    10萬~30萬

  • 執行地點

    可遠端

  • 需求說明

    1. 完成期限: 預計在一個月內完成專案交付。 2. 功能需求: 需求功能: 開發一個 API 服務,提供接口以根據當前遊戲情況回應最佳策略。要求 AI 能在非完美訊息條件下運作,產生經訓練後的最佳建議。最終交付版本需為已訓練完成並具備穩定表現的模型。 3. 技術要求: 強化學習(Reinforcement Learning):熟悉策略網路(Policy Network)、價值網路(Value Network)、Q-learning、Actor-Critic 等演算法,並具備訓練調整經驗。 深度學習模型(Deep Learning Models):熟悉多層神經網絡(Multi-layer Neural Networks)、捲積神經網路(CNN)、長短期記憶網路(LSTM)、遞迴神經網路(RNN)等深度學習架構。 梯度計算與優化:掌握梯度下降(Gradient Descent)、隨機梯度下降(SGD)、Adam 優化器、梯度裁剪(Gradient Clipping)等技術,具備應對梯度爆炸(Gradient Explosion)與梯度消失(Gradient Vanishing)問題的經驗。 探索與利用平衡:熟悉 ε-貪婪策略(ε-greedy strategy)、UCB(Upper Confidence Bound)等探索技術,能有效管理 AI 的探索與利用平衡。 損失函數與正則化:熟悉交叉熵損失(Cross-Entropy Loss)、均方誤差(MSE)、熵(Entropy)、KL 散度(KL Divergence)等損失函數,並能應用 L1、L2 正則化、dropout 等技術防止過擬合。 強化學習環境構建:具備 OpenAI Gym 、PyTouch等強化學習環境的設置與測試經驗,並能根據需求自定義遊戲環境及評估回饋。 獎勵機制設計:具備設計階段性回饋(Intermediate Rewards)和最終回饋(Terminal Rewards)經驗,並能根據訓練結果優化獎勵函數。 模型訓練與監控:具備超參數調整(Hyperparameter Tuning)、早停(Early Stopping)、學習率衰減(Learning Rate Decay)、指標追蹤(Metric Tracking)等訓練與監控經驗。 分散式計算與加速:有多 GPU 或 TPU 分散式訓練經驗,熟悉多工處理(Multi-threading)、並行計算技術,並能應用於加速模型訓練。 4. 交付需求: 專案完成後需向本公司開發團隊進行技術開發細節的講解,並提供完整的技術文件,以便日後維護和擴展。

登入後即可完整查看