展開側邊欄位的漢堡樣式按鈕

已關閉

筆電與伺服器分散式深度學習整合

案件編號 TK25071811GVNS82 ・2025/07/25 更新

  • 預算金額

    1萬~5萬

  • 執行地點

    台中市

  • 接案身份

    不限

  • 需求說明

    現有環境: - 伺服器:HPE DL380 G10 x3,搭載 NVIDIA Tesla V100 (32GB)、RTX A6000 (48GB),OS 為 Ubuntu 20.04,CUDA 12.x。 - 網路:伺服器間 10GbE,筆電具 Thunderbolt 4。 - 深度學習框架:PyTorch、NCCL、cuDNN。 新設備: - 筆電:Intel i9-14900HX、64GB RAM、RTX 5000 GPU、4TB SSD、Windows 11 Pro,可安裝 Ubuntu 或 WSL2。 工作範圍: 1. 設定 PyTorch 分散式訓練環境(筆電 + 伺服器)。 2. 安裝與調整 NCCL、CUDA、cuDNN。 3. 設定 AMP(FP16)與 Adam Optimizer 的訓練測試。 4. 調整網路與 GPU 同步性能。 5. 提供完整設定文件與測試程式。 交付成果: - 可運行的分散式深度學習環境。 - 測試 AMP + Adam 的範例程式。 - 完整文件與操作教學。 需求條件: - 需具備深度學習、Linux 系統管理與 HPC 經驗。 ID: pei8210

登入後即可完整查看