已關閉
筆電與伺服器分散式深度學習整合
案件編號 TK25071811GVNS82 ・2025/07/25 更新
預算金額
1萬~5萬
執行地點
台中市
接案身份
不限
需求說明
現有環境: - 伺服器:HPE DL380 G10 x3,搭載 NVIDIA Tesla V100 (32GB)、RTX A6000 (48GB),OS 為 Ubuntu 20.04,CUDA 12.x。 - 網路:伺服器間 10GbE,筆電具 Thunderbolt 4。 - 深度學習框架:PyTorch、NCCL、cuDNN。 新設備: - 筆電:Intel i9-14900HX、64GB RAM、RTX 5000 GPU、4TB SSD、Windows 11 Pro,可安裝 Ubuntu 或 WSL2。 工作範圍: 1. 設定 PyTorch 分散式訓練環境(筆電 + 伺服器)。 2. 安裝與調整 NCCL、CUDA、cuDNN。 3. 設定 AMP(FP16)與 Adam Optimizer 的訓練測試。 4. 調整網路與 GPU 同步性能。 5. 提供完整設定文件與測試程式。 交付成果: - 可運行的分散式深度學習環境。 - 測試 AMP + Adam 的範例程式。 - 完整文件與操作教學。 需求條件: - 需具備深度學習、Linux 系統管理與 HPC 經驗。 ID: pei8210
登入後即可完整查看

