close
最近在用torch 7跑 xnor-net
前幾天都還可以跑得動,昨天突然完全不能跑了!!!
檢查了一下error message
發現根本還沒到開始跑neural network的地步就停下來了,所以並不是batch size調太大的問題
程式停在 require 'cutorch' 這一行
解決!!!
原來 require 'cutorch' 這行程式他會在所有的 gpu 用掉大約100MB的記憶體
而我跑nvidia-smi 我已經有兩顆GPU 記憶體全滿
所以我必須讓程式不要看到那兩個全滿的GPU
最後我的解法
CUDA_VISIBLE_DEVICES=0,1,3,5,6,7 th main.lua
在跑程式前加上你想讓他看到的GPU index
然後out of memory 的訊息就不會再出現了
文章標籤
全站熱搜
留言列表