전공관련/Deep Learning
[Pytorch] DDP 환경에서 load_state_dict 사용시 OOM 발생 상황을 해결하자
매직블럭
2023. 6. 8. 13:41
DDP 환경을 구성하고 scratch 부터 학습할때는 잘 동작하던 코드에서
backbone에 pretrained weight를 load 하니 바로 OOM이 발생하는 상황을 만나버렸다.
초기 상황 구성은 아래와 같았다.
# OOM이 발생한 코드
model = get_model()
checkpoint_path = r"~~~"
checkpoint = torch.load(checkpoint_path)
model.load_state_dict(checkpoint)
model = torch.nn.parallel.DistributedDataParallel(~~~)
단순히 초기 weight 만 읽어왔을 뿐인데 OOM이 터져버리니 당황스럽긴 한데
메모리 동작하는 꼴을 보니 0번 GPU 가 메모리 터져서 발생한 상황인 듯 했다.
추정키로는 각 GPU에 복사되어야 할 정보들이 0번 GPU로 먼저 다 올라오면서
감당이 안되고 OOM 이 발생한 것 같다.
이런 상황을 해결하기 위해서는 각 GPU로 map_location을 지정하여 직접 load 해 주면 문제가 해결된다.
# 수정된 코드
model = get_model()
checkpoint_path = r"~~~"
checkpoint = torch.load(checkpoint_path, map_location='cuda:{}'.format(args.local_ranl))
model.load_state_dict(checkpoint)
model = torch.nn.parallel.DistributedDataParallel(~~~)