[python] 파이썬 PyTorch에서 모델의 가중치를 공유하는 방법은?

22 Nov 2023

python

PyTorch에서는 모델의 가중치를 공유하는 기능을 제공합니다. 이를 통해 여러 층에서 동일한 가중치를 사용할 수 있습니다. 가중치를 공유함으로써 모델의 효율성을 향상시킬 수 있고, 메모리 사용량을 줄일 수도 있습니다.

가중치를 공유하기 위해서는 torch.nn.Module의 add_module() 메소드를 사용하여 모델에 동일한 가중치를 추가해야 합니다. 가중치를 추가할 때 nn.Parameter를 사용하여 가중치를 초기화해야 하는데, 이를 통해 이 가중치가 역전파되는 동안에도 상태가 유지됩니다.

아래 예제 코드를 참고하여 모델의 가중치를 공유하는 방법을 살펴봅시다.

import torch
import torch.nn as nn

# 가중치를 공유하고자 하는 층의 수
num_shared_layers = 3

class SharedWeightsModel(nn.Module):
    def __init__(self):
        super(SharedWeightsModel, self).__init__()
        
        self.shared_weight = nn.Parameter(torch.randn(1))

        for i in range(num_shared_layers):
            setattr(self, f'layer{i}', nn.Linear(10, 10))
    
    def forward(self, x):
        for i in range(num_shared_layers):
            layer = getattr(self, f'layer{i}')
            
            # 모든 층에서 동일한 가중치를 사용
            layer.weight = self.shared_weight
        
        return x

# 모델 인스턴스 생성
model = SharedWeightsModel()

# 출력
print(model)

이 예제 코드에서 SharedWeightsModel 클래스는 num_shared_layers 개수만큼의 층을 갖습니다. nn.Linear 층은 10개의 입력과 10개의 출력을 갖도록 설정되어 있습니다.

SharedWeightsModel 내부에 정의된 shared_weight는 nn.Parameter를 사용하여 모델의 가중치를 초기화하고, 이 가중치를 공유하고자 하는 층들에 적용합니다. 예제 코드에서는 forward 메소드에서 각 층의 가중치에 공유된 가중치를 할당하고 있습니다.

이와 같은 방법으로 PyTorch에서 모델의 가중치를 공유할 수 있습니다. 공유된 가중치를 업데이트하면 모든 공유된 층에 반영됩니다. 기존의 가중치 공유 기능을 사용하지 않는 경우보다 메모리 사용량과 계산량을 절약할 수 있습니다.

더 자세한 내용은 PyTorch 공식 문서를 참고하시기 바랍니다.