[python] 파이썬 PyTorch에서 모델 패러미터를 공유하는 방법은?

22 Nov 2023

python

이 글에서는 PyTorch를 사용하여 모델 패러미터를 공유하는 방법에 대해 알아보겠습니다.

PyTorch에서 모델을 정의할 때, 일반적으로 nn.Module을 상속하는 클래스를 만듭니다. 모델 클래스 내에서 다양한 레이어와 파라미터들을 정의하는데, 이러한 파라미터들은 각자 독립적인 메모리 공간을 가지고 있습니다. 그렇지만 때로는 모델의 일부 또는 전체 파라미터를 다른 모델과 공유하고 싶을 수 있습니다.

모델에서 파라미터를 공유하는 가장 간단한 방법은 파라미터 객체를 다른 모델에 전달하는 것입니다. 예를 들어, 먼저 모델 A와 모델 B를 정의하고자 한다고 가정해봅시다. 그리고 모델 B에서 모델 A와 동일한 레이어를 공유하고 싶다면 다음과 같이 할 수 있습니다.

import torch
import torch.nn as nn

class ModelA(nn.Module):
    def __init__(self):
        super(ModelA, self).__init__()
        self.layer = nn.Linear(10, 5)
        
class ModelB(nn.Module):
    def __init__(self, shared_layer):
        super(ModelB, self).__init__()
        self.layer = shared_layer

shared_layer = nn.Linear(10, 5)
model_a = ModelA()
model_b = ModelB(shared_layer)

위의 코드에서 ModelA는 독립적인 nn.Linear 레이어를 가지고 있고, ModelB는 shared_layer라는 동일한 레이어를 가지고 있습니다. 이렇게 하면 ModelA의 파라미터와 ModelB의 파라미터가 동일한 메모리 공간을 공유하게 됩니다.

또 다른 방법은 nn.ModuleDict를 사용하여 모델 내에서 공유할 파라미터 그룹을 정의하는 것입니다. 이를 통해 모델 내에서 필요한 부분 집합에 대한 레이어와 파라미터를 공유할 수 있습니다. 예를 들어, 위의 예시를 nn.ModuleDict를 사용하여 다시 작성해보면 다음과 같습니다.

class ModelA(nn.Module):
    def __init__(self):
        super(ModelA, self).__init__()
        self.layer_dict = nn.ModuleDict({
            'layer': nn.Linear(10, 5)
        })
        
class ModelB(nn.Module):
    def __init__(self, shared_layers):
        super(ModelB, self).__init__()
        self.layer_dict = shared_layers
            
shared_layers = nn.ModuleDict({
    'layer': nn.Linear(10, 5)
})
model_a = ModelA()
model_b = ModelB(shared_layers)

위의 예시에서 ModelA와 ModelB는 이제 레이어를 nn.ModuleDict를 사용하여 정의하고, shared_layers라는 동일한 레이어 딕셔너리 객체를 전달합니다.

이런 방식으로 모델 클래스 간에 파라미터를 공유할 수 있습니다. 이는 모델 중 일부 레이어만을 공유하거나, 일부 파라미터만을 공유하려는 경우에 유용합니다. 그러나 주의할 점은 공유된 파라미터의 경사도 업데이트가 모델 전체에 적용되므로 주의해야 합니다.

추가 참고 자료:

PyTorch 공식 문서 - 모델 합치기