dkounadis
/

artificial-styletts2

@@ -117,10 +117,9 @@ class StyleTransformer1d(nn.Module):
                 nn.GELU(),
             )
-        self.fixed_embedding = FixedEmbedding(
-            max_length=embedding_max_length, features=context_embedding_features
-        )
     def get_mapping(
         self,
@@ -144,40 +143,26 @@ class StyleTransformer1d(nn.Module):
             mapping = self.to_mapping(mapping)
         return mapping
-    def run(self, x, time, embedding, features):
-        # called by forward()
         mapping = self.get_mapping(time, features)
         x = torch.cat([x.expand(-1, embedding.size(1), -1), embedding], axis=-1)
         mapping = mapping.unsqueeze(1).expand(-1, embedding.size(1), -1)
         for block in self.blocks:
             x = x + mapping
             x = block(x, features)
         x = x.mean(axis=1).unsqueeze(1)
         x = self.to_out(x)
         x = x.transpose(-1, -2)
         return x
-    def forward(self,
-                x,
-                time,
-                embedding= None,
-                features = None):
-        b, device = embedding.shape[0], embedding.device
-        # if
-                # embedding_mask_proba: float = 0.0, > 0
-        # fixed_embedding = self.fixed_embedding(embedding)
-        # embedding = torch.where(batch_mask, fixed_embedding, embedding)
-        return self.run(x,
-                        time,
-                        embedding=embedding,
-                        # embedding=self.fixed_embedding(embedding),  # fixedemb has noisy beginnings on chapters.wav
-                        features=features)
 class StyleTransformerBlock(nn.Module):
@@ -379,17 +364,3 @@ def TimePositionalEmbedding(dim: int, out_features: int) -> nn.Module:
         nn.Linear(in_features=dim + 1, out_features=out_features),
     )
-class FixedEmbedding(nn.Module):
-    def __init__(self, max_length: int, features: int):
-        super().__init__()
-        self.max_length = max_length
-        self.embedding = nn.Embedding(max_length, features)
-    def forward(self, x: Tensor) -> Tensor:
-        batch_size, length, device = *x.shape[0:2], x.device
-        assert_message = "Input sequence length must be <= max_length"
-        assert length <= self.max_length, assert_message
-        position = torch.arange(length, device=device)
-        fixed_embedding = self.embedding(position)
-        fixed_embedding = repeat(fixed_embedding, "n d -> b n d", b=batch_size)
-        return fixed_embedding

                 nn.GELU(),
             )
+        # self.fixed_embedding = FixedEmbedding(
+        #     max_length=embedding_max_length, features=context_embedding_features
+        # )  # Non speker-aware LookUp: EMbedding looks just the time-frame-index [0,1,2...,num-asr-time-frames]
     def get_mapping(
         self,
             mapping = self.to_mapping(mapping)
         return mapping
+    def forward(self,
+                x,
+                time,
+                embedding= None,
+                features = None):
+        # --
+                # called by forward()
         mapping = self.get_mapping(time, features)
         x = torch.cat([x.expand(-1, embedding.size(1), -1), embedding], axis=-1)
         mapping = mapping.unsqueeze(1).expand(-1, embedding.size(1), -1)
         for block in self.blocks:
             x = x + mapping
             x = block(x, features)
         x = x.mean(axis=1).unsqueeze(1)
         x = self.to_out(x)
         x = x.transpose(-1, -2)
         return x
 class StyleTransformerBlock(nn.Module):
         nn.Linear(in_features=dim + 1, out_features=out_features),
     )