nvidia
/

nemo-megatron-gpt-1.3B

Text2Text Generation

Model card Files Files and versions Community

okuchaiev commited on Sep 14, 2022

Commit

3edf4fd

·

1 Parent(s): f9997e2

Update README.md

Files changed (1) hide show

README.md +1 -2

README.md CHANGED Viewed

@@ -11,6 +11,7 @@ tags:
 license: cc-by-4.0
 ---
 <style>
 img {
@@ -21,8 +22,6 @@ img {
 |[![Model architecture](https://img.shields.io/badge/Model%20Arch-Transformer%20Decoder-green)](#model-architecture)|[![Model size](https://img.shields.io/badge/Params-1.3B-green)](#model-architecture)|[![Language](https://img.shields.io/badge/Language-en--US-lightgrey#model-badge)](#datasets)
-# Megatron-GPT 1.3B
 ## Model Description
 Megatron-GPT 1.3B is a transformer-based language model. GPT refers to a class of transformer decoder-only models similar to GPT-2 and 3 while 1.3B refers to the total trainable parameter count (1.3 Billion) [1, 2].

 license: cc-by-4.0
 ---
+# Megatron-GPT 1.3B
 <style>
 img {
 |[![Model architecture](https://img.shields.io/badge/Model%20Arch-Transformer%20Decoder-green)](#model-architecture)|[![Model size](https://img.shields.io/badge/Params-1.3B-green)](#model-architecture)|[![Language](https://img.shields.io/badge/Language-en--US-lightgrey#model-badge)](#datasets)
 ## Model Description
 Megatron-GPT 1.3B is a transformer-based language model. GPT refers to a class of transformer decoder-only models similar to GPT-2 and 3 while 1.3B refers to the total trainable parameter count (1.3 Billion) [1, 2].