Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.09871

Papers - Training - Text - Datasets - Coding - GitHub

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Text - Character Level Transformers

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Text - Character Level RNNs

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Training - Bytes - Lookup - Rolling Poly Hashing

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Training - Scaling - Bytes - BLT >= BPE Tokenizer

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Training - Scaling - Compute Optimal

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Attention - Flex Attention

https://pytorch.org/blog/flexattention/

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Embeddings - Bytes - BPB - Tokenzr Free Perplexity

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Embeddings - Bytes - Flops - Input Layer Lookup

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Training - Embeddings Model - Bytes - Entropy Model

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Previous
1
2
3
4
5
...
9
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs