Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.09871

december papers

RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

Paper • 2412.14922 • Published Dec 19, 2024 • 85
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

Paper • 2412.17256 • Published 28 days ago • 45
OpenAI o1 System Card

Paper • 2412.16720 • Published 29 days ago • 31
Revisiting In-Context Learning with Long Context Language Models

Paper • 2412.16926 • Published 28 days ago • 29

Papers - Text - Eval - Character Level - CUTE

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Multilingual - Encoders - Bytes

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Training - Bytes - Dynamic Patch Sizes

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Text - Dataset - Classification - Multitask - MMLU

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Text - Dataset - Coding - MBPP

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Text - Eval - Coding - Python

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Embeddings - Bytes - BPB - Larger Patches than BPE

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Text - Dataset - Datacomp-LM

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Embeddings - Bytes - Tokenizer Free

MrT5: Dynamic Token Merging for Efficient Byte-level Language Models

Paper • 2410.20771 • Published Oct 28, 2024 • 3
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Previous
1
2
3
4
...
9
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs