Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2305.00833

Augmenting Pre-trained Language Models with QA-Memory for Open-Domain Question Answering

Paper • 2204.04581 • Published Apr 10, 2022 • 1
Retrieval-Augmented Multimodal Language Modeling

Paper • 2211.12561 • Published Nov 22, 2022 • 1
When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories

Paper • 2212.10511 • Published Dec 20, 2022 • 1
Memorizing Transformers

Paper • 2203.08913 • Published Mar 16, 2022 • 2

Ada-Instruct: Adapting Instruction Generators for Complex Reasoning

Paper • 2310.04484 • Published Oct 6, 2023 • 5
Diversity of Thought Improves Reasoning Abilities of Large Language Models

Paper • 2310.07088 • Published Oct 11, 2023 • 5
Adapting Large Language Models via Reading Comprehension

Paper • 2309.09530 • Published Sep 18, 2023 • 77
Democratizing Reasoning Ability: Tailored Learning from Large Language Model

Paper • 2310.13332 • Published Oct 20, 2023 • 14

Branch-Solve-Merge Improves Large Language Model Evaluation and Generation

Paper • 2310.15123 • Published Oct 23, 2023 • 7
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

Paper • 2310.13671 • Published Oct 20, 2023 • 18
Self-Convinced Prompting: Few-Shot Question Answering with Repeated Introspection

Paper • 2310.05035 • Published Oct 8, 2023 • 1
Chain-of-Thought Reasoning is a Policy Improvement Operator

Paper • 2309.08589 • Published Sep 15, 2023 • 1

Dataset generation

Ensemble-Instruct: Generating Instruction-Tuning Data with a Heterogeneous Mixture of LMs

Paper • 2310.13961 • Published Oct 21, 2023 • 4
ZeroGen: Efficient Zero-shot Learning via Dataset Generation

Paper • 2202.07922 • Published Feb 16, 2022 • 1
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

Paper • 2310.13671 • Published Oct 20, 2023 • 18
Fabricator: An Open Source Toolkit for Generating Labeled Training Data with Teacher LLMs

Paper • 2309.09582 • Published Sep 18, 2023 • 4

Papers - Text - Pre-training - Research

Pretraining-Based Natural Language Generation for Text Summarization

Paper • 1902.09243 • Published Feb 25, 2019 • 2
Learning to Reason and Memorize with Self-Notes

Paper • 2305.00833 • Published May 1, 2023 • 4
Text Generation with Diffusion Language Models: A Pre-training Approach with Continuous Paragraph Denoise

Paper • 2212.11685 • Published Dec 22, 2022 • 2
Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems

Paper • 2408.16293 • Published Aug 29, 2024 • 25

ibm/AttaQ

Viewer • Updated Jan 26, 2024 • 1.4k • 1.3k • 13
snorkelai/snorkel-curated-instruction-tuning

Preview • Updated Mar 11, 2024 • 36 • 8
corbyrosset/researchy_questions

Viewer • Updated Feb 29, 2024 • 96.4k • 48 • 25
argilla/ultrafeedback-binarized-preferences

Viewer • Updated Nov 30, 2023 • 63.6k • 288 • 70

Papers - Training Research

Measuring the Effects of Data Parallelism on Neural Network Training

Paper • 1811.03600 • Published Nov 8, 2018 • 2
Adafactor: Adaptive Learning Rates with Sublinear Memory Cost

Paper • 1804.04235 • Published Apr 11, 2018 • 2
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

Paper • 1905.11946 • Published May 28, 2019 • 3
Yi: Open Foundation Models by 01.AI

Paper • 2403.04652 • Published Mar 7, 2024 • 62

Papers - Reasoning

Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

Paper • 2402.14848 • Published Feb 19, 2024 • 18
Teaching Large Language Models to Reason with Reinforcement Learning

Paper • 2403.04642 • Published Mar 7, 2024 • 46
How Far Are We from Intelligent Visual Deductive Reasoning?

Paper • 2403.04732 • Published Mar 7, 2024 • 19
Learning to Reason and Memorize with Self-Notes

Paper • 2305.00833 • Published May 1, 2023 • 4

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs