1 3 3

August Moharrami

August4293

AI & ML interests

None yet

Recent Activity

updated a dataset 7 days ago

August4293/tldr-preference-sft-trl-style-sample

updated a collection 12 days ago

RL Fine-tuning Reasoning

liked a model 13 days ago

trl-internal-testing/tiny-LlamaForCausalLM-3.2

View all activity

Organizations

Collections 3

models 4

datasets 6

August4293/tldr-preference-sft-trl-style-sample

Viewer • Updated 7 days ago • 100 • 40

August4293/tool_sample_dataset

Viewer • Updated 28 days ago • 200 • 70 • 1

August4293/gsm8k_preference_dataset_it_2

Viewer • Updated Jul 4, 2024 • 379 • 30

August4293/gsm8k_preference_dataset_it_1

Viewer • Updated Jul 4, 2024 • 895 • 28

August4293/Self_Alignment_Preference-Dataset

Viewer • Updated Mar 18, 2024 • 4.45k • 31

August4293/CS_QA

Viewer • Updated Aug 22, 2023 • 969 • 4

August Moharrami

AI & ML interests

Recent Activity

Organizations

Collections 3

Compressed Chain of Thought: Efficient Reasoning Through Dense Representations

o1-Coder: an o1 Replication for Coding

Critical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM's Reasoning Capability

MALT: Improving Reasoning with Multi-Agent LLM Training

Toolformer: Language Models Can Teach Themselves to Use Tools

On the Tool Manipulation Capability of Open-source Large Language Models

WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

models 4

August4293/mistral_gsm8k_ssl_it2

August4293/mistral_gsm8k_ssl_it1

August4293/mistral_self_alignment_DPO

August4293/mistral_self_alignment_SFT

datasets 6

August4293/tldr-preference-sft-trl-style-sample

August4293/tool_sample_dataset

August4293/gsm8k_preference_dataset_it_2

August4293/gsm8k_preference_dataset_it_1

August4293/Self_Alignment_Preference-Dataset

August4293/CS_QA

August Moharrami

AI & ML interests

Recent Activity

Organizations

Collections 3

models 4 Sort: Recently updated

datasets 6 Sort: Recently updated

models 4

datasets 6