Collections

33

Can Large Language Models Understand Context?

Paper • 2402.00858 • Published Feb 1, 2024 • 22
OLMo: Accelerating the Science of Language Models

Paper • 2402.00838 • Published Feb 1, 2024 • 82
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 145
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity

Paper • 2401.17072 • Published Jan 30, 2024 • 25

16

Woodpecker: Hallucination Correction for Multimodal Large Language Models

Paper • 2310.16045 • Published Oct 24, 2023 • 15
HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

Paper • 2310.14566 • Published Oct 23, 2023 • 25
SILC: Improving Vision Language Pretraining with Self-Distillation

Paper • 2310.13355 • Published Oct 20, 2023 • 8
Conditional Diffusion Distillation

Paper • 2310.01407 • Published Oct 2, 2023 • 20

-

Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters

Paper • 2403.02677 • Published Mar 5, 2024 • 16

Can Large Language Models Understand Context?

OLMo: Accelerating the Science of Language Models

Self-Rewarding Language Models

SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity

Woodpecker: Hallucination Correction for Multimodal Large Language Models

HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

SILC: Improving Vision Language Pretraining with Self-Distillation

Conditional Diffusion Distillation

Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters

Scaling Instruction-Finetuned Language Models

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

Yi: Open Foundation Models by 01.AI

Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters

Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding

VisionLLaMA: A Unified LLaMA Interface for Vision Tasks

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets

Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters

Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models

ScreenAI: A Vision-Language Model for UI and Infographics Understanding

EfficientViT-SAM: Accelerated Segment Anything Model Without Performance Loss

LLaMA Beyond English: An Empirical Study on Language Capability Transfer

Improving Text Embeddings with Large Language Models

HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models

Data Engineering for Scaling Language Models to 128K Context

RLVF: Learning from Verbal Feedback without Overgeneralization

Coercing LLMs to do and reveal (almost) anything

Self-Rewarding Language Models

ReFT: Reasoning with Reinforced Fine-Tuning

Tuning Language Models by Proxy

TrustLLM: Trustworthiness in Large Language Models