Chen Dongping's picture

Chen Dongping

shuaishuaicdp

·

shuaishuaicdp

AI & ML interests

Research for happy.

Recent Activity

new activity 19 days ago

shuaishuaicdp/GUI-World:Missing some videos.

updated a dataset 19 days ago

shuaishuaicdp/ISG-Bench

upvoted a paper 26 days ago

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

View all activity

Organizations

None yet

shuaishuaicdp's activity

upvoted 2 papers 26 days ago

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

Paper • 2412.03548 • Published Dec 4, 2024 • 17

Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation

Paper • 2412.06531 • Published 28 days ago • 71

upvoted a paper about 1 month ago

Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Paper • 2411.17188 • Published Nov 26, 2024 • 21

upvoted a paper about 2 months ago

Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

Paper • 2411.04996 • Published Nov 7, 2024 • 50

upvoted 3 papers 4 months ago

LinFusion: 1 GPU, 1 Minute, 16K Image

Paper • 2409.02097 • Published Sep 3, 2024 • 33

OLMoE: Open Mixture-of-Experts Language Models

Paper • 2409.02060 • Published Sep 3, 2024 • 78

Diffusion Models Are Real-Time Game Engines

Paper • 2408.14837 • Published Aug 27, 2024 • 121

upvoted 2 papers 5 months ago

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

Paper • 2408.08872 • Published Aug 16, 2024 • 98

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

Paper • 2408.06292 • Published Aug 12, 2024 • 118

upvoted a paper 6 months ago

VideoGameBunny: Towards vision assistants for video games

Paper • 2407.15295 • Published Jul 21, 2024 • 22

upvoted 3 papers 10 months ago

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

Paper • 2403.13248 • Published Mar 20, 2024 • 78

Video as the New Language for Real-World Decision Making

Paper • 2402.17139 • Published Feb 27, 2024 • 18

Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

Paper • 2402.17177 • Published Feb 27, 2024 • 88

upvoted a paper 11 months ago

FiT: Flexible Vision Transformer for Diffusion Model

Paper • 2402.12376 • Published Feb 19, 2024 • 48

upvoted 3 papers 12 months ago

Distilling Vision-Language Models on Millions of Videos

Paper • 2401.06129 • Published Jan 11, 2024 • 15

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

Paper • 2401.06066 • Published Jan 11, 2024 • 44

TrustLLM: Trustworthiness in Large Language Models

Paper • 2401.05561 • Published Jan 10, 2024 • 66