62 17 17

Binyuan Hui

huybery

https://huybery.github.io

AI & ML interests

Large Language Models, Code Generation, Semantic Parsing

Recent Activity

authored a paper about 13 hours ago

CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

upvoted a paper about 20 hours ago

CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

updated a dataset about 23 hours ago

Qwen/CodeElo

View all activity

Articles

BigCodeBench: Benchmarking Large Language Models on Solving Practical and Challenging Programming Tasks

Jun 18, 2024

• 43

Organizations

huybery's activity

upvoted a paper about 20 hours ago

CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

Paper • 2501.01257 • Published 1 day ago • 30

upvoted a paper 15 days ago

Qwen2.5 Technical Report

Paper • 2412.15115 • Published 15 days ago • 334

upvoted a paper 24 days ago

Evaluating and Aligning CodeLLMs on Human Preference

Paper • 2412.05210 • Published 28 days ago • 47

upvoted a paper 25 days ago

ProcessBench: Identifying Process Errors in Mathematical Reasoning

Paper • 2412.06559 • Published 26 days ago • 72

upvoted a paper 3 months ago

Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

Paper • 2409.17115 • Published Sep 25, 2024 • 60

upvoted a collection 4 months ago

Qwen2.5-Coder

Collection

Code-specific model series based on Qwen2.5 • 40 items • Updated Nov 28, 2024 • 258

upvoted 2 papers 4 months ago

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

Paper • 2409.12191 • Published Sep 18, 2024 • 75

Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 138

upvoted a paper 6 months ago

Qwen2 Technical Report

Paper • 2407.10671 • Published Jul 15, 2024 • 160

upvoted a collection 7 months ago

Qwen2

Collection

Qwen2 language models, including pretrained and instruction-tuned models of 5 sizes, including 0.5B, 1.5B, 7B, 57B-A14B, and 72B. • 39 items • Updated Nov 28, 2024 • 353

upvoted a collection 9 months ago

Qwen1.5

Collection

Qwen1.5 is the improved version of Qwen, the large language model series developed by Alibaba Cloud. • 55 items • Updated Nov 28, 2024 • 205

upvoted 2 papers about 1 year ago

Lemur: Harmonizing Natural Language and Code for Language Agents

Paper • 2310.06830 • Published Oct 10, 2023 • 31

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 35

upvoted 4 papers over 1 year ago

Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs

Paper • 2305.03111 • Published May 4, 2023 • 9