architecture - a emjay73 Collection

emjay73 's Collections

3D Edit

Feature

video generation

Data

3D Animatable Face

Audio generation

architecture

updated Oct 15, 2024

TCNCA: Temporal Convolution Network with Chunked Attention for Scalable Sequence Processing

Paper • 2312.05605 • Published Dec 9, 2023 • 2
VMamba: Visual State Space Model

Paper • 2401.10166 • Published Jan 18, 2024 • 38
Rethinking Patch Dependence for Masked Autoencoders

Paper • 2401.14391 • Published Jan 25, 2024 • 23
Deconstructing Denoising Diffusion Models for Self-Supervised Learning

Paper • 2401.14404 • Published Jan 25, 2024 • 17
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

Paper • 2403.12019 • Published Mar 18, 2024 • 9
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Paper • 2404.02905 • Published Apr 3, 2024 • 65
On the Scalability of Diffusion-based Text-to-Image Generation

Paper • 2404.02883 • Published Apr 3, 2024 • 17
ViTAR: Vision Transformer with Any Resolution

Paper • 2403.18361 • Published Mar 27, 2024 • 52
When Do We Not Need Larger Vision Models?

Paper • 2403.13043 • Published Mar 19, 2024 • 25
Phased Consistency Model

Paper • 2405.18407 • Published May 28, 2024 • 46
An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels

Paper • 2406.09415 • Published Jun 13, 2024 • 50
MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Paper • 2407.08083 • Published Jul 10, 2024 • 28
FAN: Fourier Analysis Networks

Paper • 2410.02675 • Published Oct 3, 2024 • 25
Differential Transformer

Paper • 2410.05258 • Published Oct 7, 2024 • 169