to read - a doguscank Collection

doguscank 's Collections

tts

case

to read

image gen personalization

to read

updated Aug 5, 2025

GenEx: Generating an Explorable World

Paper • 2412.09624 • Published Dec 12, 2024 • 98
IamCreateAI/Ruyi-Mini-7B

Image-to-Video • Updated Dec 25, 2024 • 103 • 610
Track4Gen: Teaching Video Diffusion Models to Track Points Improves Video Generation

Paper • 2412.06016 • Published Dec 8, 2024 • 20
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 108
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Alibaba-NLP/gte-multilingual-mlm-base

Fill-Mask • 0.3B • Updated Aug 6, 2024 • 211 • 15
answerdotai/ModernBERT-large

Fill-Mask • 0.4B • Updated Jan 15, 2025 • 128k • 450
Parallelized Autoregressive Visual Generation

Paper • 2412.15119 • Published Dec 19, 2024 • 53
Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

Paper • 2412.15322 • Published Dec 19, 2024 • 20
CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up

Paper • 2412.16112 • Published Dec 20, 2024 • 23
The GAN is dead; long live the GAN! A Modern GAN Baseline

Paper • 2501.05441 • Published Jan 9, 2025 • 95
EuroBERT/EuroBERT-2.1B

Fill-Mask • 2B • Updated Oct 18, 2025 • 309 • 64
"Principal Components" Enable A New Language of Images

Paper • 2503.08685 • Published Mar 11, 2025 • 12
Causal-Copilot: An Autonomous Causal Analysis Agent

Paper • 2504.13263 • Published Apr 17, 2025 • 7
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

Paper • 2504.17192 • Published Apr 24, 2025 • 123
Vid2World: Crafting Video Diffusion Models to Interactive World Models

Paper • 2505.14357 • Published May 20, 2025 • 27
PixNerd: Pixel Neural Field Diffusion

Paper • 2507.23268 • Published Jul 31, 2025 • 52