Juanxi Tian's picture

Open to Collab

Juanxi Tian

Juanxi

·

https://tianshijing.github.io

AI & ML interests

Efficient AI & Gen AI

Recent Activity

repliedto their post about 8 hours ago

📢 Awesome Multimodal Modeling We introduce Awesome Multimodal Modeling, a curated repository tracing the architectural evolution of multimodal intelligence—from foundational fusion to native omni-models. 🔹 Taxonomy & Evolution: Traditional Multimodal Learning – Foundational work on representation, fusion, and alignment. Multimodal LLMs (MLLMs) – Architectures connecting vision encoders to LLMs for understanding. Unified Multimodal Models (UMMs) – Models unifying Understanding + Generation via Diffusion, Autoregressive, or Hybrid paradigms. Native Multimodal Models (NMMs) – Models trained from scratch on all modalities; contrasts early vs. late fusion under scaling laws. 💡 Key Distinction: UMMs unify tasks via generation heads; NMMs enforce interleaving through joint pre-training. 🔗 Explore & Contribute: https://github.com/OpenEnvision-Lab/Awesome-Multimodal-Modeling

reacted to theirpost with 👍 about 8 hours ago

📢 Awesome Multimodal Modeling We introduce Awesome Multimodal Modeling, a curated repository tracing the architectural evolution of multimodal intelligence—from foundational fusion to native omni-models. 🔹 Taxonomy & Evolution: Traditional Multimodal Learning – Foundational work on representation, fusion, and alignment. Multimodal LLMs (MLLMs) – Architectures connecting vision encoders to LLMs for understanding. Unified Multimodal Models (UMMs) – Models unifying Understanding + Generation via Diffusion, Autoregressive, or Hybrid paradigms. Native Multimodal Models (NMMs) – Models trained from scratch on all modalities; contrasts early vs. late fusion under scaling laws. 💡 Key Distinction: UMMs unify tasks via generation heads; NMMs enforce interleaving through joint pre-training. 🔗 Explore & Contribute: https://github.com/OpenEnvision-Lab/Awesome-Multimodal-Modeling

reacted to theirpost with 😎 about 8 hours ago

📢 Awesome Multimodal Modeling We introduce Awesome Multimodal Modeling, a curated repository tracing the architectural evolution of multimodal intelligence—from foundational fusion to native omni-models. 🔹 Taxonomy & Evolution: Traditional Multimodal Learning – Foundational work on representation, fusion, and alignment. Multimodal LLMs (MLLMs) – Architectures connecting vision encoders to LLMs for understanding. Unified Multimodal Models (UMMs) – Models unifying Understanding + Generation via Diffusion, Autoregressive, or Hybrid paradigms. Native Multimodal Models (NMMs) – Models trained from scratch on all modalities; contrasts early vs. late fusion under scaling laws. 💡 Key Distinction: UMMs unify tasks via generation heads; NMMs enforce interleaving through joint pre-training. 🔗 Explore & Contribute: https://github.com/OpenEnvision-Lab/Awesome-Multimodal-Modeling

View all activity

Organizations

liked 2 models 2 months ago

moonshotai/Kimi-K2.5

Image-Text-to-Text • 1.1T • Updated Feb 27 • 5.98M • • 2.45k

inclusionAI/Ming-flash-omni-Preview

Any-to-Any • 104B • Updated Feb 13 • 499 • 71

liked 2 models 4 months ago

Qwen/Qwen-Image-Layered

Image-Text-to-Image • Updated Dec 19, 2025 • 16.9k • 1.05k

Tongyi-MAI/Z-Image-Turbo

Text-to-Image • Updated Jan 30 • 1.06M • • 4.43k

liked a dataset 4 months ago

OpenRaiser/Envision

Viewer • Updated Dec 2, 2025 • 1k • 71 • 26

liked a dataset about 1 year ago

Gen-Verse/WideRange4D

Viewer • Updated Apr 24, 2025 • 12.8k • 18 • 16

liked a model over 1 year ago

wenqsun/DimensionX

Image-to-3D • Updated Nov 15, 2024 • 61

liked a Space over 1 year ago

DimensionX

3D/4D Scenes from a Single Image w/ Controllable Video Diff