Siyuan Huang's picture

Siyuan Huang

chamber111

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 2 days ago

GD^2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization

submitted a paper 2 days ago

GD^2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization

upvoted a paper 6 days ago

MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling

View all activity

Organizations

Collections 2

Papers 8

arxiv:2606.03980

arxiv:2603.28088

arxiv:2602.03036

arxiv:2512.24165

models 5

chamber111/PVM-8B

Image-Text-to-Text • 1.17M • Updated Mar 2 • 2

chamber111/PVM-4B

Image-Text-to-Text • 967k • Updated Mar 2 • 2

chamber111/VPPO-8B

Image-Text-to-Text • 9B • Updated Nov 7, 2025 • 41 • 2

chamber111/VPPO-7B

Image-Text-to-Text • 8B • Updated Nov 7, 2025 • 64 • 6

chamber111/VPPO-32B

33B • Updated Oct 16, 2025 • 5 • 2

datasets 5

chamber111/POPE-AOKVQA

Viewer • Updated Jan 6 • 9k • 23

chamber111/POPE-GQA

Viewer • Updated Jan 6 • 9k • 69

chamber111/VPPO-Eval

Preview • Updated Oct 16, 2025 • 394 • 1

chamber111/VPPO_MMK12_validation

Viewer • Updated Oct 16, 2025 • 2k • 495 • 1

chamber111/VPPO_ViRL39K_train

Viewer • Updated Oct 16, 2025 • 38.9k • 664 • 1