Publications

A collection of my research work.

Learning Plug-and-play Memory for Guiding Video Diffusion Models

Selena Song^†, Ziming Xu^†, Zijun Zhang, Kun Zhou, Jiaxian Guo, Lianhui Qin, Biwei Huang

2025

A plug-and-play memory module for video diffusion models that enhances physical rule adherence and video fidelity through targeted guidance using low-/high-pass filters.

Webpage

MMA: Benchmarking multi-modal large language model in ambiguity contexts

Selena Song^†, Ru Wang^†, Liang Ding, Mingming Gong, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo

ICLR 2025 Workshop on Navigating and Addressing Data Problems for Foundation Models 2025

A benchmark evaluating multi-modal large language models' ability to resolve ambiguities in text using visual context, revealing significant performance gaps.

Webpage

Beyond In-Distribution Success: Scaling Curves of CoT Granularity for Language Model Generalization

Ru Wang^†, Wei Huang^†, Selena Song, Haoyu Zhang, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo

CPAL 2025 2025

Investigates Chain-of-Thought reasoning to enhance out-of-distribution generalization in language models, revealing the importance of CoT granularity and sample efficiency.

Webpage