new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

May 4

Submitted by

taesiri

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

·
11 authors

Submitted by

jianlanluo

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

·
16 authors

Submitted by

unknowncloudw

From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills

PekingUniversity

Peking University

1

Submitted by

taesiri

Map2World: Segment Map Conditioned Text to 3D World Generation

·
5 authors

Submitted by

taesiri

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

ByteDance-Seed

Submitted by

taesiri

Let ViT Speak: Generative Language-Image Pre-training

ByteDance

Submitted by

iieycx

Online Self-Calibration Against Hallucination in Vision-Language Models

·
6 authors

Submitted by

rajkumarrawal

Learning to Act and Cooperate for Distributed Black-Box Consensus Optimization

·
4 authors

Submitted by

praxelhq

LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation

Praxel

Submitted by

tobiaslee

AnalogRetriever: Learning Cross-Modal Representations for Analog Circuit Retrieval

·
5 authors

Submitted by

iNeil77

Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring

project-themis

Submitted by

danielhzlin

Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling

·
11 authors