arXiv cs.CV (Computer Vision)

75 items · Generative Image & Video Models · site ↗

VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding

arXiv cs.CV (Computer Vision) 8h

NIV: Neural Axis Variations for Variable Font Generation

arXiv cs.CV (Computer Vision) 8h

Personal AI Agent for Camera Roll VQA

arXiv cs.CV (Computer Vision) 8h

Do Models Share Safety Representations? Cross-Model Steering for Safe Visual Generation

arXiv cs.CV (Computer Vision) 8h

TopoPult-SSL: Gland-Mask-Free Cross-Device Meibomian Gland Segmentation via Self-Distilled Weak Clinical Priors

arXiv cs.CV (Computer Vision) 8h

LightVesselNet: An Ultra-Lightweight Sub-100K Parameter Network for Retinal Blood Vessel Segmentation

arXiv cs.CV (Computer Vision) 8h

Recovering Physically Plausible Human-Object Interactions from Monocular Videos

arXiv cs.CV (Computer Vision) 8h

Biomazon: A Multimodal Dataset for 3D Forest Structure and Biomass Modeling in the Amazon Basin

arXiv cs.CV (Computer Vision) 8h

Three-Dimensional Retinal Microvasculature Restoration in OCT Angiography

arXiv cs.CV (Computer Vision) 8h

Deep Learning-assisted AMD Staging based on OCT and OCT Angiography

arXiv cs.CV (Computer Vision) 8h

UniPixie: Unified and Probabilistic 3D Physics Learning via Flow Matching

arXiv cs.CV (Computer Vision) 8h

Would you still call this Dax? Novel Visual References in VLMs and Humans

arXiv cs.CV (Computer Vision) 8h

Disentangled Fine-Grained Prototype Learning for Incomplete Image-Tabular Classification

arXiv cs.CV (Computer Vision) 8h

Horse Eye Blink Detection and Classification for Equine Affective State Assessment

arXiv cs.CV (Computer Vision) 8h

ORACLE-CT: Anatomy-Aware Support Pooling for CT Classification

arXiv cs.CV (Computer Vision) 8h

Dive into the Scene: Breaking the Perceptual Bottleneck in Vision-Language Decision Making via Focus Plan Generation

arXiv cs.CV (Computer Vision) yest

Weakly Supervised Incremental Segmentation via Semantic Anchors and Spatial Arbitration

arXiv cs.CV (Computer Vision) yest

Intra-Modal Neighbors Never Lie: Rectifying Inter-Modal Noisy Correspondence via Graph-Based Intra-Modal Reasoning

arXiv cs.CV (Computer Vision) yest

Optimal Transport Flow Matching by Design

arXiv cs.CV (Computer Vision) yest

When Seeing Is Not Believing -- A Benchmark for Search-Grounded Video Misinformation Detection

arXiv cs.CV (Computer Vision) yest

Reflection Separation from a Single Image via Joint Latent Diffusion

arXiv cs.CV (Computer Vision) yest

Pinpoint: Grounded Worldwide Image Geolocation via Cross-Source Retrieval and Reranking

arXiv cs.CV (Computer Vision) yest

End-to-End Text Line Detection and Ordering

arXiv cs.CV (Computer Vision) yest

GroupToM-Bench: Benchmarking Group Theory of Mind and Nonlinear Social Emergence in MLLMs

arXiv cs.CV (Computer Vision) yest

Spatial Artifact Coherence Determines Codec Robustness in Patch-Based rPPG

arXiv cs.CV (Computer Vision) yest

Overview of the EReL@MIR 2025 Multimodal Document Retrieval Challenge (Track 1)

arXiv cs.CV (Computer Vision) yest

Prospective Dynamic 3D MRI Reconstruction via Latent-Space Motion Tracking from Single Measurement

arXiv cs.CV (Computer Vision) yest

SBP-Net: Learning Thin Structure Reconstruction with Sliding-Box Projections

arXiv cs.CV (Computer Vision) yest

UniCanvas: A Diffusion-base Unified Model for Text-in-Image Joint Generation

arXiv cs.CV (Computer Vision) yest

StandardE2E: A Unified Framework for End-to-End Autonomous Driving Datasets

arXiv cs.CV (Computer Vision) yest

COD10K-C: Benchmarking Robustness of Camouflaged Object Detection Under Natural Image Corruptions