아카이브 논문 리뷰를 통해 급변하는 컴퓨터 비전 연구 트렌드를 살펴봅니다.
2023년 12월 15일. 160개 논문 제출.
1. ZeroRF: Fast Sparse View 360° Reconstruction with Zero Pretraining
KEYWORDS: Optimization, NVS, Sparse-Views, Factorized NeRF
Sparse-View inputs 상황에서 NeRF의 최적화 문제를 개선하여 빠른 속도로 결과물을 만들 수 있음.
키 아이디어는 "맞춤형 Deep Image Prior" 를 인수분해된 NeRF representation에 통합하는 것.
TensoRF-VM tensor란?
TensoRF는 NeRF의 초기 MLP를 대체하여 특징 볼륨을 선택해 학습 속도를 높이기 위해 고안되었다.
이 특징 볼륨은 벡터-매트릭스 분해 (VM)를 사용하는 요소로 세분화된다. 여기서는 주로 3D tensor가 주어지면 텐서를 여러 개의 벡터와 행렬로 분해하는 VM분해에 중점을 둔다.
네트워크는 고정된 표준 가우시안 노이즈 샘플을 입력으로 하는 딥 제너레이터 네트워크를 사용하여 TensoRF-VM 스타일로 평면과 벡터를 생성하고, 분해된 텐서럴 피처 볼륨을 형성함. 그런 다음 이 특징 볼륨은 NeRF의 표준 볼륨 렌더링 프로세스를 거쳐 일반적인 MSE loss를 사용한다. 이 과정을 통해 다양한 패턴을 학습하고 일반화할 수 있다고 한다.
2. DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving
KEYWORDS: LLM, Autonomous Driving, Aligning Decision State
기존의 Pre-defined rule, data-driven system 기반의 자율주행 시스템과 달리 LLM의 기능을 자율주행 시스템에 적용하고 의사 결정 상태를 플래너와 일치시켜 폐쇄 루프 드라이빙을 달성함.
키 아이디어: 대형 언어모델과 자율주행 행동계획의 결합, 의사결정 과정 개선
사용자 지침에 의해 데이터 기반의 계획 모듈과 얼라인 가능, 현실 세계의 다양한 시나리오에 대응 가능함. 예를 들어 후방에서 긴급차량이 접근하는 경우 차로 변경을 통해 양보할 수 있음.
3. Pixel Aligned Language Models
KEYWORDS: LLM, Word-Grounding, Localization
위치, 예를 들어 포인트 혹은 박스들로 언어 모델을 위치화 할 수 있는 방법을 제시함.
위치를 입력으로 받거나, 출력으로 제시할 수 있음.
위치를 입력으로 받으면 모델은 위치 조건부 캡션을 수행하여 표시된 개체 또는 영역에 대한 캡션을 생성.
위치를 출력으로 생성할 때는 언어 모델에서 생성된 각 출력 단어의 픽셀 좌표를 회귀하여 밀도 높은 word-grounding 작업을 수행.
반드시 필요한 아이디어로 보이나 구체적으로 어디에 어떻게 쓰일 지는 잘 모르겠음. 앞으로 수많은 vision-language 모델에 사용될 듯 함.
4. Aleth-NeRF: Illumination Adaptive NeRF with Concealing Field Assumption
KEYWORDS: NeRF, Illumination, Reflectance, Low-Light, Over-Exposure
키 아이디어: 고대 그리스의 생각 -눈에서 방출되는 광선이 인식의 '결과'라는- 을 이용해 저조도, 과조도 상황에서 unsupervised 한 NVS를 가능하게 함.
5. CF-NeRF: Camera Parameter Free Neural Radiance Fields with Incremental Learning
KEYWORDS: NeRF, Camera Paremeter, COLMAP
COLMAP 등이 필요 없는 NeRF를 제안함.
6. SpectralNeRF: Physically Based Spectral Rendering with Neural Radiance Field
KEYWORDS: NeRF, PINN
하루에 160개씩 쏟아지니 모두 체크하기도 힘들다...
'Computer Vision' 카테고리의 다른 글
3D Gaussian Splatting이란? 볼륨 렌더링과 스플래팅 개념 중심으로 (0) | 2024.01.12 |
---|---|
3D Gaussian Splatting 이란 무엇인가? (0) | 2024.01.11 |
Matrix Decomposition, 행렬 분해란 무엇인가? (1) | 2024.01.07 |
23.12.25 Daily Computer Vision Paper arXiv (0) | 2023.12.27 |
23.11.10 Daily Computer Vision Paper arXiv (0) | 2023.11.09 |