본문 바로가기
728x90

딥러닝 논문리뷰6

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and LLMs 1. 관련 Youtube [Paper Review] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and LLMs 2. 영상 요약 이 논문은 BLIP-2에 대한 리뷰로, 이미지와 언어 사전 학습에 초점을 맞추고 있습니다. BLIP-2 모델은 이미지 인코더와 LLM 사이의 부스트래핑을 통해 다양한 태스크에서 우수한 성능을 보여줍니다. 제로샷 이미지 텍스트 생성, 이미지 캡션 생성, VQA, 이미지 텍스트 리트리버 등에서 소타를 달성했으며, LM의 성능에 의존하는 경향과 유해한 콘텐츠 필터링의 중요성을 강조하고 있습니다. BLIP-2는 파라미터 개수를 줄이면서 학습 효율을 높이고, LM의 위험성을 인지하며 관련 대응 .. 2024. 4. 9.
HQ-SAM: Segment Anything in High Quality 1. 관련 Youtube [HQ-SAM] Segment Anything in High Quality 2. 영상 요약 Sam 모델을 기반으로 한 새로운 연구로, 얇은 선이나 복잡한 물체의 세그멘테이션을 명확히 하는 방법을 제시하고 있습니다. 하이퀄리티 아웃풋 토큰을 추가하여 높은 성능을 보여주며, 글로벌-로컬 퓨전 기법을 통해 세그멘테이션 퀄리티를 향상시켰습니다. 또한, 프롬프트 튜닝 및 컨텍스트 토큰 방식을 비교하고, 하이퀄리티 결과의 우수성을 입증하였습니다. 더 나아가, 다른 도메인이나 테스크에도 적용 가능한 미래 가능성을 제시하며 능동적 토론과 미래 전망을 제안하는 발표입니다. 3. 주요 영상 포인트 00:00:00 이미지 처리 팀의 최승준이 세그멘트 에니씽 하이퀄리티를 소개. 00:00:20 고급 .. 2024. 4. 9.
Segment Anything 1. 관련 Youtube [DMQA Open Seminar] Segment Anything 2. 영상 요약 세그멘테이션을 위한 '프롬프트 세그멘테이션' 알고리즘에 대한 설명을 다루는 세미나입니다. 이미지 세그멘테이션 작업을 위해 데이터를 어떻게 구축하는지, 모델 구조 및 학습 방법에 대한 내용을 다룹니다. 또한, 세미나 결과로 프롬프트 세그멘테이션 알고리즘의 성능을 보고하며, 다양한 데이터셋을 활용하여 성능을 높인 결과를 공유합니다. 3. 주요 영상 포인트 00:00:01 이미지 세그멘테이션과 세틱 세그먼테이션 설명 00:03:38 인스턴스와 세그멘테이션 종류, 모델 학습 방식 설명 00:07:15 클리 슈퍼비전과 이미지 분석 기술 관련 내용 설명. 00:12:10 세그멘테이션 태스크와 모델 구조 설계 .. 2024. 4. 9.
DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION 1. 관련 Youtube DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION 2. 영상 요약 네트워크를 사용하여 텍스트를 3D 객체로 생성하는 방법을 설명합니다. 2D 이미지들을 활용해 3D 객체를 생성하는 방식은 일반적인 3D 모델링과는 다른 혁신적인 방법을 제시하고 있습니다. 넘버폼 모델과 디퓨전 모델을 연결시켜 효율적인 학습을 진행하며, 이를 통해 고품질의 3D 객체 생성에 성공합니다. 전체 과정을 단계별로 설명하며, 주요 실험 결과와 모델 구조에 대한 이야기도 포함되어 있습니다. 3. 주요 포인트 00:00:02 3D 모델링을 위한 '텍스트-3D 유진용 2D 디퓨전' 논문 소개 00:01:54 이미지 생성을 위한 디퓨전과 노이즈 처리 방법에 대한 설명. 00:06:06 디.. 2024. 4. 9.
728x90