본문 바로가기
반응형
텍스트 요약(사내 세미나) 보호되어 있는 글 입니다. 2024. 3. 5.
"Word2Vec, GloVe 및 RoBERTa 등의 모델을 활용한 한국어 문장 임베딩 성능 비교 연구" 요약 Word2Vec, GloVe, fastText, RoBERTa, BERT, M-USE으로 문장 임베딩 생성 한국어 말뭉치인 네이버 영화 리뷰(NSMC), KorNLI, KorSTS를 각각 활용 분류 문제와 문장 유사도 문제를 풀어보고 문장 임베딩 별 성능 확인 SRoBERTa가 제일 좋은 성능 사전 학습 모델이 중요 task와 미세 조정 유무에 따라 문장 임베딩 모델의 순위가 달라짐 최신의 모델을 적용하는 것 X 자신의 task에 적합한 모델을 선택하는 것이 중요 2024. 1. 15.
NLP(Natural Language Process) - 필수 용어 및 개념 정리(2) pre-processing(전처리) 한국어 전처리 한글 데이터 사용 시, 띄어쓰기, 맞춤법이 틀린 경우가 많음 ex) 비표준어, 맞춤법 무시, 특수문자, 이모지 처리 부정의 부정, 모호 표현, 채널의 분리 전처리 : 데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 총칭 형태소 분석 = Pos Tag(품사 태깅) 형태소 분석 : 형태소를 분석하는 모든 행위 품사 태깅 : 형태소의 품사를 붙이는 역할까지 품사를 붙이는 행위, 형태소 분석과 동의어로 사용되나 조금의 차이 존재 stop word(불용어) 자주 나오지만, 문구의 의미에 실질적 의미가 없는 단어 ex) 윙윙, 오호, 이러한 …. 불용어 제거 정제 및 정규화에서 의미가 없어 불필요한 단어를 제거하는 것 목적에 따라 필요한 단어, 불필요한 단어가.. 2024. 1. 15.
NLP(Natural Language Process) - 필수 용어 및 개념 정리(1) 자연어 처리 사람이 이해하는 자연어를 컴퓨터가 이해할 수 있는 값으로 변환하는 과정 컴퓨터가 이해하는 값을 사람이 이해할 수 있도록 다시 바꾸는 과정까지 포함 한국어 자연어 처리의 어려움 모호성 ex) 차를 마시러 공원에 가는 차 안에서 나는 그녀에게 차였다. 띄어쓰기가 지켜지지 않는다 ex) 띄어쓰기를하지않아도읽을수있습니다. 교착어 어간과 어미가 명백하게 분리되는 언어 하나의 형태소가 하나의 문법적인 기능을 하는 언어 ex) '그'라는 단어 하나에도 '그가', '그를', '그와', '그는'과 같이 다양한 조사가 '그'라는 글자 뒤에 띄어쓰기 없이 바로 붙게 됨 같은 단어임에도 서로 다른 조사가 붙어서 다른 단어로 인식이 되면 자연어 처리가 힘들고 번거로워지는 경우가 많음 어간에 접사가 붙어, 단어를 이.. 2024. 1. 15.
오늘의 일기 2023. 10. 11.
오늘의 일기 2023. 9. 19.
이미지 크롤링 def download_image(url, save_path): response = requests.get(url, stream=True) if response.status_code == 200: with open(save_path, 'wb') as file: for chunk in response.iter_content(1024): file.write(chunk) else: pass # print(f"Failed to download image from {url}") def crawl_images(url, save_folder): response = requests.get(url) if response.status_code == 200: soup = BeautifulSoup(response.text, .. 2023. 8. 2.
show bbox(coco) import os import cv2 import json base_path = "" json_path = base_path + '/' + "_annotations.coco.json" with open(json_path, "r") as json_file: st_python = json.load(json_file) red_color = (0,0,255) tmp = 0 for i in range(len(st_python['images'])): file_name = st_python['images'][i]['file_name'] img_id = st_python['images'][i]['id'] img = cv2.imread(base_path+'/'+file_name) while True: bbox = st_.. 2023. 8. 2.
[논문 리뷰] DeFRCN: Decoupled Faster R-CNN for Few-Shot Object Detection Faster R-CNN은 backbone, RPN 및 RCNN의 세 가지 구성 요소를 포함하며 순방향 및 gradient-backward를 통해 서로 상호 작용 위에서 언급한 RPN과 RCNN 사이의 모순으로 인해 세 모듈 간의 디커플링 정도를 gradient를 통해 조정 전체 모델이 둘 중 하나에 의해 지배되는 것을 완화하기 위해 제시 RPN과 RCNN 사이의 모순으로 인한 모듈 간의 디커플링 정도를 gradient를 통해 조정 분류와 회귀 사이의 작업 충돌은 기능의 품질에 영향, 헤드 출력에 성능 하락으로 이어짐 두 작업(분류, 회귀)을 분리하는 목적 달성을 위해 분류 분기에서만 효율적인 점수 보정 모듈을 사용 입력 이미지는 백본으로 전달되어 high level 의 피쳐맵 생성 이후 RPN 및 RCN.. 2023. 7. 25.
[논문 리뷰] Video Person Re-ID: Fantastic Techniques and Where to Find Them Abstract 재식별은 상업적, 학술적 가치가 있음 기존 solution은 attention기반 모델임제안한 손실 함수는 bag-of-tric에 적용됨 본 논문에서는 attention기반에 top of a temporal attention-based가 추가된 CL loss 활용 Introduction Person Re-IDentification의 목표 똑같은 사람을 다른 영상 속에서 찾는 것 갤러리 셋 안의 똑같은 사람을 쿼리 비디오에서 찾는 것 Methodology Baseline(Base Temporal Attention) Revisiting temporal modeling for video-based person reid 데이터셋 ImageNet을 적용 ResNet-50으로 사전 학습 - 비디오 .. 2023. 3. 20.
반응형