본문 바로가기
반응형

전체 글210

텍스트 요약(사내 세미나) 보호되어 있는 글 입니다. 2024. 3. 5.
"Word2Vec, GloVe 및 RoBERTa 등의 모델을 활용한 한국어 문장 임베딩 성능 비교 연구" 요약 Word2Vec, GloVe, fastText, RoBERTa, BERT, M-USE으로 문장 임베딩 생성 한국어 말뭉치인 네이버 영화 리뷰(NSMC), KorNLI, KorSTS를 각각 활용 분류 문제와 문장 유사도 문제를 풀어보고 문장 임베딩 별 성능 확인 SRoBERTa가 제일 좋은 성능 사전 학습 모델이 중요 task와 미세 조정 유무에 따라 문장 임베딩 모델의 순위가 달라짐 최신의 모델을 적용하는 것 X 자신의 task에 적합한 모델을 선택하는 것이 중요 2024. 1. 15.
NLP(Natural Language Process) - 필수 용어 및 개념 정리(2) pre-processing(전처리) 한국어 전처리 한글 데이터 사용 시, 띄어쓰기, 맞춤법이 틀린 경우가 많음 ex) 비표준어, 맞춤법 무시, 특수문자, 이모지 처리 부정의 부정, 모호 표현, 채널의 분리 전처리 : 데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 총칭 형태소 분석 = Pos Tag(품사 태깅) 형태소 분석 : 형태소를 분석하는 모든 행위 품사 태깅 : 형태소의 품사를 붙이는 역할까지 품사를 붙이는 행위, 형태소 분석과 동의어로 사용되나 조금의 차이 존재 stop word(불용어) 자주 나오지만, 문구의 의미에 실질적 의미가 없는 단어 ex) 윙윙, 오호, 이러한 …. 불용어 제거 정제 및 정규화에서 의미가 없어 불필요한 단어를 제거하는 것 목적에 따라 필요한 단어, 불필요한 단어가.. 2024. 1. 15.
NLP(Natural Language Process) - 필수 용어 및 개념 정리(1) 자연어 처리 사람이 이해하는 자연어를 컴퓨터가 이해할 수 있는 값으로 변환하는 과정 컴퓨터가 이해하는 값을 사람이 이해할 수 있도록 다시 바꾸는 과정까지 포함 한국어 자연어 처리의 어려움 모호성 ex) 차를 마시러 공원에 가는 차 안에서 나는 그녀에게 차였다. 띄어쓰기가 지켜지지 않는다 ex) 띄어쓰기를하지않아도읽을수있습니다. 교착어 어간과 어미가 명백하게 분리되는 언어 하나의 형태소가 하나의 문법적인 기능을 하는 언어 ex) '그'라는 단어 하나에도 '그가', '그를', '그와', '그는'과 같이 다양한 조사가 '그'라는 글자 뒤에 띄어쓰기 없이 바로 붙게 됨 같은 단어임에도 서로 다른 조사가 붙어서 다른 단어로 인식이 되면 자연어 처리가 힘들고 번거로워지는 경우가 많음 어간에 접사가 붙어, 단어를 이.. 2024. 1. 15.
오늘의 일기 2023. 10. 11.
오늘의 일기 2023. 9. 19.
이미지 크롤링 def download_image(url, save_path): response = requests.get(url, stream=True) if response.status_code == 200: with open(save_path, 'wb') as file: for chunk in response.iter_content(1024): file.write(chunk) else: pass # print(f"Failed to download image from {url}") def crawl_images(url, save_folder): response = requests.get(url) if response.status_code == 200: soup = BeautifulSoup(response.text, .. 2023. 8. 2.
반응형