본문 바로가기
-------------코딩-------------/데이터 목록

한국어 자연어 데이터 목록

by 탶선 2022. 4. 7.
반응형

자연어 데이터 수집방법.xlsx
0.03MB

유사도 판별  
이름 설명 링크  
KorNLI  문장의 관계를 entailment/neutral/contradiction 으로 분류 github  
 학습/ 검증/ 테스트 데이터로 분리되어 있음.  
KoSTS  문장의 유사도 점수를 라벨링한 데이터 github  
 학습/ 검증/ 테스트 데이터로 분리되어 있음.  
Question pair  개의 질문이 같은 질문인지 아닌지 레이블링한 데이터 github  
 학습 6,888건 / 테스트 688건 제공  
ParaKQC 10개의 비슷한 문장에 대한 1,000개의 집합으로 구성 github  
 문장 유사도 데이터 494,500건 생성 가능  
 패러프래이징 데이터 45,000건 생성 가능  
PAWS-X 유사문장탐지(Paraphrase detection) (ko, fr, es, de, zh, ja) (5K / 2K / 2K (p)

 

자연어 질의응답 (기계독해 / MRC)  
이름 설명 링크  
KorQuAD 1.0 한국어 기계독해를 위한 표준 데이터셋 webpage  
 리더보드 운영중  
KorQuAD 2.0 구조를 가진 HTML 문서에 대한 기계 독해 데이터셋 webpage  
 리더보드 운영중  
AI HUB 기계독해 한국어 기계독해를 위한 데이터셋 webpage  
 SQuAD1.0 / 2.0(noanswer) 타입의 데이터 제공  
 질문 답변과 답변을 선택한 단서 제공

 

분류 분석 (감성분석/ 의도분류)
이름 설명 링크   설명  
네이버 영화 리뷰 네이버 영화 리뷰 데이터에 대한 긍/부정 라벨 데이터 github   감성분석(Sentiment Analysis)을 위한 제품 별, 게임 별 별점과 후기를 수집한 데이터셋    
학습 15만건 / 테스트 5만건   문장의 욕설 여부를 분류한 데이터 세트    
Toxic Comment Data 네이버 영화 리뷰 데이터의 라벨을 상세화한 데이터 github   윤리 연구를 위해 윤리/비윤리 데이터 코퍼스 구축
1차년도: 뉴스기사 댓글 7,000만 건, 트위터 3,000만 
2차년도: 온라인커뮤니티 (일베저장소) 댓글4,500만건
3차년도: 온라인커뮤니티 (일베저장소) 댓글2,000만건 
webpage  
toxic / obscene / threat / insult / identity_hate 분류  
3i4k 의도분류 학습용 데이터셋 github  
문장에 대해 7가지 클래스 라벨 부여  
논문: https://arxiv.org/pdf/1811.04231.pdf  
korean-hage-speech 한국어 혐오발언 분류 데이터셋 github  
연예 뉴스 댓글에 대한 혐오 / 사회적 편견 유무 라벨 데이터  
 사회적 편견은 성별/ 기타/ 없음 세 가지로 분류  
 9,381건(7,896 / 471 / 974)        

챗봇 데이터 : https://github.com/songys/Chatbot_data

네이버쇼핑, Steam 플랫폼 리뷰 데이터 감성분석(Sentiment Analysis)을 위한 제품 별, 게임 별 별점과 후기를 수집한 데이터셋  
욕설데이터 세트 문장의 욕설 여부를 분류한 데이터 세트  
인공지능 윤리연구를 위한
비정형 텍스트 데이터셋
윤리 연구를 위해 윤리/비윤리 데이터 코퍼스 구축
1차년도: 뉴스기사 댓글 7,000만 건, 트위터 3,000만 
2차년도: 온라인커뮤니티 (일베저장소) 댓글4,500만건
3차년도: 온라인커뮤니티 (일베저장소) 댓글2,000만건 
webpage
AI OCR  한글 OCR 데이터셋 http://101.101.175.217:8080/page/main

 

반응형

댓글