반응형
유사도 판별 | |||||||
이름 | 설명 | 링크 | |||||
KorNLI | 두 문장의 관계를 entailment/neutral/contradiction 으로 분류 | github | |||||
학습/ 검증/ 테스트 데이터로 분리되어 있음. | |||||||
KoSTS | 두 문장의 유사도 점수를 라벨링한 데이터 | github | |||||
학습/ 검증/ 테스트 데이터로 분리되어 있음. | |||||||
Question pair | 두 개의 질문이 같은 질문인지 아닌지 레이블링한 데이터 | github | |||||
학습 6,888건 / 테스트 688건 제공 | |||||||
ParaKQC | 10개의 비슷한 문장에 대한 1,000개의 집합으로 구성 | github | |||||
문장 유사도 데이터 494,500건 생성 가능 | |||||||
패러프래이징 데이터 45,000건 생성 가능 | |||||||
PAWS-X | 유사문장탐지(Paraphrase detection) (ko, fr, es, de, zh, ja) (5K / 2K / 2K (p) |
자연어 질의응답 (기계독해 / MRC) | |||||||
이름 | 설명 | 링크 | |||||
KorQuAD 1.0 | 한국어 기계독해를 위한 표준 데이터셋 | webpage | |||||
리더보드 운영중 | |||||||
KorQuAD 2.0 | 구조를 가진 HTML 문서에 대한 기계 독해 데이터셋 | webpage | |||||
리더보드 운영중 | |||||||
AI HUB 기계독해 | 한국어 기계독해를 위한 데이터셋 | webpage | |||||
SQuAD1.0 / 2.0(noanswer) 타입의 데이터 제공 | |||||||
질문 답변과 답변을 선택한 단서 제공 |
분류 분석 (감성분석/ 의도분류) | ||||||
이름 | 설명 | 링크 | 설명 | |||
네이버 영화 리뷰 | 네이버 영화 리뷰 데이터에 대한 긍/부정 라벨 데이터 | github | 감성분석(Sentiment Analysis)을 위한 제품 별, 게임 별 별점과 후기를 수집한 데이터셋 | |||
학습 15만건 / 테스트 5만건 | 문장의 욕설 여부를 분류한 데이터 세트 | |||||
Toxic Comment Data | 네이버 영화 리뷰 데이터의 라벨을 상세화한 데이터 | github | 윤리 연구를 위해 윤리/비윤리 데이터 코퍼스 구축 1차년도: 뉴스기사 댓글 7,000만 건, 트위터 3,000만 건 2차년도: 온라인커뮤니티 (일베저장소) 댓글4,500만건 3차년도: 온라인커뮤니티 (일베저장소) 댓글2,000만건 |
webpage | ||
toxic / obscene / threat / insult / identity_hate 분류 | ||||||
3i4k | 의도분류 학습용 데이터셋 | github | ||||
문장에 대해 7가지 클래스 라벨 부여 | ||||||
논문: https://arxiv.org/pdf/1811.04231.pdf | ||||||
korean-hage-speech | 한국어 혐오발언 분류 데이터셋 | github | ||||
연예 뉴스 댓글에 대한 혐오 / 사회적 편견 유무 라벨 데이터 | ||||||
사회적 편견은 성별/ 기타/ 없음 세 가지로 분류 | ||||||
9,381건(7,896 / 471 / 974) |
챗봇 데이터 : https://github.com/songys/Chatbot_data
네이버쇼핑, Steam 플랫폼 리뷰 데이터 | 감성분석(Sentiment Analysis)을 위한 제품 별, 게임 별 별점과 후기를 수집한 데이터셋 | |
욕설데이터 세트 | 문장의 욕설 여부를 분류한 데이터 세트 | |
인공지능 윤리연구를 위한 비정형 텍스트 데이터셋 |
윤리 연구를 위해 윤리/비윤리 데이터 코퍼스 구축 1차년도: 뉴스기사 댓글 7,000만 건, 트위터 3,000만 건 2차년도: 온라인커뮤니티 (일베저장소) 댓글4,500만건 3차년도: 온라인커뮤니티 (일베저장소) 댓글2,000만건 |
webpage |
AI OCR | 한글 OCR 데이터셋 | http://101.101.175.217:8080/page/main |
반응형
'-------------코딩------------- > 데이터 목록' 카테고리의 다른 글
성인물 탐지용 데이터셋 목록 (2) | 2023.01.11 |
---|
댓글