본문 바로가기

-------------코딩-------------/데이터 목록

한국어 자연어 데이터 목록

by 탶선 2022. 4. 7.

자연어 데이터 수집방법.xlsx

유사도 판별
이름	설명	링크
KorNLI	두 문장의 관계를 entailment/neutral/contradiction 으로 분류	github
	학습/ 검증/ 테스트 데이터로 분리되어 있음.
KoSTS	두 문장의 유사도 점수를 라벨링한 데이터	github
	학습/ 검증/ 테스트 데이터로 분리되어 있음.
Question pair	두 개의 질문이 같은 질문인지 아닌지 레이블링한 데이터	github
	학습 6,888건 / 테스트 688건 제공
ParaKQC	10개의 비슷한 문장에 대한 1,000개의 집합으로 구성	github
	문장 유사도 데이터 494,500건 생성 가능
	패러프래이징 데이터 45,000건 생성 가능
PAWS-X	유사문장탐지(Paraphrase detection) (ko, fr, es, de, zh, ja) (5K / 2K / 2K (p)

자연어 질의응답 (기계독해 / MRC)
이름	설명	링크
KorQuAD 1.0	한국어 기계독해를 위한 표준 데이터셋	webpage
	리더보드 운영중
KorQuAD 2.0	구조를 가진 HTML 문서에 대한 기계 독해 데이터셋	webpage
	리더보드 운영중
AI HUB 기계독해	한국어 기계독해를 위한 데이터셋	webpage
	SQuAD1.0 / 2.0(noanswer) 타입의 데이터 제공
	질문 답변과 답변을 선택한 단서 제공

분류 분석 (감성분석/ 의도분류)
이름	설명	링크		설명
네이버 영화 리뷰	네이버 영화 리뷰 데이터에 대한 긍/부정 라벨 데이터	github		감성분석(Sentiment Analysis)을 위한 제품 별, 게임 별 별점과 후기를 수집한 데이터셋
	학습 15만건 / 테스트 5만건			문장의 욕설 여부를 분류한 데이터 세트
Toxic Comment Data	네이버 영화 리뷰 데이터의 라벨을 상세화한 데이터	github		윤리 연구를 위해 윤리/비윤리 데이터 코퍼스 구축 1차년도: 뉴스기사 댓글 7,000만 건, 트위터 3,000만 건 2차년도: 온라인커뮤니티 (일베저장소) 댓글4,500만건 3차년도: 온라인커뮤니티 (일베저장소) 댓글2,000만건	webpage
	toxic / obscene / threat / insult / identity_hate 분류
3i4k	의도분류 학습용 데이터셋	github
	문장에 대해 7가지 클래스 라벨 부여
	논문: https://arxiv.org/pdf/1811.04231.pdf
korean-hage-speech	한국어 혐오발언 분류 데이터셋	github
	연예 뉴스 댓글에 대한 혐오 / 사회적 편견 유무 라벨 데이터
	사회적 편견은 성별/ 기타/ 없음 세 가지로 분류
	9,381건(7,896 / 471 / 974)

챗봇 데이터 : https://github.com/songys/Chatbot_data

네이버쇼핑, Steam 플랫폼 리뷰 데이터	감성분석(Sentiment Analysis)을 위한 제품 별, 게임 별 별점과 후기를 수집한 데이터셋
욕설데이터 세트	문장의 욕설 여부를 분류한 데이터 세트
인공지능 윤리연구를 위한 비정형 텍스트 데이터셋	윤리 연구를 위해 윤리/비윤리 데이터 코퍼스 구축 1차년도: 뉴스기사 댓글 7,000만 건, 트위터 3,000만 건 2차년도: 온라인커뮤니티 (일베저장소) 댓글4,500만건 3차년도: 온라인커뮤니티 (일베저장소) 댓글2,000만건	webpage
AI OCR	한글 OCR 데이터셋	http://101.101.175.217:8080/page/main

저작자표시 비영리 변경금지

'-------------코딩------------- > 데이터 목록' 카테고리의 다른 글

성인물 탐지용 데이터셋 목록 (2)	2023.01.11

댓글

티스토리툴바