아래는 한국어 기반 데이터셋을 얻을 수 있는 100개의 사이트를 정리한 목록입니다. 도메인별로 분류하여 각 사이트의 주요 특징과 활용 방안도 함께 설명했습니다. 이 목록은 자연어 처리, 음성 인식, 이미지 분석, 번역, 금융, 공공 데이터 등 다양한 연구와 학습에 활용 가능합니다.
- 데이터셋을 활용하기 전 라이선스 및 사용 조건을 반드시 확인하세요.
1. 한국어 자연어 처리 데이터셋 사이트 (30개)
자연어 처리(NLP) 및 언어 모델 연구에 유용한 데이터셋들입니다.
- AI Hub
- 특징: 한국 정보화진흥원에서 제공하는 공공 데이터셋 허브.
- 활용: 텍스트, 음성, 이미지 데이터셋.
- KLUE
- 특징: 한국어 자연어 이해 태스크를 위한 벤치마크 데이터셋.
- 활용: 감정 분석, NER, 질의응답.
- 한국어 위키백과 덤프
- 특징: 한국어 위키백과의 텍스트 데이터를 다운로드 가능.
- 활용: 언어 모델 학습.
- NSMC (Naver Sentiment Movie Corpus)
- 특징: 네이버 영화 리뷰 감정 분석 데이터셋.
- 활용: 감정 분석 모델 학습.
- 모두의 말뭉치
- 특징: 국립국어원이 제공하는 대규모 한국어 말뭉치 데이터셋.
- 활용: 언어 모델 학습, 형태소 분석.
- Korpora
- 특징: 다양한 한국어 NLP 데이터셋을 포함한 Python 라이브러리.
- 활용: 한국어 텍스트 전처리, 분석.
- KorQuAD
- 특징: 한국어 질의응답 태스크를 위한 데이터셋.
- 활용: QA 시스템 학습.
- Hugging Face Datasets
- 특징: 한국어 NLP 연구에 필요한 다양한 데이터셋.
- 활용: 감정 분석, 번역, 텍스트 생성.
- ETRI Open API
- 특징: 한국전자통신연구원에서 제공하는 한국어 데이터 API.
- 활용: 기계 번역, 음성 인식.
- KoBERT Pretrained Data
- 특징: SKT에서 제공하는 한국어 BERT 사전 학습 데이터.
- 활용: 자연어 이해, 텍스트 생성.
- AI Factory
- 특징: 다양한 도메인별 한국어 데이터셋 제공.
- 활용: 텍스트, 음성, 이미지 분석.
- 한국법률정보원
- 특징: 법률 및 판례 데이터를 제공.
- 활용: 법률 문서 분류, 법적 텍스트 분석.
- KoGPT
- 특징: 카카오브레인이 제공하는 한국어 GPT 모델 학습 데이터.
- 활용: 텍스트 요약, 생성.
- XLM-R Korean Dataset
- 특징: 페이스북의 다국어 데이터셋에 포함된 한국어 데이터.
- 활용: 다국어 모델 학습.
- TUNIB Dataset
- 특징: TUNIB에서 제공하는 한국어 자연어 처리 데이터셋.
- 활용: 감정 분석, 대화 모델 학습.
- 네이버 뉴스 말뭉치
- 특징: 네이버 뉴스 기사를 포함한 텍스트 데이터셋.
- 활용: 뉴스 분류, 주제 분석.
- Riss 한국어 논문 데이터
- 특징: 한국어 학술 논문 데이터.
- 활용: 주제 분류, 요약.
- Yoon’s NLP Dataset
- 특징: 한국어와 영어 병렬 말뭉치 데이터.
- 활용: 기계 번역.
- Korean Parallel Corpus
- 특징: 한국어와 다국어 병렬 텍스트 데이터셋.
- 활용: 번역 모델 학습.
- NAVER Sentiment
- 특징: 네이버 플랫폼 데이터를 활용한 감정 분석 데이터.
- 활용: 텍스트 감정 분석.
- AI Hub 대화 데이터
- 특징: 한국어 대화 데이터셋.
- 활용: 챗봇 및 대화 모델.
- Google Korean Dataset
- 특징: 구글 데이터셋 검색을 통해 한국어 데이터셋 검색 가능.
- 활용: 텍스트 분석.
- 한국콘텐츠진흥원 데이터
- 특징: 한국 드라마, 예능 대본 데이터.
- 활용: 텍스트 분석, 감정 연구.
- 한국어 정규화 데이터
- 특징: 정제되지 않은 한국어 텍스트를 정규화하기 위한 데이터셋.
- 활용: 텍스트 정제, 정규화.
- OpenSubtitles 한국어
- 특징: 영화 자막 기반의 병렬 텍스트 데이터셋.
- 활용: 번역 모델 학습.
- 한국어 성적 발언 데이터셋
- 특징: 한국어 감정 및 민감 텍스트 분석용 데이터.
- 활용: 욕설 및 유해 콘텐츠 필터링.
- KAIST 언어 데이터
- 특징: 다양한 도메인의 한국어 말뭉치.
- 활용: 형태소 분석, 언어 모델.
- GloVe for Korean
- 특징: 한국어 단어 벡터 임베딩 데이터셋.
- 활용: 단어 의미 분석.
- 한국어 이메일 데이터셋
- 특징: 이메일 분류 및 스팸 필터링 데이터.
- 활용: 스팸 탐지 연구.
- NIA 한국어 데이터
- 특징: 한국정보화진흥원의 다양한 한국어 데이터셋.
- 활용: 언어 모델, 번역.
2. 한국어 음성 및 음향 데이터셋 사이트 (20개)
음성 인식, 음성 합성(TTS), 대화형 AI에 활용되는 데이터셋입니다.
- Korean Common Voice
- Zeroth Speech
- KSS Dataset
- 서울말 데이터셋
- KAIST Multimodal Dataset
- OpenSLR 한국어 음성
- ETRI Speech Dataset
- AI Hub 음성 데이터
- Korean TED-LIUM
- MINDs Lab Dataset
- 국립국어원 음성 말뭉치
- 네이버 클로바 음성 데이터
- NIA 음성 데이터
- Korean TTS Corpus
- 카카오브레인 음성 데이터
- Korean Speech-to-Text (STT)
- OpenAI Whisper 한국어 데이터
- Korean Phonetic Dataset
- 삼성 음성 데이터
- Korean Accent Dataset
3. 한국어 이미지 및 비전 데이터셋 사이트 (20개)
컴퓨터 비전, 이미지 분류, 객체 탐지 및 세그멘테이션 연구에 활용.
- AI Hub 이미지 데이터
- 특징: 의료, 교통, 제조, 농업 등 다양한 도메인의 한국어 기반 이미지 데이터 제공.
- 활용: 객체 검출, 이미지 분류.
- KAIST Traffic Dataset
- 특징: 한국 도로 환경의 교통 및 자율주행용 데이터셋.
- 활용: 자율주행 차량 연구.
- DeepFashion2 (Korean Fashion)
- 특징: 한국 패션 이미지 데이터셋.
- 활용: 의류 분류 및 추천.
- Korean License Plate Dataset
- 특징: 한국 차량 번호판 이미지 데이터셋.
- 활용: 번호판 인식.
- 서울시 CCTV 객체 데이터
- 특징: 서울시 CCTV 영상에서 추출한 객체 데이터.
- 활용: 객체 탐지 및 추적.
- ETRI Vision Dataset
- 특징: 다양한 비전 태스크용 이미지 데이터셋.
- 활용: 객체 검출, 이미지 세그멘테이션.
- Korean Face Dataset
- 특징: 한국인 얼굴 데이터셋.
- 활용: 얼굴 인식 모델.
- Korean Sign Language Dataset
- 특징: 한국어 수어 이미지와 영상 데이터셋.
- 활용: 수어 인식.
- Elice Vision Dataset
- 특징: 한국 사용자 데이터 기반의 이미지 데이터셋.
- 활용: 이미지 분류, 캡셔닝.
- KISTI Machine Vision Dataset
- 특징: 한국과학기술정보연구원에서 제공하는 산업용 비전 데이터셋.
- 활용: 제조 및 검사 자동화.
- 농업 이미지 데이터
- 특징: 한국 농업 환경에서 촬영된 농작물 및 병해충 이미지.
- 활용: 작물 질병 분석.
- Naver Labs Image Dataset
- 특징: 실내 지도 제작과 관련된 공간 인식 이미지 데이터셋.
- 활용: SLAM(동시 위치 및 지도 작성).
- Korean Art Dataset
- 특징: 한국 미술 작품의 이미지 데이터셋.
- 활용: 문화유산 분석.
- Korea Forest Dataset
- 특징: 산림 및 자연 환경 관련 이미지.
- 활용: 생태 분석.
- Cityscapes Korean Dataset
- 특징: 도시 환경에서의 객체 검출 및 세그멘테이션 데이터셋.
- 활용: 자율주행 연구.
- 한글 이미지 데이터
- 특징: 한글 문자를 포함한 이미지 데이터셋.
- 활용: OCR(문자인식).
- 한국 전통 건축 이미지
- 특징: 전통 건축물 이미지 데이터셋.
- 활용: 건축 분석 및 복원.
- 국토교통부 공간 데이터
- 특징: 한국 지도 및 공간 데이터셋.
- 활용: GIS 연구.
- 산업 안전 이미지 데이터
- 특징: 산업 현장에서의 안전 장비 및 상황 이미지.
- 활용: 산업 안전 연구.
- 환경부 생태 데이터
- 특징: 한국 생태 환경 및 야생 동물 이미지.
- 활용: 환경 연구.
4. 한국어 금융 및 시계열 데이터셋 사이트 (10개)
금융, 경제, 시간 기반 데이터 분석을 위한 데이터셋.
- 한국은행 경제 데이터 (ECOS)
- 특징: 한국은행이 제공하는 경제 및 금융 시계열 데이터.
- 활용: 경제 예측, 시계열 분석.
- 한국거래소 (KRX)
- 특징: 주식 및 금융 데이터셋 제공.
- 활용: 금융 모델 학습.
- 통계청 경제 데이터 (KOSIS)
- 특징: 인구, 경제, 환경 등 통계 데이터를 제공.
- 활용: 데이터 분석, 예측 모델.
- 한국 주택 금융 공사
- 특징: 부동산 관련 금융 데이터.
- 활용: 주택 시장 분석.
- 금융보안원 데이터
- 특징: 금융 보안 및 사이버 보안 관련 데이터셋.
- 활용: 보안 알고리즘 연구.
- 한국증권금융
- 특징: 한국 증권 대출 및 금융 데이터.
- 활용: 금융 분석.
- 네이버 금융 데이터
- 특징: 실시간 주식 및 금융 데이터 제공.
- 활용: 주식 예측 모델.
- 카카오페이 데이터
- 특징: 결제 및 소비 패턴 분석 데이터.
- 활용: 소비자 행동 분석.
- SK플래닛 시계열 데이터
- 특징: 사용자 구매 및 행동 데이터.
- 활용: 추천 시스템.
- 신한카드 데이터
- 특징: 한국 소비 트렌드 데이터셋.
- 활용: 소비자 분석.
5. 한국 공공 및 기타 데이터셋 사이트 (20개)
공공 데이터와 특정 도메인에 특화된 데이터셋.
- 서울시 공공 데이터
- 특징: 서울시 전반에 걸친 데이터셋 제공.
- 활용: 도시 분석.
- 경기도 공공 데이터
- 특징: 경기도 내 다양한 행정 데이터셋.
- 활용: 지역 데이터 분석.
- 전자정부 데이터
- 특징: 다양한 공공 데이터를 모아둔 플랫폼.
- 활용: 전반적인 AI 연구.
- 농촌진흥청 데이터
- 특징: 농업과 관련된 데이터셋.
- 활용: 작물 분석.
- 기상청 데이터
- 특징: 날씨와 기후 데이터 제공.
- 활용: 기후 변화 연구.
- 한국교통안전공단
- 특징: 교통 및 자동차 관련 데이터셋.
- 활용: 자율주행 연구.
- 국립중앙도서관 데이터
- 특징: 한국 출판물 및 도서 데이터셋.
- 활용: 문서 분류.
- 문화재청 데이터
- 특징: 한국 문화재 관련 데이터셋.
- 활용: 역사 및 문화 분석.
- 코레일 데이터
- 특징: 철도 및 열차 관련 데이터셋.
- 활용: 교통 최적화.
- 한국소비자원 데이터
- 특징: 소비자 불만 및 만족도 데이터.
- 활용: 서비스 개선 연구.
- 한국해양수산부
- 특징: 해양 및 수산 데이터셋.
- 활용: 해양 환경 분석.
- 한국도로공사 데이터
- 특징: 고속도로 및 교통 흐름 데이터.
- 활용: 교통 모델링.
- 대한항공 데이터
- 특징: 항공 및 물류 관련 데이터셋.
- 활용: 물류 최적화.
- 한국교육과정평가원
- 특징: 학업 성취도 및 교육 데이터.
- 활용: 교육 정책 연구.
- 국방부 데이터
- 특징: 국방 관련 데이터셋.
- 활용: 안보 분석.
- 환경부 데이터
- 특징: 환경 관련 공공 데이터셋.
- 활용: 지속 가능한 개발 연구.
- 한국문화관광연구원
- 특징: 문화 및 관광 관련 데이터셋.
- 활용: 관광 분석.
- 소방청 데이터
- 특징: 화재 및 응급 상황 데이터.
- 활용: 응급 관리 연구.
- 한국에너지공단
- 특징: 에너지 소비 및 효율 데이터셋.
- 활용: 에너지 최적화.
- 한국보건의료연구원
– 특징: 보건 및 의료 데이터셋.
– 활용: 헬스케어 연구.
정리 및 활용 팁:
- 각 데이터셋은 도메인별 연구 목적에 맞게 활용 가능합니다.
- 데이터셋을 활용하기 전 라이선스 및 사용 조건을 반드시 확인하세요.
- 특정 데이터셋에 대해 추가 정보나 사용 방법이 필요하면 말씀해 주세요!