AI 학습용 데이터 세트(DATA SET) #2 (한국어 기반 )

아래는 한국어 기반 데이터셋을 얻을 수 있는 100개의 사이트를 정리한 목록입니다. 도메인별로 분류하여 각 사이트의 주요 특징과 활용 방안도 함께 설명했습니다. 이 목록은 자연어 처리, 음성 인식, 이미지 분석, 번역, 금융, 공공 데이터 등 다양한 연구와 학습에 활용 가능합니다.

  • 데이터셋을 활용하기 전 라이선스 및 사용 조건을 반드시 확인하세요.

1. 한국어 자연어 처리 데이터셋 사이트 (30개)

자연어 처리(NLP) 및 언어 모델 연구에 유용한 데이터셋들입니다.

  1. AI Hub
    • 특징: 한국 정보화진흥원에서 제공하는 공공 데이터셋 허브.
    • 활용: 텍스트, 음성, 이미지 데이터셋.
  2. KLUE
    • 특징: 한국어 자연어 이해 태스크를 위한 벤치마크 데이터셋.
    • 활용: 감정 분석, NER, 질의응답.
  3. 한국어 위키백과 덤프
    • 특징: 한국어 위키백과의 텍스트 데이터를 다운로드 가능.
    • 활용: 언어 모델 학습.
  4. NSMC (Naver Sentiment Movie Corpus)
    • 특징: 네이버 영화 리뷰 감정 분석 데이터셋.
    • 활용: 감정 분석 모델 학습.
  5. 모두의 말뭉치
    • 특징: 국립국어원이 제공하는 대규모 한국어 말뭉치 데이터셋.
    • 활용: 언어 모델 학습, 형태소 분석.
  6. Korpora
    • 특징: 다양한 한국어 NLP 데이터셋을 포함한 Python 라이브러리.
    • 활용: 한국어 텍스트 전처리, 분석.
  7. KorQuAD
    • 특징: 한국어 질의응답 태스크를 위한 데이터셋.
    • 활용: QA 시스템 학습.
  8. Hugging Face Datasets
    • 특징: 한국어 NLP 연구에 필요한 다양한 데이터셋.
    • 활용: 감정 분석, 번역, 텍스트 생성.
  9. ETRI Open API
    • 특징: 한국전자통신연구원에서 제공하는 한국어 데이터 API.
    • 활용: 기계 번역, 음성 인식.
  10. KoBERT Pretrained Data
    • 특징: SKT에서 제공하는 한국어 BERT 사전 학습 데이터.
    • 활용: 자연어 이해, 텍스트 생성.
  11. AI Factory
    • 특징: 다양한 도메인별 한국어 데이터셋 제공.
    • 활용: 텍스트, 음성, 이미지 분석.
  12. 한국법률정보원
    • 특징: 법률 및 판례 데이터를 제공.
    • 활용: 법률 문서 분류, 법적 텍스트 분석.
  13. KoGPT
    • 특징: 카카오브레인이 제공하는 한국어 GPT 모델 학습 데이터.
    • 활용: 텍스트 요약, 생성.
  14. XLM-R Korean Dataset
    • 특징: 페이스북의 다국어 데이터셋에 포함된 한국어 데이터.
    • 활용: 다국어 모델 학습.
  15. TUNIB Dataset
    • 특징: TUNIB에서 제공하는 한국어 자연어 처리 데이터셋.
    • 활용: 감정 분석, 대화 모델 학습.
  16. 네이버 뉴스 말뭉치
    • 특징: 네이버 뉴스 기사를 포함한 텍스트 데이터셋.
    • 활용: 뉴스 분류, 주제 분석.
  17. Riss 한국어 논문 데이터
    • 특징: 한국어 학술 논문 데이터.
    • 활용: 주제 분류, 요약.
  18. Yoon’s NLP Dataset
    • 특징: 한국어와 영어 병렬 말뭉치 데이터.
    • 활용: 기계 번역.
  19. Korean Parallel Corpus
    • 특징: 한국어와 다국어 병렬 텍스트 데이터셋.
    • 활용: 번역 모델 학습.
  20. NAVER Sentiment
    • 특징: 네이버 플랫폼 데이터를 활용한 감정 분석 데이터.
    • 활용: 텍스트 감정 분석.
  21. AI Hub 대화 데이터
    • 특징: 한국어 대화 데이터셋.
    • 활용: 챗봇 및 대화 모델.
  22. Google Korean Dataset
    • 특징: 구글 데이터셋 검색을 통해 한국어 데이터셋 검색 가능.
    • 활용: 텍스트 분석.
  23. 한국콘텐츠진흥원 데이터
    • 특징: 한국 드라마, 예능 대본 데이터.
    • 활용: 텍스트 분석, 감정 연구.
  24. 한국어 정규화 데이터
    • 특징: 정제되지 않은 한국어 텍스트를 정규화하기 위한 데이터셋.
    • 활용: 텍스트 정제, 정규화.
  25. OpenSubtitles 한국어
    • 특징: 영화 자막 기반의 병렬 텍스트 데이터셋.
    • 활용: 번역 모델 학습.
  26. 한국어 성적 발언 데이터셋
    • 특징: 한국어 감정 및 민감 텍스트 분석용 데이터.
    • 활용: 욕설 및 유해 콘텐츠 필터링.
  27. KAIST 언어 데이터
    • 특징: 다양한 도메인의 한국어 말뭉치.
    • 활용: 형태소 분석, 언어 모델.
  28. GloVe for Korean
    • 특징: 한국어 단어 벡터 임베딩 데이터셋.
    • 활용: 단어 의미 분석.
  29. 한국어 이메일 데이터셋
    • 특징: 이메일 분류 및 스팸 필터링 데이터.
    • 활용: 스팸 탐지 연구.
  30. NIA 한국어 데이터
    • 특징: 한국정보화진흥원의 다양한 한국어 데이터셋.
    • 활용: 언어 모델, 번역.

2. 한국어 음성 및 음향 데이터셋 사이트 (20개)

음성 인식, 음성 합성(TTS), 대화형 AI에 활용되는 데이터셋입니다.

  1. Korean Common Voice
  2. Zeroth Speech
  3. KSS Dataset
  4. 서울말 데이터셋
  5. KAIST Multimodal Dataset
  6. OpenSLR 한국어 음성
  7. ETRI Speech Dataset
  8. AI Hub 음성 데이터
  9. Korean TED-LIUM
  10. MINDs Lab Dataset
  11. 국립국어원 음성 말뭉치
  12. 네이버 클로바 음성 데이터
  13. NIA 음성 데이터
  14. Korean TTS Corpus
  15. 카카오브레인 음성 데이터
  16. Korean Speech-to-Text (STT)
  17. OpenAI Whisper 한국어 데이터
  18. Korean Phonetic Dataset
  19. 삼성 음성 데이터
  20. Korean Accent Dataset

3. 한국어 이미지 및 비전 데이터셋 사이트 (20개)

컴퓨터 비전, 이미지 분류, 객체 탐지 및 세그멘테이션 연구에 활용.

  1. AI Hub 이미지 데이터
    • 특징: 의료, 교통, 제조, 농업 등 다양한 도메인의 한국어 기반 이미지 데이터 제공.
    • 활용: 객체 검출, 이미지 분류.
  2. KAIST Traffic Dataset
    • 특징: 한국 도로 환경의 교통 및 자율주행용 데이터셋.
    • 활용: 자율주행 차량 연구.
  3. DeepFashion2 (Korean Fashion)
    • 특징: 한국 패션 이미지 데이터셋.
    • 활용: 의류 분류 및 추천.
  4. Korean License Plate Dataset
    • 특징: 한국 차량 번호판 이미지 데이터셋.
    • 활용: 번호판 인식.
  5. 서울시 CCTV 객체 데이터
    • 특징: 서울시 CCTV 영상에서 추출한 객체 데이터.
    • 활용: 객체 탐지 및 추적.
  6. ETRI Vision Dataset
    • 특징: 다양한 비전 태스크용 이미지 데이터셋.
    • 활용: 객체 검출, 이미지 세그멘테이션.
  7. Korean Face Dataset
    • 특징: 한국인 얼굴 데이터셋.
    • 활용: 얼굴 인식 모델.
  8. Korean Sign Language Dataset
    • 특징: 한국어 수어 이미지와 영상 데이터셋.
    • 활용: 수어 인식.
  9. Elice Vision Dataset
    • 특징: 한국 사용자 데이터 기반의 이미지 데이터셋.
    • 활용: 이미지 분류, 캡셔닝.
  10. KISTI Machine Vision Dataset
    • 특징: 한국과학기술정보연구원에서 제공하는 산업용 비전 데이터셋.
    • 활용: 제조 및 검사 자동화.
  11. 농업 이미지 데이터
    • 특징: 한국 농업 환경에서 촬영된 농작물 및 병해충 이미지.
    • 활용: 작물 질병 분석.
  12. Naver Labs Image Dataset
    • 특징: 실내 지도 제작과 관련된 공간 인식 이미지 데이터셋.
    • 활용: SLAM(동시 위치 및 지도 작성).
  13. Korean Art Dataset
    • 특징: 한국 미술 작품의 이미지 데이터셋.
    • 활용: 문화유산 분석.
  14. Korea Forest Dataset
    • 특징: 산림 및 자연 환경 관련 이미지.
    • 활용: 생태 분석.
  15. Cityscapes Korean Dataset
    • 특징: 도시 환경에서의 객체 검출 및 세그멘테이션 데이터셋.
    • 활용: 자율주행 연구.
  16. 한글 이미지 데이터
    • 특징: 한글 문자를 포함한 이미지 데이터셋.
    • 활용: OCR(문자인식).
  17. 한국 전통 건축 이미지
    • 특징: 전통 건축물 이미지 데이터셋.
    • 활용: 건축 분석 및 복원.
  18. 국토교통부 공간 데이터
    • 특징: 한국 지도 및 공간 데이터셋.
    • 활용: GIS 연구.
  19. 산업 안전 이미지 데이터
    • 특징: 산업 현장에서의 안전 장비 및 상황 이미지.
    • 활용: 산업 안전 연구.
  20. 환경부 생태 데이터
    • 특징: 한국 생태 환경 및 야생 동물 이미지.
    • 활용: 환경 연구.

4. 한국어 금융 및 시계열 데이터셋 사이트 (10개)

금융, 경제, 시간 기반 데이터 분석을 위한 데이터셋.

  1. 한국은행 경제 데이터 (ECOS)
    • 특징: 한국은행이 제공하는 경제 및 금융 시계열 데이터.
    • 활용: 경제 예측, 시계열 분석.
  2. 한국거래소 (KRX)
    • 특징: 주식 및 금융 데이터셋 제공.
    • 활용: 금융 모델 학습.
  3. 통계청 경제 데이터 (KOSIS)
    • 특징: 인구, 경제, 환경 등 통계 데이터를 제공.
    • 활용: 데이터 분석, 예측 모델.
  4. 한국 주택 금융 공사
    • 특징: 부동산 관련 금융 데이터.
    • 활용: 주택 시장 분석.
  5. 금융보안원 데이터
    • 특징: 금융 보안 및 사이버 보안 관련 데이터셋.
    • 활용: 보안 알고리즘 연구.
  6. 한국증권금융
    • 특징: 한국 증권 대출 및 금융 데이터.
    • 활용: 금융 분석.
  7. 네이버 금융 데이터
    • 특징: 실시간 주식 및 금융 데이터 제공.
    • 활용: 주식 예측 모델.
  8. 카카오페이 데이터
    • 특징: 결제 및 소비 패턴 분석 데이터.
    • 활용: 소비자 행동 분석.
  9. SK플래닛 시계열 데이터
    • 특징: 사용자 구매 및 행동 데이터.
    • 활용: 추천 시스템.
  10. 신한카드 데이터
    • 특징: 한국 소비 트렌드 데이터셋.
    • 활용: 소비자 분석.

5. 한국 공공 및 기타 데이터셋 사이트 (20개)

공공 데이터와 특정 도메인에 특화된 데이터셋.

  1. 서울시 공공 데이터
    • 특징: 서울시 전반에 걸친 데이터셋 제공.
    • 활용: 도시 분석.
  2. 경기도 공공 데이터
    • 특징: 경기도 내 다양한 행정 데이터셋.
    • 활용: 지역 데이터 분석.
  3. 전자정부 데이터
    • 특징: 다양한 공공 데이터를 모아둔 플랫폼.
    • 활용: 전반적인 AI 연구.
  4. 농촌진흥청 데이터
    • 특징: 농업과 관련된 데이터셋.
    • 활용: 작물 분석.
  5. 기상청 데이터
    • 특징: 날씨와 기후 데이터 제공.
    • 활용: 기후 변화 연구.
  6. 한국교통안전공단
    • 특징: 교통 및 자동차 관련 데이터셋.
    • 활용: 자율주행 연구.
  7. 국립중앙도서관 데이터
    • 특징: 한국 출판물 및 도서 데이터셋.
    • 활용: 문서 분류.
  8. 문화재청 데이터
    • 특징: 한국 문화재 관련 데이터셋.
    • 활용: 역사 및 문화 분석.
  9. 코레일 데이터
    • 특징: 철도 및 열차 관련 데이터셋.
    • 활용: 교통 최적화.
  10. 한국소비자원 데이터
    • 특징: 소비자 불만 및 만족도 데이터.
    • 활용: 서비스 개선 연구.
  11. 한국해양수산부
    • 특징: 해양 및 수산 데이터셋.
    • 활용: 해양 환경 분석.
  12. 한국도로공사 데이터
    • 특징: 고속도로 및 교통 흐름 데이터.
    • 활용: 교통 모델링.
  13. 대한항공 데이터
    • 특징: 항공 및 물류 관련 데이터셋.
    • 활용: 물류 최적화.
  14. 한국교육과정평가원
    • 특징: 학업 성취도 및 교육 데이터.
    • 활용: 교육 정책 연구.
  15. 국방부 데이터
    • 특징: 국방 관련 데이터셋.
    • 활용: 안보 분석.
  16. 환경부 데이터
    • 특징: 환경 관련 공공 데이터셋.
    • 활용: 지속 가능한 개발 연구.
  17. 한국문화관광연구원
    • 특징: 문화 및 관광 관련 데이터셋.
    • 활용: 관광 분석.
  18. 소방청 데이터
    • 특징: 화재 및 응급 상황 데이터.
    • 활용: 응급 관리 연구.
  19. 한국에너지공단
    • 특징: 에너지 소비 및 효율 데이터셋.
    • 활용: 에너지 최적화.
  20. 한국보건의료연구원
    – 특징: 보건 및 의료 데이터셋.
    – 활용: 헬스케어 연구.

정리 및 활용 팁:

  • 각 데이터셋은 도메인별 연구 목적에 맞게 활용 가능합니다.
  • 데이터셋을 활용하기 전 라이선스 및 사용 조건을 반드시 확인하세요.
  • 특정 데이터셋에 대해 추가 정보나 사용 방법이 필요하면 말씀해 주세요!