일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 맛집
- 부스트클래스
- Python
- spark
- 데이터 시각화
- AI tech
- AI Tech 준비과정
- NLP
- pycharm
- 연남 맛집
- 부스트캠프 ai tech 준비과정
- 위기의코딩맨
- TensorFlow
- 연남동 맛집
- RDD
- mllib
- AI 엔지니어 기초 다지기
- tensorflow 예제
- Spark MLlib
- kaggle
- 부스트캠프
- yolo
- 캐글
- r
- 홍대 맛집
- Transformer
- DataSet
- Ai
- 서울 맛집
- 자연어
- Today
- Total
We-Co
[Data] EDA - 데이터의 기본(탐색적 데이터 분석) 본문
안녕하세요. 위기의 코딩맨입니다.
오늘은 EDA에 대해서 간단하게 알아보도록 하겠습니다.
데이터 분야를 개인적으로 공부하면서 제일 중요하다고 생각했던 부분이
데이터와 데이터 사이의 연관성을 파악하고 시각화하고 학습을 진행하는 부분이라 생각했었는데
정확한 용어나 설명 몰랐었는데..!
EDA (Exploratory Data Analysis, 탐색적 데이터 분석) 을 말하는 것이였다!
뭔가 간지러운 부분을 긁는 느낌이였다.
조금 더 이론적으로 설명하면 수집 데이터가 있을 시,
다양한 각도로 관찰하고 분석하는 과정으로 생각하시면 됩니다.
이러한 과정에서 잘못되면 열심히 작업한 시각화나 모델링 작업이 의미 없이 돌아갈 수 있어 아주아주 중요한 과정입니다.
다양한 방식으로 분석하고 연관성을 시각화하는 방법의 지금 듣고있는 교육에서 알려주고 있어 곧 정리해서 포스팅 예정입니다.
Feature마다 sum, max, count 등등 다양한 방식으로 새로운 Feature를 생성하고,
이상치, 결측치를 어떠한 작업으로 채우거나 제거할지 등 다양한 작업을 진행해야합니다.
Feature - 원본 데이터로 도메인 지식등 바탕으로 문제를 해결하는데 도움이 되는 Feature(컬럼)를 생성, 변환하여 모델에 적합한 형식으로 변환하는 작업이며, 타겟 lables의 차이가 심한 것들이 모델에서 사용하기 좋은 Feature, 중요도를 더 자세하게 나타낼수있습니다.
EDA를 잘하기 위해선 경험이 많아야 될 것 같습니다.
처음 데이터 셋을 보고 어떤 Feature를 생성할지, Fearture 중요도를 어떻게 설정할지는
경험을 통해 방향성을 잡을수 있을것 같다는 개인적인 의견입니다..!
경험치를 키우자..!
'기타' 카테고리의 다른 글
[AI] Hello GPT-4o ! - GPT-4o 출시 (1) | 2024.05.14 |
---|---|
[AI] LLM 이란 무엇인가?! - 대형 언어 모델 (0) | 2024.05.09 |
[MySQL]mysqldump - dump file 생성하고 백업 및 복원을 해보자! (1) | 2024.04.17 |
[Docker] docker cp - 컨테이너와 파일을 주고받아보자! (0) | 2024.04.15 |
[Docker] 도커 컨테이너를 복사하고 다른 환경에 적용해보자! (0) | 2024.04.11 |