You are looking for information, articles, knowledge about the topic nail salons open on sunday near me 타이타닉 데이터 on Google, you do not find the information you need! Here are the best content compiled and compiled by the https://chewathai27.com/to team, along with other related topics such as: 타이타닉 데이터 타이타닉 데이터 다운로드, 타이타닉 데이터 분석, 타이타닉 데이터 불러오기, 타이타닉 데이터 csv, 타이타닉 데이터 class, 타이타닉 데이터 deck, 타이타닉 데이터 전처리, 캐글 타이타닉 데이터
타이타닉 데이터 분석(1) | AshHyun
- Article author: ashhyun.github.io
- Reviews from users: 1878 Ratings
- Top rated: 4.8
- Lowest rated: 1
- Summary of article content: Articles about 타이타닉 데이터 분석(1) | AshHyun Titanic 데이터셋은 캐글의 대표적인 데이터셋으로, Kaggle 홈페이지 상으로 무려 20000명 정도가 참여한 유명한 문제입니다! 1. 문제 정의Permalink. …
- Most searched keywords: Whether you are looking for 타이타닉 데이터 분석(1) | AshHyun Titanic 데이터셋은 캐글의 대표적인 데이터셋으로, Kaggle 홈페이지 상으로 무려 20000명 정도가 참여한 유명한 문제입니다! 1. 문제 정의Permalink. [Kaggle] 타이타닉 데이터셋 분석하기데이터과학 공부하는 블로그
- Table of Contents:
Skip links
0 소개
1 문제 정의
2 데이터 불러오기
3 데이터 분석하기
2020 국방오픈소스 아카데미 선발후기
타이타닉 데이터 분석(3)
타이타닉 데이터 분석(2)
훈련 데이터셋 분할하기(1)
Tensorflow-2.1. 타이타닉 데이터 설명
- Article author: gooopy.tistory.com
- Reviews from users: 39779 Ratings
- Top rated: 3.8
- Lowest rated: 1
- Summary of article content: Articles about Tensorflow-2.1. 타이타닉 데이터 설명 이전 포스트에서 캐글에서 타이타닉 데이터를 다운로드하였다. 이번 포스트에서는 타이타닉 데이터를 파이썬으로 불러오고, 데이터가 어떻게 생겼고, … …
- Most searched keywords: Whether you are looking for Tensorflow-2.1. 타이타닉 데이터 설명 이전 포스트에서 캐글에서 타이타닉 데이터를 다운로드하였다. 이번 포스트에서는 타이타닉 데이터를 파이썬으로 불러오고, 데이터가 어떻게 생겼고, … 이전 포스트에서 캐글에서 타이타닉 데이터를 다운로드하였다. 이번 포스트에서는 타이타닉 데이터를 파이썬으로 불러오고, 데이터가 어떻게 생겼고, 어떤 변수가 있는지를 확인해보자. 타이타닉 데이터 가져..데이터 분석을 하기 위한 전반적인 지식들을 담아놓는 곳
- Table of Contents:
Tensorflow-21 타이타닉 데이터 설명
타이타닉 데이터 가져오기
티스토리툴바
캐글 타이타닉 데이터 분석 및 시각화
- Article author: joecho.tistory.com
- Reviews from users: 27691 Ratings
- Top rated: 4.6
- Lowest rated: 1
- Summary of article content: Articles about 캐글 타이타닉 데이터 분석 및 시각화 Kaggle의 타이타닉 경진대회는 실제 발생한 해상사고의 데이터를 기반으로 출제가 되었으며, 해당 경진대회로부터 Machine Learning의 기초적인 이론 및 … …
- Most searched keywords: Whether you are looking for 캐글 타이타닉 데이터 분석 및 시각화 Kaggle의 타이타닉 경진대회는 실제 발생한 해상사고의 데이터를 기반으로 출제가 되었으며, 해당 경진대회로부터 Machine Learning의 기초적인 이론 및 … 안녕하세요. 죠쵸입니다. 오늘부터 본격적으로 Kaggle에서 진행되었던 경진대회의 데이터를 분석해 보고 시각화를 진행해 보도록 하겠습니다. #타이타닉 머신러닝 경진대회 – Competition Overview 가장 먼저 볼..
- Table of Contents:
#타이타닉 머신러닝 경진대회 – Competition Overview
#타이타닉 머신러닌 경진대회 – Competition Data
#타이타닉 머신러닌 경진대회 – Notebooks
태그
관련글
댓글0
공지사항
최근글
인기글
최근댓글
태그
전체 방문자
티스토리툴바
[TITANIC] 타이타닉 생존자 예측 모델
- Article author: yeoulcoding.me
- Reviews from users: 45385 Ratings
- Top rated: 3.5
- Lowest rated: 1
- Summary of article content: Articles about [TITANIC] 타이타닉 생존자 예측 모델 Titanic : National Geographc. 이번 포스팅은 Kaggle에서 제공하는 타이타닉 데이터셋을 가지고 어떤 사람이 타이타닉 침몰 상황에서 살아남을 수 … …
- Most searched keywords: Whether you are looking for [TITANIC] 타이타닉 생존자 예측 모델 Titanic : National Geographc. 이번 포스팅은 Kaggle에서 제공하는 타이타닉 데이터셋을 가지고 어떤 사람이 타이타닉 침몰 상황에서 살아남을 수 … Computer Science Designer. Normal Economist.
- Table of Contents:
[머신러닝] 타이타닉 데이터 분석
- Article author: juzi.tistory.com
- Reviews from users: 28012 Ratings
- Top rated: 4.7
- Lowest rated: 1
- Summary of article content: Articles about [머신러닝] 타이타닉 데이터 분석 타이타닉 탑승객의 데이터를 활용해서 생존자 / 사망자를 예측해보자. kaggle에서 좋은(높은) 점수를 받는 것을 목표로 잡는다. 2. 데이터 수집. kaggle … …
- Most searched keywords: Whether you are looking for [머신러닝] 타이타닉 데이터 분석 타이타닉 탑승객의 데이터를 활용해서 생존자 / 사망자를 예측해보자. kaggle에서 좋은(높은) 점수를 받는 것을 목표로 잡는다. 2. 데이터 수집. kaggle … * [머신러닝] 타이타닉 분석 kaggle: https://www.kaggle.com/c/titanic kaggle에서 제공하는 타이타닉 데이터를 통해 생존자와 사망자를 예측하는 모델 만들기. 모델 생성 후 실제 사망자 데이터와 비교해보기 1…Develop-ing
- Table of Contents:
1 문제정의
2 데이터 수집
3 데이터 전처리
결측치 채우기
4 EDA 탐색적 데이터 분석
캐글 타이타닉 데이터 분석 – 1
- Article author: jfun.tistory.com
- Reviews from users: 16690 Ratings
- Top rated: 4.9
- Lowest rated: 1
- Summary of article content: Articles about 캐글 타이타닉 데이터 분석 – 1 타이타닉 데이터에 대해서 분석을 해보고자 한다. 이 데이터는 데이터 사이언스나 머신러닝을 공부한 사람들은 많이 들어봤을만한 데이터분석 경연 … …
- Most searched keywords: Whether you are looking for 캐글 타이타닉 데이터 분석 – 1 타이타닉 데이터에 대해서 분석을 해보고자 한다. 이 데이터는 데이터 사이언스나 머신러닝을 공부한 사람들은 많이 들어봤을만한 데이터분석 경연 … 타이타닉1 타이타닉 데이터에 대해서 분석을 해보고자 한다. 이 데이터는 데이터 사이언스나 머신러닝을 공부한 사람들은 많이 들어봤을만한 데이터분석 경연 사이트인 캐글(Kaggle)에서 입문자용..
- Table of Contents:
환희는 오늘도 뚠뚠
캐글 타이타닉 데이터 분석 – 1 본문
1 데이터 수집¶
2 탐색적 자료 분석¶
티스토리툴바
Kaggle(캐글) Titanic(타이타닉) 생존자 예측
- Article author: computer-science-student.tistory.com
- Reviews from users: 31888 Ratings
- Top rated: 3.7
- Lowest rated: 1
- Summary of article content: Articles about Kaggle(캐글) Titanic(타이타닉) 생존자 예측 주피터 노트북과 데이터셋을 올려두었다. ▷github 링크◁. Titanic 생존자 예측. 타이타닉 호 침몰 사건 당시의 사망자와 생존자를 … …
- Most searched keywords: Whether you are looking for Kaggle(캐글) Titanic(타이타닉) 생존자 예측 주피터 노트북과 데이터셋을 올려두었다. ▷github 링크◁. Titanic 생존자 예측. 타이타닉 호 침몰 사건 당시의 사망자와 생존자를 … Kaggle의 대표적인 문제 중 하나인 타이타닉 생존자 예측을 Manav Sehgal의 solution을 통해 정리해보았다. github에 Kaggle 타이타닉 생존자 예측 관련 주피터 노트북과 데이터셋을 올려두었다. ▶github 링크◀..
- Table of Contents:
컴공생의 다이어리
Kaggle(캐글) Titanic(타이타닉) 생존자 예측 본문
데이터 전처리
데이터 준비
티스토리툴바
[Titanic] matplotlib을 이용한 타이타닉 데이터 시각화
- Article author: kimdingko-world.tistory.com
- Reviews from users: 31251 Ratings
- Top rated: 4.1
- Lowest rated: 1
- Summary of article content: Articles about [Titanic] matplotlib을 이용한 타이타닉 데이터 시각화 이번 Titanic data 시각화를 통해 사고 당시 어떤 그룹의 생존율이 가장 높았는지를 알아보고 그 속에서 타이타닉 침몰 사건에 대한 인사이트를 얻는 … …
- Most searched keywords: Whether you are looking for [Titanic] matplotlib을 이용한 타이타닉 데이터 시각화 이번 Titanic data 시각화를 통해 사고 당시 어떤 그룹의 생존율이 가장 높았는지를 알아보고 그 속에서 타이타닉 침몰 사건에 대한 인사이트를 얻는 … Titanic Data Visualization : which group have survived?¶ Description¶ 여객선 RMS 타이타닉은 1912년 4월 10일 영국의 사우샘프턴에서 출항해 프랑스의 셸부르와 아일랜드의 퀸즈타운에 기항한 후 미국 뉴욕..AI/RPA Developer
- Table of Contents:
Description¶
Random Forest를 활용한 타이타닉 데이터 분석 | Kaggle
- Article author: www.kaggle.com
- Reviews from users: 15211 Ratings
- Top rated: 4.9
- Lowest rated: 1
- Summary of article content: Articles about Random Forest를 활용한 타이타닉 데이터 분석 | Kaggle Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic – Machine Learning from Disaster. …
- Most searched keywords: Whether you are looking for Random Forest를 활용한 타이타닉 데이터 분석 | Kaggle Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic – Machine Learning from Disaster. Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic – Machine Learning from Disaster
- Table of Contents:
타이타닉 데이터셋 분석
- Article author: velog.io
- Reviews from users: 17076 Ratings
- Top rated: 4.6
- Lowest rated: 1
- Summary of article content: Articles about 타이타닉 데이터셋 분석 … 및 데이터 불러오기. import seaborn as sns import pandas as pd import numpy as np import matplotlib.pyplot as plt df = sns.load_dataset(“titanic”) … …
- Most searched keywords: Whether you are looking for 타이타닉 데이터셋 분석 … 및 데이터 불러오기. import seaborn as sns import pandas as pd import numpy as np import matplotlib.pyplot as plt df = sns.load_dataset(“titanic”) … 타이타닉 데이터를 의사결정나무모델로 분석해보자!
- Table of Contents:
파이썬 프로젝트 모음
필요한 라이브러리 및 데이터 불러오기
데이터셋 EDA 및 전처리
의사결정나무
결론
See more articles in the same category here: 114+ tips for you.
타이타닉 데이터 분석(1)
0. 소개
안녕하세요! 오늘은 Kaggle의 Titanic 데이터셋을 활용해서 실제 데이터 분석을 해보려고 합니다. Titanic 데이터셋은 캐글의 대표적인 데이터셋으로, Kaggle 홈페이지 상으로 무려 20000명 정도가 참여한 유명한 문제입니다!
1. 문제 정의
오늘 사용할 데이터셋은 캐글에 있는 타이타닉 데이터셋입니다! 타이타닉을 모르시는 분은 없으리라 생각하지만, 몰입감을 위해 타이타닉에 대한 설명을 추가하겠습니다.
타이타닉(Titanic)은 영국의 화이트 스타 라인이 운영한 북대서양 횡단 여객선이다. 1912년 4월 10일 영국의 사우샘프턴을 떠나 미국의 뉴욕으로 향하던 첫 항해 중에 4월 15일 빙산과 충돌하여 침몰하였다. 배에는 승객들을 태울 충분한 구명보트가 없었고, 타이타닉의 침몰로 2,224명의 승객 중 1,502명이 사망하였다.
이 문제에서는 타이타닉 사건때 배에 있었던 승객들 명단이 데이터셋으로 주어집니다. (실제 명단인지는 저도 잘 모르겠습니다)
문제의 목표는 다음과 같습니다.
타이타닉에서 살아남을 수 있는 승객을 예측하기
이 Competition에 참여하는 사람들은, 주어진 훈련 데이터를 이용해서 데이터를 분석하고 경향성을 찾아 성공적인 예측을 해내야 합니다. 이제 본격적으로 데이터 분석을 시작해보겠습니다.
2. 데이터 불러오기
먼저 필요한 라이브러리들을 import합니다. 위의 pandas, numpy는 데이터프레임과 연산을 위한 라이브러리이고, matplotlib과 seaborn은 charting을 위해 추가했습니다.
import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib as mpl import seaborn as sns train = pd . read_csv ( ‘kaggle/titanic/train.csv’ ) test = pd . read_csv ( ‘kaggle/titanic/test.csv’ )
Kaggle에서 직접 타이타닉 데이터셋을 보시면 아시겠지만, 데이터셋은 test 데이터와 train 데이터 두 가지로 나뉘어 있습니다. 데이터셋의 이름처럼, train 데이터는 모델 훈련에 쓰이고, test 데이터는 모델 검증에 쓰이게 됩니다. csv로 깔끔하게 자료가 정리되어 있어 pandas의 read_csv() 를 쓰면 너무나도 깔끔하게 데이터를 불러올 수 있습니다.
3. 데이터 분석하기
이제 train.head() , test.head() 를 이용해서 데이터가 어떤 식으로 주어지는지 살펴보겠습니다. 데이터프레임에 .head() 를 쓰면 상위 5개의 row만 잘라서 볼 수 있습니다.
데이터에 대한 Kaggle의 설명(사이트에 나와있습니다)를 번역해서 첨부하겠습니다.
Data Dictionary Survived : 0 = 사망, 1 = 생존
Pclass : 1 = 1등석, 2 = 2등석, 3 = 3등석
Sex : male = 남성, female = 여성
Age : 나이
SibSp : 타이타닉 호에 동승한 자매 / 배우자의 수
Parch : 타이타닉 호에 동승한 부모 / 자식의 수
Ticket : 티켓 번호
Fare : 승객 요금
Cabin : 방 호수
Embarked : 탑승지, C = 셰르부르, Q = 퀸즈타운, S = 사우샘프턴
train . head ()
PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S 1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th… female 38.0 1 0 PC 17599 71.2833 C85 C 2 3 1 3 Heikkinen, Miss. Laina female 26.0 0 0 STON/O2. 3101282 7.9250 NaN S 3 4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1 0 113803 53.1000 C123 S 4 5 0 3 Allen, Mr. William Henry male 35.0 0 0 373450 8.0500 NaN S
test . head ()
PassengerId Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 892 3 Kelly, Mr. James male 34.5 0 0 330911 7.8292 NaN Q 1 893 3 Wilkes, Mrs. James (Ellen Needs) female 47.0 1 0 363272 7.0000 NaN S 2 894 2 Myles, Mr. Thomas Francis male 62.0 0 0 240276 9.6875 NaN Q 3 895 3 Wirz, Mr. Albert male 27.0 0 0 315154 8.6625 NaN S 4 896 3 Hirvonen, Mrs. Alexander (Helga E Lindqvist) female 22.0 1 1 3101298 12.2875 NaN S
확인해보니 train 데이터와 test 데이터는 보기에 큰 차이가 없습니다.
하지만 눈치채셨나요? test 데이터에는 Survived 행이 존재하지 않습니다. 조금만 생각해보면 당연하다는 것을 알 수 있습니다. test 데이터에까지 Survived 가 다 나와 있으면 문제의 답을 알려주는 것과 마찬가지일 테니까요. 우리는 궁극적으로 저 test 데이터셋의 Survived 행을 예측해서 Kaggle 에 제출하면 됩니다.
그런데 데이터셋을 보니 중간중간 NaN 값들이 보입니다. NaN 은 Not a Number를 의미합니다. 사실상 값이 유실되었다고 봐도 무방합니다. 이런 유실된 값들은 나중에 모델을 만들고 훈련시킬 때 적절한 조치를 취해주어야 합니다. 이것을 Feature Engineering 이라고 하는데, 이것은 다음 글에서 이어서 설명하겠습니다.
유실된 값들이 얼마나 있는지, 그리고 데이터의 전체적인 구조를 보기 위해 .info() 메써드를 써보겠습니다.
train . info ()
RangeIndex: 891 entries, 0 to 890 Data columns (total 12 columns): PassengerId 891 non-null int64 Survived 891 non-null int64 Pclass 891 non-null int64 Name 891 non-null object Sex 891 non-null object Age 714 non-null float64 SibSp 891 non-null int64 Parch 891 non-null int64 Ticket 891 non-null object Fare 891 non-null float64 Cabin 204 non-null object Embarked 889 non-null object dtypes: float64(2), int64(5), object(5) memory usage: 83.7+ KB test . info ()
RangeIndex: 418 entries, 0 to 417 Data columns (total 11 columns): PassengerId 418 non-null int64 Pclass 418 non-null int64 Name 418 non-null object Sex 418 non-null object Age 332 non-null float64 SibSp 418 non-null int64 Parch 418 non-null int64 Ticket 418 non-null object Fare 417 non-null float64 Cabin 91 non-null object Embarked 418 non-null object dtypes: float64(2), int64(4), object(5) memory usage: 36.0+ KB .info() 메써드를 호출해보니, train 데이터는 891행, test 데이터는 418행임을 알 수 있습니다. 그 중 Age와 Cabin만 데이터 개수가 다른 것을 보아, Age와 Cabin을 제외하면 NaN 값은 더 없는 것으로 보입니다. 없는 값 과학적으로 채워넣으려면 귀찮은데 다행입니다. 물론 값이 없는 승객은 그냥 데이터에서 빼버려도 되지만, 이 문제는 데이터가 충분하지 않기 때문에 데이터 하나하나가 소중합니다.
이제부턴 시각화를 하면서 특성별로 분석을 해보겠습니다.
분석을 편하게 하기 위해, 함수를 하나 만들었습니다.
각 특성을 인수로 함수를 호출하면 그에 따른 표를 그리도록 했습니다.
# 그래프를 예쁘게 그리기 위해 추가했습니다 plt . style . use ( ‘ggplot’ ) sns . set () sns . set_palette ( “Set2” ) def chart ( dataset , feature ): survived = dataset [ dataset [ ‘Survived’ ] == 1 ][ feature ]. value_counts () dead = dataset [ dataset [ ‘Survived’ ] == 0 ][ feature ]. value_counts () df = pd . DataFrame ([ survived , dead ]) df . index = [ ‘Survived’ , ‘Dead’ ] df . plot ( kind = ‘bar’ , stacked = True )
먼저 Pclass 에 대한 그래프를 보겠습니다.
chart ( train , ‘Pclass’ )
보시면 1등석에 있던 승객들은 오히려 사망한 사람보다 생존한 사람이 많고, 2등석은 대략 생존율이 50%정도 되는 것 같습니다. 반면 3등석은 생존한 사람보다 사망한 사람이 훨씬 많습니다. 이걸 보아 Pclass 라는 특성은 승객의 생사를 예측하는 데에 큰 영향을 끼친다는 것을 확인할 수 있습니다. 지금 이렇게 특성 분석을 하는 것을 바탕으로 이후에 예측 모델을 학습시킬 것입니다.
chart ( train , ‘Sex’ )
이 그래프는 성별에 따른 분류입니다. 여성과 남성만 비교하면 되는데, 여성은 생존률이 매우 높은 반면, 남성은 사망한 사람이 훨씬 많다는 것을 관측할 수 있습니다. 사고 당시에 남성보다는 여성을 우선적으로 살린 것으로 보입니다.
chart ( train , ‘SibSp’ )
이 그래프는 자매와 배우자의 수에 따라 도시한 그래프입니다. SibSp 값이 0인 사람보다는, 비율상 1이나 2인 사람들이 더욱 많이 생존했다는 것을 확인할 수 있습니다. 하지만 3 이상부터는 잘 보이지 않아서 추가적인 확인이 필요할 것 같습니다.
한번 확인해보겠습니다.
temp = train [( train [ ‘SibSp’ ] > 2 )] chart ( temp , ‘SibSp’ )
확인해보니 SibSp 값이 3 이상인 사람들은 생존율이 높지 않다는 것을 확인할 수 있습니다.
chart ( train , ‘Embarked’ )
이번에는 승객별 탑승지에 따른 생존율입니다. 그저 탑승지의 차이라기에는 생각보다 차이가 많이 납니다. 지역별로 부유한 도시와 가난한 도시가 있을수도 있을 것 같습니다. 탑승지별로 1등석, 2등석, 3등석의 수를 한번 확인해보겠습니다.
S = train [ train [ ‘Embarked’ ] == ‘S’ ][ ‘Pclass’ ]. value_counts () C = train [ train [ ‘Embarked’ ] == ‘C’ ][ ‘Pclass’ ]. value_counts () Q = train [ train [ ‘Embarked’ ] == ‘Q’ ][ ‘Pclass’ ]. value_counts () df = pd . DataFrame ([ S , C , Q ]) df . index = [ ‘S’ , ‘C’ , ‘Q’ ] df . plot ( kind = ‘bar’ , stacked = True )
확인해보니 1등석의 비율이 탑승지별로 다른 것을 확인할 수 있습니다. Embarked 가 C 인 사람들은 1등석 비율이 거의 절반에 육박합니다. 이는 전 그래프에서 탑승지가 C 였던 사람들의 생존률이 거의 50퍼센트에 가깝게 나왔다는 것에 큰 영향이 있을 것 같습니다.
이렇게 타이타닉 문제에 대한 데이터 분석을 해보았습니다. 다음 글에서는 Feature Engineering을 해보겠습니다. 감사합니다!
Tensorflow-2.1. 타이타닉 데이터 설명
728×90
반응형
이전 포스트에서 캐글에서 타이타닉 데이터를 다운로드하였다. 이번 포스트에서는 타이타닉 데이터를 파이썬으로 불러오고, 데이터가 어떻게 생겼고, 어떤 변수가 있는지를 확인해보자.
타이타닉 데이터 가져오기
이전에 받았던 타이타닉 데이터가 어떻게 생겼는지 보고, 변수들을 파악해보자.
1. 작업 파일 이동시키기
만약, 작성자와 같은 주피터 노트북 사용자라면, 아래와 같이 작업 파일과 같은 경로 안에 Data를 넣는 폴더를 만들어, 데이터를 넣어놓자.
현재 작업 중인 주피터 노트북 파일인 Report04_210209.ipynb와 같은 경로에 Dataset이라는 파일을 새로 만들었다.
이전에 다운로드하였던 titanic 압축파일 안에 있던 3 파일 “gender_submission.csv”, “test.csv”, “train.csv”을 Upload 시키자.
2. 데이터 불러오기
import pandas as pd import numpy as np import os
# Global Variable file_path = “./Dataset”
# Function def import_Data(file_path): result = dict() for file in os.listdir(file_path): file_name = file[:-4] result[file_name] = pd.read_csv(file_path + “/” + file) return result
Rawdata_dict = import_Data(file_path)
os.listdir(디렉터리): 있는 파일 list를 가지고 온다.
있는 파일 list를 가지고 온다. pd.read_csv(파일 경로): 있는 csv파일을 가지고 온다.
있는 csv파일을 가지고 온다. 데이터를 이름으로 하나하나 불러오지 않고, 특정 디렉터리 안에 있는 모든 파일들을 해당 파일의 이름으로 딕셔너리에 넣어 가지고 왔다.
이렇게 데이터 프레임을 딕셔너리로 관리하는 경우, 특정 목적에 맞는 데이터들을 보다 쉽게 관리할 수 있으며, 데이터의 이름을 특정 패턴을 가진 상태로 부여할 수 있다.
또한, 한 번에 특정 디렉터리 내 모든 파일들을 모두 가져올 수 있으므로, 데이터를 가지고 올 때도 꽤 편하다.
3. 데이터가 어떻게 생겼는지 보도록 하자.
>>> dict_key = list(Rawdata_dict.keys()) >>> dict_key [‘gender_submission’, ‘test’, ‘train’] >>> Rawdata_dict[dict_key[0]]
gender_submission은 Row(행) 418개, Column(열, 변수) 2개로 구성된 데이터다.
PassengerID: 승객 ID이다.
승객 ID이다. Survived: 생존 여부로, 0 = 사망, 1 = 생존이다.
test.csv에 담긴 데이터를 보자
>>> Rawdata_dict[dict_key[1]]
test는 Row(행) 418개, Column(열, 변수) 11개로 구성된 데이터다.
PassengerID: 고객 번호
고객 번호 Pclass: 티켓의 등급이다. 1 =1st(Upper), 2 = 2nd(Middle), 3 = 3rd(Lower)이다.
티켓의 등급이다. 1 =1st(Upper), 2 = 2nd(Middle), 3 = 3rd(Lower)이다. Name: 승객의 이름
승객의 이름 Sex: 성별
성별 Age: 연령
연령 SibSp: 타이타닉호에 탑승한 형제/배우자의 수
타이타닉호에 탑승한 형제/배우자의 수 Parch: 타이타닉호에 탑승한 부모/자녀의 수
타이타닉호에 탑승한 부모/자녀의 수 Ticket: 티켓 번호
티켓 번호 Fare: 승객 요금
승객 요금 Cabin: 객실 번호
객실 번호 Embarked: 기항지 위치, C(Cherbourg), Q(Queenstown), S(Southampton)으로 3곳이 있다.
train.csv에 담긴 데이터를 보자
>>> Rawdata_dict[dict_key[2]]
train은 Row(행) 891개, Column(열, 변수) 12개로 구성된 데이터다.
변수의 구성은 test와 동일하나, test와 달리 Survived라는 변수가 있다.
test와 gender_submission은 PassengerID도 동일하며 Row의 수도 418개로 동일하다.
즉, test Dataset의 Survived는 gender_submission에 있는 것임을 알 수 있다.
지금까지 타이타닉 데이터를 불러와서 구성하고 있는 데이터에 대해 차근차근 살펴보았다. 다음 포스트에서는 본격적으로 데이터 핸들링을 하여, 생존자 예측 모델을 만들어보도록 하겠다.
728×90
반응형
캐글 타이타닉 데이터 분석 및 시각화
안녕하세요. 죠쵸입니다.
오늘부터 본격적으로 Kaggle에서 진행되었던 경진대회의 데이터를 분석해 보고 시각화를 진행해 보도록 하겠습니다.
kaggle_titanic_main
# 타이타닉 머신러닝 경진대회 – Competition Overview
가장 먼저 볼 경진대회는 타이타닉 머신러닝 경진대회(Titanic: Machine Learning from Disaster)입니다. Kaggle의 타이타닉 경진대회는 실제 발생한 해상사고의 데이터를 기반으로 출제가 되었으며, 해당 경진대회로부터 Machine Learning의 기초적인 이론 및 실습을 해 볼 수 있습니다.
Kaggle – Titanic Competition : https://www.kaggle.com/c/titanic/
캐글 타이타닉 데이터 분석 및 시각화하기에 앞서서, Kaggle 경진대회는 어떻게 참가 할 수 있는지 아래의 영상을 통해서 참조 해 주세요.
영화로도 나와 잘 알려진 타이타닉이지만, 약간의 배경 설명을 통해 해당 경진대회의 기본지식을 쌓아보자.
RMS 타이타닉(통용: RMS 타이타닉, 영어: RMS Titanic)은 영국의 화이트 스타 라인이 운영한 북대서양 횡단 여객선이다. 1912년 4월 10일 영국의 사우샘프턴을 떠나 미국의 뉴욕으로 향하던 첫 항해 중에 4월 15일 빙산과 충돌하여 침몰하였다. 타이타닉의 침몰로 1,514명이 사망하였다. RMS 타이타닉은 첫 항해 당시 세계에서 가장 큰 배 가운데 하나였다. 화이트 스타 라인 사는 RMS 올림픽을 시작으로 세 척의 올림픽급 여객선을 운용하였으며, RMS 타이타닉 역시 그 가운데 하나였다. RMS 타이타닉은 벨파스트에 있는 해럴드 앤 울프 사가 1909년 건조를 시작하여 1911년 5월 31일 진수하였다. 첫 항해에 오른 승객은 다양했으며 이 가운데에는 매우 부유한 사람들도 있었다. 대다수는 영국과 스칸다나비아 반도 등에서 새로운 삶을 찾아 미국으로 가는 이민자들이었다. 출항 당시 승선 인원은 2,223명이었다. 타이타닉호는 선내에 체육관과 수영장, 그외 호화로운 부대시설을 갖추고 있었다. 그런데 느슨한 규제 때문에 구명정은 20척 밖에 없었다. 구명정의 정원은 1,178명이었다. 1912년 4월 14일 오후 11시 40분(선내 시각, GMT -3)빙산과 충돌하였고 이 때문에 주갑판이 함몰되면서 우현에 구멍이 났다. 구멍으로 물이 들어오기 시작한 지 2시간 40분만에 완전히 침수되어 침몰하였다. 타이타닉호는 방수용 격벽이 설계되어 있었고 문들도 물을 차단할 수 있도록 설계되었으나 실제 사고에선 역부족이었다. 구명정에 타지 못한 채 바다로 뛰어든 수많은 사람들은 수 분 내에 저체온증으로 사망하였다. 침몰할 당시까지도 배에는 1,000여명의 사람들이 남아 있었다. 구명정을 타고 있다가 몇 시간 뒤에 RMS 카르파티아(RMS Carpathia)에 의해 구조된 사람은 706명에 불과하였다.
– WIKIPEDIA –
이 경진대회에 Target(Goal)은 “어떤 사람들이 생존 할 가능성이 더 높은가?” 라는 질문에 답하는 예측 모델을 구축하는 것이다. 승객 데이터 (예 : 이름, 나이, 성별, 사회 경제적 등급 등)를 이용하여 예측 모델을 구축하게 된다.
#타이타닉 머신러닌 경진대회 – Competition Data
해당 경진대회의 데이터는 아래의 링크에서 다운로드 받을 수 있습니다.
Kaggle – Titanic Competition Data – https://www.kaggle.com/c/titanic/data
1) Train set(train.csv) : 해당 데이터를 분석을 통해서 생존여부를 예측할 수 있는 모델을 만들 수 있습니다.
2) Test set (test.csv) : 만들어진 모델을 Test Data에 적용하여, 그 결과를 Kaggle에 제출하면, 모델의 성능을 확인 할 수 있습니다.
[Data Dictionary]Variable Definition Survival 생존 여부 Pclass 티켓 클라스 Name 탑승자 이름 Sex 성별 Age 나이 Sibsp 탑승한 형제 자매 / 배우자 수 Parch 탑승한 부모 / 자녀의 수 Ticket 티켓 번호 Fare 요금 Cabin 케빈 번호 Embarked 승선지(항구)
#타이타닉 머신러닌 경진대회 – Notebooks
1) Importing important libraries
# data analysis libraries import pandas as pd import numpy as np # visualization libraries import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns # ignore warnings library import warnings warnings.filterwarnings(“ignore”)
2) Reading the dataset
# PassengerId라는 컬럼을 인덱스(index)로 지정하여 train.csv 파일을 읽음 train = pd.read_csv(“titanic/train.csv”, index_col=”PassengerId”) # 데이터의 행렬 사이즈를 출력 (row, column) print(train.shape) # 데이터의 상위 5개를 출력 train.head()
3) Exploratory Data Analysis(EDA)
탐험적 데이터 분석을 통해서, 데이터가 갖는 특성을 파악할 수 있습니다. 데이터의 특성을 파악하는 것은 곧 예측 모델을 만드는 과정에서 사용되기때문에, 성능이 좋은 모델을 만들기 위해서는 데이터의 특성을 파악하는 것은 중요합니다.
#데이터에 대한 기본정보를 확인 train.info()
#데이터가 비어 있는 항목 및 수량 확인 print(train.isnull().sum())
# 데이터셋 Summary 보기 train.describe()
4) Data Visualization
#value_counts 함수를 이용하여 생존자 인원과 사망자 인원을 확인 train[“Survived”].value_counts()
#생존여부에 따라 신규 컬럼(Survived(humanized))에 Perish / Survived Value 삽입 train[“Survived(humanized)”] = train[“Survived”].replace(0, “Perish”) .replace(1, “Survived”) #Ticket의 Class에 따라 First Class / Business / Economy Value 삽입 train[“Pclass(humanized)”] = train[“Pclass”].replace(1, “First Class”) .replace(2, “Business”) .replace(3, “Economy”) #Ticket의 Class별 생존자수 / 사망자수를 그래프로 출력 sns.countplot(data=train, x=”Pclass(humanized)”, hue=”Survived(humanized)”)
Economy Class의 승객이 다른 Class의 승객보다 많은 사람이 구조되지 못하고 사망한 것을 알 수 있다.
#탑승지에 따라 신규 컬럼(Embarked(humanized)) Cherbourg / Southampton / Queenstown Value 삽입 train[“Embarked(humanized)”] = train[“Embarked”].replace(“C”, “Cherbourg”) .replace(“S”, “Southampton”) .replace(“Q”, “Queenstown”) #탑승지별 생존자수 / 사망자 수를 그래프로 출력 sns.countplot(data=train, x=”Embarked(humanized)”, hue=”Survived(humanized)”)
타이타닉에 탑승한 탑승객 중 많은 사람이 Southampton에서 탑승하였고, Southampton 탑승자 중 60%정도가 사망하였습니다.
#성별에 따른 생존자 수 / 사망자 수를 그래프로 출력 sns.countplot(data=train, x=”Sex”, hue=”Survived(humanized)”)
타이타닉의 탑승객 중 남자의 경우 구조된 사람보다 사망한 사람이 더 많고, 여자의 경우 구조된 사람이 사망한 사람보다 많은 것을 알 수 있습니다.
오늘은 간단히 Pclass, Embarked, Sex 컬럼을 통해서 분석한 내용을 보여 드렸습니다. 그 밖에 Fare, Age, Sibsp, Parch 컬럼을 통해서 더 많은 것을 분석이 가능합니다. 다음 글에서는 추가적인 데이터 분석과 예측 모델을 만들고, Machine Learning 알고리즘 중 하나인 Decision Tree를 통해서 Test 결과를 만들어 나가는 것을 쉽게 설명 하도록 하겠습니다.
오늘도 찾아 주셔서 감사합니다. 여러분의 공감하기와 구독은 저에게 힘이 됩니다.
좋은 하루 되세요. 이상으로 죠쵸이었습니다.
So you have finished reading the 타이타닉 데이터 topic article, if you find this article useful, please share it. Thank you very much. See more: 타이타닉 데이터 다운로드, 타이타닉 데이터 분석, 타이타닉 데이터 불러오기, 타이타닉 데이터 csv, 타이타닉 데이터 class, 타이타닉 데이터 deck, 타이타닉 데이터 전처리, 캐글 타이타닉 데이터