캐글 타이타닉 Titanic – 4.


오래된

print('제일 나이 많은 탑승객 : {:.1f} years'.format(df_train('Age').max()))
print('제일 어린 탑승객 : {:.1f} years'.format(df_train('Age').min()))
print('탑승객 평균 나이 : {:.1f} years'.format(df_train('Age').mean()))

최고령 승객: 80.0세

최연소 승객: 0.4세

승객 평균 연령: 29.7세

찾으려면 Kernel Density Estimation 검색


fig, ax = plt.subplots(1, 1, figsize=(9,5))
sns.kdeplot(df_train(df_train('Survived')==1)('Age'),ax=ax)  
sns.kdeplot(df_train(df_train('Survived')==0)('Age'),ax=ax)
plt.legend(('Survived==1','Survived==0'))
plt.show()


↑kdeplot↑은 히스토그램의 부드러운 형태의 분포 곡선을 아래에 표시하는 방법임을 알 수 있습니다.

df_train(df_train('Survived')==1)('Age').hist()
df_train(df_train('Survived')==0)('Age').hist()
plt.legend(('Survived==1','Survived==0'))
plt.show()


도화지를 준비하는 3가지 방법.

f = plt.figure(figsize=(10,10))
f, ax = plt.subplots(1, 1, figsize =(10,10))  
# ax.plot() / ax.set_xlable('sdf') x레이블을 넣어주는 방법.
plt.figure(fisize=(10,10))

학급 내 연령 분포 => 생존에 대한 정보 없음.

plt.figure(figsize=(8,6))
df_train('Age')(df_train('Pclass')==1).plot(kind='kde')
df_train('Age')(df_train('Pclass')==2).plot(kind='kde')
df_train('Age')(df_train('Pclass')==3).plot(kind='kde')
plt.xlabel('Age')
plt.title('Age Distribution within classes')
plt.legend(('1st Class','2nd Class','3nd Class'))


Survival의 PC 및 연령

fig, ax= plt.subplots(1,1,figsize=(9,5))
sns.kdeplot(df_train((df_train('Survived')==0) & (df_train('Pclass')==1))('Age'),ax=ax)
sns.kdeplot(df_train((df_train('Survived')==1) & (df_train('Pclass')==1))('Age'),ax=ax)
plt.title('1st class')
plt.legend(('Survived==1','Survived == 0'))
plt.show()




– 2학년과 마찬가지로 3학년도 청소년 생존율이 높습니다.

리본연령별 생존율

change_age_range_survival_ratio = ()
for i in range(1,80):
    change_age_range_survival_ratio.append(df_train(df_train('Age')<i)('Survived').sum()/len(df_train(df_train('Age')<i)('Survived')))

plt.figure(figsize=(7,7))
plt.plot(change_age_range_survival_ratio)
plt.title('Survival rate change depending on range of Age', y = 1.02)
plt.ylabel('Survival rate')
plt.xlabel('Range of Age(0~x)')
plt.show()


렌 (df_train(df_train(‘나이’))및 df_train(df_train(‘나이’)모양같은 값을 줍니다.

df_train(df_train(‘나이’)

=> 이는 생존자 수의 합/분산수에서 Survived 열만 추출되었음을 의미합니다.

연령이 젊을수록 생존 확률이 높다는 것을 시각화를 통해 확인할 수 있습니다.