header-img
Info :
๋ฐ€๋„
denseยน
์žฅ๋ž˜ํฌ๋ง : ๋‹จ์œ„ ๋ถ€ํ”ผ ๋‹น ์งˆ๋Ÿ‰์ด ๋ณด๋‹ค ๋นฝ๋นฝํ•œ ์‚ฌ๋žŒ ๋˜๊ธฐ

 

 

 

์ƒํ™ฉ ์„ค์ •

 

A์‚ฌ๋Š” ์ด๋ฒˆ์— ์ƒˆ๋กญ๊ฒŒ ํšŒ์‚ฌ๋ฅผ ๋Ÿฐ์นญํ•˜๊ฒŒ ๋˜์–ด ๊ธ‰์—ฌ ์ฒด๊ณ„๋ฅผ ์ƒˆ๋กœ ์ˆ˜๋ฆฝํ•ด์•ผ ํ•˜๋Š” ์ƒํ™ฉ์ด๋‹ค. ์›ํ™œํ•œ ์šด์˜์„ ์œ„ํ•ด ๋Œ€๊ทœ๋ชจ ์ฑ„์šฉ์„ ์ง„ํ–‰ํ•  ์˜ˆ์ •์ด๋ฉฐ, ์ด์— ๋”ฐ๋ผ ์ง๊ธ‰๋ณ„/ ์ง๋ฌด๋ณ„ ๊ธ‰์—ฌ Band๋ฅผ ์ˆ˜๋ฆฝํ•˜๊ธฐ ์œ„ํ•ด ์ง€์›์ž๋“ค์˜ ํ”„๋กœํ•„ ์ •๋ณด์™€ ์ž์‚ฐ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ๊ธ‰์—ฌ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ณ  ๊ธ‰์—ฌ Band ์„ค์ •์— ๋ฒ ์ด์Šค ๋ฐ์ดํ„ฐ๋กœ ํ™œ์šฉํ•˜๊ณ ์ž ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ถ„์„์„ ์ง„ํ–‰ํ•˜๊ธฐ์— ์•ž์„œ, A์‚ฌ์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„๊ฐ€์ธ ๋‚˜๋Š” ๋ฌธ์ œ ์ƒํ™ฉ๊ณผ ๋ฐ์ดํ„ฐ๋ฅผ ๋‚ฑ๋‚ฑ์ด ์‚ดํŽด๋ณด๊ณ  ์œ ์˜๋ฏธํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํ™˜๊ฒฝ๊ณผ ๋ถ„์„ ํ”„๋กœ์„ธ์Šค๋ฅผ ๊ฐ–์ถ”๊ณ ์ž ํ•˜๊ณ  ์žˆ๋‹ค.

 

 

 

 

 

๋ฌธ์ œ ํ•ด๊ฒฐ ํ”„๋กœ์„ธ์Šค ์ •์˜

 

๋‚ด๊ฐ€ ์ด ๋ฐ์ดํ„ฐ ์˜ˆ์ธก ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ณ ์ž ํ•˜๋Š” ๊ฒƒ์€ A์‚ฌ ๋‚ด๋ถ€์˜ ์ธ๋ ฅ ์šด์˜ ํšจ์œจ์˜ ์‹ค์งˆ์ ์ธ ๊ฐœ์„ ์„ ํ•˜๊ธฐ ์œ„ํ•จ์ด๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ํ˜„์žฌ A์‚ฌ์˜ ๋ฌธ์ œ์— ๋Œ€ํ•ด ์ •ํ™•ํžˆ ์ •์˜ํ•ด์•ผ ํ•˜๊ณ , ์ด ๋ชจ๋ธ ๊ฐœ๋ฐœ์„ ํ†ตํ•ด ์–ป๊ฒŒ ๋  ์ด๋“๊ณผ ๊ตฌ์ฒด์ ์ธ ์‹คํ–‰ ๋ฐฉ์•ˆ์— ๋Œ€ํ•ด์„œ๋„ ์ˆ™๊ณ ํ•ด๋ด์•ผ ํ•œ๋‹ค. ๋ชจ๋ธ ๊ตฌ์ถ• ์ดํ›„์—๋Š” ํ•ด๋‹น ๋ชจ๋ธ๋ง์„ ํ†ตํ•ด ์ง„ํ–‰ํ•˜๋Š” ๊ณผ์ •์ด ๋ฐ์ดํ„ฐ๋กœ ๋‚จ๋Š” ์‹œ์Šคํ…œ์„ ์„ ๊ตฌ์ถ•ํ•ด ๋†“์•„์•ผ ํ•˜๋ฉฐ ์ด ๋ชจ๋ธ์ด ๋ณธ๋ž˜ ๋ชฉ์ ์ธ ๋ฌธ์ œ ์ƒํ™ฉ์„ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ์–ผ๋งˆ๋‚˜ ๊ธฐ์—ฌํ–ˆ๋Š”์ง€์— ๋Œ€ํ•œ ๊ธฐ์ค€๋„ ๋ช…ํ™•ํžˆ ์„ธ์›Œ ๋†“์•„์•ผ ํ•œ๋‹ค. ๋‚˜๋Š” ์œ„์™€ ๊ฐ™์€ ์˜๋ฌธ์„ ํ•ด์†Œํ•˜๊ธฐ ์œ„ํ•œ ์‹œํŠธ๋ฅผ ๋ฏธ๋ฆฌ ๋งŒ๋“ค์–ด ๋‘๊ณ  ์ž‘์—…ํ•˜๊ณ ์ž ํ•œ๋‹ค. ๊ทธ ๋‚ด์šฉ์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

 

 

๋ฌธ์ œ์ •์˜

โ–ถ ํ˜„์ƒ : ์‹ ๊ทœ ๋น„์ง€๋‹ˆ์Šค ์ง„์ถœ๋กœ ์ธํ•œ ๊ธ‰์—ฌ Band ๋ถ€์žฌ
โ–ถ ๋ฆฌ์Šคํฌ : ํ•œ์ •๋œ ์ฑ„์šฉ ๋น„์šฉ์„ ํšจ๊ณผ์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๊ณ , ๋ชฉํ‘œํ•œ ์ธ์›์ˆ˜์˜ ์ฑ„์šฉ์ด ์–ด๋ ค์›Œ์ง, ์—ฐ๋ด‰์ด ๊ณผ๋„ํ•˜๊ฒŒ ์„ค์ •๋˜์–ด ๊ด€๋ฆฌ ๋น„์šฉ์˜ ์ฆ๊ฐ€

๊ธฐ๋Œ€ํšจ๊ณผ
โ–ถ ๊ธ‰์—ฌ Band ์‹ ์„ค๋กœ ์ฑ„์šฉ ๊ธฐ๋ฐ˜ ์ค€๋น„
โ–ถ ๊ธ‰์—ฌ Band ํ™œ์šฉ ์ฑ„์šฉ ์ง„ํ–‰์œผ๋กœ, ์ฑ„์šฉ ๋น„์šฉ ํšจ์œจํ™”

ํ•ด๊ฒฐ๋ฐฉ์•ˆ
โ–ถ ๊ธ‰์—ฌ(Wage) ์˜ˆ์ธก ๋ชจ๋ธ ๊ฐœ๋ฐœ
โ–ถ ์‹ ์ž… ์ง์› ์ง€์› ์‹œ ์ด๋ ฅ์„œ๋ฅผ ํ†ตํ•ด ๊ธฐ๋ณธ ์ •๋ณด๋“ค์„ ์ˆ˜์ง‘
โ–ถ ์ˆ˜์ง‘๋œ Data๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ง€์›์ž์˜ ์—ฐ๋ด‰ Band ํŒ๋‹จ

 

์„ฑ๊ณผ์ธก์ •
โ–ถ As-is : X
โ–ถ To-be : ์ฃผ์–ด์ง„ ์ฑ„์šฉ ๋น„์šฉ์•ˆ์— ๋ชฉํ‘œํ•œ ์ธ์› ์ฑ„์šฉ ๋‹ฌ์„ฑ ์—ฌ๋ถ€


๋ชจ๋ธ์šด์˜ 
โ–ถ ์‹ ์ž… ์ง์› ์ง€์› ์‹œ ์ด๋ ฅ์„œ๋ฅผ ํ†ตํ•ด ๊ธฐ๋ณธ์ •๋ณด๋“ค์„ ์ˆ˜์ง‘
โ–ถ ์ˆ˜์ง‘๋œ Data๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ง€์›์ž์˜ ์—ฐ๋ด‰ Band ํŒ๋‹จ
โ–ถ ์ง€์›์ž ๋ฐœ์ƒ ์‹œ์ ๋งˆ๋‹ค ๋ชจ๋ธ๋ง ์ˆ˜ํ–‰ ํ›„ ๊ฒฐ๊ณผ ์ถœ๋ ฅ


 

 

 

Data Info Check : ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ

 

๋ฌธ์ œ ํ•ด๊ฒฐ ํ”„๋กœ์„ธ์Šค๊ฐ€ ๊ตฌ์ฒดํ™”๋๋‹ค. ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์‹œ์ž‘ํ•˜๊ธฐ ์ „์—, ๋‚˜๋Š” ๋‹ค๋ฃฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒœ์ฒœํžˆ ์‚ดํŽด๋ณด๋ฉด์„œ ๋ฐ์ดํ„ฐ์˜ ๊ณจ์กฐ๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๊ณผ์ •์„ ๊ฑฐ์น˜๊ณ , ๋™์‹œ์— ์ „์ฒ˜๋ฆฌ๋„ ์ง„ํ–‰ํ•ด ์ฃผ๊ธฐ๋กœ ํ–ˆ๋‹ค. ๊ธฐ์กด ํฌ์ŠคํŠธ์—์„œ ๋‹ค๋ค˜๋˜ ๊ฒƒ์ฒ˜๋Ÿผ, Tidy data๋กœ ๋งŒ๋“ค์–ด ์ค˜์•ผ ํ•˜๊ฒ ๊ณ , ๋ฌธ์žํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ์ˆซ์žํ˜• ๋ฐ์ดํ„ฐ๋กœ ์ธ์ฝ”๋”ฉํ•ด์ฃผ๋Š” ๊ณผ์ •๋„ ํ•„์š”ํ•  ๊ฒƒ์ด๋‹ค. ์ด๋ฒˆ ์ฑ•ํ„ฐ์—์„œ๋Š” ์•„๋ž˜์™€ ๊ฐ™์€ ๋‹ค์„ฏ ๊ฐœ ๋ถ€๋ถ„์—์„œ ๊ธฐ๋ณธ ์ •๋ณด๋ฅผ ์‚ดํŽด ๋ณด๊ณ  ๋™์‹œ์— ์ „์ฒ˜๋ฆฌ ์ง„ํ–‰ํ•ด ์ค„ ๊ฒƒ์ด๋‹ค.

 

  (1) Data shape(ํ˜•ํƒœ) ํ™•์ธ
  (2) Data type ํ™•์ธ
  (3) Null๊ฐ’ ํ™•์ธ (โ€ป ๋นˆ ๊ฐ’์˜ Data)
  (4) ์ค‘๋ณต ๋ฐ์ดํ„ฐ ํ™•์ธ
  (5) Outlier ํ™•์ธ (โ€ป ์ •์ƒ์ ์ธ ๋ฒ”์ฃผ๋ฅผ ๋ฒ—์–ด๋‚œ Data)  

 

 

 

 

df.shape
(534, 11)

 

์šฐ์„  shape๋กœ ๋ฐ์ดํ„ฐ์˜ ํ˜•ํƒœ๋ฅผ ํ™•์ธํ•ด ์ค€๋‹ค. ์ฒ˜์Œ์— ๋‚˜์˜ค๋Š” ๊ฒƒ์ด ๋กœ์šฐ ๊ฐ’, ๋’ค์ด์–ด ๋‚˜์˜ค๋Š” ๊ฒƒ์ด ์ปฌ๋Ÿผ ๊ฐ’์ด๋‹ค.

 

 

 

 

df.info()

 

์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ์ถœ๋ ฅํ•ด ๋ณด๋ฉด ์•„๋ž˜์™€ ๊ฐ™์ด ์ถœ๋ ฅ๋œ๋‹ค. 11๊ฐœ์˜ ์ปฌ๋Ÿผ์ด ์ค„์ง€์–ด ์žˆ๊ณ , ์ „์ฒด 534๊ฐœ์˜ ๋กœ์šฐ ์ค‘ null ๊ฐ’์€ ์—†๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ ํƒ€์ž…์€ int์ง€๋งŒ, WAGE๋Š” float ํƒ€์ž…์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์‹œ๊ฐ„๋‹น ๋‹ฌ๋Ÿฌ ์ˆ˜์ž…์ด๊ธฐ ๋•Œ๋ฌธ์— ์†Œ์ˆ˜์ ์ด ํฌํ•จ๋œ ๊ฐ’์ด ๋‚˜์™€์„œ ๊ทธ๋Ÿด ๊ฑฐ๋‹ค.

 

 

 

 

 

print(df.isnull().sum())

 

isnull๋กœ ์ „์ฒด null ๊ฐœ์ˆ˜๋ฅผ ์ฒดํฌํ•˜๊ณ  ๊ทธ ๊ฐ’์„ sum์œผ๋กœ ๋”ํ•˜๋ฉด ์ „์ฒด null ๊ฐœ์ˆ˜๊ฐ€ ๋‚˜์˜ฌ ๊ฑฐ๋‹ค. null ๊ฐ’์ด ๋„ˆ๋ฌด ๋†’์€(95% ์ด์ƒ) ์ปฌ๋Ÿผ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ญ์ œํ•ด ์ฃผ๊ฑฐ๋‚˜ ์ถ”๊ฐ€์ ์œผ๋กœ ์ˆ˜์ง‘ ํ›„ ๋ถ„์„์„ ์ง„ํ–‰ํ•ด ์ฃผ๋Š” ๊ฒŒ ์ข‹๋‹ค. ๋ฌผ๋ก  ์ด ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” ์œ„์—์„œ ๋กœ์šฐ ์ˆ˜๋กœ ํ•œ ๋ฒˆ ์ฒดํฌํ–ˆ๋“ฏ์ด, null๊ฐ’์ด ํฌํ•จ๋œ ์…€์€ ์—†๋‹ค. 

 

 

 

 

 

 

df.duplicated().value_counts()

 

duplicated๋กœ ์ค‘๋ณต์„ ์ฒดํฌํ•ด ์ฃผ๊ณ  ๊ทธ ๊ฐ’์„ ์„ผ๋‹ค. True์ธ ๊ฐ’์€ ์ค‘๋ณต๊ฐ’์ด๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” False 534๊ฐœ๊ธฐ ๋•Œ๋ฌธ์— ์ „์ฒด ๋กœ์šฐ ์ค‘์— ์ค‘๋ณต๊ฐ’์ด ์—†๋‹ค๋Š” ๋œป์ด ๋˜๊ฒ ๋‹ค.

 

 

 

 

 

 

list_of_df = []

for i in df.columns :
 loof_df = pd.DataFrame({'val' : [i],
                         'zero_cnt': df[df[i] == 0][i].count()})
 list_of_df.append(loof_df)

df_merge  = pd.concat(list_of_df).reset_index(drop=True)
df_merge['zero_ratio'] = df_merge['zero_cnt'] / len(df)
df_merge.sort_values(by=['zero_ratio'], ascending = False)

 

null, ์ค‘๋ณต ๋ง๊ณ ๋„ 0 ๊ฐ’์˜ ๋น„์œจ๋„ ์ฒดํฌํ•ด ๋ณธ๋‹ค. 0์ด 98% ์ด์ƒ์ผ ๊ฒฝ์šฐ์—๋Š” ๋ฌด์–ธ๊ฐ€๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ณผ์ •์—์„œ ๋ณ€๋ณ„๋ ฅ์ด ์—†๋‹ค๊ณ  ๋ด๋„ ๋ฌด๋ฐฉํ•  ํ…Œ๋‹ˆ๊นŒ. ์•„๋ž˜ ํ‘œ์—์„œ ๋ณด์ด๋“ฏ ์ง€์›Œ์ค„ ๋งŒํผ ๋ณ€๋ณ„๋ ฅ ์—†๋Š” ๋ฐ์ดํ„ฐ๋Š” ์—†์—ˆ๋‹ค.

 

 

 

 

 

Data Info Check : ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„(EDA)

 

 

 

df.head()

 

 

์œ„์—์„œ ์ผ์ฐจ์ ์œผ๋กœ ํ˜•์‹์„ ์ ๊ฒ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ƒ˜ํ”Œ ์ž๋ฃŒ๋ฅผ ๋ฝ‘์•„ ๋ณด๋ฉด์„œ ๋ฐ์ดํ„ฐ ๊ฐ’ ์ž์ฒด๊ฐ€ ๋ถ„์„์ด ๊ฐ€๋Šฅํ•˜๊ฒŒ ์ •์ œ๋ผ ์žˆ๋Š”์ง€ ์ ๊ฒ€ํ•œ๋‹ค. ํŠนํžˆ numeric(์ˆซ์žํ˜•)๊ณผ catergorical(๋ฒ”์ฃผํ˜•) ๋ณ€์ˆ˜๋ฅผ ๋ช…ํ™•ํžˆ ๋‚˜๋ˆ  ๋‘๊ณ  ์ธ์ง€ํ•˜๊ณ  ์žˆ์–ด์•ผ๋งŒ ํ•œ๋‹ค. ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ค ๋ฒ”์ฃผ ์•ˆ์—์„œ ์›€์ง์ด๊ณ  ์žˆ๋Š”์ง€ ๋Œ€๊ฐ• ํŒŒ์•…๋  ๊ฒƒ์ด๋‹ค.

 

 

 

 

 

import numpy as np
import pandas as pd
# โ–ถ numeric, categorical value ๋‚˜๋ˆ„๊ธฐ
numerical_list=[]
categorical_list=[]

for i in df.columns :
  if df[i].dtypes == 'O' :
    categorical_list.append(i)
  else :
    numerical_list.append(i)
 
# โ–ถ %๋กœ ๊ตฌ๋ถ„ํ•˜๋Š” ๋ฐฉ๋ฒ•
# for i in df.columns :
#   if df[i].nunique() < len(df)*0.05 :
#     categorical_list.append(i)
#   else :
#     numerical_list.append(i)
 
print("numerical_list:", numerical_list)
print("categorical_list:", categorical_list)

 

 

numeric๊ณผ catergorical ๋ณ€์ˆ˜๋ฅผ ๊ฐ๊ฐ ๋‚˜๋ˆ ์„œ ํ”„๋ฆฐํŠธํ•ด ๋ณธ๋‹ค. ๋ฌผ๋ก  ํŒ๋‹จ ๋ฐฉ์‹์ด ๋‹จ์ˆœํžˆ ๊ฐ’์ด ์ˆซ์ž๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ๋Š”์ง€, ๋ฌธ์ž๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ๋Š”์ง€ ์ฒดํฌํ•˜๋Š” ๊ณผ์ •์ด๊ธฐ ๋•Œ๋ฌธ์— ์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋งน์‹ ํ•  ์ˆœ ์—†๋‹ค. ์˜ˆ๋ฅผ ๋“ค๋ฉด, ์„ฑ๋ณ„์ด๋‚˜ ๊ตญ๊ฐ€์ฒ˜๋Ÿผ ๋‹จ์ˆœํžˆ ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•œ ์ˆซ์ž๊ฐ’์€ catergorical์— ๋” ๊ฐ€๊น๋‹ค. ์ฃผ์„์€ ์œ„์™€ ๊ฐ™์€ ๋งฅ๋ฝ์—์„œ ์œ ๋‹ˆํฌํ•œ ๊ฐ’์ด 5% ๋ฏธ๋งŒ์ธ ์ปฌ๋Ÿผ์„ catergorical๋กœ ๋ฐ”๊ฟ” ๋†“๋Š” ์‹์ด๋‹ค. 

 

 

 

 

 

list_of_df = []

for i in numerical_list :
 loof_df = pd.DataFrame({'val' : [i],
              'nunique': df[i].nunique()})
 list_of_df.append(loof_df)

df_merge  = pd.concat(list_of_df).reset_index(drop=True)
df_merge.sort_values(by=['nunique'], ascending = False)

 

 

 

 

 

 

 

์œ„ ์‹์ฒ˜๋Ÿผ ์ „์ฒด ์ปฌ๋Ÿผ์„ ์ถœ๋ ฅํ•ด ๋ณด๋ฉด, ์ฃผ์„์˜ ๋ฐฉ์‹์„ ์ ์šฉ ์‹œ catergorical๋กœ ๋ถ„๋ฅ˜๋  ์ปฌ๋Ÿผ์ด ๊ฝค ๋งŽ์•„ ๋ณด์ธ๋‹ค. ์ฃผ์„๊ณผ ์กฐ๊ธˆ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์œผ๋กœ, catergorical ๋ณ€์ˆ˜๊ฐ€ ๋งŽ์ด ์†Œ์†๋˜๋Š” meta ํƒญ๊ณผ ๋น„๊ต๋ถ„์„ํ•˜๋Š” ์ ˆ์ฐจ๋ฅผ ํ†ตํ•ด catergorical ๋ณ€์ˆ˜๋ฅผ ์žฌ์ •์˜ํ•ด ์ฃผ์ž.

 

meta

 

 

 

 

 

 

# โ–ถ meta col ํ™•์ธ
meta.columns[1:]

 

 

 

 

 

 

# โ–ถ categorical list ์ •์˜
categorical_list = meta.columns[1:]
print(categorical_list)

 

 

 

 

 

 

 

numerical์€ ์ด ๊ฒฝ์šฐ์— ๋ฉ”ํƒ€ ๋ฐ์ดํ„ฐ์— ์†Œ์†๋˜์ง€ ์•Š์€ ์ปฌ๋Ÿผ์ด ๋œ๋‹ค.

for i in categorical_list :
  numerical_list.remove(i)
print(numerical_list)

 

 

 

 

 

 

Data Info Check: ์ข€๋งŒ ๋” ์กฐํšŒ

 

์•„๋ž˜๋กœ๋Š” ์กฐํšŒ์— ์ถ”๊ฐ€์ ์œผ๋กœ ํ™œ์šฉํ•ด๋ณผ ์ˆ˜ ์žˆ๋Š” ์‹์ด๋‹ค.

 
# โ–ถ categorical_list value unique ๊ฐ’ ํ™•์ธ (1)
list_of_df = []

for i in categorical_list :
 loof_df = pd.DataFrame({'val' : [i],
              'nunique': df[i].nunique()})
 list_of_df.append(loof_df)

df_merge  = pd.concat(list_of_df).reset_index(drop=True)
df_merge.sort_values(by=['nunique'], ascending = False)

 

 

 

 

 

 

 

df['EDUCATION'].value_counts()

 

 

 

 

ํ•ด๋‹น ํฌ์ŠคํŠธ๋Š” ํŒจ์ŠคํŠธ์บ ํผ์Šค์˜ ๋ฐ”์ดํŠธ ๋””๊ทธ๋ฆฌ EXPORT ๊ฐ•์˜์—์„œ ์ œ๊ณต๋˜๋Š” ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ์ž๋ฃŒ๋กœ ์ž‘์„ฑ๋๋‹ค.

'TOOLS > Python' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

Python ๋ชจ๋ธ๋ง: ํšŒ๊ท€(Regression) / 2step. Data Readiness Check, Feature Engineering  (0) 2024.02.02
๋”๋ณด๊ธฐ
TOOLS/Python