header-img
Info :
밀도
denseΒΉ
μž₯래희망 : λ‹¨μœ„ λΆ€ν”Ό λ‹Ή μ§ˆλŸ‰μ΄ 보닀 λΉ½λΉ½ν•œ μ‚¬λžŒ 되기

 

 

 

 

λͺ¨λ“  μ‚¬λžŒλ“€μ˜ 생각은 λ‹€λ₯΄λ‹€. μ—‘μ…€ 파일 λͺ‡ 번만 λ‚˜λˆ  봐도 μ•ˆλ‹€. λ‚΄κ²Œ μ€‘μš”ν•œ 컬럼과 λ„€κ²Œ μ€‘μš”ν•œ 컬럼이 λ‹€λ₯΄κ³  λ„€κ°€ 보고 싢은 κ°’κ³Ό λ‚΄κ°€ 보고 싢은 값이 λ‹€λ₯΄λ‹€. 탓할 μˆ˜λŠ” μ—†λ‹€. 뢄석은 뢄석 λͺ©μ μ— 따라 κ·Έ ν˜•νƒœλ₯Ό 달리 ν•œλ‹€. ν•œ λ°μ΄ν„°λ‘œ 뽑아낼 수 μžˆλŠ” 뢄석은 μ²œμ°¨λ§Œλ³„μ΄λ‹€. λ‚΄κ²Œ μ™„λ²½ν•œ 데이터가 λ„€κ²Œ λ§ν•œ 데이터가 될 수 μžˆλ‹€λŠ” κ±Έ μ˜λ―Έν•œλ‹€. 전달할 μ‚¬λžŒμ˜ λ§ˆμŒμ„ μ½λŠ” λ…μ‹¬μˆ μ‚¬κ°€ μ•„λ‹ˆλΌλ©΄ λ„€ μ•ˆμ˜ 양식을 맞좰 쀄 μˆ˜λŠ” μ—†λ‹€. κ²°κ΅­ 우리 λͺ¨λ‘λŠ” ν•œ κΈΈ μ‚¬λžŒ 속을 λͺ» 읽은 μ£„λ‘œ 전체 데이터 λΆ„μ„μ˜ 7~8할에 κ±ΈμΉ˜λŠ” μ‹œκ°„μ„ 데이터 μ „μ²˜λ¦¬ 과정에 μ†Œλͺ¨ν•˜κ³  μžˆλ‹¨λ‹€.

 

 

λ‚΄κ²Œ 쒋은 데이터와 λ„€κ²Œ 쒋은 λ°μ΄ν„°λŠ” λ‹€λ₯΄λ‹€.

 

 

λ„λŒ€μ²΄, μ „λ‹¬ν•˜κΈ°μ— μ™„λ²½ν•œ λ°μ΄ν„°λž€ μ–΄λ–€ λ°μ΄ν„°μΌκΉŒ. 데이터 A와 데이터 B 쀑 λͺ¨λ‘μ—κ²Œ 쑰금 더 λ‚˜μ€ 데이터가 있고 데이터 C와 데이터 D 쀑에도 μ—­μ‹œ λͺ¨λ‘μ—κ²Œ 쑰금 더 λ‚˜μ€ 데이터가 있고 이런 과정을 λ°˜λ³΅ν•΄ λ‚˜κ°€λ‹€ 보면 μ–Έμ  κ°€ μ΅œμƒκΈ‰μ— ν•œμ—†μ΄ κ°€κΉŒμš΄ 데이터에 닿을 텐데, κ·Έ λ°μ΄ν„°λŠ” μ–΄λ–€ ν˜•νƒœλ₯Ό ν•˜κ³  μžˆλƒ” 것이닀. 

 

이런 μ˜λ¬Έμ— 닡을 쀄 수 μžˆλŠ” κ°œλ…μ΄ Jeff Leek이 λ§Œλ“  Tidy dataλ‹€. μœ„ν‚€λ°±κ³Όμ— 기재된 Tidy data의 μ •μ˜λŠ” 이렇닀. "λ°‘λ°”λ‹₯λΆ€ν„° μ‹œμž‘ν•  ν•„μš” μ—†λŠ” 데이터". μ–΄λ–€ 뢄석에도 κ°€κ³΅λ˜κΈ° μš©μ΄ν•œ ν‘œμ€€ν™”λœ 양식을 κ°€μ Έλ‹€ λ‘”λ‹€λ©΄ λ„ˆ λ‚˜ 우리의 퇴근 μ‹œκ°„μ€ 쑰금 더 μ•žλ‹Ήκ²¨μ§€μ§€ μ•Šκ² λƒλŠ” κ±°λ‹€. 이런 μ•žλ‹Ήκ²¨μ§μ΄ μ§€μ†μ μœΌλ‘œ λ°˜λ³΅λœλ‹€λ©΄ μ–Έμ  κ°€ μ •μ‹œν‡΄κ·Όλ„ κ°€λŠ₯ν•΄μ§€κ² μ§€.

 

 

 

 

Tidy data의 νŠΉμ§•

 

Jeff Leek의 The Elements of Data Analytic Style에 λ”°λ₯΄μžλ©΄ Tidy data의 νŠΉμ„±μ€ λ‹€μŒκ³Ό κ°™λ‹€.

 

   κ° λ³€μˆ˜λŠ” κ°œλ³„μ˜ μ—΄(column)으둜 μ‘΄μž¬ν•œλ‹€.
   κ° κ΄€μΈ‘μΉ˜λŠ” ν–‰(row)λ₯Ό κ΅¬μ„±ν•œλ‹€.
   κ° ν‘œλŠ” 단 ν•˜λ‚˜μ˜ 관츑기쀀에 μ˜ν•΄μ„œ 쑰직된 데이터λ₯Ό μ €μž₯ν•œλ‹€.
   λ§Œμ•½ μ—¬λŸ¬κ°œμ˜ ν‘œκ°€ μ‘΄μž¬ν•œλ‹€λ©΄, 적어도 ν•˜λ‚˜μ΄μƒμ˜ μ—΄(column)이 κ³΅μœ λ˜μ–΄μ•Ό ν•œλ‹€.

 

      λ³€μˆ˜(Variable): 예λ₯Ό λ“€λ©΄ ν‚€, λͺΈλ¬΄κ²Œ, 성별
      κ°’(Value): 예λ₯Ό λ“€μžλ©΄ 152 cm, 80 kg, μ—¬μ„±
      κ΄€μΈ‘μΉ˜(Observation): 값을 μΈ‘μ •ν•œ λ‹¨μœ„, μ—¬κΈ°μ„œλŠ” 각각의 μ‚¬λžŒ

 

 

 

Tidy data의 μ˜ˆμ‹œ

ν‘œ A (=Wide Format)

이름 성별 κ΅­μ–΄ μˆ˜ν•™ μ˜μ–΄
κΉ€μ² μˆ˜ 남 63 90 93
이영희 μ—¬ 91 39 38
신짱ꡬ 남 44 79 88

 

 

ν‘œ B(=Long Format)

이름 성별 κ³Όλͺ© 점수
κΉ€μ² μˆ˜ 남 κ΅­μ–΄ 63
κΉ€μ² μˆ˜ 남 μˆ˜ν•™ 90
κΉ€μ² μˆ˜ 남 μ˜μ–΄ 93
이영희 μ—¬ κ΅­μ–΄ 91
이영희 μ—¬ μˆ˜ν•™ 39
이영희 μ—¬ μ˜μ–΄ 38
신짱ꡬ 남 κ΅­μ–΄ 44
신짱ꡬ 남 μˆ˜ν•™ 79
신짱ꡬ 남 μ˜μ–΄ 88

 

 

κΈ€λ‘œ μ“°λ‹ˆ 쑰금 μ–΄λ ΅λ‹€. μ§κ΄€μ μœΌλ‘œ μ˜ˆμ‹œλ₯Ό λ“€μ–΄ 보자. μœ„ 데이터 쀑 ν‘œ AλŠ” Untidy data이고 ν‘œ BλŠ” Tidy data이닀. 차이점이 보일 것이닀. μ™Όμͺ½μ€ 'κ΅­μ–΄, μˆ˜ν•™, μ˜μ–΄'λΌλŠ” 'κ³Όλͺ©'이 각각 λ”°λ‘œ 뢄리돼 λ…ΈμΆœλ¨μœΌλ‘œμ¨ 각 λ³€μˆ˜κ°€ κ°œλ³„μ˜ μ—΄λ‘œ μ‘΄μž¬ν•œλ‹€λŠ” Tidy data의 쑰건을 λ§Œμ‘±ν•˜μ§€ λͺ» ν–ˆλ‹€. λ°˜λŒ€λ‘œ ν‘œ BλŠ” 기쀀을 λ§Œμ‘±ν•œ Tidy dataλ‹€.

 

 

λˆ„κ°€ 보든 잘 찾을 수 μžˆμ–΄μ•Ό 쒋은 데이터닀.

 

 

쑰금 μ˜μ•„ν•  수 μžˆλ‹€. κ³Όλͺ©λ³„ μ μˆ˜λŠ” μ€‘μš”ν•œ 뢄석 지점이고 ν‘œ A μ—­μ‹œ ν‘œ B와 λ‹€λ₯Έ κ΄€μ μ—μ„œ μΆ©λΆ„νžˆ μ‹œμ‚¬μ μ΄ μžˆμ–΄ λ³΄μ—¬μ„œλ‹€. λ§žλ‹€. Untidy data μ—­μ‹œ λ‚˜μ˜λ‹€κ³  말할 순 μ—†λ‹€. Tidy data λŒ€λΉ„ λΆ„μ„μ—λŠ” 였히렀 μš©μ΄ν•˜λ‹€. 이런 κ΄€μ μ—μ„œ Untidy와 Tidy dataλ₯Ό 각각 Wide, Long format으둜 λΆ€λ₯Έλ‹€. μ ˆλŒ€μ μœΌλ‘œ μš°μ—΄μ„ 가릴 수 μžˆλŠ” 건 μ•„λ‹ˆμ§€λ§Œ, Tidy data의 경우 데이터 μ‹œκ°ν™”, 가곡, μ €μž₯ λ“± 컴퓨터가 μ²˜λ¦¬ν•˜λŠ” 업무에 μ΅œμ ν™”λ˜μ–΄ 있기 λ•Œλ¬Έμ— 둜우 λ°μ΄ν„°μ˜ ν‘œμ€€ν™”λœ 포맷으둜 μ‚ΌκΈ°μ—λŠ” 더없이 쒋은 ν˜•μ‹μ΄λ‹€. 

 

 

 

 

탐색적 데이터 뢄석(Expolratory Data Analysis) λ„κ΅¬λ‘œμ˜ Tidy data

 

John Tukey κ΅μˆ˜λŠ” "'잘λͺ»λœ 질문'에 λŒ€ν•œ 'ν™•μ‹€ν•œ λ‹΅'은 결둠이 ν™•μ‹€ν•  수 μžˆμœΌλ‚˜, λ•Œλ‘  'μ •ν™•ν•œ 질문'에 λŒ€ν•œ 'λŒ€λž΅μ μΈ λ‹΅'이 더 λ‚«λ‹€κ³  ν–ˆλ‹€. κ·Έκ°€ κ΅¬μΆ•ν•œ 탐색적 데이터 뢄석(Expolratory Data Analysis) 이둠은 이처럼 데이터셋 자체λ₯Ό 샅샅이 λœ―μ–΄ 보고 각 데이터 μ‚¬μ΄μ˜ λ¬Έλ§₯을 더듬어 κ°€λ©΄μ„œ λ³€μˆ˜ κ°„μ˜ 관계λ₯Ό μ°Ύμ•„κ°€λŠ” 뢄석 방식이닀. κ·Έλž˜μ„œ 이 μ΄λ‘ μ—μ„œλŠ” μœ μ—°ν•œ 데이터 μ‹œκ°ν™”/ 가곡이 κ°€λŠ₯ν•œ ν˜•νƒœλ‘œ μ „μ²˜λ¦¬ν•˜λŠ” 것이 μ–΄λ–€ 단계보닀 μš°μ„ λœλ‹€.

 

λ‹€λ₯Έ 건 λͺ°λΌλ„, 이런 뢄석 νˆ΄λ“€μ˜ λ„κ΅¬λ‘œμ¨ Tidy dataλŠ” 더없이 μ™„λ²½ν•˜κ² λ‹€. 데이터가 점점 더 컀지고 κ·Έλ§ŒνΌμ΄λ‚˜ 관계가 μ˜…μ–΄μ§€κ³  μžˆλŠ” λ°”λ‹€ ν•œλ³΅νŒ 같은 데이터 μ„Έκ³„μ—μ„œ Tidy data와 EDAλŠ” 우리의 λ“ λ“ ν•œ λ‚˜μΉ¨λ°˜μ΄ λ˜μ–΄ 쀄 것이닀.

 

 

 

좜처

κΉ€νƒœμœ€λ‹˜ github

Hardly wickham λ…Όλ¬Έ

 

 

 

더보기
BUILD-UP/Framework