Recent Posts

Spark 3.0에 새로 추가된 기능 소개 및 설명

3 minute read

Spark 3.0.0이 6월 18일에 출시되었습니다. 정말 오랜만의 major update인 만큼 다양한 feature들이 Spark에 추가되었는데요. 1.x에서 2.x으로 넘어올 때 Dataset API, Catalyst Optimizer 등이 추가되었던 게 벌써 엊그제같은데 벌...

AWSKRUG Data Science 2020/05 발표 - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들

less than 1 minute read

우연한 기회로 AWSKRUG의 DS 소모임에서 발표를 하게 되었습니다. 주로 회사에서 겪었던 문제들 + 이론적인 내용들이 포함되어 있습니다. 온라인 발표는 처음이었는데 생각보다는 할만했던 것 같습니다. 생각보다 많은 분이 들어주시고 질문도 활발하게 해주셔서 재밌는 경험이었습니다. ...

Scala의 예외 처리 - Option, Either, Try

3 minute read

Scala에서는 JVM 기반 언어 최대의 적인 NPE (NullPointerException)를 functional하게 handling 할 수 있는 다양한 수단을 제공하고 있습니다. Scala의 exception handling 3인방인 Option, Either, Try 에 대해...

Airflow의 execution_date에 대하여

3 minute read

Airflow는 Airbnb에서 시작된 Job orchestration framework로 데이터 엔지니어링 사이드에서 꽤나 많이 사용하는 도구 중 하나입니다. 저도 현업에서 production용으로 이미 사용하고 있고, 20+ DAGs, 200+ tasks를 매일매일 돌리고 있습...

[ZEPPELIN-4611] Fetching rows with newline character ( ) breaks entire table

less than 1 minute read

얼마 전 사내에서 데이터 분석가분의 troubleshooting을 도와주다가 Zeppelin의 버그를 발견했습니다. 바로 table content에 개행문자 (\n) 가 있으면 전체 table이 깨져 보이는 버그였습니다. 워낙 원인이 명확해보이는 버그라 망설임없이 Zeppelin ...