반응형

Data Science 4

[책] 헬로 데이터과학 -(5) 탐색적 데이터 분석

헬로 데이터과학 - (5) "진정한 발견은 새로운 장소를 찾는 것이 아니라, 새로운 관점을 찾는 것이다" - 마르셀 프루스트 데이터가 수집되었다면, 먼저 그 데이터의 모든 측면을 철저히 이해하고 노력해야한다. 그것이 데이터 수집 후의 첫번째 과정이라고 할 수있다. 따라서,수집한 데이터가 들어왔을 때,그 데이터를 다양한 각도에서 관찰하고 이해하는 과정을 탐색적 데이터 분석(Exploratory Data Analysis, EDA)이라고 부른다. 탐색적 데이터 분석이 필요한 이유는 다음과 같이 정리할 수 있다.데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제를 발견할 수 있다.이를 통해, 본격적인 분석에 들어가기에 앞서 데이터를 다시 수집하거나 추가로 ..

아파치 스파크 개발 환경 구축 및 예제 실습 - IntelliJ + Maven + Scala + Mac

스파크를 이용한 개발을 하기위해, 개발 툴을 이용해서 간단한 코드를 작성하고 실행해보는 실습을 해봤다. 개발 환경은 맥북에서 IntelliJ와 Maven을 이용했고, 개발 언어는 Scala이다. 일단 IntelliJ IDEA를 다운로드 받는다. (구글에서 IntelliJ를 검색하면 공식 홈페이지에서 커뮤니티 버전을 쉽게 구할 수 있다.) 다운로드 후 설치를 하면 아래와 같은 화면을 볼 수 있는데, 만약 Scala를 미리 설치하지 않았다면, 화면 하단에 있는 Configure - Plugins - Install JetBrains plugin.. 에 들어가서 Scala를 검색한 후 설치하면 된다. 그 다음 프로젝트를 생성하기 위해서 Create New Project를 클릭한다. 아래의 화면에서, 좌측에 있는..

[책] 헬로 데이터과학 -(4) 문제 정의와 데이터 수집 및 준비

헬로 데이터과학 - (4) "만약 나에게 문제 해결을 위해 한 시간이 주어진다면, 나는 55분 동안 문제에 대해 생각하고 5분 동안 해결책에 대해 생각하겠다" - 알버트 아인슈타인 우리가 데이터를 분석하는 것은 목적은, 아마도 많은 경우에, 어떤 문제를 해결하기 위함일 것이다.문제를 해결하는 것은 문제를 잘 정의하는 것으로 부터 시작한다. 대체로 문제를 해결하는 단계는 아래와 같이 이루어진다.주어진 문제를 명확히 정의한다. 주어진 문제를 정확히 이해해야만 필요한 데이터와 접근 방법을 결정할 수 있다.문제 해결에 필요한 데이터를 구한다. 이미 존재하는 경우에는 기존의 데이터에서 필요한 부분을 추철하고, 그렇지 않은 경우에는 직접 수집한다.데이터를 분석에 적합한 형태로 가공한다. 수집 및 추출된 데이터는 대..

아파치 스파크 입문

아파치 스파크(Apache Spark)는 빅데이터처리를 위한 오픈소스 병렬분산처리 플랫폼이다. 빅데이터를 이용하여 원하는 결과를 얻고자할 때나, 스트리밍을 이용하여 머신러닝을 효과적으로 수행하려고할 때 주로 사용된다. 스파크에 대한 더욱 자세한 이야기에 들어가기 앞서,나프다(나는 프로그래머다)에 올라온 "Apache Spark로 시작하는 머신러닝 입문" 동영상을 먼저 공유한다. 책이나 인터넷 자료를 통해서도 개념을 이해하고 익힐 수 있겠지만,필자의 경우 시청각 자료로 익히는 편이 훨씬 수월했고,동영상의 발표자 김도남님의 말대로, 개발자는 역시 타이핑을 통해 익히는 것이왕도이자 정도가 아닌가 싶다.

반응형