본문 바로가기
반응형

빅데이터2

[책] 헬로 데이터과학 -(3) 데이터 과학 입문 헬로 데이터과학 - (3) 이 책에서 저자는 사람들이 "빅데이터"에 너무 집중하는 것을 우려한다.그 단어 자체에서 느껴지는 부담감도 부담감이지만, 어떤 현상을 분석하는데 있어서 반드시 빅데이터가 필요한 것은 아니라는 것이다. 그래서 다음과 같이 빅데이터의 단점을 이야기 한다. 빅데이터는 비싸고 느리다세상의 이치가 그렇듯이, 데이터의 규모가 커질수록 이를 처리하는 비용은 커지고 속도는 느려진다. 이런 비효율은 데이터와 관련된 모든 작업을 복잡하고 어렵게 만든다. 데이터를 직접 수집해야 하는 경우라면 그 어려움과 비용은 이루 말할 수 없을 것이다. 따라서 정말 그렇게 많은 데이터가 필요한지 꼭 짚고 넘어갈 일이다.그렇다면 데이터가 많으면 많을수록 좋을까? 더 많은 데이터는 분석의 정확도를 높이지만 데이터양이.. 2017. 10. 20.
아파치 스파크 입문 아파치 스파크(Apache Spark)는 빅데이터처리를 위한 오픈소스 병렬분산처리 플랫폼이다. 빅데이터를 이용하여 원하는 결과를 얻고자할 때나, 스트리밍을 이용하여 머신러닝을 효과적으로 수행하려고할 때 주로 사용된다. 스파크에 대한 더욱 자세한 이야기에 들어가기 앞서,나프다(나는 프로그래머다)에 올라온 "Apache Spark로 시작하는 머신러닝 입문" 동영상을 먼저 공유한다. 책이나 인터넷 자료를 통해서도 개념을 이해하고 익힐 수 있겠지만,필자의 경우 시청각 자료로 익히는 편이 훨씬 수월했고,동영상의 발표자 김도남님의 말대로, 개발자는 역시 타이핑을 통해 익히는 것이왕도이자 정도가 아닌가 싶다. 2017. 10. 17.
반응형