본문 바로가기
반응형

Data Science18

GPT-3에 대한 얕고 넓은 지식 "기사 쓰는 인공지능", "사람이냐, AI냐?!", "초거대 AI" 언제부턴가, 당장이라도 인간을 충분히 대체할 수 있는 인공지능이 개발된 듯한 기사가 쏟아지기 시작했고, 그것과 함께 따라오는 단어가 있었다. "GPT-3"다. GPT-3는 뭘까. GPT-3는 어떻게 인간을 대신할 수 있다고 할 정도로 뛰어난 성능을 보일 수 있게 되었을까. GPT-3 GPT-3(Generative Pre-trained Transformer 3)는 OpenAI사에서 만든 자연어 처리 모델 / 언어 모델이다. 다르게 표현하면, 딥러닝을 이용해 인간다운 텍스트를 만들어내는 인공지능이다. 이를 통해, 소설, 뉴스 기사 생성 등에 사용 가능하다. (참고로, OpenAI는 일론머스크가 설립했다.) GPT라는 모델은 시간에 따라 업그.. 2022. 5. 1.
스파크 MLlib + 선형회귀법, Spark MLlib + Linear Regression - (2) Feature extraction 앞서 (1)편에서 얘기했던, 4가지의 과정 중에서 이번에는 Feature extraction에 대해서 얘기해볼것이다. (가장 첫번째 단계인 데이터 수집 및 준비 단계는 이미 이루어졌다고 가정한다.) 0. Feature Extraction Feature란, 어떤 결과의 원인에 해당하는 일이라고 설명했다. 우리가 머신러닝을 하는 대표적인 이유가 예측을 하기 위한 것이다. 그렇다면 "어떤 조건에 대한", "어떤 값에 대한" 예측을 할 것인지가 정해져야 하는데, 그 "조건"과 "값"이 원인 요소에 해당하는 것이고. 그것을 우리는 Feature라고 한다. 만약에 우리가 지도 학습을 하게 되는거라면, 다양한 이미 답이 만들어져 있는 것으로 학습을 시키게 될 것이다. 가령, 온도와 아이스크림 판매량 데이터를 가지고,.. 2017. 12. 15.
스파크 MLlib + 선형회귀법, Spark MLlib + Linear Regression - (1) 기초 0. 스파크 MLlib을 이용해서, 선형회귀(Linear regression)를 구현해보자.우선은, 선형회귀에 대한 기본적인 이해는 되어있다는 것으로 전제한다.만약에 안되어 있다면 이곳을 참고하자. 1. 스파크 MLlib의 디자인과 철학은 단순하다."모든 데이터가 RDD로 표현된 분산 데이터셋에서 다양한 알고리즘을 가져다 쓸수 있게 해주는 것" 가령, 스팸 메일 분류를 위해 MLlib을 쓴다고 하면 다음과 같은 과정이 있을 것이다.메일 메세지를 표현하는 문자열들이 담긴 RDD를 준비한다.MLlib의 feature 추출 알고리즘들 중 하나를 써서 문자열을 수치화된 특성으로 변환한다 (머신러닝에 적합하도록). 이는 벡터들의 RDD를 되돌려 줄 것이다.벡터의 RDD에 분류 알고리즘을 호출한다(예: 선형 회귀(.. 2017. 12. 4.
선형 회귀, Linear Regression 우선, 선형 회귀를 분석한다고 할때. "회귀 분석"의 의미는 둘 또는 그 이상의 변수들 간의 인과 관계를 파악하는 것을 의미한다. 가령, 날씨와 아이스크림 판매량의 관계를 분석한다고 했을때.날씨가 더우면 -> 아이스크림 판매량이 올라간다.날씨가 추우면 -> 아이스크림 판매량이 내려간다.와 같이 밀접한 인과 관계를 분석하는 것을 회귀 분석한다고 말한다. 이때, 회귀 분석은, 둘 또는 그 이상의 변수들 간의 상관 관계를 파악하는, 상관 분석에 포함되는 개념이다. (상관 분석의 예는, 어떤 학생의 수학 점수와 영어 점수 간의 관계 같은 것이다. 어떤 관계가 있다고 하더라도, 인과 관계는 형성될 수 없는 관계를 나타낼 때. 상관 관계는 있으나, 인과 관계는 없다고 말할 수 있다) 그럼, 요즘 머신 러닝에서 가장.. 2017. 11. 23.
반응형