본문 바로가기

분류 전체보기

(18)
[심화세션 6주차] 추천시트템_필터링 1. 추천 시스템 (Recommendation System)정의추천 시스템은 정보 필터링 기술로써 사용자가 관심을 가지는 콘텐츠, 제품, 정보를 예측하여 개인화된 추천을 제공하는 시스템이다. 대표적으로 유튜브-넷플릭스의 영상 추천 알고리즘과 아마존의 추천 상품 시스템이 있다.특징개인화: 사용자의 데이터를 수집하여 맞춤형 추천 제공지속적 학습: 사용자의 활동이 축적될수록 더 정교한 추천이 가능 / 사용자의 취향이 변경했을 때도 수용 가능.활용플랫폼의 다양화와 온라인 콘텐츠의 성장으로 사용자의 선택지의 폭이 매우 넓어졌다.따라서, 사용자가 빠른 판단을 내려 사용 만족도와 참여도를 높일 수 있도록 추천 시스템의 존재가 중요해졌다.원리사용자의 과거 행동 데이터를 기반으로 추천을 진행한다.이때, 학습된 데이터를 ..
[심화세션 5주차] "통계101 데이터분석" 중 10,11장 10장 / 인과와 상관10.1 인과와 상관세상에 존재하는 수많은 원인과 결과를 다루는 인과와 상관.인과 관계 : 원인과 결과의 관계를 가지며, 일반적으로 방향성을 가짐.상관 관계 : 데이터 내에서 보이는 관련성을 일컫는 말로 데이터 간의 영향을 의미한다.이때, 두 변수 뿐만 아니라 외부에서 영향을 주는 요인이 존재 할 수 있다.이를 중첩요인이라 하며 이를 잘 분석하고 배제하는 것이 중요하다.허위상관인과관계는 없지만 상관관계는 없는 상태를 의미하며, 이와 역의 상태도 존재 가능. - 인과 관계를 알면 할 수 있는 일원인과 결과 간의 관계를 분석함으로써 어떤 요인이 '개입'하는지 분석 가능.역으로 요인을 조정하여 결과변수에 영향을 줄 수 있다. - 상관 관계를 알면 할 수 있는 일두 변수가 서로 영향을 주는..
[심화세션 5주차] "파이썬 데이터 분석 실무 테크닉 100" 중 9,10장 9장 / 잠재고객을 파악하기 위한 이미지 인식 테크닉 10데이터셋이미지와 데이터 영상 분석을 위한 새로운 기능들이 필요하다.  테크닉 81 _ 이미지 데이터 불러오기import cv2img = cv2.imread("img/img01.jpg")height, width = img.shape[:2]print("이미지 가로: " + str(width))print("이미지 세로: " + str(height))cv2.namedWindow("img",cv2.WINDOW_NORMAL)cv2.imshow("img",img)cv2.waitKey(0)cv2.destroyAllWindows()  테크닉 82 _ 동영상 데이터 불러오기import cv2# 정보 취득 #cap = cv2.VideoCapture("mov/mov01..
[심화세션 4주차] "통계101 데이터분석" 중 8,9장 8장 / 통계모형화8.1 선형회귀 원리의 확장2개의 양적 변수의 관계를 설명하는 방법인 '상관'과 '회귀'하지만, 실제 데이터에서 항상 데이터가 회귀모형에 적합하지 않다. 따라서 데이터 유형에 따른 확장이 필요. - 설명 변수의 개수 증가 & 유형 변경 - 반응 변수의 유형 변경 - 회귀 모형의 형태 변경 다중 회귀다중회귀 : 설명변수가 여러 개인 회귀.한 객체에 대하여 여러가지 변수가 존재할때, '다중선형회귀모형'을 다음과 같이 표현할 수 있다.이처럼 여러 요소를 고려하여 y값을 예측하는데 사용할 수 있다. 절편으로써 작용하는 a와기울기를 나타내는 b값 들('편회귀계수)를 통해 표현된다.선형회귀와 다르게 회귀모형이 '회귀평면'으로 나타난다.편회귀계수표준화편휘귀계수 : 설명변수의 데이터 퍼짐 정도 혹은 ..
[심화세션 3주차] "통계101 데이터분석" 중 6,7장 06장 / 다양한 가설검정6.1 다양한 가설검정앞의 5장에서 가설검증 단계에서 사용하는 t검정을 알아봤습니다. 하지만, 해석 목적과 데이터 성질에 따라 t검정 외에 다른 가설검정이 필요한 경우가 있습니다. 다양한 가설검정 방법에 대해 알아보겠습니다.     1. 확인하고 싶은 데이터 분석 목적에 따라 귀무가설과 대립가설 설정.    2. 데이터로 가설검정에 필요한 검정 통계량 계산.    3. 귀무가설이 옳다는 전제로 통계량 분포를 고려하여 통계량 분포와 p값 계산.      => 가설검정 선택 과정에서 데이터 유형, 표본의 수, 양적 변수 분포의 성질 고려! 데이터 유형앞서 공부한 t 검정의 경우, 데이터 분석에 활용되는 실수치인 양적 변수 데이터를 바탕으로,실험군/대조군으로 2개의 표본으로 나누어 양..
[심화세션 3주차] "파이썬 데이터 분석 실무 테크닉 100" 중 5,6장 05장 / 회원탈퇴를 예측하는 테크닉전제조건4장에서는 clustering을 사용했다면 5장에서는 트리모델을 사용하여 예측 모델을 구현한다.스포츠 센터 데이터를 이어서 사용하며, use_log_months.csv 데이터를 추가한다. 테크닉 41 _ 데이터 읽고 수정하기# csv 파일을 읽기 위한 pandas 호출import pandas as pd customer = pd.read_csv('customer_join.csv')uselog_months = pd.read_csv('use_log_months.csv')# 불러들인 데이터 수정year_months = list(uselog_months["연월"].unique())uselog = pd.DaTaFrame()for i in range(1, len(uear_m..
[심화세션 4주차] "파이썬 데이터 분석 실무 테크닉 100" 중 7,8장 7장 / 물류 네트워크 최적 설계를 위한 테크닉 10전제조건앞선 6장에서는, 물류데이터에 한정하여 데이터시각화와 최적화를 진행하였습니다.이번 7장에서는 물류 네트워크 전반에서의 최적화를 진행하며 이를 위해 네트워크 가시화 기술을 활용합니다. 테크닉 61 _ 운송 최적화 문제를 풀어보자.import numpy as npimport pandas as pdfrom itertools import productfrom pulp import LpVariable, lpSum, valuefrom ortoolpy import model_min, addvars, addvals# 데이터 불러오기df_tc = pd.read_csv('trans_cost.csv', index_col="공장")df_demand = pd.read_..
[심화세션 2주차] 심화발제_무작위추출 방법 표본 추출모집단의 데이터를 분석하기 위해서 표본조사를 진행한다.모집단 내의 모든 요소를 분석하는 전수조사와 달리 표본조사는 일부 표본을 분석하여전체 모집단 요소의 특징을 찾아내는 특징을 가진다. 이런 표본 추출 전 필수적인 과정 중 하나가 무작위추출이다. 대표 표본추출 VS 무작위 표본추출표본 추출은 단순 통계학 뿐만 아니라 시장조사, 여론조사 등 데이터를 분석할 필요가 있는 곳이라면 어디서든 필요하다.표본 추출 또한 2가지 범주로 구분 할 수 있다. 대표 표본 추출과 무작위 표본 추출이다.우리가 통계학 101 책을 통해 배운 내용은 무작위 표본추출에 가깝다.대표 표본 추출전체 모집단 표현을 위해 을 추출모집단 자체가 특정 요소를 띄는 집단에서 도움이 됨. 또한 다른 특성들을 통한 부분 세분화가 가능하다..