studying data

문제의 본질을 꿰뚫어 해결책을 찾는 법을 공부합니다

전체 글 46

[AWS 멘토링] 클라우드와 AWS 네트워크

클라우드가 뭐에요? 서버를 구축하지 않고 남이 구축한 것을 가져다 쓰는 것이 아닐까요..? 클라우드는 구름(Cloud)인데 여기서 구름은 인터넷입니다. 인터넷 뒤의 여러가지 서비스를 이용하는 것이라고 생각할 수 있습니다. 예를 들어 서버나 storage, DB가 있을 수 있죠. 이런것들을 임대해서 쓰는 것이에요. 우리는 이런 서버 자원을 빌려서 이용합니다. 그런데 내가 서버를 구축할 필요가 없는 것은 아니에요. 자원을 활용해서 AWS 클라우드 상에서 클라우드 아키텍쳐는 직접 구성을 해야 하거든요. 온프레미스(On Premise)는 기존의 전통적인 인프라 환경입니다. 학교나 회사의 지하에 가면 큰 공간에 커다란 기계가 들어있는 것 본 적 있나요? 맞아요! 큰 서버 컴퓨터가 있어요. 기존의 서버는 회사에서 ..

[통계 공부] 회귀분석을 통한 예측

제동거리 데이터를 다운받아 speed를 독립변수로 dist를 종속변수로 회귀분석을 해보십시오. 이 모형을 이용하여 speed = 20일 때 dist를 예측하면 얼마입니까? 1. 엑셀 파일을 열어줍니다 speed = pd.read_excel('speed.xlsx') speed.head() 2. 회귀분석(ols)를 import하고 '종속변수~독립변수'를 입력합니다. from statsmodels.formula.api import ols p = ols('dist ~ speed', speed).fit() p.summary() 3. 데이터프레임에 예제값을 넣어 예측합니다. new_df = pd.DataFrame({'speed': [20]}) p.predict(new_df) # 0 61.06908 # dtype: ..

[통계 공부] 회귀분석: 임신기간과 신생아 체중

1. Wgt는 신생아의 체중(g), Gest는 임신 기간(주)을 나타냅니다. 임신기간을 독립변수, 신생아의 체중을 종속변수로 회귀분석을 하려면 관계식을 어떻게 써야 합니까? 정답: Wgt ~ Gest / 설명: 관계식은 '종속변수 ~ 독립변수'와 같이 씁니다. 종속변수는 독립변수에 따라 달라지는 변수를 말합니다. 2. 임신기간을 독립변수, 신생아의 체중을 종속변수로 회귀분석을 실시해보세요. 절편은 얼마입니까? 아래 표는 이하 질문들의 답변도 되기 때문에 색깔별로 표기해뒀습니다. import pandas as pd bs = pd.read_excel('birthsmokers.xlsx') from statsmodels.formula.api import ols ols('Wgt ~ Gest', bs).fit()...

[통계 공부] 상관분석: 피부암과 위도의 상관관계

1. Mort 변수는 천만명 당 피부암 사망자 수 입니다. Lat는 위도(latitude)를 나타냅니다. 피부암 사망자 수와 위도의 피어슨 상관 계수를 구해보세요. import pandas as pd import pingouin as pg sc = pd.read_excel('skincancer.xlsx') pg.corr(sc.Mort, sc.Lat) # 피어슨 상관계수(r) = -0.824518 2. 위의 상관계수의 95% 신뢰구간은 무엇입니까? 정답: -0.9, -0.71 3. 모집단에서 상관계수는 어떤 범위에 있습니까? 정답: - ~ - 4. 위의 상관계수의 p-value는 얼마입니까? 정답: 0.05보다 작다(p < .05) / 해설: 분석 결과에서 p-val이 p-value입니다. e-13은 10..

[통계 공부] 분산 분석: 우울증의 치료효과

1. 변수 TRT에는 몇 가지 종류의 값이 있습니까? import pandas as pd dp = pd.read_excel('depression.xlsx') dp.TRT.unique() # array(['A', 'B', 'C'], dtype=object) 2. TRT 변수는 치료방법, y 변수는 치료효과를 나타냅니다. 치료방법에 따라 치료효과의 평균 차이를 검증하려면 어떤 방법을 사용해야합니까? 정답: 분산분석 / 해설: 세 집단 이상의 평균을 비교하려면 분산분석을 실시해야 합니다. 3. 치료효과의 등분산성을 검증해보세요. 치료방법들 사이에 치료효과의 분산은 같습니까(유의수준 5%)? import pingouin as pg pg.homoscedasticity(dv='y', group='TRT', data..

[통계 공부] 두 집단의 평균 비교: 흡연과 신생아 체중

1. 변수 Smoke에는 몇 가지 종류의 값이 있습니까? import pandas as pd bs = pd.read_excel('birthsmokers.xlsx') bs.Smoke.unique() #array(['yes', 'no'], dtype=object) 2. Smoke는 산모의 흡연 여부를 나타냅니다(S는 대문자). Wgt는 신생아의 체중을 나타냅니다(W는 대문자). 흡연자 산모(Smoke == 'yes')가 낳은 신생아 체중의 평균은 얼마입니까? smoker = bs[bs.Smoke == 'yes'] non_smoker = bs[bs.Smoke == 'no'] smoker.Wgt.mean() #2973.625 3. 비흡연자 산모가 낳은 신생아 체중의 평균은 얼마입니까? non_smoker.Wgt..

파이썬과 STATA 배우는 과정에서 생긴 온도차

대학원에서 질적연구방법론을 주도구로 활용하며 심층면담 기술을 공부했어요. 이론적으로 빠삭한 것도 중요하지만, 질방에서 무엇보다 중요한 건 방법론을 몸에 체화하는 것이었습니다. 인터뷰 중 등장하는 질문은 인터뷰 대상자를 정확하게 알고 있어야 하고, 그 대화의 맥락을 짚어내면서 핵심줄기를 잃지 말아야 하죠. 이것들은 구글링할 수도 없고, 다른 이가 대신해 줄 수도 없습니다. 그래서 질방 연구자는 그 자체로 자신이 훌륭한 연구도구가 되어야 해요. 이렇게 완성한 인터뷰는 여러 차례 가공을 거쳐서 대상자를 특정할 수 없도록 자르고 이어붙이며 나름의 편집을 해야 합니다. 숙련된 연구자가 아니면 인터뷰 중 대상자에게 상처를 주기도 하고, 이제 막 터져나온 누군가의 말을 막아버리는 행동이 되기도 해요. 조심스럽게 접근..

[python 공부] 배열의 데이터 타입 dtype

array는 파이썬 리스트와 달리 같은 단일 데이터 타입만 저장이 가능합니다. 파이썬 리스트의 경우는 [1,14, Tme, "S"] 등 다양한 형태의 데이터가 들어갈 수 있습니다. 그런데 numpy에서는 여러 데이터를 함께 쓸 수 없고, 하나의 형식만 저장할 수 있습니다. arr = np.array([0, 1, 2, 3, 4], dtype= float) print(arr) #[0. 1. 2. 3. 4.] print(arr.dtype) #'float64' print(arr.astype(int)) #[0 1 2 3 4] float는 실수형을 뜻하는데 정수형이 아니라 실수의 형태로 0.0 , 1.0의 형태로 나타납니다. 다른 데이터 타입으로 바꾸기 위해서는 'astype'을 쓸 수 있습니다. 맨 아래 줄 처럼..

[python 공부] numpy와 list

Numpy란 파이썬에서 대규모 다차원 배열을 다룰 수 있게 도와주는 라이브러리입니다. 데이터의 대부분은 숫자의 배열이기 때문에 중요합니다. 하나의 이미지 파일엔 픽셀이 있고, 밝고 어두운 명암도 숫자로 나타낼 수 있습니다. 이 경우에는 세로인 1차원과 가로인 1차원의 곱으로 이뤄져있어서 결국은 2차원 데이터가 됩니다. 그리고 사운드 데이터를 생각해보면, 가로축은 시간이고 세로축은 소리입니다. 각각 점을 찍어 숫자로 나타낼 수 있는데 숫자의 배열인 1차원 자료로 나타낼 수 있습니다. 이미지, 소리도 숫자로 나타낼 수 있기 때문에 실생활 데이터도 숫자의 배열로 볼 수 있죠. 그래서 우리는 숫자 배열로 처리하기 위해 numpy를 사용합니다. Numpy는 반복문 없이 배열 처리가 가능한데, 빠른 연산을 지원하고..

[python 공부] 웹페이지 방문

from-import를 이용해서 urllib패키지 안 request 모듈에서 urlopen 함수를 불러오는 코드를 작성해봅시다. 다음 주소를 urlopen하고, read() 한 다음, 이를 utf-8으로 decode 한 결과를 변수 webpage에 넣어봅시다.https://en.wikipedia.org/wiki/Lorem_ipsum 변수 webpage를 출력해봅시다. 무엇이 나오나요? Lorem ipsum - Wikipedia In publishing and graphic design, Lorem ipsum is a placeholder text commonly used to demonstrate the visual form of a document or a typeface without relying ..