studying data

문제의 본질을 꿰뚫어 해결책을 찾는 법을 공부합니다

전체 글 32

[통계 공부] 분산 분석: 우울증의 치료효과

1. 변수 TRT에는 몇 가지 종류의 값이 있습니까? import pandas as pd dp = pd.read_excel('depression.xlsx') dp.TRT.unique() # array(['A', 'B', 'C'], dtype=object) 2. TRT 변수는 치료방법, y 변수는 치료효과를 나타냅니다. 치료방법에 따라 치료효과의 평균 차이를 검증하려면 어떤 방법을 사용해야합니까? 정답: 분산분석 / 해설: 세 집단 이상의 평균을 비교하려면 분산분석을 실시해야 합니다. 3. 치료효과의 등분산성을 검증해보세요. 치료방법들 사이에 치료효과의 분산은 같습니까(유의수준 5%)? import pingouin as pg pg.homoscedasticity(dv='y', group='TRT', data..

[통계 공부] 두 집단의 평균 비교: 흡연과 신생아 체중

1. 변수 Smoke에는 몇 가지 종류의 값이 있습니까? import pandas as pd bs = pd.read_excel('birthsmokers.xlsx') bs.Smoke.unique() #array(['yes', 'no'], dtype=object) 2. Smoke는 산모의 흡연 여부를 나타냅니다(S는 대문자). Wgt는 신생아의 체중을 나타냅니다(W는 대문자). 흡연자 산모(Smoke == 'yes')가 낳은 신생아 체중의 평균은 얼마입니까? smoker = bs[bs.Smoke == 'yes'] non_smoker = bs[bs.Smoke == 'no'] smoker.Wgt.mean() #2973.625 3. 비흡연자 산모가 낳은 신생아 체중의 평균은 얼마입니까? non_smoker.Wgt..

파이썬과 STATA 배우는 과정에서 생긴 온도차

대학원에서 질적연구방법론을 주도구로 활용하며 심층면담 기술을 공부했어요. 이론적으로 빠삭한 것도 중요하지만, 질방에서 무엇보다 중요한 건 방법론을 몸에 체화하는 것이었습니다. 인터뷰 중 등장하는 질문은 인터뷰 대상자를 정확하게 알고 있어야 하고, 그 대화의 맥락을 짚어내면서 핵심줄기를 잃지 말아야 하죠. 이것들은 구글링할 수도 없고, 다른 이가 대신해 줄 수도 없습니다. 그래서 질방 연구자는 그 자체로 자신이 훌륭한 연구도구가 되어야 해요. 이렇게 완성한 인터뷰는 여러 차례 가공을 거쳐서 대상자를 특정할 수 없도록 자르고 이어붙이며 나름의 편집을 해야 합니다. 숙련된 연구자가 아니면 인터뷰 중 대상자에게 상처를 주기도 하고, 이제 막 터져나온 누군가의 말을 막아버리는 행동이 되기도 해요. 조심스럽게 접근..

[python 공부] 배열의 데이터 타입 dtype

array는 파이썬 리스트와 달리 같은 단일 데이터 타입만 저장이 가능합니다. 파이썬 리스트의 경우는 [1,14, Tme, "S"] 등 다양한 형태의 데이터가 들어갈 수 있습니다. 그런데 numpy에서는 여러 데이터를 함께 쓸 수 없고, 하나의 형식만 저장할 수 있습니다. arr = np.array([0, 1, 2, 3, 4], dtype= float) print(arr) #[0. 1. 2. 3. 4.] print(arr.dtype) #'float64' print(arr.astype(int)) #[0 1 2 3 4] float는 실수형을 뜻하는데 정수형이 아니라 실수의 형태로 0.0 , 1.0의 형태로 나타납니다. 다른 데이터 타입으로 바꾸기 위해서는 'astype'을 쓸 수 있습니다. 맨 아래 줄 처럼..

[python 공부] numpy와 list

Numpy란 파이썬에서 대규모 다차원 배열을 다룰 수 있게 도와주는 라이브러리입니다. 데이터의 대부분은 숫자의 배열이기 때문에 중요합니다. 하나의 이미지 파일엔 픽셀이 있고, 밝고 어두운 명암도 숫자로 나타낼 수 있습니다. 이 경우에는 세로인 1차원과 가로인 1차원의 곱으로 이뤄져있어서 결국은 2차원 데이터가 됩니다. 그리고 사운드 데이터를 생각해보면, 가로축은 시간이고 세로축은 소리입니다. 각각 점을 찍어 숫자로 나타낼 수 있는데 숫자의 배열인 1차원 자료로 나타낼 수 있습니다. 이미지, 소리도 숫자로 나타낼 수 있기 때문에 실생활 데이터도 숫자의 배열로 볼 수 있죠. 그래서 우리는 숫자 배열로 처리하기 위해 numpy를 사용합니다. Numpy는 반복문 없이 배열 처리가 가능한데, 빠른 연산을 지원하고..

[python 공부] 웹페이지 방문

from-import를 이용해서 urllib패키지 안 request 모듈에서 urlopen 함수를 불러오는 코드를 작성해봅시다. 다음 주소를 urlopen하고, read() 한 다음, 이를 utf-8으로 decode 한 결과를 변수 webpage에 넣어봅시다.https://en.wikipedia.org/wiki/Lorem_ipsum 변수 webpage를 출력해봅시다. 무엇이 나오나요? Lorem ipsum - Wikipedia In publishing and graphic design, Lorem ipsum is a placeholder text commonly used to demonstrate the visual form of a document or a typeface without relying ..

[python 공부] import vs. from-import

from a import b를 이용해서 random의 randrange()를 불러와봅시다. import a를 이용해서 math 모듈을 불러와봅시다. 변수 var1에 randrange 함수를 이용해 1이상 10이하의 임의의 정수를 넣어봅시다. 변수 var2에 math.log 함수를 이용해 log_{72}{5184}log72​5184의 값을 넣어봅시다. var1, var2를 출력하여 결과값을 확인해봅시다. 내가 만들고 통과한 코드 from random import randrange import math as m var1 = int(randrange(1,10)) var2 = m.log(5184, 72) print(var1, var2) 정답코드 from random import randrange import m..

[python 공부] 패키지

패키지란 모듈을 폴더(Directory)로 구분해 관리하는 것입니다. 폴더 안에는 .py라고 쓰인 여러 파일이 들어있다면 이 파일은 모듈이 됩니다. 패키지가 필요한 이유는 모듈을 편리하게 관리하기 위해서에요. 어떤 것은 이미지가 들어있고, 공지나 뉴스같은 종류별로 묶기 위해서입니다. 찾기 쉽도록 관리하기 위해 패키지를 사용합니다. 예를 들어 user라는 폴더에 cal이라는 모듈이 있고 함수 plus가 있다면 import를 이용해 폴더를 불러온 후 함수를 실행할 수 있습니다. import user.cal print(cal.plus(3,4)) 폴더와 칼 사이에 온점(dot, .)이 쓰여서 실행할 수 있습니다. 아래 코드처럼 cal모듈의 plus함수를 쓰라는 뜻이죠. 두번째 방법은 from-import를 사용..

[python 공부] 웹 서버-클라이언트 구조와 라이브러리

웹, HTML, CSS, JS, 브라우저 우리가 인터넷 웹 서비스를 사용할 때 서버는 항상 답을 주는 구조라는 걸 유념해야 합니다. HTML은 사이트를 만드는 뼈대와 같고 JS는 어떻게 상호작용해야하는지 알려주는 역할을 합니다. 그리고 CSS는 보이는 모습을 단정하게 구현해줍니다. 웹 크롤러는 스파이더링(spidering)이라고 하기도 합니다. 검색엔진에서 굉장히 많이 진행하죠. 구글의 크롤러가 열심히 돌아다니면서 크롤링을 하고 타고타고 가다가 네이버의 블로그도 수집을 해오는것이죠. 검색결과가 위로 올라온다는 것은 사람들이 많이 찾거나, 정확하거나, 광고를 붙인 경우인데요 구글은 이런 정보검색에 최적화되어있습니다. 구글은 상위에 보여지는 알고리즘이 잘 되어있는데, rank가 위에 있는 것을 띄워줍니다. ..

[신문 기고글] 학문공동체의 현실을 담는 글 그릇

[중앙대 대학원신문 2021년 상반기 신문평가서] 물리적 광장이 폐쇄됐다. 온라인 광장이 열렸다 한들, 목소리의 결집이 어려울 수밖에 없는 시대다. 이런 상황 속에서 원우들을 온·오프라인 정보로 연결하는 본지의 역할은 더욱 중요해졌다. 역할에 걸맞게 2021년 상반기 신문은 사회 전반을 아우르는 문제를 유기적으로 담아냈다. 특집 지면의 경우 문화예술노동계 칼럼과 인터뷰를 통해 ‘사람’의 이야기가, 그리고 문화정책 이면으로서의 구조적 문제가 적절히 배치됐다. 중앙아카데미아에서 디지털 문화예술 소비와 관련한 논문을 소개하고, 오피니언 지면에 아이돌 유료 소통 서비스를 배치한 것은 통일성을 주는 훌륭한 구성이었다. 특집 이외의 세부기획도 아동학대, 환경오염, AI, 주거형태, 정신건강 등 현실을 관통해 단순한..