studying data

문제의 본질을 꿰뚫어 해결책을 찾는 법을 공부합니다

전체 글 32

[딥러닝] 프레임워크

딥러닝 프레임워크 한창 딥러닝이 핫할 때, 많은 기업들에서 프레임워크를 발표했습니다. 그런데 초기에는 사용도 어렵고 여기저기 난립하다 보니, 든든한 뒷백을 가지고 있는 텐서플로 이외에 다른 프레임워크는 생겼다가 사라졌다가 했죠. 아래는 다양한 딥러닝 프레임워크의 종류 중 살아남은 것들을 정리한 것입니다. 프레임워크의 종류 - 텐서플로: 구글이 개발하고 가장 높은 점유율을 보임. 기업용 기능이 많음. - 케라스: 여러 딥러닝 프레임워크를 같은 방법으로 편하게 사용하라 수 있도록 하는 라이브러리. 텐서플로 2.X부터 케라스 API를 기본 사용법으로 채택함. -파이토치: 페이스북이 개발했고 새로운 모형을 만들기 편리해서 학계에서 인기를 끔. 텐서플로 설치 pip install tensorflow GPU 지원을..

[대학원 생활] 지도교수님한테 논문내라고 연락을 받았다

아.. 올것이 오고 말았다.. 지도교수님의 카카오톡 후후... 점이 많아지는 건 기분탓일거에요. 저희 지도교수님이 막 호랑이같다거나 그런 건 아닌 것 같기도(?) 하지만 어쨌든 이런 독촉연락은 참 어려워요. 아직 글 쓴 거 아무것도 없고 가진 것이라곤 데이터 몇 개가 전부인데, 논문을 정말 내가 쓸 수 있을까 이런 생각이 가득 드네요. 무엇보다도 지금 할 것도 많은데 말이에요. 과외수업이랑 아르바이트도 해야하고, 전세자금도 구해야하고 데이터 공부도 하면서 논문을 쓰기? 이래서 대학원생들이 힘들다고 했던건가봐요. 학교 다닐 때 좀 덜 놀고 글을 썼으면 물론 좋았겠지만 그때는 수업 따라가기도 벅찼던 것 같아요. 오늘은 논문쓰기 싫은 넋두리입니다. 증권데이터 공부 빠꼼히 들여다보기만 하고 오늘은 정말로 녹취록..

[증권데이터] 판다스는 뉴욕 증권가에서 일하는 퀀트에 의해 개발됐다

판다스는 계량 경제에 도움을 주기 위해 만들어졌습니다. 우리가 금융 데이터를 연구할 때는 공통적인 task를 가지는데 통계적인 추정을 하는 일들을 공통적으로 하게 됩니다. 쉽게 쓸 수 있게 되기 때문에 어떤 기술을 사용할 것인지 광범위한 기술이 있습니다. Numpy는 중심적인 역할을 합니다. pandas도 numpy를 가지고 있고 여러 도구들을 가지고 있기 때문에 재사용이 가능한 API를 제공합니다. 그리고 파이썬은 접착제 언어라는 특징이 있습니다. 다른 언어와 호환성이 좋기 때문입니다. bridge performance gap이 있는데 API만 파이썬으로 개발하면 다른 빠른 언어의 장점과 파이썬의 쉽고 빠른 속도가 결합될 수 있습니다. 파이써니스타라고 부르는데 이들은 필요한 툴이 있으면 직접 만들거나 ..

[증권데이터] 신호와 소음 찾기 강의소개

수집과정 FinanceDataReader, requests로 원하는 정보를 수집하고 Beautifulsoup5으로 분석하고 복잡한 데이터의 경우 tqdm을 활용할 수 있습니다. 그리고 pandas를 통해서 다양한 테이블을 수집하고 크롬개발자도구를 이해하면 복잡한 데이터도 간단하게 수집할 수 있습니다. 전처리와 분석 판다스의 필터 기능을 이용해 여러 칼럼을 한번에 전처리하고 판다스의 melt를 통해 tidy data를 만들 수 있습니다. merge와 concat의 차이점과 활용방법을 알아보기도 합니다. 그리고 groupby와 pivot_table, crosstab, value_counts를 통한 통계적인 계산도 가능합니다. 시각화 시각화에서는 동적, 정적인 도구를 모두 사용합니다. Matplotlib, P..

[AWS 멘토링] AWS x 걸스인텍 멘토링 후기

5주간의 멘토링이 막을 내렸습니다. 오래 자주 만난 것은 아니었지만, 부담없이 서로에게 지지와 응원이 되는 시간이었어요. 특히나 저는 IT업계 현장에서 일할 수 있는 분들과 이야기할 수 있는 기회라 굉장히 좋았습니다. 몇년 차에 어떤 고민을 하게 되는지 현실적인 경로를 그릴 수 있었거든요. 멘토 한 분에 멘티 3명이었지만, 저에겐 멘토 3명같은 느낌이었어요. 저희 팀의 메인멘토는 AWS에서 클라우드 교육을 담당하고 있는 지선님이셨어요. 국내 대기업에서 일하다가 외국계 대기업에서 일하는 경험의 전환이 어떤 의미를 가지는지, 일하는 분위기나 연봉계산방법 등 다양한 이야기를 들을 수 있었죠. 물론 이런 이야기들도 좋았지만, 지선님께서 고민했던 갈래들을 들을 수 있어서 저에겐 정말 큰 도움이 됐습니다. 이 멘토..

[머신러닝 공부] Overview of Colaboratory Features, 머신러닝과 딥러닝 정의

Cells A notebook is a list of cells. cells contain either explanatory text or executable code and its output. 머신러닝의 정의 _ 톰 미첼(Tom Mitchell) 만약 어떤 작업 T에서 경험 E를 통해 성능측정방법인 P로 측정했을 때 성능이 향상된다면 이런 컴퓨터 프로그램은 학습을 한다. 어떤 게 정말 좋은 것인지 말할 수 있는 지에 대한 척도가 정말 좋아진다면 이것은 학습을 하고 있는 것이고 인공지능이라고 말할 수 있다고 봅니다. 예를 들어 어떤 선생님이 있다고 해볼까요? 10년간 열심히 초등학생들을 가르쳤다고 해봅시다. 아이들이 어떤 형태를 보이면 모범생에 속한다거나, 어떤 학생은 그림을 잘 그린다는 패턴이 있을것..

[AWS 멘토링] 불확실한 미래에 작은 불 하나 켜보자

직업을 고를 때 뭐가 중요할까요? 1. 금전적 보상: 고냥이 사료값을 벌기 위해서요.. 제 자식을 먹여살리고 좀 더 좋은 환경에서 지내게 해주고 싶어요. 충분히 넓은 공간의 집과 안전 보장이 저의 목표! 2. 하루 4시간은 내가 온전히 쓸 수 있을만한 여유시간 보장: 업무시간 외 집중할 수 있는 시간이 필요해요. 운동, 고양이와 함께 시간을 보낼 수 있는 여유가 충분히 보장되면 좋겠네요! 3. 성취감: 내가 이 일을 한다는 데에서 오는 작은 뿌듯함이 정기적으로 있으면 좋겠어요. 아주 작은 일이라고 하더라도 내가 충분히 멋진 일을 하고 있구나라고 느낄 수 있다면 참 좋아요! 커리어플랜 _ 양적연구방법론에도 능통한 연구자가 되어보자! 이번 하반기에 반드시 끝내야 할 것 석사학위 취득 완료! 석사논문 최종 제..

[통계 공부] k-Means 클러스터링

k-Means는 가장 널리 사용되는 클러스터링 방법입니다. k-Means는 k개의 평균이라는 뜻인데 군집의 평균인 중심점을 구할 수 있는 것이죠. 사례를 중심점이 가장 가까운 군집에 포함시킵니다. 장점 단점 k만 정해주면 되므로 간단 거리를 정할 수 잇고, 중심점 주변에 사례들이 몰려있는 경우에 사용할 수 있음 소수의 사례만 무작위로 뽑아 클러스터링할 수도 있음 (미니배치 k-Means) 초기값에 따라 결과가 달라질 수 있음 연속변수에만 적용가능 블록하지 않은 모양의 군집에는 성능이 떠러짐 군집 수 결정이 어려움 이상값에 크게 영향을 받음 극단치가 있는 경우에는 k-Means를 쓰기 전에 미리 먼저 빼줘야 합니다. 이상값에 영향을 크게 받기 때문이죠. PCA, NMP, MDS는 차원축소 방법이라 변수의 ..

[통계 공부] 비지도 학습(unsupervised learning)

주어진 데이터의 내재적 구조를 분석하는데 유용한 틀입니다. 지도학습과 달리 데이터 자체에 정답이 없다는 것이 특징이죠. 종류를 찾아보자면 차원축소와 군집분석이 있습니다. 예를 들어 주식데이터로 살펴볼까요? 주가 경향성을 찾아본다고 하면 네이버와 카카오 주식가격이 같이 떨어진 경우를 생각해봅시다. 네이버와 카카오가 같은 업종이기 때문에 같은 업종이라 비슷한 계열이 하락한다고 하면 이것을 예측하는 것은 지도학습이 됩니다. 있는 데이터 중에서 네이버와 비슷한 주식을 찾아내 업종별로 묶을 수도 있겠죠. 그러나 비슷하다는 기준은 어떻게 정하느냐에 따라 다양할 수 있습니다. 목적과 상황에 따라 적절한 방법이 있어요. 비지도학습은 따로 분석을 하지 않아도 된다는 점에서 강점이 있습니다. 물론 그 설계과정에서 어려움이..

[통계 공부] 로지스틱 회귀분석과 상호작용

A/B 테스팅 데이터를 다운받아 분석을 해보십시오. 독립변수는 weekend와 group을 사용하고 종속변수는 click으로 하여 로지스틱 회귀분석을 해보세요. 모형 1은 click ~ weekend + group로, 모형 2는 click ~ weekend + group + weekend:group으로 분석하세요. 1. AIC와 BIC로 비교할 때 어떤 모형이 더 나은 모형입니까? 정답: 모형 2 해설: 맞다/틀리다 둘 중에 하나로 나눠져야 정확도를 평가할 수 있습니다. 로지스틱 회귀분석은 확률을 예측하기 때문에 맞다/틀리다로 나뉘지가 않습니다. 그래서 문턱값을 기준으로 나누는 것입니다. # 데이터 열기 df = pd.read_excel('abtest.xlsx') # 모형1 from statsmodels..