일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- dataengineer
- 데이터엔지니어
- AWS SageMaker
- Data engineering
- 빅데이터
- 하둡
- 데이터엔지니어링
- kubernetes
- recommendation system
- Spark structured streaming
- eks
- 하둡에코시스템
- 개발자혜성
- hadoop
- Python
- DataEngineering
- BigData
- mlops
- 블로그
- redis bloom filter
- kafka
- apache spark
- pyspark
- spark
- 추천시스템
- 개발자
- Terraform
- 클라우데라
- cloudera
- 빅데이터플랫폼
- Today
- Total
목록분류 전체보기 (63)
Hyesung Oh
* 패스트캠퍼스 데이터엔지니어링 강의 중 데이터엔지니어링의 개요 파트를 수강하고 정리한 글입니다 1. 데이터 엔지니어링의 필요성1-1 문제해결을 위한 가설 검증의 단계비즈니스는 문제를 해결하는 것문제를 해결하기 위한 출발점은 클린한 분석환경이다.문제해결 과정을 정리하면 다음과 같다문제 - 분석 - 가설 - 검증 -최적화가설은 데이터로 부터 세우는데 이 데이터를 확보하고 엔지니어링 하는 것이 비즈니스의 출발점이자 핵심이라 할 수 있다.실례로 페이스북의 경우 유저 경험이 중요하므로 데이터 시스템 구축이 성공 열쇠e-commerce 의 경우 물류,crm, 마케팅 채널 데이터 분석을 통해 전략을 수립한다. 1-2 처음 부터 모든 것을 갖출 수는 없다비즈니스의 스케일에 따라 집중해서 갖추어야 할 부분이 다르다.처..
1. putty 실행후 AWS에 만들어 놓은 ec2 인스턴스의 ip address 를 HOST Name 칸에 적습니다. (ec2 의 포트는 대부분 22입니다) 2. 그리고 ec2 생성시 발급 받아 변환해놓은 key 를 load 합니다. (key는 내 컴퓨터 아무데나 저장해놓습니다) key 변환은 PuttyGen 이라는 프로그램을 이용합니다. 자세한 사항은 https://codingmania.tistory.com/91 [AWS] puttygen 사용법!! .pem 파일 .ppk파일로 변환하기 AWS를 생성했으면, putty등을 통해 SSH로 접속해야한다. 맥에서는 터미널을 통해 pem파일로 접근이 가능하지만, 윈도우의 경우에는 불가능하다. 참고로 pem파일은 AWS을 통해 인스턴스를 생성할 때 다운로드받을..
금융투자협회 채권정보센터 KOFIABOND 에서 20년치 채권 만기수익률 데이터를 크롤링을 해보겠습니다. URL: http://www.kofiabond.or.kr/index.html 홈화면 -> 우측상단 시가평가-> 채권 시가평가기준 수익 채권종류, 만기일 선택 -> 조회하기 버튼 다음과 같은 채권 만기수익률 시계열 데이터를 조회할 수 있습니다. 위는 예시로서 2019.7.22 - 2019.8.22 한달 간의 데이터를 조회한 것입니다. 만약 20년 동안의, 모든 채권, 만기일에 대한 데이터를 받아오고 싶을 때는 어떻게 해야할까요? 하나하나 설정하고 조회하기 버튼을 누르고 다운받는다 (수작업) requests.get(target url) (GET 방식) 1번을 선택하신다면 건투를 빌겠습니다. 2번은 잘못된..
GET방식 크롤링과 비교했을 때, 조금더 고난이도 크롤링 작업에 필요한 방식이 바로 POST 방식입니다. 동적 크롤링이라는 말을 들어 보셨을 것입니다. 이는 해당 웹페이지에서 '조회하기' 와 같은 버튼을 눌렀을 때 화면은 변하지만 웹페이지 상단의 URL은 변하지 않을 때 사용하는 크롤링 방식입니다. 흔히 selenium 과 같은 자동화 방식을 사용하여 크롤링을 하지만, 이는 로컬 환경에 따라 제약 변수가 많습니다. REST API에 대한 간단한 이해를 바탕으로, GET, POST 방식을 사용하여 더욱 간단하게 크롤링을 할 수 있습니다. 웹 개발을 할 때 공부해야할 것 중 하나가 바로 REST API라 생각합니다. 오늘은 REST API의 GET 과 POST에 대해 알아보고 이를 이용한 크롤링 실습까지 소..
이어서 networkx 모듈을 사용한 시각화 방법에 대해 포스팅 하겠습니다. *저는 이번 과제를 하면서 networkx 모듈을 처음 공부하며 사용해보았습니다. 때문에 사용 방법에 있어서 미숙한 부분이 있을 수 있습니다. 모듈 소개에 앞서 우선 네트워크란 무엇인지 간단하게 알고 넘어가겠습니다. 네트워크의 구조 그래프 버텍스 링크 네트워크 노드 엣지 상-하 단어는 같은 의미로서 물리학, 수학에서 각기 다르게 사용되는 용어일 뿐입니다. 필자는 네트워크, 노드, 엣지라 칭하겠습니다. 네트워크 구조 표현 방법 3가지 인접 행렬 네트워크 테이블 인접 행렬 (adjcent matrix) : 위와 같은 네트워크가 있다고 가정할 때, 이 네트워크의 인접행렬 표현은 아래와 같습니다. a b c a 0 1 1 b 1 0 0..
오늘은 제가 인턴 입사 과제로 이틀동안 풀었던 문제를 소개할까 합니다. 문제는 아래와 같습니다. 기본적인 크롤링 단계 requests : 서버에 요청하여 응답을 받아옴 bs4: 응답을 통해 받아온 페이지에서 우리가 원하는 부분을 파싱할 수 있도록 해주는 모듈 r : 서버 응답. 서버가 정상 응답을 하였다면 print(r) 결과로 200을 출력해야함. bs4_r : 응답에 BeautifulSoup 을 먹여줌으로서 페이지에 서 원하는 부분을 태그파싱을 통해 가져올 수 있게 해줌. tag: div class: llist_keyword_type2 하위에 있는 tag: span, class: wsn 을 따와서 span_list 에 리스트형태로 저장한다. span_list 의 각 요소에는 연관 검색어 정보가 포함되..
안녕하세요 설까치IT 블로그의 첫 포스팅입니다. 취업 스펙과 실력을 쌓기 위해 많은 분들이 준비하는 것이 바로 공모전이라 생각합니다. 그 중에서도 제가 오늘 다룰 공모전 주제는 요즘 4차 산업혁명과 함께 각광받고 있는 분야인 빅데이터 공모전입니다. 저는 데이터사이언스에 관심을 가지고 공부를 시작한 지 6개월 정도 된 시점에서 (2019.1.1 공부시작) 실전 경력을 쌓아보고자 좋은 기회를 얻어 공모전에 참가하였습니다. 제가 참가했던 첫 공모전은 기상청 날씨 마루에서 주최하는 '날씨 빅데이터 콘테스트' 였으며, 주3회 4시간씩 한 달간 고생한 끝에 (2019.6.24 -7.22) .500여 이상의 팀이 참가한 대회에서 유통분야 우수상이라는 좋은 결과를 얻을 수 있었습니다. 그저 운이 좋아 수상을 한 것은 ..