일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 클라우데라
- DataEngineering
- pyspark
- kafka
- apache spark
- recommendation system
- hadoop
- AWS SageMaker
- 하둡
- Spark structured streaming
- mlops
- kubernetes
- Python
- 하둡에코시스템
- BigData
- 추천시스템
- 빅데이터
- Terraform
- 블로그
- 데이터엔지니어
- redis bloom filter
- 개발자혜성
- 데이터엔지니어링
- spark
- eks
- Data engineering
- 빅데이터플랫폼
- cloudera
- 개발자
- dataengineer
- Today
- Total
목록DEV/Python (7)
Hyesung Oh
TL;DR메이저 스크립트 언어의 실체는 대부분 C++이며(Python, Javascript 등), PyTorch와 같은 Python deep learning framework을 사용하더라도 성능 최적화 시에는 결국 C++ 구현체를 사용하게 됩니다. Python은 C++로 짜여진 Stack Machine 이라 표현하기도 합니다.우리가 입력한 Python 코드의 실행흐름을 주요 컴포넌트 관점에서 대략적으로 표현하면 아래와 같습니다.: Python Code -> tokenizing -> AST -> python byte code(pyc) -> PyCodeObject -> PyFrameObject -> PyFrameEx구문분석 이후 생성한 AST를 바탕으로 byte code를 생성하고 이를 PyCodeObjec..
Python에서 async, await로 비동기 프로그래밍을 작성하다, 간혹 Node.js 쪽 코드 작성을 하다보면 매우 유사한점을 느껴 내부 작동방식도 유사한지 공부해보았다. 자세한 내용은 다루지 않겠지만 그래도 내가 이해한 내용의 핵심만 요약해보았다. Python은 generator를 이용해 corutine을 구현하여 비동기 시스템을 구현하였다. 그리고 코루틴 테스크간의 제어권 컨트롤의 중심에 event loop process가 있다. python의 stack이 heap 영역에 존재하는 언어 특성을 살린 케이스이다. Node.js는 event loop 역할은 유사하나, 좀 더 event driven 적인 접근이다. event들은 callback 함수가 return한 결과이고 이들을 관리하는 별도 st..
기본 1) [ ] : 문자 한개를 의미. [] 안에들어가는 모든 문자는 서로 독립적. 정규식에서 a는 [a] 와 동일함 abc는 [abc]가 아니고 [a][b][c]의미임 예) [AaB] : a, B - 일치, b -일치하지 않음. AB에서는 A도 일치 하고, B도 일치함 [0-9] : 0~9 내의 숫자를 의미. 0 -일치, A - 일치 하지 않음 2) . : 임의의 문자/숫자 1개를 의미(단,\n(개행 문자)를 제외한 모든 문자와 매치) 예) a.c 인 경우, abc - 일치, abb - 일치 하지 않음 3) * : 앞의 문자/숫자의 반복을 의미하며 한번도 반복이 안될 수 있음 예) a*b 인 경우, ab : 일치, aab : 일치, aaab : 일치 , abc : 불일치 [ab]*b 인 경우, ab ..
금융투자협회 채권정보센터 KOFIABOND 에서 20년치 채권 만기수익률 데이터를 크롤링을 해보겠습니다. URL: http://www.kofiabond.or.kr/index.html 홈화면 -> 우측상단 시가평가-> 채권 시가평가기준 수익 채권종류, 만기일 선택 -> 조회하기 버튼 다음과 같은 채권 만기수익률 시계열 데이터를 조회할 수 있습니다. 위는 예시로서 2019.7.22 - 2019.8.22 한달 간의 데이터를 조회한 것입니다. 만약 20년 동안의, 모든 채권, 만기일에 대한 데이터를 받아오고 싶을 때는 어떻게 해야할까요? 하나하나 설정하고 조회하기 버튼을 누르고 다운받는다 (수작업) requests.get(target url) (GET 방식) 1번을 선택하신다면 건투를 빌겠습니다. 2번은 잘못된..
GET방식 크롤링과 비교했을 때, 조금더 고난이도 크롤링 작업에 필요한 방식이 바로 POST 방식입니다. 동적 크롤링이라는 말을 들어 보셨을 것입니다. 이는 해당 웹페이지에서 '조회하기' 와 같은 버튼을 눌렀을 때 화면은 변하지만 웹페이지 상단의 URL은 변하지 않을 때 사용하는 크롤링 방식입니다. 흔히 selenium 과 같은 자동화 방식을 사용하여 크롤링을 하지만, 이는 로컬 환경에 따라 제약 변수가 많습니다. REST API에 대한 간단한 이해를 바탕으로, GET, POST 방식을 사용하여 더욱 간단하게 크롤링을 할 수 있습니다. 웹 개발을 할 때 공부해야할 것 중 하나가 바로 REST API라 생각합니다. 오늘은 REST API의 GET 과 POST에 대해 알아보고 이를 이용한 크롤링 실습까지 소..
이어서 networkx 모듈을 사용한 시각화 방법에 대해 포스팅 하겠습니다. *저는 이번 과제를 하면서 networkx 모듈을 처음 공부하며 사용해보았습니다. 때문에 사용 방법에 있어서 미숙한 부분이 있을 수 있습니다. 모듈 소개에 앞서 우선 네트워크란 무엇인지 간단하게 알고 넘어가겠습니다. 네트워크의 구조 그래프 버텍스 링크 네트워크 노드 엣지 상-하 단어는 같은 의미로서 물리학, 수학에서 각기 다르게 사용되는 용어일 뿐입니다. 필자는 네트워크, 노드, 엣지라 칭하겠습니다. 네트워크 구조 표현 방법 3가지 인접 행렬 네트워크 테이블 인접 행렬 (adjcent matrix) : 위와 같은 네트워크가 있다고 가정할 때, 이 네트워크의 인접행렬 표현은 아래와 같습니다. a b c a 0 1 1 b 1 0 0..
오늘은 제가 인턴 입사 과제로 이틀동안 풀었던 문제를 소개할까 합니다. 문제는 아래와 같습니다. 기본적인 크롤링 단계 requests : 서버에 요청하여 응답을 받아옴 bs4: 응답을 통해 받아온 페이지에서 우리가 원하는 부분을 파싱할 수 있도록 해주는 모듈 r : 서버 응답. 서버가 정상 응답을 하였다면 print(r) 결과로 200을 출력해야함. bs4_r : 응답에 BeautifulSoup 을 먹여줌으로서 페이지에 서 원하는 부분을 태그파싱을 통해 가져올 수 있게 해줌. tag: div class: llist_keyword_type2 하위에 있는 tag: span, class: wsn 을 따와서 span_list 에 리스트형태로 저장한다. span_list 의 각 요소에는 연관 검색어 정보가 포함되..