일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- AWS SageMaker
- 데이터엔지니어링
- apache spark
- redis bloom filter
- kubernetes
- kafka
- 데이터엔지니어
- DataEngineering
- eks
- 추천시스템
- cloudera
- hadoop
- 개발자
- Spark structured streaming
- 클라우데라
- 하둡에코시스템
- 하둡
- BigData
- Python
- spark
- dataengineer
- Data engineering
- Terraform
- pyspark
- 빅데이터플랫폼
- 개발자혜성
- 빅데이터
- recommendation system
- mlops
- 블로그
- Today
- Total
목록DEV (11)
Hyesung Oh
GET방식 크롤링과 비교했을 때, 조금더 고난이도 크롤링 작업에 필요한 방식이 바로 POST 방식입니다. 동적 크롤링이라는 말을 들어 보셨을 것입니다. 이는 해당 웹페이지에서 '조회하기' 와 같은 버튼을 눌렀을 때 화면은 변하지만 웹페이지 상단의 URL은 변하지 않을 때 사용하는 크롤링 방식입니다. 흔히 selenium 과 같은 자동화 방식을 사용하여 크롤링을 하지만, 이는 로컬 환경에 따라 제약 변수가 많습니다. REST API에 대한 간단한 이해를 바탕으로, GET, POST 방식을 사용하여 더욱 간단하게 크롤링을 할 수 있습니다. 웹 개발을 할 때 공부해야할 것 중 하나가 바로 REST API라 생각합니다. 오늘은 REST API의 GET 과 POST에 대해 알아보고 이를 이용한 크롤링 실습까지 소..
이어서 networkx 모듈을 사용한 시각화 방법에 대해 포스팅 하겠습니다. *저는 이번 과제를 하면서 networkx 모듈을 처음 공부하며 사용해보았습니다. 때문에 사용 방법에 있어서 미숙한 부분이 있을 수 있습니다. 모듈 소개에 앞서 우선 네트워크란 무엇인지 간단하게 알고 넘어가겠습니다. 네트워크의 구조 그래프 버텍스 링크 네트워크 노드 엣지 상-하 단어는 같은 의미로서 물리학, 수학에서 각기 다르게 사용되는 용어일 뿐입니다. 필자는 네트워크, 노드, 엣지라 칭하겠습니다. 네트워크 구조 표현 방법 3가지 인접 행렬 네트워크 테이블 인접 행렬 (adjcent matrix) : 위와 같은 네트워크가 있다고 가정할 때, 이 네트워크의 인접행렬 표현은 아래와 같습니다. a b c a 0 1 1 b 1 0 0..
오늘은 제가 인턴 입사 과제로 이틀동안 풀었던 문제를 소개할까 합니다. 문제는 아래와 같습니다. 기본적인 크롤링 단계 requests : 서버에 요청하여 응답을 받아옴 bs4: 응답을 통해 받아온 페이지에서 우리가 원하는 부분을 파싱할 수 있도록 해주는 모듈 r : 서버 응답. 서버가 정상 응답을 하였다면 print(r) 결과로 200을 출력해야함. bs4_r : 응답에 BeautifulSoup 을 먹여줌으로서 페이지에 서 원하는 부분을 태그파싱을 통해 가져올 수 있게 해줌. tag: div class: llist_keyword_type2 하위에 있는 tag: span, class: wsn 을 따와서 span_list 에 리스트형태로 저장한다. span_list 의 각 요소에는 연관 검색어 정보가 포함되..