일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Python
- 데이터엔지니어
- cloudera
- dataengineer
- AWS SageMaker
- BigData
- 하둡
- Data engineering
- recommendation system
- redis bloom filter
- kafka
- pyspark
- 블로그
- 개발자
- kubernetes
- 개발자혜성
- spark
- 빅데이터플랫폼
- 클라우데라
- DataEngineering
- Terraform
- 하둡에코시스템
- 데이터엔지니어링
- apache spark
- hadoop
- eks
- 추천시스템
- mlops
- 빅데이터
- Spark structured streaming
- Today
- Total
목록전체 글 (63)
Hyesung Oh
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dIfTRk/btqCNHDnpWd/hoUNK3CFmRdOsmxQOkpmnk/img.png)
데이터 마이닝과 머신러닝이란? 그리고 그 둘의 차이점 정리 우선 위 개념에 앞서 기계학습에서 사용하는 데이터에 대한 두 가지 접근 방식에 대해 알고 넘어가자 모델링이란? Modeling – statistical data processing Traditional approach : Top to Down 방식 create (stochastic) models for our signals of interest exploit these models to design systems that extract the information we need 2. “Data-driven” approach : Bottom to Top 방식 get numerous examples of signals of interest autom..
Java 든 C# 이든 C++ 이던 간에 데이터의 메모리 구조는 크게 다음 2가지로 나뉩니다. - 값 형식 데이터: integer, float(single), charactor(또는 char 의 집합인 string) 등 - 오브젝트(레퍼런스) 형식 데이터: 메모리 번지(주소, Address)값 --> 주소값을 최종적으로 따라가면 값 형식 데이터를 참조 하게 됨. (C/C++) 또는 언어 차원에서 이 과정을 생략해줌 (C#, JAVA) --> 클래스의 인스턴스는 해당 프로세스의 메모리 상에서만 유효한 번지 주소를 갖는 오브젝트(레퍼런스) 데이터. 이 중에 '저장/전송 가능한 데이터' 는 당연하게도 값 형식 데이터만 전송 가능합니다. 오브젝트(레퍼런스) 형태의 참조 데이터(메모리 번지 주소 데이터)는 상식적..
기본 1) [ ] : 문자 한개를 의미. [] 안에들어가는 모든 문자는 서로 독립적. 정규식에서 a는 [a] 와 동일함 abc는 [abc]가 아니고 [a][b][c]의미임 예) [AaB] : a, B - 일치, b -일치하지 않음. AB에서는 A도 일치 하고, B도 일치함 [0-9] : 0~9 내의 숫자를 의미. 0 -일치, A - 일치 하지 않음 2) . : 임의의 문자/숫자 1개를 의미(단,\n(개행 문자)를 제외한 모든 문자와 매치) 예) a.c 인 경우, abc - 일치, abb - 일치 하지 않음 3) * : 앞의 문자/숫자의 반복을 의미하며 한번도 반복이 안될 수 있음 예) a*b 인 경우, ab : 일치, aab : 일치, aaab : 일치 , abc : 불일치 [ab]*b 인 경우, ab ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bNlmL2/btqAMluix0t/nKQz63ZLYPleVUpV8S0MI1/img.png)
#AWS#EC2#ElasticBeanstalk 본인 pc 운영체제: window 생성한 ec2 운영체제 : ubuntu 1. ec2 인스턴스 생성 후 접속 - aws console 에 로그인해서 ec2 - 인스턴스 시작 - ec2 ami 에서 탬플릿 선택 (여기선 프리티어 선택) -> 검토 및 시작 -> 인스턴스 보기 * 주의 : 검토 및 시작 버튼 클릭 후 처음이자 마지막으로 ec2 접속키인 private key를 다운받을 수 있으므로 본인 pc (local) .ssh 디렉토리 하위에 저장해두는 것을 권장 pending 상태에서 10초 정도 기다리고 running 으로 바뀌는지 확인 - putty 접속 -> SSH -> auth -> private key load -> Session 으로 돌아가서 ho..
참가기업 리스트 1. SK텔레콤 / 2. LG유플러스 / 3. 인플랩 / 4. LG전자 / 5. 와이즈넛 / 6. 다음소프트 / 7. 더존비즈온 / 8. 업데이터 / 9. SCI평가정보 / 10. 위세아이텍 / 11. 엑셈 / 12. 케이웨더 / 13. 엔씨소프트 / 14. 가이온 / 15. KT / 16.노바코스 / 17. 이노커스 / 18. NEXYS / 19. 오피니언라이브 / 20. 이노그리드 행사 개요 2019 기상청 날씨 빅데이터 콘테스트에 참가하여 우수상을 수상하였습니다. 기상청에 감사하게도 우수한 성적을 거둔 팀에게 후속 지원 차원에서 여러 빅데이터 기반 우수 테크기업들과의 면접 자리를 마련해주었습니다. 행사에 참가한 팀들은 여러 빅데이터 관련 교육이나 공모전에서 우수한 성적으로 수료한 팀..
구글맵 API 설정 구글맵 세팅하기 1 2 3 4 5 6 7 8 setMap = function(){ map = new google.maps.Map( document.getElementById(id), {zoom: zoom, center : latlng} ) } r id : 지도를 표시하고자하는 html tag id 값 zoom : 저는 객인적으로 11로 setting 하였고 필요에 따라 바꿔가며 쓰면됨 latlng : 지도의 중심을 설정하는 파라메터. json 형태로 위, 경도를 넘겨주면 됨 ex) latlng = new google.maps.LatLng(lat,lng); console.log(latlng) output: { lat:23 lng:125 } 구글맵에 마크 표시하기 1 2 3 4 5 6 7..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/TIibR/btqAlPqrEez/4qUtnmh55Z19Ue7cpkUwXK/img.jpg)
1. 가설 추정하고자 하는 모집단의 통계 값: 모수 모집단에서 표본 추출한 샘플의 통계량: 표본 통계량 모수와 통계량의 통계적으로 유의미한 차이가 있다(대립), 없다(귀무)로 가설을 세운다 *보충 설명* + p-value 0.05 이하 -> 귀무가설 기각, 이상 -> 귀무가설 채택 + p-value: 귀무가설이 기각되었을 때, 귀무가설이 참일 확률 2. 검증 및 추정 F-test, T-test 등 통계 검증과정 후 유의미한 차이가 없다면 우리는 표본 통계량을 모수 추정 값으로 사용해도 되는 것이다. 통계적 검증을 하기 위해선 등분산성, 정규분포 등 만족해야 하는 사전 조건들이 있다. (각각 만족 안 했을 시 통계적인 방법 또한 존재하며 정말 다양하다.) f-test, t-test에 대한 요약 내용을 알고..
웹 서핑을 해본 사람들이라면 한 번쯤 쿠키, 캐시라는 단어를 들어봤을 겁니다. 저도 Django side project을 하면서 궁금했던 차 찾아본 내용을 바탕으로 제가 이해하기 쉽게 정리해 보려 합니다. 우선 웹 어플리케이션은 크게 클라이언트 단과 서버단 두 가지로 나눌 수 있습니다. 1. 캐시 cache 클라이언트의 요청 --> 서버--> 클라이언트 흐름으로 클라이언트에서 정보를 요청하고 서버에서는 요청받은 정보를 클라이언트로 전송, 랜더링 하게 됩니다. 랜더링이란 쉽게 말해 웹페이지 화면을 구성하는 요소(정적 파일)들을 사용자에게 보여주는 작업입니다. 사용자가 보고 있는 웹페이지에서 중복되는 요소가 있을 때 서버입장에서는 이를 매번 새롭게 랜더링 한다는 것은 서버 자원 입장에서 낭비일 수 있습니다...