일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 하둡에코시스템
- Data engineering
- 개발자혜성
- scala
- Terraform
- 빅데이터플랫폼
- apache spark
- 데이터엔지니어
- hdfs
- kafka
- 블로그
- pyspark
- spark
- 하둡
- 개발자
- cloudera
- IT블로그
- dataengineer
- 스파크
- AWS
- BigData
- Python
- 빅데이터
- kubernetes
- 클라우데라
- hadoop
- DataEngineering
- Spark structured streaming
- 데이터엔지니어링
- eks
- Today
- Total
목록전체 글 (56)
Hyesung Oh
* 이해를 돕기 위해 번호를 매겼습니다. 번호 순서대로 따라가며 생각의 흐름을 잘 정리해 보시면 이해가 될 것이라 생각합니다. 1. 현실 세계에서 우리가 알고자 하는 대상이 있다고 가정합시다. 2. 그 집단의 특성을 나타내는 값을 우리는 '모수'라고 합니다. 예를 들면 A 고등학교 3-1반 학생들의 키(관심 있는 대상 = 모집단)에 관심이 있다고 했을 때, 학생들의 평균 키, 분산이 '모수'라고 할 수 있습니다. 3. 우리는 전수 조사를 통해서 학생들의 평균 키와 분산을 조사할 수 있습니다. 하지만 현실에선? 조사하고자 하는 모집단의 수가 너무나 커서 시간과 비용을 고려했을 때, 전수조사가 불가능할 수 있습니다. 실제로 그러한 경우가 대부분입니다. 4. 그렇다면 어떻게 우리는 모집단에 대해 알 수 있을까..
데이터 마이닝과 머신러닝이란? 그리고 그 둘의 차이점 정리 우선 위 개념에 앞서 기계학습에서 사용하는 데이터에 대한 두 가지 접근 방식에 대해 알고 넘어가자 모델링이란? Modeling – statistical data processing Traditional approach : Top to Down 방식 create (stochastic) models for our signals of interest exploit these models to design systems that extract the information we need 2. “Data-driven” approach : Bottom to Top 방식 get numerous examples of signals of interest autom..
Java 든 C# 이든 C++ 이던 간에 데이터의 메모리 구조는 크게 다음 2가지로 나뉩니다. - 값 형식 데이터: integer, float(single), charactor(또는 char 의 집합인 string) 등 - 오브젝트(레퍼런스) 형식 데이터: 메모리 번지(주소, Address)값 --> 주소값을 최종적으로 따라가면 값 형식 데이터를 참조 하게 됨. (C/C++) 또는 언어 차원에서 이 과정을 생략해줌 (C#, JAVA) --> 클래스의 인스턴스는 해당 프로세스의 메모리 상에서만 유효한 번지 주소를 갖는 오브젝트(레퍼런스) 데이터. 이 중에 '저장/전송 가능한 데이터' 는 당연하게도 값 형식 데이터만 전송 가능합니다. 오브젝트(레퍼런스) 형태의 참조 데이터(메모리 번지 주소 데이터)는 상식적..
기본 1) [ ] : 문자 한개를 의미. [] 안에들어가는 모든 문자는 서로 독립적. 정규식에서 a는 [a] 와 동일함 abc는 [abc]가 아니고 [a][b][c]의미임 예) [AaB] : a, B - 일치, b -일치하지 않음. AB에서는 A도 일치 하고, B도 일치함 [0-9] : 0~9 내의 숫자를 의미. 0 -일치, A - 일치 하지 않음 2) . : 임의의 문자/숫자 1개를 의미(단,\n(개행 문자)를 제외한 모든 문자와 매치) 예) a.c 인 경우, abc - 일치, abb - 일치 하지 않음 3) * : 앞의 문자/숫자의 반복을 의미하며 한번도 반복이 안될 수 있음 예) a*b 인 경우, ab : 일치, aab : 일치, aaab : 일치 , abc : 불일치 [ab]*b 인 경우, ab ..
#AWS#EC2#ElasticBeanstalk 본인 pc 운영체제: window 생성한 ec2 운영체제 : ubuntu 1. ec2 인스턴스 생성 후 접속 - aws console 에 로그인해서 ec2 - 인스턴스 시작 - ec2 ami 에서 탬플릿 선택 (여기선 프리티어 선택) -> 검토 및 시작 -> 인스턴스 보기 * 주의 : 검토 및 시작 버튼 클릭 후 처음이자 마지막으로 ec2 접속키인 private key를 다운받을 수 있으므로 본인 pc (local) .ssh 디렉토리 하위에 저장해두는 것을 권장 pending 상태에서 10초 정도 기다리고 running 으로 바뀌는지 확인 - putty 접속 -> SSH -> auth -> private key load -> Session 으로 돌아가서 ho..
참가기업 리스트 1. SK텔레콤 / 2. LG유플러스 / 3. 인플랩 / 4. LG전자 / 5. 와이즈넛 / 6. 다음소프트 / 7. 더존비즈온 / 8. 업데이터 / 9. SCI평가정보 / 10. 위세아이텍 / 11. 엑셈 / 12. 케이웨더 / 13. 엔씨소프트 / 14. 가이온 / 15. KT / 16.노바코스 / 17. 이노커스 / 18. NEXYS / 19. 오피니언라이브 / 20. 이노그리드 행사 개요 2019 기상청 날씨 빅데이터 콘테스트에 참가하여 우수상을 수상하였습니다. 기상청에 감사하게도 우수한 성적을 거둔 팀에게 후속 지원 차원에서 여러 빅데이터 기반 우수 테크기업들과의 면접 자리를 마련해주었습니다. 행사에 참가한 팀들은 여러 빅데이터 관련 교육이나 공모전에서 우수한 성적으로 수료한 팀..
구글맵 API 설정 구글맵 세팅하기 1 2 3 4 5 6 7 8 setMap = function(){ map = new google.maps.Map( document.getElementById(id), {zoom: zoom, center : latlng} ) } r id : 지도를 표시하고자하는 html tag id 값 zoom : 저는 객인적으로 11로 setting 하였고 필요에 따라 바꿔가며 쓰면됨 latlng : 지도의 중심을 설정하는 파라메터. json 형태로 위, 경도를 넘겨주면 됨 ex) latlng = new google.maps.LatLng(lat,lng); console.log(latlng) output: { lat:23 lng:125 } 구글맵에 마크 표시하기 1 2 3 4 5 6 7..
1. 가설 추정하고자 하는 모집단의 통계 값: 모수 모집단에서 표본 추출한 샘플의 통계량: 표본 통계량 모수와 통계량의 통계적으로 유의미한 차이가 있다(대립), 없다(귀무)로 가설을 세운다 *보충 설명* + p-value 0.05 이하 -> 귀무가설 기각, 이상 -> 귀무가설 채택 + p-value: 귀무가설이 기각되었을 때, 귀무가설이 참일 확률 2. 검증 및 추정 F-test, T-test 등 통계 검증과정 후 유의미한 차이가 없다면 우리는 표본 통계량을 모수 추정 값으로 사용해도 되는 것이다. 통계적 검증을 하기 위해선 등분산성, 정규분포 등 만족해야 하는 사전 조건들이 있다. (각각 만족 안 했을 시 통계적인 방법 또한 존재하며 정말 다양하다.) f-test, t-test에 대한 요약 내용을 알고..