일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- hadoop
- 블로그
- pyspark
- Python
- apache spark
- DataEngineering
- eks
- 개발자
- cloudera
- dataengineer
- AWS SageMaker
- 빅데이터플랫폼
- 하둡에코시스템
- 빅데이터
- kubernetes
- Terraform
- BigData
- 추천시스템
- 클라우데라
- spark
- recommendation system
- 개발자혜성
- 하둡
- 데이터엔지니어
- mlops
- redis bloom filter
- 데이터엔지니어링
- Data engineering
- Spark structured streaming
- kafka
- Today
- Total
목록분류 전체보기 (63)
Hyesung Oh
1. 데이터 연계 및 통합 시 일괄 작업 또는 비동기식 근접 실시간, 또는 동기적 실시간 방식이 혼용 사용될 수 있다. 1). 일괄 통합(Batch) : ETL 기능을 통해 운영 시스템으로부터 정기적, 반복적으로 대량의 데이터를 획득해 ODS를 구성하고 이후 데이터 웨어하우스나 데이터 마트를 구성한 뒤 OLAP 정형/비정형 질의를 통해 경영 분석을 수행하는 작업을 들 수 있다. 2). 비동기식 실시간 통합 3). 동기식 실시간 통합 : 컨테이너 터미널, 공장 등의 생산 및 운송 장비 센서들로 부터 데이터를 실시간으로 획득해 운영 상태를 모니터링하고 필요한 경우 작업을 통제하는 사례를 들 수 있따. 이는 complex event processing이라는 sw 및 아키텍처를 통해 구현될 수 있다. 위 세가지..
EAI, Enterprise Application Integration 1. EAI의 개념 및 특징 - 비즈니스 프로세스를 중심으로 기업 내 각종 애플리케이션의 상호연동이 가능하도록 통합하는 솔류션 - 기업 내 또는 기업 간 상호 이질적 정보 시스템들의 데이터를 연계함으로써 상호 융화 내지 동기화돼 작동하도록 하는 것 - Front-Office 시스템, 기존의 레거시 시스템, 패키지 애플리케이션 등의 형태로 산재되어 있는 애플리케이션을 프로세스 및 메셋지 차원에서 통합 관리한다. - EAI를 통해 비즈니스 프로세스를 자동화하고 실시간으로 통합 연계할 수 있다. - ETL은 배치 프로세스 중심이며, EAI는 실시간 혹은 근접 실시간 처리 중심이다. 2. 데이터 연계 방식 1) 기존의 데이터 연계 방식 : ..
CDC, Change Data Capture 1. CDC의 개념 및 특징 - CDC는 데이터베이스 내 데이터에 대한 변경을 식별해 필요한 후속처리(데이터 전송/공유)를 자동화하는 기술 또는 설계 기법이자 구조이다. - 실시간 또는 근접 실시간 데이터 통합을 기반으로 하는 데이터 웨어하우스 및 기타 데이터 저장소 구축에 넓게 활용된다. - 스토리지 하드웨어 계층에서붑터 애플리케이션 계층에 이르기까지 다양한 계층에서 다양한 기술을 통해 구현될 수 있다. - 단일 정보 시스템 내 다수의 CDC 메커니즘이 구현돼 동작될 수 있다. 2. CDC 구현 기법 1) Time Stamp on Rows : 변경이 반드시 인지되어야 하는 테이블 내 마지막 변경 시점을 기록하는 타임스탬프 컬럼을 두고, 마지막 변경 타임스탬프..
학습 목표- ETL, ODS 구성, 데이터 웨어하우스를 이해한다.- CDC, EAI에 대해 이해한다- 데이터 연계 및 통계 기법을 분류하고 각 용도를 이해한다.- 대용량의 비정형 데이터 처리방법에 대해 이해한다.맛보기- ETL : 데이터 추출 및 적재작업. 대용량 데이터에 대한 일괄 작업을 통해 정형 데이터를 통합하는 기술.- CDC, EAI : 정형 데이터의 실시간 혹은 근접 실시간 처리와 통합에 관한 기술- 전통적 데이터 처리기법과 빅데이터 처리 기법은 데이터 저장 인프라스트럭처 및 조회 기법 등에서 차이점이 존재- 대표적인 비정형 데이터인 '로그 데이터'의 수집 방법. 비정형 데이터란 텍스트, 이미지, 비디오, 센서 데이터 등이 있음. 기업에서 발생하는 대표적인 비정형 데이터인 로그 데이터는 Flu..
1. SNA (Social Network Analysis) 1.1 사회연결망 분석 정의 제이콥 마리노에 의해 처음으로 사회연결망 개념이 사용되었지만, 1954년 바르네스가 처음으로 '사회연결망'이라는 용어를 사용하기 시작하였음. 개인과 집단들 간의 관계를 노드와 링크로 모델링하여 그것의 위상 구조, 확산 및 진화과정을 계량적으로 분석하는 방법론입니다. 개인 또는 집단을 노드, 그 사이의 관계를 선으로(link or edge) 표현합니다. 1.1 SNA 분류 1) 집합론적 방법 객체들 집합에서 각 객체들 간의 관계를 다음과 같이 관계 쌍(pairs of elemnets)으로 표현합니다. A =(X1,X2), (X2, X1), (X4, X2), (X3, X1), (X3, X4), (X4, X3) B = (X..
텍스트 마이닝이란? 데이터 마이닝에 자연어처리(NLP) 기술을 접목하여 반정형/비정형 텍스트를 정형화 하고, 그 속에서 특징을 추출한 후 추출된 특징을 통해 의미있는 정보를 발견하고자 하는 기술. 다양한 형태의 문서(웹 콘텐츠, PDF, MS office 파일, XML, txt)로부터 텍스트를 획득한 후 문서별 단어의 행렬을 만들어 추가적 분석을 수행할 수 있습니다. 단어들 간의 관계를 이용해 감성분석, 워드클라우드 분석 등을 수행한 후 이 정보를 클러스터링, 분류, 사회연결망 분석 등에 활용할 수 있습니다. 텍스트 마이닝 vs 데이터 마이닝 주로 구조화된 정형 데이터 속에서 정보나 패턴을 발견하는 데이터 마이닝과는 달리 텍스트 마이닝은 인터넷 데이터, 소셜 미디어 데이터, 로그 데이터 등과 같은 비정형..
1. 모델 1) 거리기반 군집 분석 모델 K-means : 거리기반 군집 분석 모델. 그 외 k-median, k-medoid(CLARANS : 적절한 클러스터 값을 찾아가는 모델, 1000개 이상 데이터에는 적용불가, BIRCH : I/O병목현상 극복, pre-clustering 시행, 시릿간 데이터 클러스터링에 용이) 등이 있음. 거리기반 군집 분석 외에도 밀도 기반, 분포기반 군집 분석이 있음. 그 중에서도 밀도 기반 군집 분석 모델에 대해 공부할 필요가 있음 2) 밀도기반 군집 분석 : 2-1) 밀도기반 DBSCAN - 최소 반경, 최소 점의 갯수 라는 두가지 파라미터를 입력받아서 클러스터링 수행. 미리 클러스터링 갯수 지정할 필요 없고, 기하학적 모형을 잘반영하는 장점, 군집화와 동시에 노이즈를..
* 이해를 돕기 위해 번호를 매겼습니다. 번호 순서대로 따라가며 생각의 흐름을 잘 정리해 보시면 이해가 될 것이라 생각합니다. 1. 현실 세계에서 우리가 알고자 하는 대상이 있다고 가정합시다. 2. 그 집단의 특성을 나타내는 값을 우리는 '모수'라고 합니다. 예를 들면 A 고등학교 3-1반 학생들의 키(관심 있는 대상 = 모집단)에 관심이 있다고 했을 때, 학생들의 평균 키, 분산이 '모수'라고 할 수 있습니다. 3. 우리는 전수 조사를 통해서 학생들의 평균 키와 분산을 조사할 수 있습니다. 하지만 현실에선? 조사하고자 하는 모집단의 수가 너무나 커서 시간과 비용을 고려했을 때, 전수조사가 불가능할 수 있습니다. 실제로 그러한 경우가 대부분입니다. 4. 그렇다면 어떻게 우리는 모집단에 대해 알 수 있을까..