일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- recommendation system
- 데이터엔지니어링
- Data engineering
- apache spark
- 개발자혜성
- mlops
- 하둡에코시스템
- kubernetes
- 빅데이터플랫폼
- 빅데이터
- 추천시스템
- BigData
- eks
- cloudera
- pyspark
- dataengineer
- DataEngineering
- hadoop
- 클라우데라
- Spark structured streaming
- Terraform
- 하둡
- 데이터엔지니어
- redis bloom filter
- kafka
- AWS SageMaker
- 블로그
- spark
- Python
- 개발자
- Today
- Total
목록Statistics&ML (6)
Hyesung Oh
1. SNA (Social Network Analysis) 1.1 사회연결망 분석 정의 제이콥 마리노에 의해 처음으로 사회연결망 개념이 사용되었지만, 1954년 바르네스가 처음으로 '사회연결망'이라는 용어를 사용하기 시작하였음. 개인과 집단들 간의 관계를 노드와 링크로 모델링하여 그것의 위상 구조, 확산 및 진화과정을 계량적으로 분석하는 방법론입니다. 개인 또는 집단을 노드, 그 사이의 관계를 선으로(link or edge) 표현합니다. 1.1 SNA 분류 1) 집합론적 방법 객체들 집합에서 각 객체들 간의 관계를 다음과 같이 관계 쌍(pairs of elemnets)으로 표현합니다. A =(X1,X2), (X2, X1), (X4, X2), (X3, X1), (X3, X4), (X4, X3) B = (X..
텍스트 마이닝이란? 데이터 마이닝에 자연어처리(NLP) 기술을 접목하여 반정형/비정형 텍스트를 정형화 하고, 그 속에서 특징을 추출한 후 추출된 특징을 통해 의미있는 정보를 발견하고자 하는 기술. 다양한 형태의 문서(웹 콘텐츠, PDF, MS office 파일, XML, txt)로부터 텍스트를 획득한 후 문서별 단어의 행렬을 만들어 추가적 분석을 수행할 수 있습니다. 단어들 간의 관계를 이용해 감성분석, 워드클라우드 분석 등을 수행한 후 이 정보를 클러스터링, 분류, 사회연결망 분석 등에 활용할 수 있습니다. 텍스트 마이닝 vs 데이터 마이닝 주로 구조화된 정형 데이터 속에서 정보나 패턴을 발견하는 데이터 마이닝과는 달리 텍스트 마이닝은 인터넷 데이터, 소셜 미디어 데이터, 로그 데이터 등과 같은 비정형..
1. 모델 1) 거리기반 군집 분석 모델 K-means : 거리기반 군집 분석 모델. 그 외 k-median, k-medoid(CLARANS : 적절한 클러스터 값을 찾아가는 모델, 1000개 이상 데이터에는 적용불가, BIRCH : I/O병목현상 극복, pre-clustering 시행, 시릿간 데이터 클러스터링에 용이) 등이 있음. 거리기반 군집 분석 외에도 밀도 기반, 분포기반 군집 분석이 있음. 그 중에서도 밀도 기반 군집 분석 모델에 대해 공부할 필요가 있음 2) 밀도기반 군집 분석 : 2-1) 밀도기반 DBSCAN - 최소 반경, 최소 점의 갯수 라는 두가지 파라미터를 입력받아서 클러스터링 수행. 미리 클러스터링 갯수 지정할 필요 없고, 기하학적 모형을 잘반영하는 장점, 군집화와 동시에 노이즈를..
* 이해를 돕기 위해 번호를 매겼습니다. 번호 순서대로 따라가며 생각의 흐름을 잘 정리해 보시면 이해가 될 것이라 생각합니다. 1. 현실 세계에서 우리가 알고자 하는 대상이 있다고 가정합시다. 2. 그 집단의 특성을 나타내는 값을 우리는 '모수'라고 합니다. 예를 들면 A 고등학교 3-1반 학생들의 키(관심 있는 대상 = 모집단)에 관심이 있다고 했을 때, 학생들의 평균 키, 분산이 '모수'라고 할 수 있습니다. 3. 우리는 전수 조사를 통해서 학생들의 평균 키와 분산을 조사할 수 있습니다. 하지만 현실에선? 조사하고자 하는 모집단의 수가 너무나 커서 시간과 비용을 고려했을 때, 전수조사가 불가능할 수 있습니다. 실제로 그러한 경우가 대부분입니다. 4. 그렇다면 어떻게 우리는 모집단에 대해 알 수 있을까..
데이터 마이닝과 머신러닝이란? 그리고 그 둘의 차이점 정리 우선 위 개념에 앞서 기계학습에서 사용하는 데이터에 대한 두 가지 접근 방식에 대해 알고 넘어가자 모델링이란? Modeling – statistical data processing Traditional approach : Top to Down 방식 create (stochastic) models for our signals of interest exploit these models to design systems that extract the information we need 2. “Data-driven” approach : Bottom to Top 방식 get numerous examples of signals of interest autom..
1. 가설 추정하고자 하는 모집단의 통계 값: 모수 모집단에서 표본 추출한 샘플의 통계량: 표본 통계량 모수와 통계량의 통계적으로 유의미한 차이가 있다(대립), 없다(귀무)로 가설을 세운다 *보충 설명* + p-value 0.05 이하 -> 귀무가설 기각, 이상 -> 귀무가설 채택 + p-value: 귀무가설이 기각되었을 때, 귀무가설이 참일 확률 2. 검증 및 추정 F-test, T-test 등 통계 검증과정 후 유의미한 차이가 없다면 우리는 표본 통계량을 모수 추정 값으로 사용해도 되는 것이다. 통계적 검증을 하기 위해선 등분산성, 정규분포 등 만족해야 하는 사전 조건들이 있다. (각각 만족 안 했을 시 통계적인 방법 또한 존재하며 정말 다양하다.) f-test, t-test에 대한 요약 내용을 알고..