일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 데이터브릭스
- EC2
- 깃허브
- Elk
- 코딩테스트
- Kafka
- DB
- VPC
- airflow
- 인프런
- databricks
- python
- subnet
- ElasticSearch
- 프로그래머스
- 백준
- associate
- openai
- sql
- Autoloader
- prompt
- json
- LLM
- Cloud
- 엘라스틱서치
- AWS
- spark
- 파이썬
- 데이터검증
- ELK스택
- Today
- Total
목록EC2 (3)
데이터 히스토리북 (Data History Book)
사이드 프로젝트를 위해서 ec2에 mysql,kafka,airflow를 설치했다. airflow 설치하는 방법에 대해 기록하려고 한다. python3 를 통해 가상환경 생성 해당 작업만의 패키지를 설치하기 위해 가상환경을 생성하는 작업을 먼저 진행한다. # 가상환경 생성 $ python3 -m venv venv-test-airflow # 가상환경 실행 $ source venv-test-airflow/bin/activate Airflow 설치 $ pip install apache-airflow SQLite 초기화 airflow의 db는 기본으로 sqlite를 쓰고 있으며, db를 초기화 한다 $ airflow db init 유저 계정 생성 # 계정 생성 명령어 (\\ 앞에 띄어쓰기 있어야함) $ airfl..
kafka description 💡 각 DB와 시스템 사이에 kafka를 도입하여 보내는 쪽(producer)과 받는 쪽 (consumer) 신경 쓸 필요 없이 kafka에서 중개역할 수행 controller 각 broker에게 담당 파티션 할당 수행 broker 동작 모니터링 관리 kafka broker (=server) 실행된 Kafka application server를 의미함 producerdprp message를 받아서 offset(consumer에서 메시지를 어디부터 어디까지 읽었는지 저장하는 값) 할당 만약 offset=4 인 경우, offset 0,1,2,3은 메시지를 읽은 것으로 추정 partition내의 한 칸, offset, index apache zookeeper (=message ..
다음 프로젝트에서 쓰이고 있는 DB가 PostgreSQL이라고 해서 EC2 우분투에 postgresql을 설치했던 경험을 정리하였습니다. 개발 환경 - Ubuntu 22.04.2 LTS ver - Postgresql 14 ver 설치 $ sudo apt-get update $ sudo apt-get install postgresql postgresql-contrib # 패키지 등록 sudo sh -c 'echo "deb http://apt.postgresql.org/pub/repos/apt $(lsb_release -cs)-pgdg main" > /etc/apt/sources.list. d/pgdg.list' # GPG Key add wget --quiet -O - https://www.postgresq..