일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 인프런
- databricks
- 깃허브
- spark
- ElasticSearch
- AWS
- 엘라스틱서치
- Autoloader
- openai
- VPC
- associate
- json
- 파이썬
- 데이터브릭스
- prompt
- sql
- 데이터검증
- EC2
- python
- Cloud
- 백준
- Kafka
- airflow
- 프로그래머스
- ELK스택
- subnet
- LLM
- 코딩테스트
- DB
- Elk
- Today
- Total
목록데이터 엔지니어링/Python (4)
데이터 히스토리북 (Data History Book)
가짜 데이터 개발 테스트를 하다보면, 캐글에서 데이터를 가져와야하거나 공공데이터에서 데이터를 가져와서 쓸때가 많다. 그러나 로그인부터 적절한 데이터를 찾기까지 귀찮을 때가 있어서 대충 엑셀에다 pk 주고 데이터를 아무렇게나 생성할 때가 많았다. 이제부터 그렇게 하지 말고, 좀 더 쉽고 빠르게 가짜 데이터를 얻는 방법인 Faker라이브러리를 알아보자 라이브러리 설치 !pip install Faker 라이브러리 임포트 from pyspark.sql import functions as F from faker import Faker from collections import OrderedDict import uuid fake = Faker() 화자는 Pyspark 환경에서 사용했음 라이브러리 사용 fake_fi..
Emoji Remove Python code에서 Emoji를 찾아 제거하는 방법을 작성한다. 정규표현식(Regular Expressions) re.compile은 패턴 객체를 반환하는 메서드 !pip install emoji import emoji import re emoji_pattern = re.compile("[" u"\U0001F600-\U0001F64F" # 이모지 아스키코드 u"\U0001F300-\U0001F5FF" # 기호 및 그림 문자 u"\U0001F680-\U0001F6FF" # 교통 및 지도 기호 u"\U0001F700-\U0001F77F" # 알파벳 표현을 다양한 스타일로 표현 u"\U0001F780-\U0001F7FF" # 도형과 모양 포함 u"\U0001F800-\U0001F8..
(1) sigmoid Sigmoid 함수는 모든 범위의 실수를 취하고 0에서 1 사이의 출력 값을 반환합니다. 시그모이드 함수는 "S" 형태의 포함될 커브를 생성합니다. 시그모이드는 이진분류에서 사용되는 함수입니다. 1) 양수 및 0에 수렴 : 숫자가 0보다 크거나 같은 경우 2) 음수 및 0에 수렴 : 숫자가 0보다 작거나 같은 경우 시그모이드 함수 사용 1) 로지스틱 회귀 모델에서 이진 분류에 사용되는 시그모이드 함수. 2) Activation function 기능으로 사용 xvals = np.arange(-5,5,0.0001) def sigmoid(x): return 1/ (1+np.exp(-x)) yvals = sigmoid(xvals) plt.plot(xvals,yvals) plt.grid() ..