[Python] Faker 가짜 데이터 생성 (롤 X)
·
데이터 엔지니어링/Python
가짜 데이터 개발 테스트를 하다보면, 캐글에서 데이터를 가져와야하거나 공공데이터에서 데이터를 가져와서 쓸때가 많다. 그러나 로그인부터 적절한 데이터를 찾기까지 귀찮을 때가 있어서 대충 엑셀에다 pk 주고 데이터를 아무렇게나 생성할 때가 많았다. 이제부터 그렇게 하지 말고, 좀 더 쉽고 빠르게 가짜 데이터를 얻는 방법인 Faker라이브러리를 알아보자 라이브러리 설치 !pip install Faker 라이브러리 임포트 from pyspark.sql import functions as F from faker import Faker from collections import OrderedDict import uuid fake = Faker() 화자는 Pyspark 환경에서 사용했음 라이브러리 사용 fake_fi..
[Python] Python에서 Emoji를 text로 바꾸는 Code
·
데이터 엔지니어링/Python
Emoji Remove Python code에서 Emoji를 찾아 제거하는 방법을 작성한다. 정규표현식(Regular Expressions) re.compile은 패턴 객체를 반환하는 메서드 !pip install emoji import emoji import re emoji_pattern = re.compile("[" u"\U0001F600-\U0001F64F" # 이모지 아스키코드 u"\U0001F300-\U0001F5FF" # 기호 및 그림 문자 u"\U0001F680-\U0001F6FF" # 교통 및 지도 기호 u"\U0001F700-\U0001F77F" # 알파벳 표현을 다양한 스타일로 표현 u"\U0001F780-\U0001F7FF" # 도형과 모양 포함 u"\U0001F800-\U0001F8..
[Python] Sigmoid vs Softmax 함수 정리
·
데이터 엔지니어링/Python
(1) sigmoid Sigmoid 함수는 모든 범위의 실수를 취하고 0에서 1 사이의 출력 값을 반환합니다. 시그모이드 함수는 "S" 형태의 포함될 커브를 생성합니다. 시그모이드는 이진분류에서 사용되는 함수입니다. 1) 양수 및 0에 수렴 : 숫자가 0보다 크거나 같은 경우 2) 음수 및 0에 수렴 : 숫자가 0보다 작거나 같은 경우 시그모이드 함수 사용 1) 로지스틱 회귀 모델에서 이진 분류에 사용되는 시그모이드 함수. 2) Activation function 기능으로 사용 xvals = np.arange(-5,5,0.0001) def sigmoid(x): return 1/ (1+np.exp(-x)) yvals = sigmoid(xvals) plt.plot(xvals,yvals) plt.grid() ..
[Python] FacetGrid, map, function, etc
·
데이터 엔지니어링/Python
# 다양한 범주형 값을 가지는 데이터를 시각화하는데 좋은 방법=FacetGrid# 생존 여부(Survived)에 따른 연령(Age) 분포S = sns.FacetGrid(train, col='Survived')S.map(plt.hist,'Age',bins=15)# 다양한 범주형 값을 가지는 데이터를 시각화하는데 좋은 방법=FacetGridplt.show()S의 파생변수를 생성한 뒤 Seaborn의 FacetGrid를 사용하여 시각화 진행Map 함수를 사용 # map() 함수는 두번째 인자로 넘어온 데이터가 담고 있는 모든 데이터에 변환 함수를 적용하여 다른 형태의 데이터를 반환# 성별(Sex) 변수를 숫자 범주형 변수로 바꿔줌Sex_mapping = {'male':1, 'female':2}for datas..