[AWS] Sagemaker Internet access / VPC access 차이
·
데이터 엔지니어링/AWS
SagemakerAWS의 머신러닝 추론 서비스인 sagemaker를 사용할때면 항상 vpc와 subnet은 고려하지 않고 default vpc에서 사용했다.그러나 이번엔 vpc를 만들고 opensearch를 해당 vpc의 private에 두었기 때문에 sagemaker 또한 해당 vpc에 구축해야 했다.만든 후 sagemaker를 열었더니 커널이 pending 되지 않고 노트북도 열리지 않았다.이후 퍼블릭 액세스와 vpc 액세스의 차이를 알게 됐고 지금 생각해보면 당연한 얘긴데, 일 하다보면 항상 숲이 아닌 나무를 보게 되는 것 같다 ..VPC Access vs Internet Access VPC 전용 vpc를 만들면서 vpc내의 public한 서브넷에 sagemaker를 두고 private subne..
[AWS] TroubleShooting Bedrock InvokeModel Error
·
데이터 엔지니어링/AWS
Antropic Sonnet / Haiqu의 Model issue ModelErrorException: An error occurred (ModelErrorException) when calling the InvokeModel operation: The system encountered an unexpected error during processing. Try your request again. Trouble shooting Antropic의 Sonnet과 haiqu를 사용할 때 간헐적으로 모델 이슈 에러가 발생하였다. 당시 구글링을 시도할때 Invoke-endpoint의 에러들에 대한 해결방법만 존재했고 ModelErrorException에 관한 내용은 없었다. 따라서 저 에러가 난 경우, Try ..
[Certificate] AWS - Solution Architect Associate 시험 합격 및 키워드 정리
·
프로젝트
Intro 2024년을 맞아 Data Tech Service Team에서 Data Architecture으로 팀 이동을 하게 됐다. 그동안 관심이 있었던 AWS 인프라 일에 참여할 수 있는 계기가 주어졌고, 경험해볼 수 있는 일의 범위가 넓어지게 되면서 AWS Solution Architect 자격증을 이 기회에 따볼까 싶었다. Architecture에 관심이 있다는 것을 보여주기 위해서 빠르게 따려고 Professtional보다 Asso를 신청하게 됐다. 공부한 시간은 약 3주정도 였으며 클라우드 회사에 다니다보니, 금방 딸 수 있을거라고 생각했다. 준비 기간 ( 약 3주 ) 실제로 AWS ML - Specialty를 취득할때도 examtopics의 도움을 많이 받은 까닭에 examtopics만 집..
[Databricks] Private VPC 생성하기 (with AWS Cloud)
·
데이터 엔지니어링/Spark
Private VpcPrivate vpc는 흔히 고객 관리형 VPC라고 할 수 있으며 오늘은 고객의 VPC에서 Databricks 작업 영역을 만들어 볼것이다.https://docs.databricks.com/en/administration-guide/cloud-configurations/aws/customer-managed-vpc.html Databricks documentation docs.databricks.com 기본적으로 데이터브릭스는 클라우드 위에서 존재하기 때문에, 클러스터 생성과 스토리지 또한 클라우드 위에존재한다는 것을 알아야 한다.우선, 데이터브릭스 작업영역을 만들기 위해서 3가지 차례로 진행하면 되는데,1. 자격증명구성2. 저장소 구성3. 네트워크 구성이다.1. 자격 증명 구성 iam..
[AWS] Lambda를 통해 Open Ai Api 호출하여 시각화 결과 저장
·
데이터 엔지니어링/AWS
Open ai API 발급 open ai prompt를 사용하기 위해 open ai에 회원가입 후 api 키를 발급받는다. Lambda Layer 람다에서 open ai api를 호출하려면 oepn ai python 패키지를 라이브러리 형태로 람다 layer(라이브러리 집어넣는 장소)에 넣어줘야 한다. ec2 하나 열어서 openai 라이브러리를 설치한다음 라이브러리를 압축한 상태인 zip 형태로 layer에 넣어준다 pip install openai --target Lambda layer Open ai api 호출 함수 시크릿 키를 안전하게 환경변수에 저장한 후 람다 콘솔로 돌아와 함수를 테스트하여 올바르게 작동되는지 확인한다. 이를 통해 나중에 코드를 변경하지 않아도 키를 쉽게 업데이트 할 수 있으..
[AWS] Troubleshooting Kendra indexing Error
·
데이터 엔지니어링/AWS
문제 출처 AWS Kendra Data source 진행 중에 30개의 index 문서 중 27개의 문서만 동기화가 완료됐다. 나머지 일부분에 대해서 Added가 되지 않고 루프가 도는 상황 발생.. 2일 정도 켄드라를 켜놨는데 동기화되는 document가 왔다갔다 하는 현상을 발견했다. 계속 인덱싱이 진행됐고, 원래대로라면 2시간 이내로 인덱싱 작업이 끝났어야 했다. Cloudwatch를 뜯어보니, DocumentFailedToIndex라는 에러가 발생하였고, Failed to process the document because another newer document revision is currently being processed 라는 에러메시지를 확인했다. 다음은 AWS 공식문서에 나와있는 내용..
[AWS] RDS(MYSQL)에서 DMS를 사용하여 Databricks로 Migration하기
·
데이터 엔지니어링/AWS
데이터의 변경된 내용을 자동으로 식별하기 위해서 Change Data Capture(CDC)의 기술을 접목할 것이다. 데이터 브릭스로 CDC를 진행할때는 어떤 방식으로 이루어지는 알아보자. 사용한 서비스 : AWS의 DMS, AWS RDS(MYSQL),Databricks(Spark) 1. RDS 생성 DB는 Mysql을 생성해서 사용했다. 비용효율적으로 EC2에 mysql을 설치해서 사용해도 되지만, RDS를 사용해본 적이 없기에, CDC를 통해서 겸사겸사 진행했다. 또한 프리티어를 사용해서 Amazon RDS 단일 AZ(개발자용) db.t2 micro 인스턴스는 750시간 무료로 사용할 수 있다고 하니 클라우드 환경에서 DB를 사용할때 생성하면 좋을 듯 싶다. 주의 : 버스터블 클래스인 t로 선택을 ..
[AWS] Claude2 token counting
·
데이터 엔지니어링/AWS
Langchain의 callbacks으로 묶으려고 하니까 OpenAI의 자연어 처리 API를 사용하는 것으로 확인이 되어 token을 count할 수 없었다 현재 사용하고 있는 llm은 aws의 claude2기 때문에, open ai와 맞지 않아 구글링 해본 결과 여러 개를 테스트해볼 수 있었다 1토큰 당 처리되는 글자가 언어에 따라 달라진다는 점. 영어의 경우 4글자당 1개 토큰을 사용하는 반면 한글은 1글자당 2~3개의 토큰을 사용한다. 챗GPT 최대 입력 글자 수로 계산했을 때 영어는 1만 5384자이나 한글은 1365자에 불과하다라고 한다. callback을 시도하려했으나 오류발생 ImportError: cannot import name 'ChainManagerMixin' from 'langcha..