하루의 연습장

Azure Open AI Timeout 비동기 처리 시 세마포어로 동시 처리하는 방법 : Semaphore

LLM 배치를 돌리는 과정에서 Azure Open AI를 쓰는 과정에 502 Gateway Timeout 에러를 발생하는 문제를 겪었다.InternalServerError: 502 Bad Gatewayopenresty코드를 비동기로 짰음에도 불구하고 왜 갑자기 타임아웃이 나는걸까?문제 원인은 의외로 간단했다.비동기 처리를 쓴다고 해서 안전하게 병렬처리가 되는게 아니였다.오히려 동시에 너무 많은 요청을 날리는 바람에 서버나 프록시가 과부하가 걸린 것이였다. 당시 구조는 다음과 같았다. tasks = [process(x) for x in df]for task in asyncio.as_completed(tasks): final = await task tasks에서 코루틴(중간에 멈췄다가 다시 이어서 ..

2025. 8. 15. 14:22

LLM

[LangGraph] RAG 파이프라인에서 LangGraph로 조건 분기 처리하는 방법

RAG 파이프라인은 질문에 따라 흐름이 달라져야 하는 경우가 많다.예를 들어 질문이 말이 되는지 검증하거나, 검색된 문서가 충분한지 확인하거나, 응답을 생성할지 혹은 사용자에게 다시 질문을 받을지 결정하는 흐름들을 코드로 구현할 때 if문을 남발하면 유지보수가 어려워진다. 기존에는 Langchain으로 LLM 파이프라인을 구축할때는 단방향의 파이프라인만 가능했다면 LangGraph는 조건부 엣지들을 통해 이런 단방향 흐름을 제어할 수 있다.1. LanggraphLanggraph를 짧게 소개하자면, Langchain 위에 구성된 라이브러리이다. Langgraph는 노드를 정의하고, 노드 간의 이동을 조건에 따라 제어할 수 있다.복잡한 RAG 로직을 시각적으로 설계하듯 구성이 가능하고 DAG도 시각적으로 표..

2025. 7. 25. 19:11

데이터 엔지니어링/Spark

[Spark] null과의 조인 이슈 및 fillna의 문자열 타입 제약

Spark를 사용하다 보면 null과 관련된 이슈는 피할 수 없다.특히 join이나 fillna 작업 중에는 생각보다 복잡하고 직관적이지 않은 동작을 마주하게 된다.이번 글에서는 Spark DataFrame에서 null이 join에 미치는 영향과 fillna의 문자열 타입 제약에 대해 정리한다.1. null은 조인 대상이 아니다 Spark에서 두 DataFrame을 join할 때, 조인 키가 null인 경우는 절대 매칭되지 않는다.이는 SQL의 기본적인 조인 규칙과 동일하지만, Spark에서는 이 특성이 실무에서 꽤 자주 문제를 일으키는 것 같다. 이에 대한 사실을 몰랐을 때, 똑같은 데이터인데도 불구하고 실행할때마다 계속해서 중복이 일어나는 경우가 있었다."left_anti"란 A 테이블에서 B테이블이..

2025. 5. 16. 18:47

컴퓨터 사이언스 (CS)

[Python] nest_asyncio vs ThreadPoolExecutor 사용 비교

요즘 GPT 같은 LLM 모델을 배치로 대량 호출하려면 비동기 처리는 거의 필수다.그런데 파이썬에선 비동기 쪽 선택지가 은근히 많은데 Spark를 사용하다보니 두가지의 동작방식이 헷갈려서 기록해 두려고 한다.nest_asyncioconcurrent.futures.ThreadPoolExecutor이 글에서는 각각의 개념과 실제로 LLM 요청을 병렬로 처리할 때 어떤 차이가 있는지 정리해본다.nest_asyncio — 이벤트 루프 중첩 허용하기파이썬에서 비동기를 쓸 땐 asyncio의 이벤트 루프를 돌려야 한다.이벤트 루프란, 비동기 함수들(async def)을 실행해주는 스케줄러를 말한다.await 걸린 작업들을 기다렸다가 다시 실행해주는 감독 같은 역할을 하는 것이라고 생각하면 된다.이미 이벤트 루프가 ..

2025. 4. 11. 17:30

데이터 엔지니어링/AWS

[Opensearch] Index setting 중 Keyword vs Text의 차이

이번 글에서는 Elasticsearch에서 자주 사용되는 keyword 타입과 text 타입에 대해 설명드리겠습니다. 1. keyword 타입먼저 keyword 타입은 정확한 값 검색에 적합합니다.예를 들어, 이메일 주소나 고유 ID, 국가 코드와 같은 것들이 이에 해당합니다.keyword 타입은 텍스트를 그대로 저장하고 분석하지 않기 때문에, 입력한 값 그대로 저장됩니다.즉, 대소문자 구분도 하고 공백도 그대로 유지됩니다. 또한 필터링,집계, 정렬인 Aggregation에 최적화 되어 있습니다. 예시 매핑:{ "properties": { "email": { "type": "keyword" } }} 장점: • 정확하게 문자 일치 검색이 가능하고, 집계나 필터링 속도가 빠릅니다. •..

2025. 3. 27. 19:48

데이터 엔지니어링/Python

[Python] return vs yield 동작 방식에 대해 바로 알기

return과 yield는 Python에서 함수의 동작 방식에 큰 차이를 만드는 두 키워드입니다.이 두 키워드의 차이점과 언제 사용하는지에 대한 이해를 하기 위하여 아래와 같은 구조로 설명할 수 있습니다. Python에서 return과 yield는 함수의 실행을 제어하는데 사용되지만, 그 방식과 결과는 크게 다릅니다.return과 yield의 차이점을 살펴보겠습니다. 1. return의 동작 방식 • 정의: return은 함수에서 값을 반환하고, 함수의 실행을 종료하는 키워드입니다.함수가 return을 만나면, 그 즉시 실행이 종료되고 값이 호출자에게 반환됩니다. • 용도: 보통 함수가 어떤 결과값을 계산하고 그 값을 반환할 때 사용됩니다. 그 값은 단순히 반환된 결과로만 활용됩니다. • 예시: def ..

2025. 2. 28. 11:28

데이터 엔지니어링/Spark

Spark (스파크) vs MapReduce (맵리듀스) 차이

견고한 데이터 엔지니어링 책을 읽으면서 스파크와 맵리듀스가 대규모 데이터를 효율적으로 처리하기 위해 만들어졌다고 하는데, 둘의 차이를 명확히 알기 위해 기록해두는 용으로 블로그를 작성한다.공통점으로는,1. 분산 처리 기반- Spark, MapReduce는 대규모 데이터를 여러대의 컴퓨터(노드)로 나눠서 동시에 처리한다.- 클러스터 환경에서 작동하며, 데이터를 효율적으로 나누고 병렬 작업을 수행한다. 2. 내결함성을 지니다- 노드 하나가 고장난다 하더라도, 데이터와 작업을 다른 노드에서 수행할 수 있기에 복구할 수 있는 구조를 가지고 있다.- MapReduce는 HDFS(Hadoop Distributed File System)를 기반으로, Spark는 RDD(Redsilient Distributed D..

2024. 12. 22. 17:22

데이터 엔지니어링/Python

Iterator(이터레이터)와 list(리스트)의 동작 차이

코딩테스트를 준비하다가 역순을 사용하는 부분에서 객체의 메모리 주소를 보여주는 부분을 목격했다.이 메모리 주소는 이터레이터의 객체 주소를 보여주는데, 이터레이터와 리스트의 차이가 무엇인지 찾아보다가 기록을 해둔다.두 개념은 비슷해 보이지만, 데이터를 처리하는 방식과 사용 방법에서 큰 차이가 있다.이터레이터는 마치 과자 자판기와 같다.자판기에서는 버튼을 한 번 누를 때마다 과자가 하나씩 나온다.하지만 모든 과자를 다 꺼내고 나면 더 이상 과자를 받을 수 없다.이처럼 이터레이터의 특징을 볼 수 있는데, 이터레이터는 한번만 사용할 수 있고, 메모리에 모든 데이터를 저장하지 않고 필요할때만 생성한다는 점, 그리고 다시 사용하려면 새로 생성해야한다는 점이다.l = [1, 2, 3, 4, 5]iter_obj = i..

2024. 11. 30. 18:53

데이터 엔지니어링/Databricks

Hive Metastore vs Unity Catalog 차이

데이터브릭스 플랫폼에서 개발하면서 데이터를 담고있는 공간의 차이가 궁금해졌다.엔지니어를 하다보면 데이터브릭스에서 유니티 카탈로그(Unity Catalog)라는 단어가 계속 나오는데, 유니티 카탈로그 외의 하이브메타스토어는 유니티카탈로그가 아닌건가?에 대해서 의문이 들었다. 일단, Unity Catalog와 Hive Metastore 둘다 메타데이터 등 데이터를 관리하는 데 사용되는 도구이지만 차이점은 명확히 있다.Unity Catalog는 Databricks에서 제공하는 데이터를 관리하는 기능으로, 클라우드에서 데이터를 일관성 있게 관리하고 접근을 세밀하게 제어할 수 있도록 설계되었다. AWS, Azure 등의 다양한 클라우드 환경을 지원하므로 멀티 클라우드에서 데이터를 활용하려는 경우 유용하다.Hiv..

2024. 11. 5. 21:31

코딩테스트/Python

[Algorithm] 프로그래머스 피자나눠먹기(2)

문제출처머쓱이네 피자가게는 피자를 여섯 조각으로 잘라 줍니다. 피자를 나눠먹을 사람의 수 n이 매개변수로 주어질 때, n명이 주문한 피자를 남기지 않고 모두 같은 수의 피자 조각을 먹어야 한다면 최소 몇 판을 시켜야 하는지를 return 하도록 solution 함수를 완성해보세요.풀이코드def solution(n): answer = 0 div = 6 while div % n != 0: div += 6 answer = div // 6 return answer 코드설명1. div 변수에 6을 대입2. 나머지 값이 0이 아닐때까지 (while 구문으로 조건에 만족할 때까지) 구문 반복3. 0이 아닐 시에 6을 더해가면서 최소공배수 찾기4. 최소공배수를 찾았다면 6으로 나..

2024. 10. 5. 16:23

코딩테스트/Python

[Algorithm] 백준 영수증 #2587

문제출처어떤 수들이 있을 때, 그 수들을 대표하는 값으로 가장 흔하게 쓰이는 것은 평균이다. 평균은 주어진 모든 수의 합을 수의 개수로 나눈 것이다. 예를 들어 10, 40, 30, 60, 30의 평균은 (10 + 40 + 30 + 60 + 30) / 5 = 170 / 5 = 34가 된다.평균 이외의 또 다른 대표값으로 중앙값이라는 것이 있다. 중앙값은 주어진 수를 크기 순서대로 늘어 놓았을 때 가장 중앙에 놓인 값이다. 예를 들어 10, 40, 30, 60, 30의 경우, 크기 순서대로 늘어 놓으면10 30 30 40 60이 되고 따라서 중앙값은 30이 된다.다섯 개의 자연수가 주어질 때 이들의 평균과 중앙값을 구하는 프로그램을 작성하시오.풀이코드numbers = [int(input()) for i i..

2024. 10. 3. 18:59

알쓸신잡/TIL

[TIL] ValueError: numpy.dtype size changed: Binary Incompatibility 해결 방법 (With Log4j)

개발을 하다 보면 다양한 환경에서 여러 오류가 발생한다. 특히 파이썬 라이브러리들을 사용할 때 라이브러리 간 버전 호환성 문제로 인해 예상치 못한 오류가 발생할 때가 있는데, 최근에 겪었던 문제 중 하나는 NumPy를 사용할 때 나오는 다음과 같은 경고 메시지였다.문제 상황 배치 워크플로우를 돌리는 경우에 cluster 에러가 나서 이후에 있는 모든 작업이 전부 중단됐다. log4j의 strerr을 다운받아서 확인해보니아래와 같은 경고가 나타났다.ValueError: numpy.dtype size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject이 경고는 NumPy의 dtype 크기가 변..

2024. 10. 2. 10:30

컴퓨터 사이언스 (CS)/Certificate

Data Engineer Professional 자격증 취득기 : 나의 경험과 팁

이전에 취득했던 Databricks Engineer Associate가 있었지만, 올해 okr에 신규 certificate 취득이 있기 때문에 Databricks Professional 자격증을 취득하는 것은 언젠가 취득해야만 했었던 과정이였다.영어로 시험을 봐야하기 때문에 결코 쉽지만은 않았지만, 그 과정은 매우 보람찼고 새로운 개념에 대해서 많이 알게 되었다.이번 글에서는 내가 이 자격증을 준비하면서 겪었던 경험과, 이를 준비하는 사람들에게 도움이 될 수 있는 팁들을 공유하고자 한다.왜 Databricks Professional 자격증을 선택했는가?데이터 분석과 엔지니어링의 중요성이 나날이 커지면서 Databricks는 이러한 분야에서 핵심적인 플랫폼으로 자리 잡고 있다. 특히 클라우드 기반에서 손쉽..

2024. 9. 28. 17:49

DB/SQL

Decimal vs Float 의 차이 (with Trim)

실수를 표현하는 방식컴퓨터는 기본적으로 2진수를 사용하는 기계이다.정수(ex. 1,2,3) 를 표현하는데에는 무리없이 표현할 수 있지만 소수를 표현할 때에는 무한한 2진수로 표현이 된다.즉, 소수점 0.1을 2진수로 표현한다면 무한 소수로 표현이 된다는 말과 같다.FloatFloat은 부동 소수점을 사용하는 타입으로, 소수점의 위치가 데이터의 형태에 따라 언제든지 바뀔 수 있으며 실제로 소수점을 사용하다보면 float은 소수점 외, 많은 소수점을 가지고 있는 것을 볼 수 있을것이다.즉, float은 decimal과 달리, 이진수 기반의 연산을 지니고 있으며 십진수를 이진수로 변환시킬때 이진소수인 형태를 띄고 정확히 맞아 떨어지지 않는 값들에 대해선 무한소수가 되어 정확하게는 그 값에 근사값이 될 확률이 ..

2024. 9. 8. 18:44

데이터 엔지니어링/Spark

검증 Verification 시간 단축 이슈(Min,Max,Sum)

데이터 이관했을 당시 Source Table과 Target Table에 대한 데이터 검증을 경험한 바가 있다.데이터 엔지니어라 함은 데이터 검증을 피할 수가 없는데, 보통은 count로 이를 확인하고 더 나아가서 Min, Max, Sum을 추출하여 데이터 검증을 진행한다.컬럼의 수가 많을 수록, 또한 데이터가 클 수록 이에 대한 검증 시간은 비례하다.기존에는 검증에 대한 로직이 없었으며 작업을 수행해야하는 시간이 다소 짧았었다. 빠르게 검증 로직에 대한 템플릿을 만들었고 데이터가 큰 테이블들은 시간이 오래 걸렸음에도 흐린눈 하며 검증 코드 고도화를 미루다가 하나의 테이블이 생각보다(...) 너~무 오래걸리는 이슈로 인해 로직에 대한 고도화를 진행해야만 했다.(고도화 작업을 진행할때 기존 코드를 보다가 ..

2024. 7. 14. 20:28

Azure Open AI Timeout 비동기 처리 시 세마포어로 동시 처리하는 방법 : Semaphore

[LangGraph] RAG 파이프라인에서 LangGraph로 조건 분기 처리하는 방법

[Spark] null과의 조인 이슈 및 fillna의 문자열 타입 제약

[Python] nest_asyncio vs ThreadPoolExecutor 사용 비교

[Opensearch] Index setting 중 Keyword vs Text의 차이

[Python] return vs yield 동작 방식에 대해 바로 알기

Spark (스파크) vs MapReduce (맵리듀스) 차이

Iterator(이터레이터)와 list(리스트)의 동작 차이

Hive Metastore vs Unity Catalog 차이

[Algorithm] 프로그래머스 피자나눠먹기(2)

[Algorithm] 백준 영수증 #2587

[TIL] ValueError: numpy.dtype size changed: Binary Incompatibility 해결 방법 (With Log4j)

Data Engineer Professional 자격증 취득기 : 나의 경험과 팁

Decimal vs Float 의 차이 (with Trim)

검증 Verification 시간 단축 이슈(Min,Max,Sum)

전체 카테고리

블로그 인기글

전체 방문자

티스토리툴바