2025/012 트랜스포머 레시피 [1/3] - 재료 준비: 텍스트를 숫자로 변환하기 안녕하세요, 쿠킴입니다. 트랜스포머를 이해하기 위해 정리한 내용을 공유합니다. (사용된 코드 전체 colab notebook) 목차1. 들어가며1.1. 트랜스포머의 전체 아키텍처1.2. 텍스트를 숫자로 바꾸기2. Source sequence: 텍스트 정규화와 토큰화2.1. 텍스트 정규화: 일관성 있는 텍스트 만들기2.2. 토큰화와 ID 변환2.3. 특수 토큰과 전처리2.4. 토큰화 + ID 변환 활용3. Embeddings Projections: 임베딩3.0. 기본 개념: 벡터, 임베딩, 유사도3.1. 전통적 방법 - 희소 벡터(Sparse Vector)3.2. 딥러닝 기반 임베딩 - 밀집 벡터(Dense Vector)4. Positional Encoding: 위치 인코딩4.1. 위치 인코딩의 필요성4... 2025. 1. 26. 실시간 데이터 처리 [1/3] - 배치 그리고 스트림 "매일 수많은 데이터가 실시간으로 발생합니다. 사용자의 클릭, 주문, 검색, 장바구니 담기까지... 이런 데이터들을 어떻게 활용할 수 있을까요?" 커머스 서비스에서는 끊임없이 데이터가 생성됩니다. 특히 추천 시스템을 개발하다 보면 이런 고민이 자주 듭니다."방금 인기가 급상승한 상품을 바로 추천에 반영할 순 없을까?""새로운 상품의 성과를 실시간으로 확인하고 싶은데...""프로모션 효과를 보면서 바로 전략을 수정하고 싶어요" 전통적인 배치 처리 방식은 여전히 중요하고 유용합니다. 특히 복잡한 머신러닝 모델 학습이나 대규모 데이터 분석같이 무거운 계산이 필요한 경우에는 배치 처리가 효율적인 선택이죠. 하지만 실시간성이 중요한 요구사항들이 늘어나면서 한계도 분명해졌습니다. 배치 주기를 줄여서 (예: 하루 한.. 2025. 1. 19. 이전 1 다음