본문 바로가기

📚 전체글179

실시간 데이터 처리[2/3] - 스트림 처리 뭘 쓰지? Flink의 차별점과 내부 구조 "실시간 스트림 처리가 필요하다는 건 알겠어요. 그런데 어떤 기술을 써야 할까요?""Apache Flink, Spark Streaming, Kafka Streams... 너무 많은 선택지가 있어서 헷갈려요."Flink가 좋다고 하는데, 정확히 어떤 점이 좋은 건가요?"목차1. 들어가며2. 실시간 스트림 처리 기술 비교2.1. 스트림 처리의 요구사항2.2. 주요 스트림 처리 프레임워크 비교2.3. 왜 Apache Flink 인가?3. Apache Flink 아키텍처 분석3.1. Flink의 핵심 개념3.2. 데이터 플로우 그래프와 DAG, 실행 계획3.3. Flink 런타임 아키텍처마치며 / Reference 1. 들어가며이전 글 "실시간 데이터 처리 [1/3] - 배치 그리고 스트림"에서 우리는 실시간 .. 2025. 3. 2.
트랜스포머 레시피 [1/3] - 재료 준비: 텍스트를 숫자로 변환하기 안녕하세요, 쿠킴입니다. 트랜스포머를 이해하기 위해 정리한 내용을 공유합니다. (사용된 코드 전체 colab notebook) 목차1. 들어가며1.1. 트랜스포머의 전체 아키텍처1.2. 텍스트를 숫자로 바꾸기2. Source sequence: 텍스트 정규화와 토큰화2.1. 텍스트 정규화: 일관성 있는 텍스트 만들기2.2. 토큰화와 ID 변환2.3. 특수 토큰과 전처리2.4. 토큰화 + ID 변환 활용3. Embeddings Projections: 임베딩3.0. 기본 개념: 벡터, 임베딩, 유사도3.1. 전통적 방법 - 희소 벡터(Sparse Vector)3.2. 딥러닝 기반 임베딩 - 밀집 벡터(Dense Vector)4. Positional Encoding: 위치 인코딩4.1. 위치 인코딩의 필요성4... 2025. 1. 26.
실시간 데이터 처리 [1/3] - 배치 그리고 스트림 "매일 수많은 데이터가 실시간으로 발생합니다. 사용자의 클릭, 주문, 검색, 장바구니 담기까지... 이런 데이터들을 어떻게 활용할 수 있을까요?" 커머스 서비스에서는 끊임없이 데이터가 생성됩니다. 특히 추천 시스템을 개발하다 보면 이런 고민이 자주 듭니다."방금 인기가 급상승한 상품을 바로 추천에 반영할 순 없을까?""새로운 상품의 성과를 실시간으로 확인하고 싶은데...""프로모션 효과를 보면서 바로 전략을 수정하고 싶어요" 전통적인 배치 처리 방식은 여전히 중요하고 유용합니다. 특히 복잡한 머신러닝 모델 학습이나 대규모 데이터 분석같이 무거운 계산이 필요한 경우에는 배치 처리가 효율적인 선택이죠. 하지만 실시간성이 중요한 요구사항들이 늘어나면서 한계도 분명해졌습니다. 배치 주기를 줄여서 (예: 하루 한.. 2025. 1. 19.
일상 업그레이드 - 맥(macOS) 세팅 끝장내기(2024/12, M4, macOS Sequoia) (업데이트 날짜: 2024/12/18) 맥북 설정 방법을 정리합니다. 새로운 macOS 환경에서 시작하고 싶으신 분들께 도움이 되길 바랍니다.  목차 1. 사용하는 애플리케이션 2. 맥 기본 설정  2.1. 키보드 설정    2.1.1. 키보드 입력 속도 변경    2.1.2. 자동 변경 제거    2.1.3. 한글 백틱(`) 설정    2.1.4. 악센트 입력 옵션 끄기    2.1.5. 한영 변환 빠르게하기  2.2. 트랙패드 설정    2.2.1. 가벼운 탭으로 클릭    2.2.2. 세 손가락 드래그  2.3. 파인더 설정    2.3.1. 파일 확장자 보기    2.3.2. 폴더 정렬 설정    2.3.3. 사이드바 조정    2.3.4. 기본 시작 폴더    2.3.5. 스마트 폴더    2.. 2024. 12. 15.
MAB 알고리즘 [2/2] - MAB와 Thompson Sampling의 아키텍처 및 실전 구현 (w. Kotlin) "서비스에서 MAB 알고리즘을 사용하기 위해 시스템은 어떻게 구축하고, Thompson Sampling은 어떻게 구현/운영할까?" 지난 글(MAB 알고리즘 [1/2] - A/B 테스트의 한계, MAB 알고리즘과 Thompson Sampling 이해하기)에서 A/B 테스트의 한계와 이를 보완하기 위한 MAB 알고리즘, 특히 Thompson Sampling의 개념에 대해 알아보았습니다. 하지만 실제 서비스에 적용하기 위해서는 개념 이해를 넘어 전체적인 시스템 설계와 운영 방안이 필요합니다. MAB 알고리즘을 서비스에 적용하기 위해서는- 실시간으로 사용자 행동을 수집하고- 수집된 데이터를 적절히 처리하여- 빠른 응답 시간 내에 추천 결과를 제공해야 합니다 이러한 실시간 데이터 수집/처리 시스템은 A/B 테스트.. 2024. 10. 28.