본문 바로가기

Data

Celery 시작하기 Celery Getting Started 샐러리 정식 문서 를 기반으로 번역 및 보충하여 작성하였습니다. Celery는 비동기 Task Queue 입니다. Task 를 Message Broker 를 통해 전달하면 Worker가 이를 처리하는 구조입니다. 튜토리얼 단계Choosing and installing a message transport (broker).Installing Celery and creating your first task.Starting the worker and calling tasks.Keeping track of tasks as they transition through different states, and inspecting return values. Step 1. 브로커를 ..

Spark 알아보기 - 제 3장 (장단점 / 함께사용하는 툴 / 사용 사례 / 번외, Storm) 목차제 3장Spark 의 장단점함께 사용하는 툴Spark 을 사용한 다른 서비스 사례번외) Storm, 파케이 etc Spark 장점1. 메모리 기반 → 속도특히 Spark 은 메모리 하둡 이라고도 불리는데, 기존의 하둡이 MapReduce 작업을 디스크 기반으로 수행하기 때문에 느려지는 성능을 메모리 기반으로 옮겨서 고속화 하고자 하는데서 출발했습니다.속도 비교 - 스파크의 메모리 내 데이터 엔진은 다중 스테이지 작업(스테이지 간에 다시 디스크에 상태를 써야하는)과 비교할 때 맵리듀스에 비해 최대 100배 더 빠릅니다. - 데이터가 메모리 내에 완전히 들어갈 수 없는 아파치 스파크 작업도 맵리듀스에 비해 약 10배 더 빠릅니다. - 서버에 메모리를 다는 경우가 많아지면서, 굳이 디스크를 사용하지 않고 ..

Spark 알아보기 - 제 2장 (각 데몬의 역할 Driver, Master, Worker) 목차제 2장각 데몬의 역할 (Driver / Master / Worker)각 데몬의 역할 (Driver, Master, Worker)Spark와 M/R 아키텍처의 차이점 그리고 Spark이 YARN에서 어떻게 동작하는지분산모드에서 Spark는 master/slave 구조로 이루어져 있다.master는 Driver, slave는 Worker/ExecutorApplicationsSpark는 M/R과 유사한 job 개념을 갖고 있지만 “application”이라는 higher-level construct가 있다.application can run multiple jobs, in sequence or in parallel.SparkContext = an instance of applicationM/R과는 다르게..

Spark 알아보기 - 제 1장 목차 제 1장Spark 이란?Spark 의 기능 / 라이브러리 / 병렬 처리 엔진 에 대하여RDD Spark 이란?범용적이고 빠른 빅데이터 연산 작업을 수행하도록 설계된 "분산 클러스터링 플랫폼"메모리 하둡이라고도 불립니다.기존의 하둡이 M/R 작업을 디스크 기반으로 수행하기 때문에 느려지는 성능을 메모리 기반으로 옮겨서 고속화 하고자 하는데서 출발했습니다.이 위에 MapReduce나, 스트리밍 처리등의 모듈을 추가로 올려 사용할 수 있습니다. 요즘은 대부분의 하둡 배포판에 스파크가 포함됩니다.Spark의 엔진 자체만 놓고 보면 클러스터 컴퓨팅을 하기 위한 프레임워크처럼 추상화, 일반화 되어있고 범용적입니다. 기능Map & Reduce (cf. Hadoop)Streaming 데이타 핸들링 (cf. Apa..

이전 1 다음

티스토리툴바