일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 카프카 성능
- Spark
- 슬랙 파일업로드
- 코어/컨텍스트
- 슬랙
- Tuckman
- 해킹
- 팀 발달 모델
- Core/Context
- Scouter
- Slack Rate Limit
- 이미지 푸시
- firebase
- 스카우터
- Scale Cube
- Rate Limit
- 스케일 큐브
- 웹보안
- Slack File Upload
- 슬랙 파일업로드 제한
- bag of words
- FCM
- n-gram
- 알림무시
- 머신러닝
- Slack Limit
- kafka
- 자연어처리 #konlpy #형태소분석
- 파이어베이스
- 카프카
- Today
- Total
목록Spark (3)
플랫폼 개발팀 기술 블로그
[스파크(Spark)] #1. 개요 [스파크(Spark)] #2. 용어 및 개념 [스파크(Spark)] #3. 구조적 API 개요 및 기본 연산 이번에는 구조적 API의 개요 및 기본 연산에 대해서 알아본다. DataFrame와 Dataset은 둘 다 Row와 Column을 가지는 불변성을 가지는 분산 테이블 형태의 컬렉션이다. Dataset은 JVM 기반이므로 java와 scala를 지원하지만 Python은 지원하지 않는다. python 코드로 검증을 할 예정이므로 DataFrame 기준으로 설명한다. 참고 Spark API 관련 자세한 부분은 Spark Docs를 참고하자. DataFrame을 가공 관련 부분은 pyspark.sql 모듈을 사용한다. Python Docs SparkSession Spa..
[스파크(Spark)] #1. 개요 [스파크(Spark)] #2. 용어 및 개념 [스파크(Spark)] #3. 구조적 API 개요 및 기본 연산 스파크가 무엇인지에 대한 개요에 대해서 알아보았다. 이번에는 핵심 용어 및 개념에 대해서 알아본다. 스파크 애플리케이션 아키텍처 사용자는 클러스터 매니저에게 스파크 애플리케이션을 제출한다. 클러스터 매니저는 제출받은 애플리케이션 실행에 필요한 자원을 할당하고, 스파크 애플리케이션은 할당받은 자원으로 작업을 처리한다. 스파크 애플리케이션은 드라이버 프로세스와 다수의 익스큐터 프로세스로 구성된다. 드라이버 프로세스는 클러스터 노드 중 하나에에서만 실행한다. 즉 main() 함수를 실행한다. 익스큐더는 다수의 도드에서 실행하며, 드라이버가 할당한 작업을 수행한다. 사..
[스파크(Spark)] #1. 개요 [스파크(Spark)] #2. 용어 및 개념 [스파크(Spark)] #3. 구조적 API 개요 및 기본 연산 빅데이터 처리 분야에서 아파치 스파크(Spark)가 빠르게 확장되고 거의 표준이 되어가고 있다. 앞으로 대용량 데이터의 가공이나 실시간 처리 및 분석에 필요하다고 판단되어 알아보게 되었다. 스파크 관련 책 및 공식 문서를 보고 진행하기로 한다. 등장배경 이전에 CPU 등 하드웨어 성능은 해를 거듭할수록 수치적으로나 체감으로도 눈에 띄게 발전하였다. 보통 2년마다 데스크탑을 조립해서 바꿨을 정도였다. 하지만 2005년쯤부터는 물리적인 한계로 인하여 성능향상은 점점 둔화하게 된다. 이때부터 하드웨어 엔지니어들은 모든 코어가 같은 속도로 동작하는 병렬 CPU 코어를 ..