'분류 전체보기' 카테고리의 글 목록 (3 Page)

Notice

Recent Posts

Recent Comments

Link

« 2024/04 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (48)

플랫폼 개발팀 기술 블로그

자연어처리 - 데이터 정제

Data Cleaning and Text PreprocessingPermalink기계가 텍스트를 이해할 수 있도록 텍스트를 정제하고 신호와 소음을 구분하여 아웃라이어 데이터로 인한 오버피팅을 방지하기 위해서는 다음과 같은 처리를 해주어야 한다.HTML 태그, 특수문자, 이모티콘 처리토근화(Tokenization) : 문장의 단어를 분리하는 단계불용어(Stopword) 제거 : 자주 등장하지만 특별한 의미를 갖지 않는 단어 제거어간 추출(Stemming) 및 음소표기법(Lemmatization)정규 표현식텍스트 데이터 전처리 이해 정규화 normalization (입니닼ㅋㅋ -> 입니다 ㅋㅋ, 샤릉해 -> 사랑해) 한국어를 처리하는 예시입니닼ㅋㅋㅋㅋㅋ -> 한국어를 처리하는 예시입니다 ㅋㅋ 토큰화 toke..

Article 2019. 3. 22. 09:59

[카프카(Kafka) 어플리케이션 제작 ] #2. 컨슈머

카프카(Kafka)의 이해카프카(Kafka) 설치 및 클러스터 구성[카프카(Kafka) 어플리케이션 제작 ] #1. 프로듀서[카프카(Kafka) 어플리케이션 제작 ] #2. 컨슈머 이전 글에서는 프로듀서 내부 동작 확인 및 어플리케이션을 제작하였다. 이번에는 컨슈머 어플리케이션을 제작해본다. 컨슈머 카프카 컨슈머 내부 동작 및 컨슈머 어플리케이션에서 메시지 소비하는 과정을 알아보자. 컨슈머 내부 동작컨슈머의 전체적인 내부 동작을 이해하면 컨슈머 어플리케이션을 디버깅할 때 도움이 많이 되며, 올바른 결정을 하도록 도와준다. 카프카 컨슈머의 역활 토픽 구독컨슈머 동작의 시작은 토픽의 구독임 오프셋 위치카프카는 다른 큐와는 다르게 메시지 오프셋을 저장 안함오프셋은 각자의 컨슈머들이 유지해야함(컨슈머 API를 ..

Kafka 2019. 3. 21. 17:44

REST API 디자인 가이드 적용기

아주 작은 시스템을 개발할 때는 API들이 약간 엉켜 있어도 문제가 생겼을때 원인을 찾는데 어렵지 않을 것이다.하지만 시스템이 커지고 복잡 하다면, 서로의 인터페이스를 잘 정돈하고 관리하는 것이 중요해진다. 구글이나 페이스북 등 큰 기업들은 잘 정돈하고자 그들만의 REST API 가이드라인을 가지고 있다. https://cloud.google.com/apis/design/resources?hl=ko 나는 여러 개발자들과 함께 REST API 개발을 담당하게 되었다. 그래서, 구체적인 개발을 시작 하기 전에 사내 REST API 디자인 가이드를 만들어야겠다고 마음을 먹었다. 가이드라인을 만들고 이것을 참고해 반년 정도 개발-운영을 했다. 처음 가이드라인을 만들때 했던 고민과 챙겨야할 것들, 그리고 가이드라..

Article 2019. 3. 8. 11:36

Tuckman의 팀 발달 모델

지금까지 IT업계에 20년 가까이 일을 하면서, 많은 팀을 겪어 왔습니다. 역할로는 팀원에서부터 파트장, 팀장까지 다양하게 경험을 해왔으며 현재도 진행중이지요. 팀과 프로젝트를 리딩한 경험도 다양한데, 팀의 규모로는 3명에서부터 20명이 넘는 팀을 리딩해 본 경험이 있습니다. 또한 경험해 온 환경도 무지 다양한데, 여러 회사의 다양한 팀 구조와 문화를 체험했습니다. 인터넷 컨텐츠 회사에서 부터, 게임회사, 대기업 SI 등의 서로 다른 조직 문화에서 일을 해왔으며, 팀의 조직화 특성으로는 보통의 기능조직 성격의 팀에서부터 프로젝트에 특화되어 구성된 TFT(Task Force Team)까지 겪어 봤습니다. 지금까지 제가 겪어온 팀들은 제각각 다른 특성들이 있었지만, 결국 사람이 모여서 일을 하는 것입니다. ..

프로젝트 관리 2019. 3. 8. 10:36

자연어처리 - Bag of words, n-gram

자연어 처리(natural language processing)는 인간의 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는 자연 언어 이해 혹은 그러한 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 제반 기술을 의미한다. (위키피디아)간단하게 말하면, 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일 이라고 생각하면 될 것 같다.텍스트Permalink기계학습 모델을 만들기 위해서는 데이터를 모델에 맞게 변형시켜 주어야 한다. 알고리즘에서 텍스트를 그대로 받아들일수 없기 때문에 받아들일 수 있는 어떤 숫자값으로 변환을 해주어야 한다. 하지만 텍스트는 일단 언어가 제각기 다르기 떄문에 텍스트 자체를 어떻게 숫자화 할지 부터 시작해야한다.그럼 어떤 방법들이 있는지 살펴보자..

Article 2019. 3. 8. 10:10

Docker : Dockerfile 편

Dockerfile 개요 지금까지 도커 이미지를 내려받아 컨테이너를 생성하고 아파치를 설치 후 도커 컨테이너에 접근하는 실습 과정과 아파치가 설치 된 상태까지의 컨테이너를 이미지화하는 내용을 학습하였다. // 우분투 이미지 다운로드 # docker pull ubuntu:14.04 // 도커 컨테이너 생성 # docker create -i -t --name -p 80:80 ubuntutest docker.io/ubuntu:14:04 b0c51e1ead4b1e4234537ec00394837144ce83f64c2d3c2e1eb7cbabcec8af41 // 컨테이너 활성화 # docker start ubuntutest // 컨테이너 접근 # docker attach ubuntutest // 패키지 업데이트 # ..

Docker 2019. 3. 7. 18:29

[카프카(Kafka) 어플리케이션 제작 ] #1. 프로듀서

카프카(Kafka)의 이해카프카(Kafka) 설치 및 클러스터 구성[카프카(Kafka) 어플리케이션 제작 ] #1. 프로듀서[카프카(Kafka) 어플리케이션 제작 ] #2. 컨슈머 위의 링크 글에서는 Kafka 개요 및 설치, 명령어를 이용하여 토픽 생성, 토픽 메시지 Publish, Subscribe에 대해서 설명하였다. 이번에는 Kafka 라이브러리를 이용하여 어플리케이션을 만들어보자.본인은 Intellij IDE 환경에서 SpringBoot 2.1 플래폼을 기반으로 Maven 빌드를 사용한다. 프로듀서나 컨슈머를 사용하기 위해서는 kafka-clients를 이용하므로 pom.xml에 종속성을 추가한다. org.apache.kafka kafka-clients 2.1.0 프로듀서카프카 프로듀서 내부 동..

Kafka 2019. 3. 7. 12:16

Docker : 이미지 편

Docker 이미지 개요 이번 편에서는 도커 이미지의 생성과 삭제, 이미지의 구조를 알아보려고 한다. 파일에 대한 분산버전관리를 웹 호스팅으로 지원하는 GitHub에서는 계정만 있으면 본인의 프로젝트를 push 할 수 있고 공개된 프로젝트라면 누구나 업로드 된 프로젝트를 pull 할 수 있다. 이와 마찬가지로 도커에서는 Docker Hub라는 중앙 이미지 저장소를 제공하고 있고 도커 계정이 있다면 누구나 업로드, 다운로드가 가능하다는 점에서 GitHub와 비슷하다고 볼 수 있다. 지난 컨테이너 편에서 컨테이너 생성 전에 docker pull 명령어로 묻지도 따지지도 않고 ubuntu 이미지를 내려 받았었다. docker pull 명령을 입력하면 기본적으로 도커 허브(Docker Hub)라는 중앙 이미지 ..

Docker 2019. 2. 22. 15:00

Prev 1 2 3 4 5 6 Next

목록분류 전체보기 (48)

플랫폼 개발팀 기술 블로그

티스토리툴바