본문 바로가기
CI & CD

docker에 jupyter/pyspark 컨테이너 올리기

by 슬픈 야옹이 2023. 9. 15.

프로젝트에서 분산 컴퓨팅 환경을 docker 상에 구현해야 하는 경우가 생겨 찾아보았는데,

docker hub에 jupyter/pyspark 이미지가 올라와 있는 것을 발견했다. 잘만 사용하면 일이 쉽게 풀릴 듯 하다.

 

 

사실 그다지 잘 아는 분야는 아니라서 좀 찾아보았다.

 

jupyter, jupyter notebook

위키백과에서는 jupyter를 다음과 같이 설명한다.

 

프로젝트 주피터(영어: Project Jupyter, Listeni/ˈdʒuːpɪtər/)는 "오픈 소스 소프트웨어, 개방형 표준, 그리고 여러 개의 프로그래밍 언어에 걸쳐 인터랙티브 컴퓨팅을 위한 서비스 개발"을 위해 설립된 비영리 단체이다.

 

대충 오픈 소스 소프트웨어 개발을 지원하는 단체 혹은 플랫폼 등을 지칭하는 듯하다.

 

 

 

 

docker에 jupyter/pyspark 설치 및 구동

 

https://hub.docker.com/r/jupyter/pyspark-notebook

 

Docker

 

hub.docker.com

 

 

1. docker hub에서 jupyter/pyspark image를 pull한다.

>> docker pull jupyter/pyspark-notebook

 

 

2. pull 받아온 image로 컨테이너를 생성한다.

>> docker run -i -p 8888:8888 --name pyspark <docker image>

 

 

3. 컨테이너를 구동한 호스트의 8888 포트로 접속하면 jupyter notebook을 사용 가능.

 

접속할 때 토큰이 필요한데, 페이지에 나와있는 것처럼, 컨테이너 처음 실행할 때 토큰이 뜬다. 잘 확인해볼 것.

 

 

접속에 성공하면 요래 뜬다.

 

 

이런 식으로 notebook도 쓸 수 있다. notebok에 입력한 명령은 컨테이너를 올린 호스트가 처리해준다.

지금은 localhost로 접속해서 내가 나에게 명령을 내리는 꼴이지만, 외부에서 접속하면 외부에서 이 호스트(나)에게 연산을 시킬 수 있을 것이다.