Site Reliability Engineer

Site Reliability Engineer

토스 소속
정규직

합류하게 될 팀에 대해 알려드려요

  • Server Platform Chapter의 SRE 팀은 토스의 대규모 인프라를 기반으로 서비스의 높은 신뢰성과 안정성을 책임져요.
  • 대규모 트래픽 환경에서 이상 징후를 사전에 감지하고 빠르게 대응할 수 있도록 효과적인 모니터링 시스템을 설계하고 운영해요.
  • 서비스가 성장하는 과정에서 발생한 문제를 해결하고, 재발 방지를 위한 설계와 해법을 마련해요.
  • 토스 서버 조직에 대해 더 알아보고 싶다면? 토스 Server Chapter Wiki 바로가기

합류하면 함께할 업무예요

  • 토스 전사 시스템의 Stability, Scalability, Availability, Latency 지표를 고도화하고 지속적으로 개선해요.
  • 수많은 마이크로서비스(MSA) 환경에서 발생하는 대규모 트래픽의 병목을 실시간으로 감지하고 추적할 수 있는 관측 가능성(Observability) 시스템을 고도화해요.
  • 장애 시 비상 대응 및 Post-mortem을 주도하며, 장애 자동 복구 시스템 설계 및 아키텍처 개선을 통한 재발 방지책을 마련해요.
  • 인프라 전반의 단일 장애 지점(SPOF)을 진단하고 제거하여 아키텍처를 단단하게 다져요. 요구사항에 맞는 오픈소스 제품을 검증·도입하거나, 필요 시 통합을 위한 플랫폼 도구를 직접 구현해요.

이런 분과 함께하고 싶어요

  • Java/Kotlin, Spring Framework 관련 개발 경험과 문제해결 능력이 있는 분이면 좋아요.
  • 성능테스트를 통해 시스템의 가용성을 확인하고, 병목지점을 해결할 수 있는 분이면 좋아요.
  • 리눅스 및 네트워크 시스템에 대한 깊은 이해가 있는 분을 찾아요.
  • MSA, Kubernetes, Istio, Redis, Cassandra, Kafka, ElasticSearch 기반의 인프라 운영경험이 있는 분이면 좋아요.
  • Mission-Critical 한 서비스 운영 환경을 즐기며 높은 책임감으로 탄탄한 서비스를 같이 만들어 갈 수 있는 분을 찾아요.
  • 변화를 두려워 하지 않고 새로운 기술에 빠르게 적응하며 지속적인 성장을 원하는 분을 찾아요.

이력서는 이렇게 작성하시는 걸 추천해요

  • 그동안의 경험을 단순 나열하는 것이 아닌, 경험 속에서의 임팩트 및 러닝 포인트를 확인하고 싶어요.
  • 서비스의 안정성을 높이기 위해 스스로 문제를 찾아 해결해보려고 시도하신 경험이 있는지 궁금해요.
  • 운영 중인 시스템을 크게 개선한 경험, 또는 새로운 것을 도입해 생산성, 효율성 등을 향상시킨 경험이 있는지 궁금해요.
  • Dive deep해서 문제를 분석하고 원인을 찾아서 해결한 경험이 있는지 궁금해요
  • 대규모 트래픽이나 순간 트래픽이 급증하는 환경을 고려하여 설계부터 효율성을 강조하여 개발한 경험이 있는지 궁금해요

토스에서 사용하는 기술

  • Kotlin, Java, Gradle
  • Netty, Spring Mvc, Spring Webflux, Spring Boot, Spring Cloud Gateway, Spring Cloud Config
  • JPA/Hibernate, MySQL, MongoDB, Redis, Cassandra, ElasticSearch, Kafka
  • Kubernetes + Istio, Envoy, Nginx
  • GoCD, ArgoCD, Consul, Vault, Git, Docker, Ceph, Harbor
  • Prometheus + Thanos, Grafana

토스로의 합류 여정

  • 서류접수 > 테크핏 인터뷰(30분) > 직무 인터뷰 > 문화적합성 인터뷰 > 레퍼런스 체크 > 처우협의 > 최종합격 및 입사

함께할 동료를 위한 한마디

"토스에서의 SRE는 토스 서비스의 높은 신뢰성과 안정성을 지키기 위해 최전선에서 고민하고 있어요"

  • 장애가 발생하지 않도록 예방하는것과 혹여 장애가 나더라도 빠르게 복구하는 것을 목표로 하고 있어요. 이상 징후를 빠르게 감지할 수 있도록 효과적인 모니터링 시스템을 구축하기도 하고, 장애 발생 시 누구나 복구할 수 있는 시스템을 설계하기도 합니다.
  • 오픈소스 제품을 실험하고 도입도 적극적으로 검토하지만, 요건을 만족하는 적합한 오픈소스가 없거나, 운영하는 오픈 소스들의 Integration이 필요할 때는 서버/웹을 직접 구현하기도 합니다. 서비스 성장을 지원하기 위한 성능 테스트 환경을 구축하고 수행하는 것도 중요한 목표 중 하나이기 때문에, 이런 과정에 즐거움이 있는 분이라면 좋을 것 같아요.
지원하기
토스 소속
정규직

합류하게 될 팀에 대해 알려드려요

  • Server Platform Chapter의 SRE 팀은 토스의 대규모 인프라를 기반으로 서비스의 높은 신뢰성과 안정성을 책임져요.
  • 대규모 트래픽 환경에서 이상 징후를 사전에 감지하고 빠르게 대응할 수 있도록 효과적인 모니터링 시스템을 설계하고 운영해요.
  • 서비스가 성장하는 과정에서 발생한 문제를 해결하고, 재발 방지를 위한 설계와 해법을 마련해요.
  • 토스 서버 조직에 대해 더 알아보고 싶다면? 토스 Server Chapter Wiki 바로가기

합류하면 함께할 업무예요

  • 토스 전사 시스템의 Stability, Scalability, Availability, Latency 지표를 고도화하고 지속적으로 개선해요.
  • 수많은 마이크로서비스(MSA) 환경에서 발생하는 대규모 트래픽의 병목을 실시간으로 감지하고 추적할 수 있는 관측 가능성(Observability) 시스템을 고도화해요.
  • 장애 시 비상 대응 및 Post-mortem을 주도하며, 장애 자동 복구 시스템 설계 및 아키텍처 개선을 통한 재발 방지책을 마련해요.
  • 인프라 전반의 단일 장애 지점(SPOF)을 진단하고 제거하여 아키텍처를 단단하게 다져요. 요구사항에 맞는 오픈소스 제품을 검증·도입하거나, 필요 시 통합을 위한 플랫폼 도구를 직접 구현해요.

이런 분과 함께하고 싶어요

  • Java/Kotlin, Spring Framework 관련 개발 경험과 문제해결 능력이 있는 분이면 좋아요.
  • 성능테스트를 통해 시스템의 가용성을 확인하고, 병목지점을 해결할 수 있는 분이면 좋아요.
  • 리눅스 및 네트워크 시스템에 대한 깊은 이해가 있는 분을 찾아요.
  • MSA, Kubernetes, Istio, Redis, Cassandra, Kafka, ElasticSearch 기반의 인프라 운영경험이 있는 분이면 좋아요.
  • Mission-Critical 한 서비스 운영 환경을 즐기며 높은 책임감으로 탄탄한 서비스를 같이 만들어 갈 수 있는 분을 찾아요.
  • 변화를 두려워 하지 않고 새로운 기술에 빠르게 적응하며 지속적인 성장을 원하는 분을 찾아요.

이력서는 이렇게 작성하시는 걸 추천해요

  • 그동안의 경험을 단순 나열하는 것이 아닌, 경험 속에서의 임팩트 및 러닝 포인트를 확인하고 싶어요.
  • 서비스의 안정성을 높이기 위해 스스로 문제를 찾아 해결해보려고 시도하신 경험이 있는지 궁금해요.
  • 운영 중인 시스템을 크게 개선한 경험, 또는 새로운 것을 도입해 생산성, 효율성 등을 향상시킨 경험이 있는지 궁금해요.
  • Dive deep해서 문제를 분석하고 원인을 찾아서 해결한 경험이 있는지 궁금해요
  • 대규모 트래픽이나 순간 트래픽이 급증하는 환경을 고려하여 설계부터 효율성을 강조하여 개발한 경험이 있는지 궁금해요

토스에서 사용하는 기술

  • Kotlin, Java, Gradle
  • Netty, Spring Mvc, Spring Webflux, Spring Boot, Spring Cloud Gateway, Spring Cloud Config
  • JPA/Hibernate, MySQL, MongoDB, Redis, Cassandra, ElasticSearch, Kafka
  • Kubernetes + Istio, Envoy, Nginx
  • GoCD, ArgoCD, Consul, Vault, Git, Docker, Ceph, Harbor
  • Prometheus + Thanos, Grafana

토스로의 합류 여정

  • 서류접수 > 테크핏 인터뷰(30분) > 직무 인터뷰 > 문화적합성 인터뷰 > 레퍼런스 체크 > 처우협의 > 최종합격 및 입사

함께할 동료를 위한 한마디

"토스에서의 SRE는 토스 서비스의 높은 신뢰성과 안정성을 지키기 위해 최전선에서 고민하고 있어요"

  • 장애가 발생하지 않도록 예방하는것과 혹여 장애가 나더라도 빠르게 복구하는 것을 목표로 하고 있어요. 이상 징후를 빠르게 감지할 수 있도록 효과적인 모니터링 시스템을 구축하기도 하고, 장애 발생 시 누구나 복구할 수 있는 시스템을 설계하기도 합니다.
  • 오픈소스 제품을 실험하고 도입도 적극적으로 검토하지만, 요건을 만족하는 적합한 오픈소스가 없거나, 운영하는 오픈 소스들의 Integration이 필요할 때는 서버/웹을 직접 구현하기도 합니다. 서비스 성장을 지원하기 위한 성능 테스트 환경을 구축하고 수행하는 것도 중요한 목표 중 하나이기 때문에, 이런 과정에 즐거움이 있는 분이라면 좋을 것 같아요.
채용팀에 문의하기