データ基盤の構築・運用(2022/10-2023/10)
プロジェクト概要
運用サイドが意思決定に活用するためのデータレイクの構築と業務改善をデータエンジニアとして従事
担当フェーズ
- 開発
- テスト
- 保守
チーム人数
チームリーダ:1名
インフラエンジニア:1名
インフラ兼データエンジニア:2名
チームでの自分の役割
インフラ兼データエンジニア
業務内容
ユーザーインタビュー、要求定義、要件定義、技術選定、実装、リリースまでを担当
実績・取り組み
- データの自動収集バッチの自動化
- 運用サイドへユーザーインタビューを行い、データ活用促進を行なった。
- dbt基盤の構築
- 既存のバッチ処理のフローをdbtに以降
- データカタログの開発
- 社内のデータ活用促進のため、データカタログの要件定義・技術選定・開発
課題
メディアを約20メディアほど運用しており、月次でデータの集計を手動で行なっており、工数と正確性に課題があった。
課題の経緯
組織としてまだまだ歴史的に浅く、業務改善を行う基盤が整っていなかった。
課題の原因
メディア数が多いことや、広告のプラットフォームが多数あり共通化して自動するのにエンジニアと運用サイドが深く連携を取る必要があった。
対処
- 広告のプラットフォームごとのデータ収集バッチの実装
- それぞれの運用サイドのチームにインタビューを行い、データ活用のインタフェースを共通化
成果
- データ活用の推進
- 月次のデータ収集自動化により、月30hの工数削減
使用技術 | 使用サービス or フレームワーク |
---|---|
OS | Linux |
Python3 | Pandas, dbt |
Google Cloud Platform | Big Query, Cloud Function, GCS, Alert Policy, Workflows, Cloud Run Jobs, Artifact Registry |
terraform | 上記のGCPサービスの実装 |
CI tool | GitHub Actionsによるterrformの自動化テスト |