技術面接対策のまとめ
varootです!
今回の記事では、直近1週間後に控える技術面接の対策として、よく聞かれているであろう質問を備忘録としてまとめることにしました。
ネットワーク周りのあるあるの質問から、データエンジニア採用ということで、データエンジニアリングらしいところまで、自分の言葉でまとめていこうと思います!
(連載1週目から早速水曜日更新できておらず、毎週の締め切りとか守れる人本当にすごい。。。)
Updates
2023/06/03 最終更新
よく聞かれるドメイン知識
好きなプログラミング言語は、またそれはなぜか?
トラブルシュートをするときにどのようなステップを取るか?
white box testingとblackbox testingの違いは?
データエンジニア向けの技術質問
データエンジニアの役割はどのようなものですか?
- データの収集と処理
- データパイプラインの設計と構築
- データの取り込み
- トランスフォーメーション
- ストレージ
- バッチ処理やリアルタイム処理
- データのストレージと管理
- データの分析支援
あなたは非構造化データの取り扱いにおいて困難に直面した経験はありますか?それをどのように解決しましたか?
過去の経験が2つあるのでそれを思い出しておく。(webのログと衛星データ) 1. まずはデータの理解。最終的なビジネス要件はどのようになるか、というところから、そのためにはどのようなデータがあると嬉しいのかを確認する。 2. 必要とあれば、データ処理によって、構造化されたデータに修正する。
データモデリングとは何か
データモデリングは、データベースの設計やデータの分析に向けた最初のステップ。
コンセプチュアルモデル、論理モデル、物理モデルの順に、構造間の関係を示す能力を持っていることを説明する必要がある。
構造化データと非構造化データの違いは?
構造化データは、明確に定義されたデータ型であり、アルゴリズムやコーディングを使用してパターン化され、簡単に検索可能な形式。
一方、非構造化データは、ビデオ、写真、テキスト、オーディオなど、さまざまな形式のファイルの束。
非構造化データは、管理されていないファイル構造に存在するため、エンジニアはそれを収集し、管理し、データベース管理システム(DBMS)に格納して検索可能な構造化データに変換する。
非構造化データは、手動で入力されたり、コーディングを使用したバッチ処理を介して入力される場合がある。
そのため、ELT(抽出、変換、読み込み)がクラウドベースのデータウェアハウスにデータを変換および統合するためのツールとして使用される。
データモデリングのデザインスキーマとは何か
Star, Snowflake, and Galaxyの3つがある。
star schemaは、複数の関連するディメンションテーブルを持つファクトテーブルを中心にしたスキーマ。
その形状が星に似ていることから、データウェアハウススキーマの中で最も単純な形式として知られる。
snowflakes schemaは、スタースキーマの拡張であり、データを分割し、スノーフレークの放射状のスポークのようになるような追加のディメンションテーブルを追加する。
The Galaxy schema contains two fact tables, and it shares dimension tables between them.
Big Dataの4つのV
ボリューム(Volume)、速度(Velocity)、多様性(Variety)、真実性(Veracity) 4つVはValueという第五のVを生み出すために必要である。
- ボリューム(Volume):データセットのサイズ(テラバイトやペタバイト)を指す
- 速度(Velocity):データが生成される速度を指す
- 多様性(Variety):構造化データや非構造化データの多様なソースとファイルタイプを指す
- 真実性(Veracity):分析されるデータの品質を指す
No technical, but the questions are important to think about.
What makes you the best candidate for this position?
What is the toughest thing you find about being a data engineer?
What is data orchestration, and what tools can you use to perform it?
Apache Airflowとか、AWS Glueは経験あり。