Мы ищем кандидата в команду дата-инженеров для запуска нового проекта по анализу научных публикаций.
Работа в офисе.
Что делать:
- Организовывать бесперебойную поставку данных в популярных форматах по разнообразным протоколам;
- Исследовать организацию и структуру данных;
- Строить пайплайны витрин;
- Обеспечивать качество данных;
- Участвовать в проектировании хранилища данных.
Что нужно знать/уметь:
- Иметь представление о принципах построения систем хранения и обработки данных;
- Опыт работы с популярными протоколами обмена информации (REST, SOAP, очереди сообщений, FTP и т.п.);
- Опыт работы с популярными форматами данных (JSON, XML, CSV, Parquet);
- Опыт работы с реляционными СУБД на языке SQL (PostgreSQL, Greenplum);
- Опыт программирования на Python;
- Опыт работы с экосистемой Hadoop (Hdfs, Spark, Yarn);
- Приветствуется опыт построения ETL на Apache AirFlow.