Como ter acesso aos logs contendo as saídas da execução do meu job no cluster Spark rodando no EMR?
Quando você cria um cluster, você pode configurá-lo (no momento da criação) para que ele mantenha logs no S3. Estes logs ficam acessíveis no console do AWS de duas formas: acessando o S3 via console e procurando o bucket referente ao seu cluster ou acessando o EMR e clicando para visualizar os logs do job enviado.
Contudo, ao executar um código com Spark Streaming, nem sempre estes logs ficam visíveis tão logo o job é executado. A documentação diz que pode demorar até 5 minutos para que eles estejam disponíveis.
Se isso estiver acontecendo, você pode acessar diretamente os logs no nó master de seu cluster. Para isso, acesse o master via SSH (usando a chave do cluster utilizada no momento da criação), acesse o diretório /mnt/var/log/hadoop/steps/ e visualize o arquivo stdout para ver a saída padrão ou o stderr para a saída de erro. Você também pode usar o comando tail -f stdout para visualizar o fim do arquivo e ver cada nova entrada adicionada a ele.