Экспериментирую с Google Cloud Data Fusion. Я присоединяюсь к 2 таблицам BigQuery с помощью объединителя + пишу обратно в BigQuery. В предварительном просмотре я получаю эту ошибку: java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream. (Ljava / io / InputStream; Z) V
Я установил для задания Spark вместо Map / Reduce, потому что Map / reduce генерирует проблему нехватки памяти при предварительном просмотре. Когда я развертываю и запускаю задание, оно вылетает из-за «Контейнер убит YARN из-за превышения ограничений памяти».
Самые большие таблицы - это около 6 миллионов записей без вложенных полей. В меньшей таблице 66 записей.
Я не указывал никаких разделов.
Какой рекомендуемый способ отладки / решения этой проблемы? Увеличить количество воркеров / памяти?