Рассмотрение базы данных MySQL products
с 10 миллионами продуктов для веб-сайта электронной коммерции.
Я пытаюсь создать классификационный модуль для категоризации продуктов. Я использую Apache Sqoop для импорта данных из MySQL в Hadoop.
Я хотел использовать Mahout над ним в качестве механизма машинного обучения для использования одного из алгоритмов классификации, а затем я столкнулся с Spark, который снабжен MLlib
- В чем разница между двумя структурами?
- В основном, каковы преимущества, недостатки и ограничения каждого из них?