Нам нужно сериализовать некоторые данные для ввода в solr, а также в hadoop.
Я оцениваю инструменты сериализации для того же самого.
Первые два в моем списке - Gson и Avro.
Насколько я понимаю, Avro = Gson + Schema-In-JSON
Если это правильно, я не понимаю, почему Avro настолько популярен для Solr/Hadoop?
Я много искал в Интернете, но не могу найти для этого ни одного правильного ответа.
Всюду, где говорится, Avro хорошо, потому что хранит схему. Мой вопрос в том, что делать с этой схемой?
Это может быть полезно для очень больших объектов в Hadoop, где один объект хранится в нескольких файловых блоках, так что хранение схемы с каждой частью помогает лучше ее анализировать. Но даже в этом случае схема может храниться отдельно, и просто ссылки на нее достаточно для описания схемы. Я не вижу причин, почему схема должна быть частью каждой части.
Если кто-то может дать мне хороший пример использования, как Авро помог им, а Гссона/Джексона было недостаточно для этой цели, это было бы очень полезно.
Кроме того, официальная документация на сайте Avro говорит, что нам нужно предоставить схему Avro, чтобы помочь ей создать Schema + Data. Мой вопрос заключается в том, что если схема введена и она отправляется на вывод вместе с представлением данных JSON, то что же еще делает Avro? Могу ли я сделать это сам, сериализуя объект с помощью JSON, добавив мою схему ввода и назвав ее Avro?
Я действительно смущен этим!