Я задал вопрос аналогичный этому пару пару недель назад, но я не задал вопрос правильно. Поэтому я снова задаю этот вопрос с более подробной информацией, и я хотел бы получить более ориентированный на ИИ ответ.
У меня есть список, представляющий продукты, которые более или менее одинаковы. Например, в приведенном ниже списке все они являются жесткими дисками Seagate.
- Seagate Hard Drive 500Go
- Seagate Hard Drive 120Go для ноутбуков
- Seagate Barracuda 7200.12 ST3500418AS 500GB 7200 RPM SATA 3.0Gb/s Жесткий диск
- Новый и shinny жесткий диск 500Go от Seagate.
- Seagate Barracuda 7200.12
- Seagate FreeAgent Desk 500GB Внешний жесткий диск Silver 7200RPM USB2.0 Retail
- GE Spacemaker Laudry
- Mazda3 2010
- Mazda3 2009 2.3L
Для человека жесткие диски 3 и 5 одинаковы. Мы могли бы пойти немного дальше и предположим, что продукты 1, 3, 4 и 5 одинаковы и помещают в другие категории продукт 2 и 6.
В моем предыдущем вопросе кто-то предложил мне использовать извлечение функции. Он работает очень хорошо, когда у нас есть небольшой набор данных предопределенных описаний (все жесткие диски), но как насчет всего другого описания? Я не хочу начинать писать расширители функций на основе регулярных выражений для всех описаний, с которыми может столкнуться мое приложение, оно не масштабируется. Есть ли какой-либо алгоритм машинного обучения, который мог бы помочь мне достичь этого? Диапазон описания, который я могу получить, очень широк, в строке 1 он может быть холодильником, а затем на следующей строке, жесткий диск. Должен ли я попытаться использовать путь нейронной сети? Что должно быть моим вкладом?
Спасибо за помощь!