Я пытаюсь создать алгоритм, который предложит фразы стиля Mad Gab.
Ввод представляет собой набор фраз. У меня также есть набор ключевых слов, которые я хотел бы использовать, когда это возможно. В настоящее время мое решение - просто грубая сила:
- цикл над фразами (символ по символу)
- если найдено ключевое слово
- сохранить ключевое слово и ответвление (рекурсия)
- число символов приращения
- если найдено ключевое слово
Однако проблемы, с которыми я сталкиваюсь, следующие:
- Учет для составных ключевых слов, например. "уловы" могут быть "уловы", "кошки" + "сыры".
- Разрешить литературные термины - "the", "and", "one", "two", "three".
- Как предложить термины, которые не являются ключевыми словами. то есть вернуться к чему-то вроде системного словаря, когда ключевые слова или литералы не могут быть найдены.
- Пропустить фразовые сегменты. Сейчас он просто проходит. Но рассмотрим случай, когда фраза начинается с чего-то непревзойденного, но несколько символов позже содержат совпадения.
Я больше всего знаком с PHP и MySQL. Тем не менее, я открыт для другой технологии, если она обеспечивает лучшее решение.
Меня также интересуют любые дополнительные предложения. В частности, способы использования второго параметра metaphone()
для более сложных предложений.