Когда я задаю вопрос здесь, подсказка для инструмента, возвращаемого автоповтором, дается первый маленький вопрос, но достойный процент из них не дает никакого текста, который более полезен для понимания вопрос, чем название. Кто-нибудь имеет представление о том, как сделать фильтр, чтобы обрезать бесполезные биты вопроса?
Моя первая идея состоит в том, чтобы обрезать любые ведущие предложения, которые содержат только слова в некотором списке (например, слова остановки, плюс слова из названия, плюс слова из SO corpus, которые имеют очень слабую корреляцию с тегами, то есть одинаково вероятны в любом вопросе независимо от его тегов)