Мне приходится постоянно учиться новым вещам. Я пытался придумать, как я мог бы ускорить процесс изучения новых предметов. Я думал, что это может быть аккуратно, если я могу написать программу для анализа статьи в википедии и удалить все, кроме самой ценной информации.
Я начал с публикации статьи Wikipedia по PDF файлам и извлечения первых 100 предложений. Я дал каждому предложению оценку, основанную на том, насколько ценным я считал это. Я закончил создание файла, следующего за этим форматом:
<sentence>
<value>
<sentence>
<value>
etc.
Затем я проанализировал этот файл и попытался найти различные функции, которые бы коррелировали каждое предложение со значением, которое я ему дал. Я только начал изучать машинное обучение и статистику и многое другое, поэтому я много занимаюсь здесь. Это моя последняя попытка: https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py.
Я попробовал кучу вещей, которые, похоже, не произвели никакой корреляции вообще - средняя длина слова, позиция в статье и т.д. Практически единственное, что произвело какие-то полезные отношения, это длина строки (точнее, подсчета числа букв букв "e", казалось, лучше всего работали). Но это кажется немного хромым, потому что кажется очевидным, что более длинные предложения будут скорее содержать полезную информацию.
В какой-то момент я думал, что нашел некоторые интересные функции, но потом, когда я попытался удалить выбросы (только подсчитывая внутренние квартили), они оказались хуже, а затем просто возвращали 0 для каждого предложения. Это заставило меня задуматься о том, как много других вещей я могу сделать неправильно... Мне также интересно, действительно ли это хороший способ приблизиться к этой проблеме.
Ты думаешь, я на правильном пути? Или это просто безумное поручение? Есть ли вопиющие недостатки в связанном коде? Кто-нибудь знает, как лучше подойти к проблеме подведения итогов статьи в Википедии? Я бы предпочел бы быстрое и грязное решение, чем что-то совершенное, и это займет много времени. Любые общие рекомендации также приветствуются.