Я программист с приличным опытом в математике и информатике. Я изучал вычислимость, теорию графов, линейную алгебру, абстрактную алгебру, алгоритмы и небольшую вероятность и статистику (через несколько классов CS) на уровне бакалавриата.
Я чувствую, однако, что я недостаточно разбираюсь в статистике. Статистические данные становятся все более полезными при вычислении, при этом обработка статистического естественного языка помогает использовать некоторые алгоритмы Google для поиска и машинного перевода, при этом анализ производительности аппаратного обеспечения, программного обеспечения и сетей, требующих правильного статистического обоснования, может быть правдоподобным, и с такими полями, как биоинформатика, более распространенным каждый день.
Я читал о том, как "Google использует байесовскую фильтрацию, как Microsoft использует оператор if" , и я знаю силу даже справедливости наивные простые статистические подходы к проблемам Пауля Грэма План для спама и Лучше Bayesian Filtering, но я бы хотел пойти дальше.
Я попытался изучить больше статистики, но я немного потерял. Статья в Википедии содержит длинный список связанных тем, но я не уверен, на что я должен обратить внимание. Я чувствую, что из того, что я видел, многие статистические данные делают предположение, что все является комбинацией факторов, которые линейно объединяются, плюс некоторый случайный шум в распределении Гаусса; Мне интересно, что я должен выучить за пределами линейной регрессии, или если я должен потратить время, чтобы действительно понять это, прежде чем переходить к другим методам. Я нашел несколько длинных списков книг, на которые можно смотреть; с чего начать?
Так что мне интересно, куда идти отсюда; что узнать, и где его изучить. В частности, я хотел бы знать:
- Какие проблемы в программировании, разработке программного обеспечения и информатике являются статистическими методами, которые хорошо подходят? Где я буду получать самые большие выплаты?
- Какими статистическими методами я должен тратить свое время на обучение?
- Какие ресурсы следует использовать для изучения этого? Книги, газеты, веб-сайты. Я был бы признателен за обсуждение того, что такое каждая книга (или другой ресурс), и почему она имеет значение.
Чтобы уточнить, что я ищу, меня интересуют, с какими проблемами, с которыми обычно сталкиваются программисты, могут воспользоваться статистическим подходом и какие статистические инструменты могут быть полезны. Например:
- Программистам часто приходится иметь дело с большими базами данных текста на естественных языках и помогать классифицировать, классифицировать, искать и иным образом обрабатывать его. Какие статистические методы здесь полезны?
- В более общем плане, искусственный интеллект отходит от дискретных, символических подходов и статистических методов. Какие статистические подходы к ИИ больше всего могут предложить сейчас, для рабочего программиста (в отличие от текущих исследований, которые могут или не могут дать конкретные результаты)?
- Программистам часто предлагается создавать высокопроизводительные системы, которые хорошо масштабируются под нагрузкой. Но вы не можете говорить о производительности, если не можете ее измерить. Какой экспериментальный дизайн и статистические инструменты вам нужно использовать, чтобы иметь возможность сказать с уверенностью, что результаты имеют смысл?
- Моделирование физических систем, таких как компьютерная графика, часто включает стохастический подход.
- Существуют ли другие проблемы, обычно возникающие у программистов, которые выиграют от статистического подхода?