Приобретение базовых навыков, работающих с визуализацией/анализом больших наборов данных

Я ищу способ научиться быть с большими наборами данных. Я студент университета, поэтому все, что я делаю, имеет "хороший" размер и сложность. Работая над исследовательским проектом с профессором в этом семестре, мне пришлось визуализировать отношения между несколькими большими (по моему опыту) набором данных. Это был файл CSV размером 15 МБ.

Я написал большую часть своих данных в Python, которые визуализируются с использованием GNUPlot.

Есть ли доступные книги или веб-сайты по этому вопросу? Бонусные баллы за использование Python, больше бонусных очков за более "базовую" систему визуализации, чем полагаться на gnuplot. Каир или что-то еще, я полагаю.

Ищете что-то, что берет меня от интеллектуального анализа данных, обработки, визуализации.

EDIT: Я больше ищу что-то, что научит меня "большим идеям". Я могу написать код сам, но ищу методы, которые люди используют для обработки больших наборов данных. Я имею в виду, что мой 15 МБ достаточно мал, и я могу поместить все, что мне когда-либо понадобится, в память и просто начать хруст. Что делают люди для визуализации наборов данных на 5 ГБ?

Ответ 1

Я бы сказал, что самым основным навыком является хорошее обоснование математики и статистики. Это может помочь вы оцениваете и выбираете из множества методов фильтрации данных и уменьшая его объем и размерность, сохраняя при этом свою целостность. Последний что вы хотите сделать, это сделать что-то красивое, что показывает шаблоны или отношений, которые на самом деле не существуют.

Специализированная математика

Чтобы решить некоторые проблемы, вам нужно научиться математике, чтобы понять, как работают определенные алгоритмы и какой эффект они будут оказывать на ваши данные. Существуют различные алгоритмы для кластеризации данных, уменьшения размерности, естественных языковая обработка и т.д. Вы никогда не сможете использовать многие из них, в зависимости от типа данных, которые вы хотите проанализировать, но в Интернете есть много ресурсов (и сайты Exchange), если вам нужна помощь.

Для вводного обзора методов интеллектуального анализа данных Witten Data Mining хорош. У меня есть 1-е издание, и он объясняет концепции на понятном языке с небольшим количеством математики. Я рекомендую его, потому что он дает хороший обзор, и это не слишком дорого - поскольку вы читаете больше в поле, вы заметите многие из книги довольно дороги. Единственный недостаток - это количество страниц, посвященных использованию WEKA, пакета интеллектуального анализа данных Java, который может быть не слишком полезен, поскольку вы используете Python (но с открытым исходным кодом, поэтому вы можете получить некоторые идеи из исходного кода Я также нашел Введение в машинное обучение, чтобы предоставить хороший обзор, также по разумным ценам, с немного большей математикой.

Инструменты

Для создания визуализации вашего собственного изобретения на одной машине я думаю, что основы должны начать: Python, Numpy, Scipy, Matplotlib и с хорошей графической библиотекой, с которой вы сталкиваетесь, например PIL или Pycairo. С их помощью вы можете хрустите цифры, нарисуйте их на графиках, а красивые вещи - с помощью пользовательских процедур рисования.

Если вы хотите создать перемещение, интерактивную визуализацию, такие инструменты, как Библиотека, основанная на Java Processing, упрощает работу. Там это даже способы написания эскизов обработки в Python через Jython, если вы не хотите писать Java.

Есть много других инструментов, если они вам нужны, например OpenCV (компьютерное зрение, машинное обучение), Оранжевый (добыча данных, анализ, а именно: и NLTK (естественный язык, текст анализ).

Принципы и методы презентации

Книги людей в поле, вроде Эдвард Tufte и ссылки, подобные Информация Графика может помочь вам получить хороший обзор способов создания визуализаций и эффективно представляя их.

Ресурсы для поиска примеров Viz

Веб-сайты, такие как Flowing Data, Infosthetics, Визуальная сложность и Информация Красивые показывают последние, интересные визуализации со всего Интернета. Вы также можете просмотреть много компилированных списков сайтов визуализации в Интернете. Начните с этого как семена и начните навигацию, я уверен, вы найдете много полезных сайтов и вдохновляющие примеры.

(Первоначально это был комментарий, но слишком долго)

Ответ 2

Отъезд Информация красива. Это не техническая книга, но она может дать вам пару идей для визуализации данных.

И, возможно, взгляните на первые 3 главы "Принципы интеллектуального анализа данных" , он охватывает некоторые концепции визуализации данных в контексте интеллектуального анализа данных, Я нашел некоторые его части полезными во время университета.

Надеюсь, что это поможет

Ответ 3

Если вы ищете визуализацию, а не интеллектуальный анализ данных и анализ, визуальный показ количественной информации Эдварда Туфта считается одной из лучших книг в этой области.

Ответ 4

Мне нравится книга Data Analysis с инструментами Open Source от Janert. Это довольно широкий обзор методов анализа данных, в котором основное внимание уделяется тому, как понимать систему, которая создавала данные, а не сложным статистическим методам. Одно предостережение: в то время как используемая математика не особенно продвинута, я думаю, вам нужно будет устраивать математические аргументы, чтобы многое извлечь из книги.