Большие общедоступные наборы данных?

Я ищу несколько крупных публичных наборов данных, в частности:

  • Журналы большого выборка веб-сервера, анонимные.

  • Наборы данных, используемые для бенчмаркинга производительности базы данных.

Любые другие ссылки на большие публичные наборы данных будут оценены по достоинству. Я уже знаю об общих наборах данных Amazon по адресу: http://aws.amazon.com/publicdatasets/

Ответ 1

1. Большие примеры журналов веб-сервера, которые были анонимизированы.

Эти работы начинаются с:

Есть много и много доступных наборов данных, чем эти (см. гамму других ответов), но это самый низкий висящий плод, который соответствует вашим первоначальным критериям. В качестве бонуса они имеют контактную ссылку, если у вас есть конкретные потребности, о которых они могут знать.

2. Наборы данных, используемые для бенчмаркинга производительности базы данных.

Это звучит неправильно, потому что вы просите эмпирические наборы данных, которые описывают четко определенные алгоритмический проблемы. В частности, похоже, что вы пытаетесь найти наборы данных, которые вы можете использовать для тестирования и тестирования различных систем баз данных в режиме реального времени, используя четко определенные нормализованные реляционные данные, которые могут использоваться в качестве набора тестовых примеров для определения наиболее эффективное решение, отвечающее вашим потребностям.

Я не согласен с этим подходом. Вместо того, чтобы находить множество систем баз данных и их консервированных реализаций, гораздо лучше изучить алгоритм гарантирует эти системы как ваш первый порт захода. После того, как вы определили алгоритмические ограничения, которые отвечают вашим потребностям, вы можете отточить набор готовых решений, которые можно сравнить с эффективностью, например, индексированием, сортировкой, поиском, вставкой, удалением и извлечением.

Wikipedia предоставляет краткую статью о концепциях тестирования баз данных, которую вы можете использовать для определения и записи тестовых примеров для производительности бенчмаркинга. Например, вы можете использовать интерфейс доступа к агностическим данным, например JDBC и JDBC Benchmark, чтобы определить относительные тайминги каждой операции. Отсюда вы можете отточить правильное решение.

Короче говоря, сначала перейдите в исследование для определения гарантий баз данных. После того, как был определен набор потенциальных решений, вы можете выбрать среди них тестирование (или иное определение) постоянной эффективности времени каждой желаемой операции.

Ответ 2

На основе ответов Quora и моих личных коллекций в моих исследованиях был создан репозиторий awesome-public-datasets и обновлен на GitHub:

Ниже приведен снимок этой версии. Для получения новейшего списка посетите Github:

Этот список источников общедоступных данных собирается и очищается от блогов, ответов и ответов пользователей. Большинство наборов данных, перечисленных ниже, являются бесплатными, однако некоторые из них не являются. Этот список происходит от https://github.com/caesar0301/awesome-public-datasets.

Климат

Экономика

Финансы

Биология

Физика

Здоровье

Геокосмический

Транспорт

Правительство

Проблемы с данными

Машинное обучение

Натуральный язык

Обработка изображений

Временной ряд

Общественные науки

Комплексные сети

Компьютерные сети

Данные SEs

Публичные Doamins

Дополнительные коллекции

Ответ 3

Вот несколько. Получайте удовольствие.

http://archive.ics.uci.edu/ml/

http://aws.amazon.com/datasets?_encoding=UTF8&jiveRedirect=1

http://crawdad.org/

http://data.austintexas.gov

http://data.cityofchicago.org

http://data.govloop.com

http://data.gov.uk/

http://data.medicare.gov

http://data.seattle.gov

http://data.sfgov.org

http://data.sunlightlabs.com

https://datamarket.azure.com/

http://ftp.ncbi.nih.gov/

http://gettingpastgo.socrata.com

http://books.google.com/ngrams/

http://linkeddata.org/

http://medihal.archives-ouvertes.fr

http://public.resource.org/

http://rechercheisidore.fr

http://reddit.com/r/datasets

http://timetric.com/public-data/

http://www2.jpl.nasa.gov/srtm

http://www.bls.gov/

http://www.crunchbase.com/

http://www.dartmouthatlas.org/

http://www.data.gov/

http://www.datakc.org

http://www.factual.com/

http://www.freebase.com/

http://www.infochimps.com

http://www.kaggle.com/

http://build.kiva.org/

http://www.imdb.com/interfaces

http://dbpedia.org

Ответ 5

Хорошо для журналов веб-сервера вы всегда можете просто сгенерировать их в нужном формате. Если вы собираетесь протестировать код против него и т.д., Он должен быть адаптирован к полям, которые вы хотите сохранить/проанализировать.

Для наборов данных, используемых для бенчмаркинга производительности базы данных, вы, вероятно, захотите посмотреть на инструмент, который может генерировать данные для вас. У Красных ворот есть отличная возможность для не слишком больших денег.

Ответ 7

Наборы данных доступны здесь.

Ответ 8

Kaggle.com часто сталкивается с проблемами сбора данных. Наборы данных охватывают широкий круг fienlds: данные поставщика медицинских услуг для информации о кредитной истории. Возможно, что-то есть, что вам нужно.

Ответ 9

http://Quandl.com имеет более 10 миллионов наборов данных, собранных со всего Интернета. Самое замечательное в этом ресурсе заключается в том, что он дает единственный способ доступа ко всем данным. На сайте есть бесплатный подключаемый модуль Excel или есть библиотеки в R, Python, Ruby и т.д.

Ответ 12

Возможно, некоторые базы данных используются в качестве обучающих наборов для алгоритмов распознавания лиц: face-rec.org