пятница, 12 апреля 2013 г.

9 open-source технологий для BigData

По мере того, как все больше компаний хранят все больше данных и стремятся использовать их для принятия важнейших решений, BigData решения завоевывают огромный интерес. Технологии с открытым исходным кодом лежат в основе многих инициатив, связанных с BigData.

Apache Hadoop


Apache Hadoop - это фреймворк с открытым исходным кодом для создания распределенных приложений, основной задачей которых является обработка больших объемов данных.

Разработка была инициирована Дугом Каттингом для проекта Nutch - поисковика с открытым исходным кодом. Чтобы удовлетворить требованиям параллельной обработки, Каттинг применил технологию MapReduce и распределенную файловую систему. Результатом стал Hadoop.

Фреймворк был назван в честь игрушечного слоненка его сына. Посредством MapReduce Hadoop распределяет данные по всем узлам, работающим на стандартном аппаратном обеспечение. Сейчас Hadoop - одна из самых популярных технологий, предназначенных для хранения структурированных, полу- и неструктурированных данных. Hadoop распространяется на условиях лицензии Apache License 2.0.

R


R - язык программирования с открытым исходным кодом и программная среда для статистических вычислений и работы с графикой. R был разработан в 1993 году Россом Айхэкой и Робертом Джентлменом в Оклендском университете, Новая Зеландия, и быстро стал привычным инструментом для статистического анализа крупных наборов данных.

Коммерциализацией языка занималась компания Revolution Analytics, последовавшая примеру поддержки Linux со стороны Red Hat. R доступен под лицензией GNU General Public License.

Cascading


Cascading - это программный абстрактный уровень с открытым исходным кодом для Hadoop. С его помощью пользователи могут создавать и выполнять рабочие процессы обработки данных на кластерах Hadoop, используя любой язык на базе JVM. Он предназначен для скрытия сложности MapReduce-задач.

Cascading был разработан Крисом Вензелем в качестве альтернативного API для MapReduce. Его часто используют для таргетинга, анализа логов, извлечения веб-контента, ETL-приложений, в биоинформатике, машинном обучении и для прогнозирования.

Компания Concurrent - которую возглавляет Вензель - занимается финансовой поддержкой Cascading. Среди пользователей фремворка числятся Twitter и Etsy. Cascading доступен под лицензией Apache License.

Scribe


Scribe - сервер, разработанный Facebook и выпущенный в 2008 году. Он представляет собой систему логирования в реальном времени. Facebook спроектировали его для решения проблем масштабирования, а теперь используют Scribe для обработки десятки миллиардов сообщений в день. Доступен под лицензией Apache License 2.0.

ElasticSearch


ElasticSearch разработан Шейем Бэнноном на базе Apache Lucene и является распределенным поисковым движком с REST-итерфейсом. Он поддерживает быстрый полнотекстовый поиск и мультиарендность (гибкость в настройках под индивидуального пользователя). Несколько компаний - включая StumbleUpon и Mozilla - уже внедрили ElasticSearch. Этот поисковый сервер доступен под лицензией Apache License 2.0.

Apache HBase


HBase - нереляционная, распределенная БД с открытым исходным кодом, написана на Java и является аналогом Google BigTable. Работает поверх распределенной файловой системы HDFS. Она обеспечивает отказоустойчивый способ хранения и доступа к большим объемам разреженных данных.

HBase - одно из множества NoSQL-хранилищ, ставшее доступным за последние несколько лет. В 2010 году Facebook выбрал HBase для создания на ее основе платформы обмена сообщениями. Распространяется на условиях лицензии Apache License 2.0.

Apache Cassandra


Еще один пример NoSQL-хранилища Apache Cassandra - представляет собой распределенную систему управления базами данных, разработанную Facebook для поиска сообщений. В 2010 году Facebook отказался от проекта в пользу HBase. Тем не менее, такие компании, как Netflix используют Cassandra в качестве серверной базы данных для своих потоковых сервисов. Доступна под лицензией Apache License 2.0.

MongoDB


MongoDB создана основателями DoubleClick и является популярным NoSQL-хранилищем с открытым исходным кодом. Хранит структурированные данные в виде JSON-документов с динамическими структурами под названием BSON (бинарный JSON).

Огромное количество крупных компаний используют MongoDB в своих целях (например, MTV Networks, Craigslist, Disney Interactive Media Group, The New York Times и Etsy). Доступна под лицензией GNU Affero General Public License, а языковые драйверы - под лицензией Apache License. Компания 10gen предлагает коммерческие лицензии на MongoDB.

Apache CouchDB


Еще один представитель NoSQL-баз данных с открытым исходным кодом. Apache CouchDB использует формат JSON для хранения данных, JavaScript - в качестве языка запросов, MapReduce и HTTP - для API.

CouchDB была создана в 2005 году бывшим разработчиком Lotus Notes Дэмиеном Кацом, как система хранения для крупномасштабной объектной базы данных. BBC использует решения на базе CouchDB для своих платформ динамического контента. CouchDB доступна под лицензией Apache License 2.0. 

Комментариев нет:

Отправить комментарий