Описание:В настоящем курсе изучаются методы и инструменты извлечения (mining) и интеграции информации из различных источников больших данных (в масштабе Веба, социальных сред (Twitter, Linkedin, …), блогов, публикаций в средствах массовой информации, машинных логов, сенсорных данных, и пр. Большие данные обычно являются неструктурированными (чаще всего текстовыми), слабоструктурированными (например, в виде XML, JSON, баз данных NoSQL). Вместе с тем, образуются также и структурированные большие данные как, например, результат наблюдений (измерений) современными инструментами, накопления многочисленных таблиц в Вебе. Современные ИТ платформы включают распределенные инфраструктуры типа Hadoop, обеспечивающие параллельную обработку и анализ таких разноструктурированных больших данных на основе парадигмы Map/Reduce. Практическая часть предлагаемого курса ориентирована на подобную платформу на базе IBM BigInsights.