Большие данные (Big Data) / ДО 2021 (38.03.01)

О курсе

Основной целью курса является  изучение современных компьютерных технологий для подготовки больших данных к прогнозному анализу, в рамках курса «Введение в большие данные».
Курс предназначен для изучения и освоения базовыми компетенциями и навыками при подготовке исходных данных для решения задач прогнозного анализа в рамках курса "Введение в большие данные (Big Data)". Особое внимание уделяется практическим навыкам при подготовке исходных данных для прогнозного анализа.

В курсе рассматриваются в рамках выполнения практических работ необходимые этапы подготовки исходных данных на ошибки (описки), на отсутствие данных , на выбросы , на наличие дублирующих строк , на наличие мультиколлинеарности объясняющих переменных (атрибутов) с использованием возможных программных средств: Python, Excel.

В частности использовать рекомендуемые этапы подготовки данных для прогнозного анализа:

1. перевод исходного файла  из формата .csv в формат .xlsx

2. проверку исходных данных на ошибки (описки);

3. проверку исходных данных на пропущенные значения («missing»);

4. проверку исходных данных на выбросы данных («outliers»);

5. проверку исходных данных на наличие дублирующих строк (наблюдений);

6. проверку исходных данных объясняющих переменных (атрибутов) на мультиколлинеарность.

Результаты обучения

В результате обучения студенты должны изучить и уметь корректно готовить исходные данные для прогнозного анализа, используя платформы Excel(либо Python).

В результате обучения студент должен уметь использовать описательную статистику для  понимания структуры исходных данных, уметь находить требуемую информацию из дата сета и строить прогнозные модели понимая точность (погрешность) построенных результатов.

Знать основы анализа больших данных, классификации, принципов построения моделей и выявления скрытых закономерностей в данных.

Владеть инструментами анализа для работы с большими данными.

Владеть опытом использования методик при работе с большими данными и выявления скрытых закономерностей.

Уметь решать задачи по выявлению скрытых закономерностей в больших массивах данных с использованием современных методов искусственного интеллекта

Образовательная программа (ООП/ДОП)

Направления подготовки бакалавриата / магистратуры / аспирантуры в формате «шифр группы специальностей – наименование направления, например:
38.03.01 Экономика

Программа курса

Описание структуры курса: название модулей / блоков / разделов / тем

Приводится структура курса по модулям / блокам / разделам / темам:

1. Понятие Big Data. Основные источники Big Data и их приложения
2. Описательная статистика исходных данных. Форматы. Целевая функция и объясняющие переменные.
3. Подготовка исходных данных для прогнозного анализа. Тренировочная, валидационная и тестовая выборки.
4. Предиктивные модели. Решение практических задач.

Длительность курса, количественные характеристики, форма аттестации

Продолжительность курса – 14 недель
Трудоемкость освоения курса – 108 часов
Трудоемкость курса – 3 кредита
Форма контроля – зачет


Автор курса*

Губин Евгений Иванович, к.ф.-м.н., доцент ОИТ ИШИТР, https://portal.tpu.ru/SHARED/g/GUBINE

Copyright © 2025.

Томский политехнический университет. Все права защищены
Tomsk Polytechnic University, All rights reserved.

Уровень квалификации: Начальный