Большие данные (Big Data) / ДО 2021 (38.03.01)
О курсе
Основной целью курса является изучение современных компьютерных технологий для подготовки больших данных к прогнозному анализу, в рамках курса «Введение в большие данные».
Курс предназначен для изучения и освоения базовыми компетенциями и навыками при подготовке исходных данных для решения задач прогнозного анализа в рамках курса "Введение в большие данные (Big Data)". Особое внимание уделяется практическим навыкам при подготовке исходных данных для прогнозного анализа.
В курсе рассматриваются в рамках выполнения практических работ необходимые этапы подготовки исходных данных на ошибки (описки), на отсутствие данных , на выбросы , на наличие дублирующих строк , на наличие мультиколлинеарности объясняющих переменных (атрибутов) с использованием возможных программных средств: Python, Excel.
В частности использовать рекомендуемые этапы подготовки данных для прогнозного анализа:
1. перевод исходного файла из формата .csv в формат .xlsx
2. проверку исходных данных на ошибки (описки);
3. проверку исходных данных на пропущенные значения («missing»);
4. проверку исходных данных на выбросы данных («outliers»);
5. проверку исходных данных на наличие дублирующих строк (наблюдений);
6. проверку исходных данных объясняющих переменных (атрибутов) на мультиколлинеарность.
Результаты обучения
В результате обучения студенты должны изучить и уметь корректно готовить исходные данные для прогнозного анализа, используя платформы Excel(либо Python).
В результате обучения студент должен уметь использовать описательную статистику для понимания структуры исходных данных, уметь находить требуемую информацию из дата сета и строить прогнозные модели понимая точность (погрешность) построенных результатов.
Знать основы анализа больших данных, классификации, принципов построения моделей и выявления скрытых закономерностей в данных.
Владеть инструментами анализа для работы с большими данными.
Владеть опытом использования методик при работе с большими данными и выявления скрытых закономерностей.
Уметь решать задачи по выявлению скрытых закономерностей в больших массивах данных с использованием современных методов искусственного интеллекта
Образовательная программа (ООП/ДОП)
Направления подготовки бакалавриата / магистратуры / аспирантуры в формате «шифр группы специальностей – наименование направления, например:
38.03.01 Экономика
Программа курса
Описание структуры курса: название модулей / блоков / разделов / тем
Приводится структура курса по модулям / блокам / разделам / темам:
1. Понятие Big Data. Основные источники Big Data и их приложения
2. Описательная статистика исходных данных. Форматы. Целевая функция и объясняющие переменные.
3. Подготовка исходных данных для прогнозного анализа. Тренировочная, валидационная и тестовая выборки.
4. Предиктивные модели. Решение практических задач.
Длительность курса, количественные характеристики, форма аттестации
Продолжительность курса – 14 недель
Трудоемкость освоения курса – 108 часов
Трудоемкость курса – 3 кредита
Форма контроля – зачет
Автор курса*
Copyright © 2025.
Томский политехнический университет. Все права защищены
Tomsk Polytechnic University, All rights reserved.

- Учитель: Губин Евгений Иванович