Компьютеры

Как использовать пакет инструментов анализа данных Microsoft Excel для описательной статистики

Автор: Laura McKinney
Дата создания: 1 Апрель 2021
Дата обновления: 11 Май 2024
Anonim
Excel для начинающих. Урок 12: Базы данных: простая статистика
Видео: Excel для начинающих. Урок 12: Базы данных: простая статистика

Содержание

Джошуа - аспирант USF. Он интересуется бизнес-технологиями, аналитикой, финансами и бережливым производством шести сигм.

В Excel сегодня расчет статистики намного проще, чем когда-либо прежде. Буквально требуется несколько нажатий клавиш и щелчков мышью, чтобы получить практически любой тип статистических измерений или графиков из набора данных. В Excel предварительно загружены статистические функции, которые могут помочь вам найти среднее значение, медианное значение, режим, дисперсию и многие другие статистические измерения. Помимо функций Excel, программа также позволяет пользователям установить надстройку Data Analysis ToolPak, которая используется для одновременного выполнения многих типов вычислений. Это руководство показывает пользователю Excel, как использовать инструмент анализа данных для поиска описательной статистики, и объясняет результаты.


Активируйте Data Analysis Data ToolPak

Если вы никогда не использовали Data Analysis ToolPak, вероятно, он неактивен в вашей программе Excel. Вы можете проверить, есть ли он у вас, сначала щелкнув вкладку данных. Затем найдите группу анализа в правой части экрана. Если параметр анализа данных не существует, выполните следующие действия, чтобы активировать эту надстройку.

  1. Перейдите на вкладку «Файл», а затем выберите «Параметры». Затем нажмите «Надстройки».
  2. Затем нажмите кнопку «Перейти», чтобы перейти в раздел управления надстройками.
  3. Наконец, отметьте поле «Analysis Pak» и нажмите «ОК».

Теперь вы должны быть готовы использовать Data Analysis ToolPak на вкладке данных в группе анализа.

Пример анализа данных

Если следовать этому примеру с листом Excel, введите этот набор данных в Excel вертикально в отдельных ячейках.

2, 5, 7, 9, 4, 3, 3, 4, 6, 8, 14, 4, 20, 6, 10, 4, 5, 9, 11, 1, 6, 9, 4, 5, 13, 18, 7, 6, 9, 10


Щелкните «Анализ данных» на вкладке данных, а затем щелкните «Описательная статистика» в диалоговом окне. Щелкните кнопку ОК.

Затем необходимо ввести диапазон данных в разделе «Диапазон ввода» диалогового окна. Выберите параметр диапазона вывода и выберите ячейку для отображения вывода, указав расположение этой ячейки в пустом поле. Наконец, установите флажок «Сводная статистика» и нажмите «ОК», чтобы отобразить результаты.

Результаты

Результаты печатаются в двух столбцах. Первый столбец представляет собой описательную статистику, а второй столбец показывает результаты для этой статистики. В следующих разделах я опишу, что представляет собой эта описательная статистика.


Иметь в виду

Среднее значение, которое является мерой центральной тенденции, было рассчитано путем взятия среднего значения для всего набора данных. Сумма набора данных составляет 222, и при делении на 30 получается среднее значение 222/30 = 7,4. Среднее значение можно записать в виде выражения: ∑xя / n, где n - количество значений, а ∑xя это сумма значений данных.

Стандартная ошибка

Стандартная ошибка определяется как стандартное отклонение, деленное на квадратный корень из размера выборки. В приведенном выше примере стандартная ошибка составляет 4,45 / sqrt (30) = 0,813.

Медиана

Медиана - это среднее значение и еще один показатель центральной тенденции. Чтобы найти медианное или среднее значение набора данных, вам необходимо расположить весь набор данных в порядке возрастания или убывания. Значение непосредственно посередине среднего значения, если в наборе данных нечетное количество значений. Когда есть четное количество значений, будут два средних значения, которые необходимо усреднить, чтобы найти медиану.

Режим

Другой показатель центральной тенденции - мода. Это значение появляется чаще, чем любое другое значение. В приведенном выше примере 4 встречается чаще, чем любое другое число. Возможен случай, когда существует более одного режима. Это происходит, когда в наборе данных чаще всего встречаются два числа, но одинаковое количество раз.

Стандартное отклонение

Стандартное отклонение - это квадратный корень из результата дисперсии. Есть два сценария в зависимости от того, рассчитывается стандартное отклонение для генеральной совокупности или выборки. Для стандартного отклонения генеральной совокупности математический расчет равен sqrt (∑ (xя-Xbar)2/ п). При вычислении стандартного отклонения для выборки вычисляется sqrt (∑ (xя-Xbar)2/ (п-1)). В приведенном выше примере стандартное отклонение генеральной совокупности составляет или 4,378. Стандартное отклонение выборки - это квадратный корень из или 4,453.

Дисперсия

Дисперсия находится путем вычисления отклонения каждого значения от среднего значения. Затем возводят отклонение в квадрат и находят среднее значение квадратов отклонений. Для упрощения дисперсии - это среднеквадратичное отклонение. Уравнение для расчета дисперсии генеральной совокупности: x (xя-Xbar)2/ n для генеральной совокупности и для выборочной дисперсии ∑ (xя-Xbar)2/ (п-1). В приведенном выше примере дисперсия генеральной совокупности составляет 575,2 / 30 = 19,173, а дисперсия выборки составляет 575,2 / 29 = 19,834.

Эксцесс

Эксцесс - это мера распределения. Это говорит нам о пике или узости распределения. Высокое значение эксцесса означает высокий пик распределения. Отрицательный эксцесс говорит нам о том, что у распределения есть более округлый пик. В приведенном выше примере эксцесс равен 1,52.

Асимметрия

Асимметрия измеряет асимметрию распределения. Симметричные данные имеют данные, которые распределены симметрично относительно среднего значения. Если бы он был абсолютно симметричным, мы бы сказали, что асимметрия распределения равна нулю. Распределение смещено положительно или вправо, если правый хвост длиннее. Если левый хвост длиннее, мы говорим, что распределение отрицательно смещено или смещено влево. В этом примере асимметрия составляет 1,218. В результате можно сказать, что данные смещены вправо или положительно смещены или имеют длинный правый хвост.

Диапазон

Диапазон - это максимальное значение в наборе данных за вычетом самого низкого значения. В приведенном выше примере диапазон составляет 20 (самый высокий) минус 1 (самый низкий), что равняется 19.

Мин и Макс

Минимум и максимум - это соответственно наименьшее и наибольшее значения в наборе данных. В приведенном выше примере самое высокое значение - 20, а самое низкое - 1.

Сумма

Сумма или ∑ - это просто сложение всех чисел в наборе данных. В приведенном выше примере сумма равна 222.

Считать

Подсчет - это просто размер генеральной совокупности или размер выборки. В примере это 30.

Видеоурок по описательной статистике

Чтобы узнать, как освоить другие инструменты пакета Excel Data Analysis TookPak, я рекомендую следующую книгу. Я использую Библию Excel в течение многих лет, чтобы лучше понять все аспекты этого продукта Microsoft.

Библия Excel 2019

Советуем

Увлекательно

11 причин, по которым PewDiePie является самым популярным каналом YouTube
Интернет

11 причин, по которым PewDiePie является самым популярным каналом YouTube

Кшиштоф - исследователь YouTube более 8 лет, который часами исследует, анализирует и раскрывает тенденции, проблемы и средства массовой информации YouTube.PewDiePie, также известный как Felix Arvid Ul...
6 лучших приложений для скрытия изображений на iPhone
Телефоны

6 лучших приложений для скрытия изображений на iPhone

Любое изображение, которое вы делаете или импортируете со своего ПК или Mac, немедленно сохраняется в вашей телефонной библиотеке. И увидеть их там может любой желающий, что может стать очень неприятн...