Определить корреляцию методом наименьших квадратов эксель. Линейный парный регрессионный анализ

4.1. Использование встроенных функций

Вычисление коэффициентов регрессии осуществляется с помощью функции

ЛИНЕЙН (Значения_y ; Значения_x ; Конст ; статистика ),

Значения_y - массив значений y,

Значения_x - необязательный массив значений x , если массив х опущен, то предполагается, что это массив {1;2;3;...} такого же размера, как и Значения_y ,

Конст - логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0. Если Конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом. Если аргумент Конст имеет значение ЛОЖЬ, то b полагается равным 0 и значения a подбираются так, чтобы выполнялось соотношение y=ax.

Статистика - логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии. Если аргумент Статистика имеет значение ИСТИНА , то функция ЛИНЕЙН возвращает дополнительную регрессионную статистику. Если аргумент Статистика имеет значение ЛОЖЬ или опущен, то функция ЛИНЕЙН возвращает только коэффициент a и постоянную b .

Необходимо помнить, что результатом функций ЛИНЕЙН() является множество значений – массив.

Для расчета коэффициента корреляции используется функция

КОРРЕЛ (Массив1 ;Массив2 ),

возвращающая значения коэффициента корреляции, где Массив1 - массив значений y , Массив2 - массив значений x . Массив1 и Массив2 должны быть одной размерности.

ПРИМЕР 1 . Зависимость y (x ) представлена в таблице. Построить линию регрессии и вычислить коэффициент корреляции .

y 0.5 1.5 2.5 3.5
x 2.39 2.81 3.25 3.75 4.11 4.45 4.85 5.25

Введем таблицу значений в лист MS Excel и построим точечный график. Рабочий лист примет вид изображенный на рис. 2.

Для того чтобы рассчитать значения коэффициентов регрессии а и b выделимячейки A7:B7, обратимся к мастеру функций и в категории Статистические выберем функцию ЛИНЕЙН . Заполним появившееся диалоговое окно так, как показано на рис. 3 и нажмем ОK .


В результате вычисленное значение появится только в ячейке A6 (рис.4). Для того чтобы значение появилось и в ячейке B6 необходимо войти в режим редактирования (клавиша F2) , а затем нажать комбинацию клавиш CTRL+SHIFT+ENTER .

Для расчета значения коэффициента корреляции в ячейку С6 была введена следующая формула:

С7=КОРРЕЛ(B3:J3;B2:J2) .

Зная коэффициенты регрессии а и b вычислим значения функции y =ax +b для заданных x . Для этого введем формулу

B5=$A$7*B2+$B$7

и скопируем ее в диапазон С5:J5 (рис. 5).

Изобразим линию регрессии на диаграмме. Выделим экспериментальные точки на графике, щелкнем правой кнопкой мыши и выберем команду Исходные данные . В появившемся диалоговом окне (рис. 5) выберем вкладку Ряд и щелкнем по кнопке Добавить . Заполним поля ввода, так как показано на рис. 6 и нажмем кнопку ОК . К графику экспериментальных данных будет добавлена линия регрессии. По умолчанию ее график будет изображен в виде точек, не соединенных сглаживающими линиями.



Чтобы изменить вид линии регрессии, выполним следующие действия. Щелкнем правой кнопкой мыши по точкам, изображающим график линии, выберем команду Тип диаграммы и установим вид точечной диаграммы, так как показано на рис. 7.

Тип линии, ее цвет и толщину можно изменить следующим образом. Выделить линию на диаграмме, нажать правую кнопку мыши и в контекстном меню выбрать команду Формат рядов данных… Далее сделать установки, например, так как показано на рис. 8.

В результате всех преобразований получим график экспериментальных данных и линию регрессии в одной графической области (рис. 9).

4.2. Использование линии тренда.

Построение различных аппроксимирующих зависимостей в MS Excel реализовано в виде свойства диаграммы – линия тренда .

ПРИМЕР 2 . В результате эксперимента была определена некоторая табличная зависимость.

0.15 0.16 0.17 0.18 0.19 0.20
4.4817 4.4930 5.4739 6.0496 6.6859 7.3891

Выбрать и построить аппроксимирующую зависимость. Построить графики табличной и подобранной аналитической зависимости.

Решение задачи можно разбить на следующие этапы: ввод исходных данных, построение точечного графика и добавление к этому графику линии тренда.

Рассмотрим этот процесс подробно. Введем исходные данные в рабочий лист и построим график экспериментальных данных. Далее выделим экспериментальные точки на графике, щелкнем правой кнопкой мыши и воспользуемся командой Добавить линию тренда (рис. 10).

Появившееся диалоговое окно позволяет построить аппроксимирующую зависимость.

На первой вкладке (рис. 11) этого окна указывается вид аппроксимирующей зависимости.

На второй (рис. 12) определяются параметры построения:

· название аппроксимирующей зависимости;

· прогноз вперед (назад) на n единиц (этот параметр определяет, на какое количество единиц вперед (назад) необходимо продлить линию тренда);

· показывать ли точку пересечения кривой с прямой y=const ;

· показывать аппроксимирующую функцию на диаграмме или нет (параметр показывать уравнение на диаграмме);

· помещать ли на диаграмму величину среднеквадратичного отклонения или нет (параметр поместить на диаграмму величину достоверности аппроксимации).

Выберем в качестве аппроксимирующей зависимости полином второй степени (рис. 11) и выведем уравнение, описывающее этот полином на график (рис. 12). Полученная диаграмма представлена на рис. 13.

Аналогично с помощью линии тренда можно подобрать параметры таких зависимостей как

· линейная y =a∙x +b ,

· логарифмическая y =a∙ln (x )+b ,

· экспоненциальная y =a∙e b ,

· степенная y =a∙x b ,

· полиномиальная y =a∙x 2 +b∙x +c , y =a∙x 3 +b∙x 2 +c∙x+d и так далее, до полинома 6-й степени включительно,

· линейная фильтрация.

4.3. Использование инструмента анализа вариантов: Поиск решения.

Значительный интерес представляет реализация в MS Excel подбора параметров функциональной зависимости методом наименьших квадратов с использованием инструмента анализа вариантов: Поиск решения. Эта методика позволяет подобрать параметры функции любого вида. Рассмотрим эту возможность на примере следующей задачи.

ПРИМЕР 3 . В результате эксперимента получена зависимость z(t) представленная в таблице

0,66 0,9 1,17 1,47 1,7 1,74 2,08 2,63 3,12
38,9 68,8 64,4 66,5 64,95 59,36 82,6 90,63 113,5

Подобрать коэффициенты зависимости Z(t)=At 4 +Bt 3 +Ct 2 +Dt+K методом наименьших квадратов.

Эта задача эквивалентна задаче нахождения минимума функции пяти переменных

Рассмотрим процесс решения задачи оптимизации (рис. 14).

Пусть значения А , В , С , D и К хранятся в ячейках A7:E7 . Рассчитаем теоретические значения функции Z (t )=At 4 +Bt 3 +Ct 2 +Dt+K для заданных t (B2:J2 ). Для этого в ячейку B4 введем значение функции в первой точке (ячейка B2 ):

B4=$A$7*B2^4+$B$7*B2^3+$C$7*B2^2+$D$7*B2+$E$7 .

Скопируем эту формулу в диапазон С4:J4 и получим ожидаемое значение функции в точках, абсциссы которых хранится в ячейках B2:J2 .

В ячейку B5 введем формулу, вычисляющую квадрат разности между экспериментальными и расчетными точками:

B5=(B4-B3)^2,

и скопируем ее в диапазон С5:J5 . В ячейке F7 будем хранить суммарную квадратичную ошибку (10). Для этого введем формулу:

F7 = СУММ(B5:J5) .

Воспользуемся командой Сервис®Поиск решения и решим задачу оптимизации без ограничений. Заполним соответствующим образом поля ввода в диалоговом окне, показанном на рис. 14 и нажмем кнопку Выполнить . Если решение будет найдено, то появится окно, изображенное на рис. 15.

Результатом работы решающего блока будет вывод в ячейки A7:E7 значений параметров функции Z (t )=At 4 +Bt 3 +Ct 2 +Dt+K . В ячейках B4:J4 получим ожидаемые значение функции в исходных точках. В ячейке F7 будет храниться суммарная квадратичная ошибка .

Изобразить экспериментальные точки и подобранную линию в одной графической области можно, если выделить диапазон B2:J4 , вызвать Мастер диаграмм , а затем отформатировать внешний вид полученных графиков.

Рис. 17 отображает рабочий лист MS Excel после проведенных вычислений.

Метод наименьших квадратов (МНК) относится к сфере регрессионного анализа. Он имеет множество применений, так как позволяет осуществлять приближенное представление заданной функции другими более простыми. МНК может оказаться чрезвычайно полезным при обработке наблюдений, и его активно используют для оценки одних величин по результатам измерений других, содержащих случайные ошибки. Из этой статьи вы узнаете, как реализовать вычисления по методу наименьших квадратов в Excel.

Постановка задачи на конкретном примере

Предположим, имеются два показателя X и Y. Причем Y зависит от X. Так как МНК интересует нас с точки зрения регрессионного анализа (в Excel его методы реализуются с помощью встроенных функций), то стоит сразу же перейти к рассмотрению конкретной задачи.

Итак, пусть X — торговая площадь продовольственного магазина, измеряемая в квадратных метрах, а Y — годовой товарооборот, определяемый в миллионах рублей.

Требуется сделать прогноз, какой товарооборот (Y) будет у магазина, если у него та или иная торговая площадь. Очевидно, что функция Y = f (X) возрастающая, так как гипермаркет продает больше товаров, чем ларек.

Несколько слов о корректности исходных данных, используемых для предсказания

Допустим, у нас есть таблица, построенная по данным для n магазинов.

Согласно математической статистике, результаты будут более-менее корректными, если исследуются данные по хотя бы 5-6 объектам. Кроме того, нельзя использовать «аномальные» результаты. В частности, элитный небольшой бутик может иметь товарооборот в разы больший, чем товарооборот больших торговых точек класса «масмаркет».

Суть метода

Данные таблицы можно изобразить на декартовой плоскости в виде точек M 1 (x 1 , y 1), … M n (x n , y n). Теперь решение задачи сведется к подбору аппроксимирующей функции y = f (x), имеющей график, проходящий как можно ближе к точкам M 1, M 2, .. M n .

Конечно, можно использовать многочлен высокой степени, но такой вариант не только труднореализуем, но и просто некорректен, так как не будет отражать основную тенденцию, которую и нужно обнаружить. Самым разумным решением является поиск прямой у = ax + b, которая лучше всего приближает экспериментальные данные, a точнее, коэффициентов - a и b.

Оценка точности

При любой аппроксимации особую важность приобретает оценка ее точности. Обозначим через e i разность (отклонение) между функциональными и экспериментальными значениями для точки x i , т. е. e i = y i - f (x i).

Очевидно, что для оценки точности аппроксимации можно использовать сумму отклонений, т. е. при выборе прямой для приближенного представления зависимости X от Y нужно отдавать предпочтение той, у которой наименьшее значение суммы e i во всех рассматриваемых точках. Однако, не все так просто, так как наряду с положительными отклонениями практически будут присутствовать и отрицательные.

Решить вопрос можно, используя модули отклонений или их квадраты. Последний метод получил наиболее широкое распространение. Он используется во многих областях, включая регрессионный анализ (в Excel его реализация осуществляется с помощью двух встроенных функций), и давно доказал свою эффективность.

Метод наименьших квадратов

В Excel, как известно, существует встроенная функция автосуммы, позволяющая вычислить значения всех значений, расположенных в выделенном диапазоне. Таким образом, ничто не помешает нам рассчитать значение выражения (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

В математической записи это имеет вид:

Так как изначально было принято решение об аппроксимировании с помощью прямой, то имеем:

Таким образом, задача нахождения прямой, которая лучше всего описывает конкретную зависимость величин X и Y, сводится к вычислению минимума функции двух переменных:

Для этого требуется приравнять к нулю частные производные по новым переменным a и b, и решить примитивную систему, состоящую из двух уравнений с 2-мя неизвестными вида:

После нехитрых преобразований, включая деление на 2 и манипуляции с суммами, получим:

Решая ее, например, методом Крамера, получаем стационарную точку с некими коэффициентами a * и b * . Это и есть минимум, т. е. для предсказания, какой товарооборот будет у магазина при определенной площади, подойдет прямая y = a * x + b * , представляющая собой регрессионную модель для примера, о котором идет речь. Конечно, она не позволит найти точный результат, но поможет получить представление о том, окупится ли покупка в кредит магазина конкретной площади.

Как реализоавать метод наименьших квадратов в Excel

В "Эксель" имеется функция для расчета значения по МНК. Она имеет следующий вид: «ТЕНДЕНЦИЯ» (известн. значения Y; известн. значения X; новые значения X; конст.). Применим формулу расчета МНК в Excel к нашей таблице.

Для этого в ячейку, в которой должен быть отображен результат расчета по методу наименьших квадратов в Excel, введем знак «=» и выберем функцию «ТЕНДЕНЦИЯ». В раскрывшемся окне заполним соответствующие поля, выделяя:

  • диапазон известных значений для Y (в данном случае данные для товарооборота);
  • диапазон x 1 , …x n , т. е. величины торговых площадей;
  • и известные, и неизвестные значения x, для которого нужно выяснить размер товарооборота (информацию об их расположении на рабочем листе см. далее).

Кроме того, в формуле присутствует логическая переменная «Конст». Если ввести в соответствующее ей поле 1, то это будет означать, что следует осуществить вычисления, считая, что b = 0.

Если нужно узнать прогноз для более чем одного значения x, то после ввода формулы следует нажать не на «Ввод», а нужно набрать на клавиатуре комбинацию «Shift» + «Control»+ «Enter» («Ввод»).

Некоторые особенности

Регрессионный анализ может быть доступен даже чайникам. Формула Excel для предсказания значения массива неизвестных переменных — «ТЕНДЕНЦИЯ» — может использоваться даже теми, кто никогда не слышал о методе наименьших квадратов. Достаточно просто знать некоторые особенности ее работы. В частности:

  • Если расположить диапазон известных значений переменной y в одной строке или столбце, то каждая строка (столбец) с известными значениями x будет восприниматься программой в качестве отдельной переменной.
  • Если в окне «ТЕНДЕНЦИЯ» не указан диапазон с известными x, то в случае использования функции в Excel программа будет рассматривать его как массив, состоящий из целых чисел, количество которых соответствует диапазону с заданными значениями переменной y.
  • Чтобы получить на выходе массив «предсказанных» значений, выражение для вычисления тенденции нужно вводить как формулу массива.
  • Если не указаны новые значения x, то функция «ТЕНДЕНЦИЯ» считает их равным известным. Если и они не заданы, то в качестве аргумента берется массив 1; 2; 3; 4;…, который соразмерен диапазону с уже заданными параметрами y.
  • Диапазон, содержащий новые значения x должен состоять из такого же или большего количества строк или столбцов, как диапазон с заданными значениями y. Иными словами он должен быть соразмерным независимым переменным.
  • В массиве с известными значениями x может содержаться несколько переменных. Однако если речь идет лишь об одной, то требуется, чтобы диапазоны с заданными значениями x и y были соразмерны. В случае нескольких переменных нужно, чтобы диапазон с заданными значениями y вмещался в одном столбце или в одной строке.

Функция «ПРЕДСКАЗ»

Регрессионный анализ в Excel реализуется с помощью нескольких функций. Одна из них называется «ПРЕДСКАЗ». Она аналогична «ТЕНДЕНЦИИ», т. е. выдает результат вычислений по методу наименьших квадратов. Однако только для одного X, для которого неизвестно значение Y.

Теперь вы знаете формулы в Excel для чайников, позволяющие спрогнозировать величину будущего значения того или иного показателя согласно линейному тренду.

Метод наименьших квадратов представляет собой математическую процедуру построения линейного уравнения, которое бы наиболее точно соответствовало набору двух рядов чисел. Целью применения данного способа является минимизация общей квадратичной ошибки. В программе Excel имеются инструменты, с помощью которых можно применять данный метод при вычислениях. Давайте разберемся, как это делается.

Метод наименьших квадратов (МНК) является математическим описанием зависимости одной переменной от второй. Его можно использовать при прогнозировании.

Включение надстройки «Поиск решения»

Для того, чтобы использовать МНК в Экселе, нужно включить надстройку «Поиск решения» , которая по умолчанию отключена.


Теперь функция Поиск решения в Excel активирована, а её инструменты появились на ленте.

Условия задачи

Опишем применение МНК на конкретном примере. Имеем два ряда чисел x и y , последовательность которых представлена на изображении ниже.

Наиболее точно данную зависимость может описать функция:

При этом, известно что при x=0 y тоже равно 0 . Поэтому данное уравнение можно описать зависимостью y=nx .

Нам предстоит найти минимальную сумму квадратов разности.

Решение

Перейдем к описанию непосредственного применения метода.


Как видим, применение метода наименьших квадратов довольно сложная математическая процедура. Мы показали её в действии на простейшем примере, а существуют гораздо более сложные случаи. Впрочем, инструментарий Microsoft Excel призван максимально упростить производимые вычисления.

4.1. Использование встроенных функций

Вычисление коэффициентов регрессии осуществляется с помощью функции

ЛИНЕЙН (Значения_y ; Значения_x ; Конст ; статистика ),

Значения_y - массив значений y,

Значения_x - необязательный массив значений x , если массив х опущен, то предполагается, что это массив {1;2;3;...} такого же размера, как и Значения_y ,

Конст - логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0. Если Конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом. Если аргумент Конст имеет значение ЛОЖЬ, то b полагается равным 0 и значения a подбираются так, чтобы выполнялось соотношение y=ax.

Статистика - логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии. Если аргумент Статистика имеет значение ИСТИНА , то функция ЛИНЕЙН возвращает дополнительную регрессионную статистику. Если аргумент Статистика имеет значение ЛОЖЬ или опущен, то функция ЛИНЕЙН возвращает только коэффициент a и постоянную b .

Необходимо помнить, что результатом функций ЛИНЕЙН() является множество значений – массив.

Для расчета коэффициента корреляции используется функция

КОРРЕЛ (Массив1 ;Массив2 ),

возвращающая значения коэффициента корреляции, где Массив1 - массив значений y , Массив2 - массив значений x . Массив1 и Массив2 должны быть одной размерности.

ПРИМЕР 1 . Зависимость y (x ) представлена в таблице. Построить линию регрессии и вычислить коэффициент корреляции .

y 0.5 1.5 2.5 3.5
x 2.39 2.81 3.25 3.75 4.11 4.45 4.85 5.25

Введем таблицу значений в лист MS Excel и построим точечный график. Рабочий лист примет вид изображенный на рис. 2.

Для того чтобы рассчитать значения коэффициентов регрессии а и b выделимячейки A7:B7, обратимся к мастеру функций и в категории Статистические выберем функцию ЛИНЕЙН . Заполним появившееся диалоговое окно так, как показано на рис. 3 и нажмем ОK .


В результате вычисленное значение появится только в ячейке A6 (рис.4). Для того чтобы значение появилось и в ячейке B6 необходимо войти в режим редактирования (клавиша F2) , а затем нажать комбинацию клавиш CTRL+SHIFT+ENTER .



Для расчета значения коэффициента корреляции в ячейку С6 была введена следующая формула:

С7=КОРРЕЛ(B3:J3;B2:J2) .


Зная коэффициенты регрессии а и b вычислим значения функции y =ax +b для заданных x . Для этого введем формулу

B5=$A$7*B2+$B$7

и скопируем ее в диапазон С5:J5 (рис. 5).

Изобразим линию регрессии на диаграмме. Выделим экспериментальные точки на графике, щелкнем правой кнопкой мыши и выберем команду Исходные данные . В появившемся диалоговом окне (рис. 5) выберем вкладку Ряд и щелкнем по кнопке Добавить . Заполним поля ввода, так как показано на рис. 6 и нажмем кнопку ОК . К графику экспериментальных данных будет добавлена линия регрессии. По умолчанию ее график будет изображен в виде точек, не соединенных сглаживающими линиями.

Рис. 6

Чтобы изменить вид линии регрессии, выполним следующие действия. Щелкнем правой кнопкой мыши по точкам, изображающим график линии, выберем команду Тип диаграммы и установим вид точечной диаграммы, так как показано на рис. 7.

Тип линии, ее цвет и толщину можно изменить следующим образом. Выделить линию на диаграмме, нажать правую кнопку мыши и в контекстном меню выбрать команду Формат рядов данных… Далее сделать установки, например, так как показано на рис. 8.

В результате всех преобразований получим график экспериментальных данных и линию регрессии в одной графической области (рис. 9).

4.2. Использование линии тренда.

Построение различных аппроксимирующих зависимостей в MS Excel реализовано в виде свойства диаграммы – линия тренда .

ПРИМЕР 2 . В результате эксперимента была определена некоторая табличная зависимость.

0.15 0.16 0.17 0.18 0.19 0.20
4.4817 4.4930 5.4739 6.0496 6.6859 7.3891

Выбрать и построить аппроксимирующую зависимость. Построить графики табличной и подобранной аналитической зависимости.

Решение задачи можно разбить на следующие этапы: ввод исходных данных, построение точечного графика и добавление к этому графику линии тренда.

Рассмотрим этот процесс подробно. Введем исходные данные в рабочий лист и построим график экспериментальных данных. Далее выделим экспериментальные точки на графике, щелкнем правой кнопкой мыши и воспользуемся командой Добавить линию тренда (рис. 10).

Появившееся диалоговое окно позволяет построить аппроксимирующую зависимость.

На первой вкладке (рис. 11) этого окна указывается вид аппроксимирующей зависимости.

На второй (рис. 12) определяются параметры построения:

· название аппроксимирующей зависимости;

· прогноз вперед (назад) на n единиц (этот параметр определяет, на какое количество единиц вперед (назад) необходимо продлить линию тренда);

· показывать ли точку пересечения кривой с прямой y=const ;

· показывать аппроксимирующую функцию на диаграмме или нет (параметр показывать уравнение на диаграмме);

· помещать ли на диаграмму величину среднеквадратичного отклонения или нет (параметр поместить на диаграмму величину достоверности аппроксимации).

Выберем в качестве аппроксимирующей зависимости полином второй степени (рис. 11) и выведем уравнение, описывающее этот полином на график (рис. 12). Полученная диаграмма представлена на рис. 13.

Аналогично с помощью линии тренда можно подобрать параметры таких зависимостей как

· линейная y =a∙x +b ,

· логарифмическая y =a∙ln (x )+b ,

· экспоненциальная y =a∙e b ,

· степенная y =a∙x b ,

· полиномиальная y =a∙x 2 +b∙x +c , y =a∙x 3 +b∙x 2 +c∙x+d и так далее, до полинома 6-й степени включительно,

· линейная фильтрация.

4.3. Использование решающего блока

Значительный интерес представляет реализация в MS Excel подбора параметров методом наименьших квадратов с использованием решающего блока. Эта методика позволяет подобрать параметры функции любого вида. Рассмотрим эту возможность на примере следующей задачи.

ПРИМЕР 3 . В результате эксперимента получена зависимость z(t) представленная в таблице

0,66 0,9 1,17 1,47 1,7 1,74 2,08 2,63 3,12
38,9 68,8 64,4 66,5 64,95 59,36 82,6 90,63 113,5

Подобрать коэффициенты зависимости Z(t)=At 4 +Bt 3 +Ct 2 +Dt+K методом наименьших квадратов.

Эта задача эквивалентна задаче нахождения минимума функции пяти переменных

Рассмотрим процесс решения задачи оптимизации (рис. 14).

Пусть значения А , В , С , D и К хранятся в ячейках A7:E7 . Рассчитаем теоретические значения функции Z (t )=At 4 +Bt 3 +Ct 2 +Dt+K для заданных t (B2:J2 ). Для этого в ячейку B4 введем значение функции в первой точке (ячейка B2 ):

B4=$A$7*B2^4+$B$7*B2^3+$C$7*B2^2+$D$7*B2+$E$7 .

Скопируем эту формулу в диапазон С4:J4 и получим ожидаемое значение функции в точках, абсциссы которых хранится в ячейках B2:J2 .

В ячейку B5 введем формулу, вычисляющую квадрат разности между экспериментальными и расчетными точками:

B5=(B4-B3)^2,

и скопируем ее в диапазон С5:J5 . В ячейке F7 будем хранить суммарную квадратичную ошибку (10). Для этого введем формулу:

F7 = СУММ(B5:J5) .

Воспользуемся командой Сервис®Поиск решения и решим задачу оптимизации без ограничений. Заполним соответствующим образом поля ввода в диалоговом окне, показанном на рис. 14 и нажмем кнопку Выполнить . Если решение будет найдено, то появится окно, изображенное на рис. 15.

Результатом работы решающего блока будет вывод в ячейки A7:E7 значений параметров функции Z (t )=At 4 +Bt 3 +Ct 2 +Dt+K . В ячейках B4:J4 получим ожидаемые значение функции в исходных точках. В ячейке F7 будет храниться суммарная квадратичная ошибка .

Изобразить экспериментальные точки и подобранную линию в одной графической области можно, если выделить диапазон B2:J4 , вызвать Мастер диаграмм , а затем отформатировать внешний вид полученных графиков.

Рис. 17 отображает рабочий лист MS Excel после проведенных вычислений.


5. СПИСОК ЛИТЕРАТУРЫ

1. Алексеев Е.Р., Чеснокова О.В., Решение задач вычислительной математики в пакетах Mathcad12, MATLAB7, Maple9. – НТ Пресс, 2006.–596с. :ил. –(Самоучитель)

2. Алексеев Е.Р., Чеснокова О.В., Е.А. Рудченко, Scilab, решение инженерных и математических задач. –М., БИНОМ, 2008.–260с.

3. Березин И.С., Жидков Н.П., Методы вычислений.–М.:Наука, 1966.–632с.

4. Гарнаев А.Ю., Использование MS EXCEL и VBA в экономике и финансах. – СПб.: БХВ - Петербург, 1999.–332с.

5. Демидович Б.П., Марон И А., Шувалова В.З., Численные методы анализа.–М.:Наука, 1967.–368с.

6. Корн Г., Корн Т., Справочник по математике для научных работников и инженеров.–М., 1970, 720с.

7. Алексеев Е.Р., Чеснокова О.В. Методические указания к выполнению лабораторных работ в MS EXCEL. Для студентов всех специальностей. Донецк, ДонНТУ, 2004. 112 с.

Метод наименьших квадратов (МНК)

Система m линейных уравнений с n неизвестными имеет вид:

Возможны три случая: mn. Случай, когда m=n, рассматривался в предыдущих параграфах. При m

В случае, если m>nи система является совместной, то матрица А имеет по крайней мере m - nлинейно зависимых строк. Здесь решение может быть получено отбором n любых линейно независимых уравнений (если они существуют)и применением формулы Х=А -1 ЧВ, то есть, сведением задачи к ранее решенной. При этом полученное решение всегда будет удовлетворять и остальным m - nуравнениям.

Однако при применении компьютера удобнее использовать более общий подход - метод наименьших квадратов.

Алгебраический метод наименьших квадратов

Под алгебраическим методом наименьших квадратов понимается метод решения систем линейных уравнений

путем минимизации евклидовой нормы

Ax ? b? > inf . (1.2)

Анализ данных эксперимента

Рассмотрим некоторый эксперимент, в ходе которого в моменты времени

производится, например, измерение температуры Q(t). Пусть результаты измерений задаются массивом

Допустим, что условия проведения эксперимента таковы, что измерения проводятся с заведомой погрешностью. В этих случаях закон изменения температуры Q(t) ищут с помощью некоторого полинома

P(t) = + + + ... +,

определяя неизвестные коэффициенты, ..., из тех соображений, чтобы величина E(, ...,), определяемая равенством

гаусс алгебраический exel аппроксимация

принимала минимальное значение. Поскольку минимизируется сумма квадратов, то этот метод называется аппроксимацией данных методом наименьших квадратов.

Если заменить P(t) его выражением, то получим

Поставим задачу определения массива так, чтобы величина была минимальна, т.е. определим массив методом наименьших квадратов. Для этого приравняем частные производные пок нулю:

Если ввести m Ч n матрицу A = (), i = 1, 2..., m; j = 1, 2, ..., n, где

I = 1, 2..., m; j = 1, 2, ..., n,

то выписанное равенство примет вид

Перепишем написанное равенство в терминах операций с матрицами. Имеем по определению умножения матрицы на столбец

Для транспонированной матрицы аналогичное соотношение выглядит так

Введем обозначение: i -ую компоненту вектора Ax будем обозначать В соответствии с выписанными матричными равенствами будем иметь

В матричной форме это равенство перепишется в виде

A T x=A T B (1.3)

Здесь A - прямоугольная mЧ n матрица. Причем в задачах аппроксимации данных, как правило, m > n. Уравнение (1.3) называется нормальным уравнением.

Можно было с самого начала, используя евклидову норму векторов, записать задачу в эквивалентной матричной форме:

Наша цель минимизировать эту функцию по x. Для того чтобы в точке решения достигался минимум, первые производные по x в этой точке должны равняться нулю. Производные данной функции составляют

2A T B + 2A T Ax

и поэтому решение должно удовлетворять системе линейных уравнений

(A T A)x = (A T B).

Эти уравнения называются нормальными уравнениями. Если A - mЧ n матрица, то A>A - n Ч n - матрица, т.е. матрица нормального уравнения всегда квадратная симметричная матрица. Более того, она обладает свойством положительной определенности в том смысле, что (A>Ax, x) = (Ax, Ax) ? 0.

Замечание. Иногда решение уравнения вида (1.3) называют решением систе- мы Ax = В, где A прямоугольная m Ч n (m > n) матрица методом наименьших квадратов.

Задачу наименьших квадратов можно графически интерпретировать как минимизацию вертикальных расстояний от точек данных до модельной кривой (см. рис.1.1). Эта идея основана на предположении, что все ошибки в аппроксимации соответствуют ошибкам в наблюдениях. Если имеются также ошибки в независимых переменных, то может оказаться более уместным минимизировать евклидово расстояние от данных до модели.

МНК в Excel

Приведенный ниже алгоритм реализации МНК в Excel подразумевает, что все исходные данные уже известны. Обе части матричного уравнения AЧX=B системы умножаем слева на транспонированную матрицу системы А Т:

А Т АХ=А Т В

Затем обе части уравнения умножаем слева на матрицу (А Т А) -1 . Если эта матрица существует, то система определена. С учетом того, что

(А Т А) -1 *(А Т А)=Е, получаем

Х=(А Т А) -1 А Т В.

Полученное матричное уравнение является решением системы m линейных уравнений с nнеизвестными при m>n.

Рассмотрим применение вышеописанного алгоритма на конкретном примере.

Пример. Пусть необходимо решить систему

В Excelлист с решением в режиме отображения формул для данной задачи выглядит следующим образом:


Результаты расчетов:

Искомый вектор Х расположен в диапазоне Е11:Е12.

При решении заданной системы линейных уравнений использовались следующие функции:

1. МОБР - возвращает обратную матрицу для матрицы, хранящейся в массиве.

Синтаксис: МОБР(массив).

Массив -- числовой массив с равным количеством строк и столбцов.

2. МУМНОЖ - возвращает произведение матриц (матрицы хранятся в массивах). Результатом является массив с таким же числом строк, как массив1 и с таким же числом столбцов, как массив2.

Синтаксис: МУМНОЖ(массив1;массив2).

Массив1, массив2 -- перемножаемые массивы.

После введения функции в левую верхнюю ячейку диапазона массива следует выделить массив, начиная с ячейки, содержащей формулу, нажать клавишу F2, а затем нажать клавиши CTRL+SHIFT+ENTER.

3. ТРАНСП - преобразует вертикальный набор ячеек в горизонтальный, или наоборот. В результате использования этой функции появляется массив с числом строк, равным числу столбцов исходного массива, и числом столбцов, равным числу строк начального массива.