Логотип журнала "Провизор"








Прогнозирование с использованием полигональной регрессии

С. Н. Лапач, А. В. Чубенко, П. Н. Бабич НТУУ «Киевский политехнический институт», Украинский НИИ фармакологии и токсикологии

Проблема прогноза

При построении эмпирических зависимостей задача прогнозирования в фармацевтическом и медицинском менеджменте остается одной из самых сложных. Это связано со многими причинами, в том числе:

  • неизвестность сохранения закономерности за пределами интервала наблюдения;
  • неизвестность самого вида закономерности (проблема спецификации);
  • идентификация (определение значений параметров математической модели) обеспечивает не удовлетворительный прогноз, а наилучшее описание имеющихся данных;
  • возможность описания имеющегося фрагмента эмпирических данных разными функциями с одинаковой точностью, прогноз по которым во многих случаях будет давать различные результаты;
  • практическая невозможность построения функции, которая бы учитывала влияние всех факторов.

Очень популярной является рекомендация использовать при спецификации фундаментальные представления о процессе [1].

Эта рекомендация является, с одной стороны, бесспорной истиной, а с другой — практически трудно применимой. Трудность применения состоит как раз в отсутствии фундаментальных представлений, которые можно считать бесспорными истинами, пригодными для спецификации математической модели. Кроме того, фундаментальные представления меняются в процессе развития науки. Задачи же необходимо решать оперативно, при отсутствии полной информации о всех сторонах и факторах наблюдаемого процесса и, тем более, о скрытых механизмах, движущих этим процессом. Очень часто бесспорные законы или закономерности слишком всеобщи и грубы для того, чтобы использовать для практической деятельности. В связи с этим возникает проблема: как правильно поступать в данной ситуации.

Позволим себе напомнить некоторые факты из истории науки, касающиеся нашего вопроса. Так, до гелиоцентрической системы Коперника применялась геоцентрическая система Птолемея. Мало известно, что система Коперника была окончательно принята только после Ньютона. До этого ее применение оправдывалось только меньшим объемом расчетов. Чем это было вызвано? С одной стороны, до Ньютона не было фундаментальных представлений о причинах, которые позволили бы перейти к гелиоцентрической системе; с другой стороны, точность описания реально наблюдаемых астрономами движений планет была практически одинаковой у обеих систем [2]. Таких примеров можно привести достаточно много. И в наше время существует много процессов и явлений, которые разные ученые описывают разными моделями. В связи с этим Пуанкаре рекомендует вопрос о соответствии модели истинным процессам оставить как не имеющий смысла в прикладных задачах, а при составлении модели руководствоваться следующими правилами [3]:

  • возможность практического использования модели;
  • возможность интерпретации модели;
  • простота построения и использования модели.

Боксом отмечается, что модель может быть неправильной, но практически полезной [4] (кстати, такой и была модель Птолемея). Часто имеющуюся теоретическую модель, являющуюся бесспорной истиной, достаточно тяжело применить на практике ввиду недостаточной точности. Например, логистическая кривая [5] очень хорошо описывает общий ход многих процессов развития. Практически же применяется для прогноза не очень часто ввиду сложности получения удовлетворительной точности до того, как процесс прошел все свои стадии.

Следует также иметь в виду, что все методы идентификации обеспечивают наилучшую интерполяцию, а не экстраполяцию. Построение же доверительных интервалов для экстраполяции не более чем самообман.

Из численных методов хорошо известно, что при увеличении порядка интерполирующего полинома погрешности растут (особенно для быстроменяющихся функций) [6], особенно в точках, отличных от тех, по которым собственно получены коэффициенты полинома [7]. Практически это вызывает явление осцилляции аппроксимирующей кривой вокруг опорных точек (чем точнее аппроксимация в точках, тем хуже интерполяция) [8]. В связи с этим мы предлагали использовать в целях прогноза последние точки временного ряда, в которых процесс предполагается неизменным и строить по нему прогноз с помощью линейной аппроксимации [9, 10]. При наличии ясно выраженных сезонных изменений, естественно, необходимо их учесть в виде периодической составляющей модели [11]. Следует отметить, что сложность представляет выбор этого фрагмента (неправильный выбор изменяет прогноз). В данной работе мы предлагаем формализацию этого процесса с помощью полигональной регрессии.

Полигональная регрессия

Полигональная регрессия является аналитическим представлением экспериментальных данных с помощью ломаной линии, состоящей из отрезков прямых, построенная по методу наименьших квадратов. Еще у Себера [12] рассматривается двухфазная линейная регрессия с точкой переключения. Эта регрессия предназначалась для случаев, когда в некоторой точке на процесс было оказано некоторое воздействие, которое привело к изменению зависимости. В дальнейшем в литературе рассматривались случаи более чем двух фаз и делались попытки обобщения задач на многомерный случай [13, 14]. Растригин [15] показывает, что для решения задач экстраполяции полигональная регрессия предпочтительней полиномиальной. В работе Кузьмина [16] предложена функция, позволяющая описать одномерную многофазную регрессию без системы условий и фиктивных переменных в виде единого аналитического выражения, что значительно облегчает ее практическое использование.

Пример построения прогноза

По имеющимся данным строится наилучшая полигональная регрессия (по критерию минимальной остаточной дисперсии). Рассмотрим решение поставленной задачи на примере данных, приведенных на рис. 1 (это реальные данные). Полигональная модель имеет следующий общий вид

где XП — координаты точки перелома, а 

Для построения оптимальной (по минимуму остаточной дисперсии

полигональной регрессии необходимо найти координаты точки перелома. Для дискретного аргумента задача может быть решена простым перебором, для непрерывного аргумента — методом половинного деления или случайного поиска с заданной точностью. Соответствующее значение XП и будет точкой перелома.

Для приведенного примера соответствующее уравнение имеет вид:

 

Y = 34237,23 + 3557,33 X - 2820,13 (X - 8)+,

 

т. е. точка изменения тенденции 8 — четвертый квартал 2001 г.

Уравнение в виде полинома 2-й степени для этих же данных

 

Y = 55884,5 + 14836x - 3496,98z,

 

где: x = 0,166667(X - 7);
z = 1,63636(x2 - 0,388889);
(R = 0,901; FR = 21,70 > F0,05;2;10 = 4,10; γ = 1)

Уравнение в виде полинома 4-й степени для этих же данных

 

Y = 55884,5 + 14836x + 3879,05v — 3496,98z,

 

где: x = 0,166667(X - 7);
z = 1,63636 (x2 - 0,388889);
v = 7,63636(x4 - 0,980159x2 + 0,111111);
(R = 0,941; FR = 23,24> F0,05;3;9 = 3,86; γ = 2)

В таблице 1 представлены значения, рассчитанные по четырем моделям (линейной, полином 2-й степени, полином 4-й степени и полигональной), и фактические значения объема фармацевтического рынка Украины (по данным мониторинга розничных продаж IMS MiDAS).

Таблица 1. Данные по объему фармацевтического рынка (фактические и прогнозные)

№ п/п Год Квартал Факт Y по линейной Y по полигональной Y парабола Y полином 4-й ст.
1 2000 1 42370 41048,55 37794,55 37551,5 41430,6
2 2 37874 43521,21 41351,88 41772,7 39186,6  
3 3 40345 45993,88 44909,21 45675,9 41914,4  
4 4 48381 48466,54 48466,54 49261,3 47145,4  
5 2001 1 57103 50939,21 52023,87 52528,7 52959,7
6 2 56258 53411,87 55581,2 55478,2 57985,9  
7 3 54550 55884,54 59138,53 58109,9 61401,2  
8 4 68616 58357,2 62695,86 60423,6 62931,2  
9 2002 1 64967 60829,87 63433,06 62419,4 62850,4
10 2 60011 63302,53 64170,26 64097,3 61981,4  
11 3 57450 65775,2 64907,47 65457,3 61695,8  
12 4 69225 68247,86 65644,67 66499,3 63913,3  
13 2003 1 69349 70720,53 66381,87 67223,5 71102,6
14 2 - 73002,99 67119,07 67629,8 86280,6  
15 3 - 75285,45 67856,27 67718,2 113013  
16 4 - 77567,91 68593,47 67488,6 155414  

 

Рисунок 1. Объем фармацевтического рынка Украины (фактически и прогноз)

 

 

 

 

Рис. 1 является графическим отображением приведенной таблицы.

Из сравнения представленных четырех вариантов аппроксимирующих функций можно сделать следующие выводы. Как по статистическим характеристикам, так и по точности аппроксимации, уравнение полинома 4-й степени наилучшее. Вместе с тем следует иметь в виду, что остаточные дисперсии для представленных аппроксимирующих функций при имеющихся значительных флуктуациях исходных данных различаются не более чем на 20-40%, что делает их с точки зрения критерия Фишера принадлежащими к одной генеральной совокупности, т. е. статистически неразличимыми. Таким образом, все указанные функции при аппроксимации и интерполяции практически равнозначны.

Если же мы рассмотрим их прогнозные свойства (рис. 1), то картина окажется совершенно иной. Прогноз по модели полинома четвертой степени дает совершенно неправдоподобные значения. Линейный прогноз также показывает не ту тенденцию, которая на самом деле имеет место. Прогнозы по полигональной и параболической моделям на данном отрезке практически не различаются. Но начиная с последней точки направление прогноза по параболической и полигональной модели начинают различаться: первая предсказывает падение объемов, а вторая — медленный рост. Чем больше изменяется функция на исследуемом участке, чем больше случайные флуктуации, тем хуже будет полиномиальная модель, даже второй степени.

С другой стороны, использование одной функции входит в противоречие с представлением о том, что в течение времени происходит изменение происходящих процессов, что должно описываться разными функциями.

Таким образом, использование полигональной регрессии позволяет:

  • получить аппроксимацию, достаточную для целей практического применения;
  • определить точку переключения (изменения тенденции);
  • обеспечивать наилучшую экстраполяцию.

Для автоматизации процесса построения полигональной регрессии написан макрос на языке Visual Basic Application для использования в электронной таблице Excel.

Литература

  1. Хомяков Г. В. Тенденции изменений украинского фармацевтического рынка и прогноз на 2003 г. // Провизор.— 2003.— № 11.— С.6-8.
  2. Вернадский В. И. Биосфера и ноосфера.— М.: Айрис-пресс, 2003.— 576 с.
  3. Пуанкаре А. О Науке.— М.: Наука, 1983.— 560 с.
  4. Бокс Дж. Е. П. Устойчивость в стратегии построения научных моделей.— С. 164-188 / В. кн. Устойчивые статистические методы оценки данных.— М.: Машиностроение, 1984.— 232 с.
  5. Венецкий И. Г. , Венецкая В. И. Основные математико-статистические понятия и формулы в экономическом анализе.— М.: Статистика, 1979.— 447 с.
  6. Калиткин Н. Н. Численные методы.— М.: Наука, 1978.— 512 с.
  7. Каханер Д., Моулер К., Нэш С. Численные методы и программное обеспечение.— М.: Мир, 1998.— 575 с.
  8. Лапач С. Н., Пасечник М. Ф., Чубенко А. В. Статистические методы в фармакологии и маркетинге фармацевтического рынка.— К., 1999. — 312 с.
  9. Лапач С. Н., Чубенко А. В., Бабич П. Н. Статистические методы в медико-биологических исследованиях с использованием Excel.— 2 изд. перераб. и доп.— К.: Морион, 2001.— 408 с.
  10. Лапач С. Н., Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе.— К.: Морион, 2002.— 640с.
  11. Лапач С. Н., Чубенко А. В., Бабич П. Н. Моделирование сезонных изменений потребления ненаркотических анальгетиков на рынке Украины 2003 г. // Ремедиум.— № 6.— С. 25-26.
  12. Себер Дж. Линейный регрессионный анализ.— М.: Мир, 1980.— 456 с.
  13. Плюта В. Сравнительный многомерный анализ в эконометрическом моделировании / Пер. с польск.— М.: Финансы и статистика, 1989.— 175 с.
  14. Котюков В. И. Многофакторные кусочно-линейные модели.— М.: Финансы и статистика, 1984.— 216 с.
  15. Растригин Л. А., Пономарев Ю. П. Экстраполяционные методы проектирования и управления.— М.: Машиностроение, 1986.— 120 с.
  16. Кузьмин В. Н. Статистические методы выявления тренда гидрологических рядов // Мелиорация и водное хозяйство.— Вып. 4.— Мн., 1983.




© Провизор 1998–2017



Грипп у беременных и кормящих женщин
Актуально о профилактике, тактике и лечении

Грипп. Прививка от гриппа
Нужна ли вакцинация?
















Крем от морщин
Возможен ли эффект?
Лечение миомы матки
Как отличить ангину от фарингита






Журнал СТОМАТОЛОГ



џндекс.Њетрика