<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD Journal Publishing DTD v2.3 20070202//EN" "journalpublishing.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" article-type="review-article">
<front>
<journal-meta>
<journal-id journal-id-type="publisher-id">Front. Appl. Math. Stat.</journal-id>
<journal-title>Frontiers in Applied Mathematics and Statistics</journal-title>
<abbrev-journal-title abbrev-type="pubmed">Front. Appl. Math. Stat.</abbrev-journal-title>
<issn pub-type="epub">2297-4687</issn>
<publisher>
<publisher-name>Frontiers Media S.A.</publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.3389/fams.2017.00018</article-id>
<article-categories>
<subj-group subj-group-type="heading">
<subject>Applied Mathematics and Statistics</subject>
<subj-group>
<subject>Review</subject>
</subj-group>
</subj-group>
</article-categories>
<title-group>
<article-title>A Fixed-Point of View on Gradient Methods for Big Data</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author" corresp="yes">
<name><surname>Jung</surname> <given-names>Alexander</given-names></name>
<xref ref-type="author-notes" rid="fn001"><sup>&#x0002A;</sup></xref>
<uri xlink:href="http://loop.frontiersin.org/people/380676/overview"/>
</contrib>
</contrib-group>
<aff><institution>Department of Computer Science, Aalto University</institution> <country>Espoo, Finland</country></aff>
<author-notes>
<fn fn-type="edited-by"><p>Edited by: Juergen Prestin, University of Luebeck, Germany</p></fn>
<fn fn-type="edited-by"><p>Reviewed by: Yekini Shehu, University of Nigeria, Nsukka, Nigeria; Ming Tian, Civil Aviation University of China, China</p></fn>
<fn fn-type="corresp" id="fn001"><p>&#x0002A;Correspondence: Alexander Jung <email>alexander.jung&#x00040;aalto.fi</email></p></fn>
<fn fn-type="other" id="fn002"><p>This article was submitted to Mathematics of Computation and Data Science, a section of the journal Frontiers in Applied Mathematics and Statistics</p></fn></author-notes>
<pub-date pub-type="epub">
<day>05</day>
<month>09</month>
<year>2017</year>
</pub-date>
<pub-date pub-type="collection">
<year>2017</year>
</pub-date>
<volume>3</volume>
<elocation-id>18</elocation-id>
<history>
<date date-type="received">
<day>26</day>
<month>07</month>
<year>2017</year>
</date>
<date date-type="accepted">
<day>21</day>
<month>08</month>
<year>2017</year>
</date>
</history>
<permissions>
<copyright-statement>Copyright &#x000A9; 2017 Jung.</copyright-statement>
<copyright-year>2017</copyright-year>
<copyright-holder>Jung</copyright-holder>
<license xlink:href="http://creativecommons.org/licenses/by/4.0/"><p>This is an open-access article distributed under the terms of the Creative Commons Attribution License (CC BY). The use, distribution or reproduction in other forums is permitted, provided the original author(s) or licensor are credited and that the original publication in this journal is cited, in accordance with accepted academic practice. No use, distribution or reproduction is permitted which does not comply with these terms.</p></license>
</permissions>
<abstract>
<p>Interpreting gradient methods as fixed-point iterations, we provide a detailed analysis of those methods for minimizing convex objective functions. Due to their conceptual and algorithmic simplicity, gradient methods are widely used in machine learning for massive data sets (big data). In particular, stochastic gradient methods are considered the de-facto standard for training deep neural networks. Studying gradient methods within the realm of fixed-point theory provides us with powerful tools to analyze their convergence properties. In particular, gradient methods using inexact or noisy gradients, such as stochastic gradient descent, can be studied conveniently using well-known results on inexact fixed-point iterations. Moreover, as we demonstrate in this paper, the fixed-point approach allows an elegant derivation of accelerations for basic gradient methods. In particular, we will show how gradient descent can be accelerated by a fixed-point preserving transformation of an operator associated with the objective function.</p>
</abstract>
<kwd-group>
<kwd>convex optimization</kwd>
<kwd>fixed point theory</kwd>
<kwd>big data</kwd>
<kwd>machine learning</kwd>
<kwd>contraction mapping</kwd>
<kwd>gradient descent</kwd>
<kwd>heavy balls</kwd>
</kwd-group>
<counts>
<fig-count count="6"/>
<table-count count="0"/>
<equation-count count="97"/>
<ref-count count="17"/>
<page-count count="11"/>
<word-count count="5877"/>
</counts>
</article-meta>
</front>
<body>
<sec sec-type="intro" id="s1">
<title>1. Introduction</title>
<p>One of the main recent trends within machine learning and data analytics using massive data sets is to leverage the inferential strength of the vast amounts of data by using relatively simple, but fast, optimization methods as algorithmic primitives [<xref ref-type="bibr" rid="B1">1</xref>]. Many of these optimization methods are modifications of the basic gradient descent (GD) method. Indeed, computationally more heavy approaches, such as interior point methods, are often infeasible for a given limited computational budget [<xref ref-type="bibr" rid="B2">2</xref>].</p>
<p>Moreover, the rise of deep learning has brought a significant boost for the interest in gradient methods. Indeed, a major insight within the theory of deep learning is that for typical high-dimensional models, e.g., those represented by deep neural networks, most of the local minima of the cost function (e.g., the empirical loss or training error) are reasonably close (in terms of objective value) to the global optimum [<xref ref-type="bibr" rid="B3">3</xref>]. These local minima can be found efficiently by gradient methods such as stochastic gradient descent (SGD), which is considered the de-facto standard algorithmic primitive for training deep neural networks [<xref ref-type="bibr" rid="B3">3</xref>].</p>
<p>This paper elaborates on the interpretation of some basic gradient methods such as GD and its variants as fixed-point iterations. These fixed-point iterations are obtained for operators associated with the convex objective function. Emphasizing the connection to fixed-point theory unleashes some powerful tools, e.g., on the acceleration of fixed-point iterations [<xref ref-type="bibr" rid="B4">4</xref>] or inexact fixed-point iterations [<xref ref-type="bibr" rid="B5">5</xref>, <xref ref-type="bibr" rid="B6">6</xref>], for the analysis and construction of convex optimization methods.</p>
<p>In particular, we detail how the convergence of the basic GD iterations can be understood from the contraction properties of a specific operator which is associated naturally with a differentiable objective function. Moreover, we work out in some detail how the basic GD method can be accelerated by modifying the operator underlying GD in a way that preserves its fixed-points but decreases the contraction factor which implies faster convergence by the contraction mapping theorem.</p>
<sec>
<title>1.1. Outline</title>
<p>We discuss the basic problem of minimizing convex functions in Section (2). We then derive GD, which is a particular first order method, as a fixed-point iteration in Section (3). In Section (4), we introduce one of the most widely used computational models for convex optimization methods, i.e., the model of first order methods. In order to assess the efficiency of GD, which is a particular instance of a first order method, we present in Section (5) a lower bound on the number of iterations required by any first order method to reach a given sub-optimality. Using the insight provided from the fixed-point interpretation we show how to obtain an accelerated variant of GD in Section (6), which turns out to be optimal in terms of convergence rate.</p>
</sec>
<sec>
<title>1.2. Notation</title>
<p>The set of natural numbers is denoted &#x02115; :&#x0003D; {1, 2, &#x02026;}. Given a vector <inline-formula><mml:math id="M1"><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>x</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:mo>&#x02026;</mml:mo><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>x</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mo>&#x02102;</mml:mo></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msup></mml:math></inline-formula>, we denote its <italic>l</italic>th entry by <italic>x</italic><sub><italic>l</italic></sub>. The (hermitian) transpose and trace of a square matrix <bold>A</bold> &#x02208; &#x02102;<sup><italic>n</italic>&#x000D7;<italic>n</italic></sup> are denoted (<bold>A</bold><sup><italic>H</italic></sup>) <bold>A</bold><sup><italic>T</italic></sup> and tr{<bold>A</bold>}, respectively. The Euclidian norm of a vector <bold>x</bold> is denoted <inline-formula><mml:math id="M2"><mml:mo>|</mml:mo><mml:mo>|</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>|</mml:mo><mml:mo>|</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:msqrt><mml:mrow><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mi>H</mml:mi></mml:mrow></mml:msup><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow></mml:msqrt></mml:math></inline-formula>. The spectral norm of a matrix <bold>M</bold> is denoted <inline-formula><mml:math id="M3"><mml:mo stretchy="false">|</mml:mo><mml:mo stretchy="false">|</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>M</mml:mtext></mml:mstyle><mml:mo stretchy="false">|</mml:mo><mml:mo stretchy="false">|</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:munder class="msub"><mml:mrow><mml:mo class="qopname">max</mml:mo></mml:mrow><mml:mrow><mml:mo>|</mml:mo><mml:mo>|</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>|</mml:mo><mml:mo>|</mml:mo><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:munder><mml:mo stretchy="false">|</mml:mo><mml:mo stretchy="false">|</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>M</mml:mtext></mml:mstyle><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo stretchy="false">|</mml:mo><mml:mo stretchy="false">|</mml:mo></mml:math></inline-formula>. The spectral decomposition of a positive semidefinite (psd) matrix <bold>Q</bold> &#x02208; &#x02102;<sup><italic>n</italic>&#x000D7;<italic>n</italic></sup> is <bold>Q</bold> &#x0003D; <bold>U&#x0039B;U</bold><sup><italic>H</italic></sup> with matrix <bold>U</bold> &#x0003D;(<bold>u</bold><sup>(1)</sup>, &#x02026;, <bold>u</bold><sup>(<italic>n</italic>)</sup>) whose columns are the orthonormal eigenvectors <bold>u</bold><sup>(<italic>i</italic>)</sup> &#x02208; &#x02102;<sup><italic>n</italic></sup> of <bold>Q</bold> and the diagonal matrix <bold>&#x0039B;</bold> containing the eigenvalues &#x003BB;<sub>1</sub>(<bold>Q</bold>) &#x02265; &#x02026; &#x02265; &#x003BB;<sub><italic>n</italic></sub>(<bold>Q</bold>) &#x02265; 0. For a square matrix <bold>M</bold>, we denote its spectral radius as &#x003C1;(<bold>M</bold>) :&#x0003D; max{|&#x003BB;| : &#x003BB; is an eigenvalue of <bold>M</bold>}.</p>
</sec>
</sec>
<sec id="s2">
<title>2. Convex functions</title>
<p>A function <italic>f</italic>(&#x000B7;):&#x0211D;<sup><italic>n</italic></sup> &#x02192; &#x0211D; is convex if</p>
<disp-formula id="E1"><mml:math id="M4"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>&#x0002B;</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02264;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x0002B;</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>holds for any <bold>x</bold>, <bold>y</bold> &#x02208; &#x0211D;<sup><italic>n</italic></sup> and &#x003B1; &#x02208; [0, 1] [<xref ref-type="bibr" rid="B2">2</xref>]. For a differentiable function <italic>f</italic>(&#x000B7;) with gradient &#x02207;<italic>f</italic>(<bold>x</bold>), a necessary and sufficient condition for convexity is [<xref ref-type="bibr" rid="B7">7</xref>, p. 70]</p>
<disp-formula id="E2"><mml:math id="M5"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02265;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x0002B;</mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>which has to hold for any <bold>x</bold>, <bold>y</bold> &#x02208; &#x0211D;<sup><italic>n</italic></sup>.</p>
<p>Our main object of interest in this paper is the optimization problem</p>
<disp-formula id="E3"><label>(1)</label><mml:math id="M6"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:mstyle displaystyle="true"><mml:munder class="msub"><mml:mrow><mml:mo class="qopname">&#x000A0;arg&#x000A0;min</mml:mo></mml:mrow><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mo>&#x0211D;</mml:mo></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:munder></mml:mstyle><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Given a convex function <italic>f</italic>(<bold>x</bold>), we aim at finding a point <bold>x</bold><sub>0</sub> with lowest function value <italic>f</italic>(<bold>x</bold><sub>0</sub>), i.e., <inline-formula><mml:math id="M7"><mml:mi>f</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>)</mml:mo><mml:mo>=</mml:mo><mml:msub><mml:mi>min</mml:mi><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle></mml:msub><mml:mi>f</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo stretchy='false'>)</mml:mo></mml:math></inline-formula>.</p>
<p>In order to motivate our interest in optimization problems like Equation (1), consider a machine learning problem based on training data <inline-formula><mml:math id="M8"><mml:mrow><mml:mi mathvariant="-tex-caligraphic">X</mml:mi></mml:mrow><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:msubsup><mml:mrow><mml:mrow><mml:mo>{</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>z</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:mo>}</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>i</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mi>N</mml:mi></mml:mrow></mml:msubsup></mml:math></inline-formula> consisting of <italic>N</italic> data points <bold>z</bold><sup>(<italic>i</italic>)</sup> &#x0003D; (<bold>d</bold><sup>(<italic>i</italic>)</sup>, <italic>y</italic><sup>(<italic>i</italic>)</sup>) with feature vector <bold>d</bold><sup>(<italic>i</italic>)</sup> &#x02208; &#x0211D;<sup><italic>n</italic></sup> (which might represent the RGB pixel values of a webcam snapshot) and output or label <italic>y</italic><sup>(<italic>i</italic>)</sup> &#x02208; &#x0211D; (which might represent the local temperature during the snapshot). We wish to predict the label <italic>y</italic><sup>(<italic>i</italic>)</sup> by a linear combination of the features, i.e.,</p>
<disp-formula id="E4"><label>(2)</label><mml:math id="M9"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:msup><mml:mrow><mml:mi>y</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>&#x02248;</mml:mo><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>d</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>The choice for the weight vector <bold>x</bold> &#x02208; &#x0211D;<sup><italic>n</italic></sup> is typically based on balancing the empirical risk incurred by the predictor (2), i.e.,</p>
<disp-formula id="E5"><mml:math id="M10"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mi>N</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mstyle displaystyle="true"><mml:munderover accentunder="false" accent="false"><mml:mrow><mml:mo>&#x02211;</mml:mo></mml:mrow><mml:mrow><mml:mi>i</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mi>N</mml:mi></mml:mrow></mml:munderover></mml:mstyle><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>y</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>-</mml:mo><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>d</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>with some regularization term, e.g., measured by the squared norm &#x02016;<bold>x</bold>&#x02016;<sup>2</sup>. Thus, the learning problem amounts to solving the optimization problem</p>
<disp-formula id="E6"><label>(3)</label><mml:math id="M11"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mstyle displaystyle="true"><mml:munder class="msub"><mml:mrow><mml:mo class="qopname">arg&#x000A0;min</mml:mo></mml:mrow><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mo>&#x0211D;</mml:mo></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:munder></mml:mstyle><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mi>N</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mstyle displaystyle="true"><mml:munderover accentunder="false" accent="false"><mml:mrow><mml:mo>&#x02211;</mml:mo></mml:mrow><mml:mrow><mml:mi>i</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mi>N</mml:mi></mml:mrow></mml:munderover></mml:mstyle><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>y</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>-</mml:mo><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>d</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mo>&#x0002B;</mml:mo><mml:mo>&#x003BB;</mml:mo><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:msup><mml:mrow><mml:mo stretchy="false">&#x02016;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>The learning problem (3) is precisely of the form (1) with the convex objective function</p>
<disp-formula id="E7"><label>(4)</label><mml:math id="M12"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext>&#x000A0;</mml:mtext><mml:mo>&#x02254;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mi>N</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mstyle displaystyle="true"><mml:munderover accentunder="false" accent="false"><mml:mrow><mml:mo>&#x02211;</mml:mo></mml:mrow><mml:mrow><mml:mi>i</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mi>N</mml:mi></mml:mrow></mml:munderover></mml:mstyle><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mi>y</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>-</mml:mo><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>d</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mo>&#x0002B;</mml:mo><mml:mo>&#x003BB;</mml:mo><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:msup><mml:mrow><mml:mo stretchy="false">&#x02016;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>By choosing a large value for the regularization parameter &#x003BB;, we de-emphasize the relevance of the training error and thus avoid overfitting. However, choosing &#x003BB; too large induces a bias if the true underlying weight vector has a large norm [<xref ref-type="bibr" rid="B3">3</xref>, <xref ref-type="bibr" rid="B8">8</xref>]. A principled approach to find a suitable value of &#x003BB; is cross validation [<xref ref-type="bibr" rid="B3">3</xref>, <xref ref-type="bibr" rid="B8">8</xref>].</p>
<sec>
<title>2.1. Differentiable convex functions</title>
<p>Any differentiable function <italic>f</italic>(&#x000B7;) is accompanied by its gradient operator</p>
<disp-formula id="E8"><label>(5)</label><mml:math id="M13"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mo>:</mml:mo><mml:msup><mml:mrow><mml:mo>&#x0211D;</mml:mo></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msup><mml:mo>&#x02192;</mml:mo><mml:msup><mml:mrow><mml:mo>&#x0211D;</mml:mo></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msup><mml:mo>,</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>&#x021A6;</mml:mo><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>While the gradient operator &#x02207;<italic>f</italic> is defined for any (even non-convex) differentiable function, the gradient operator of a convex function satisfies a strong structural property, i.e., it is a monotone operator [<xref ref-type="bibr" rid="B9">9</xref>].</p>
</sec>
<sec>
<title>2.2. Smooth and strongly convex functions</title>
<p>If all second order partial derivatives of the function <italic>f</italic>(&#x000B7;) exist and are continuous, then <italic>f</italic>(&#x000B7;) is convex if and only if [<xref ref-type="bibr" rid="B7">7</xref>, p.71]</p>
<disp-formula id="E9"><mml:math id="M14"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:msup><mml:mrow><mml:mo>&#x02207;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02AB0;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>0</mml:mtext></mml:mstyle><mml:mtext class="textrm" mathvariant="normal">&#x000A0;for&#x000A0;every&#x000A0;</mml:mtext><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mo>&#x0211D;</mml:mo></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msup><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>We will focus on a particular class of twice differentiable convex functions, i.e., those with Hessian &#x02207;<sup>2</sup><italic>f</italic>(<bold>x</bold>) satisfying</p>
<disp-formula id="E10"><label>(6)</label><mml:math id="M15"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mi>L</mml:mi><mml:mo>&#x02264;</mml:mo><mml:msub><mml:mrow><mml:mo>&#x003BB;</mml:mo></mml:mrow><mml:mrow><mml:mi>l</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mo>&#x02207;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02264;</mml:mo><mml:mi>U</mml:mi><mml:mtext class="textrm" mathvariant="normal">&#x000A0;for&#x000A0;every&#x000A0;</mml:mtext><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mo>&#x0211D;</mml:mo></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msup><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>with some known constants <italic>U</italic> &#x02265; <italic>L</italic> &#x0003E; 0.</p>
<p>The set of convex functions <italic>f</italic>(&#x000B7;):&#x0211D;<sup><italic>n</italic></sup> &#x02192; &#x0211D; satisfying (6) will be denoted <inline-formula><mml:math id="M16"><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula>. As it turns out, the difficulty of finding the minimum of some function <inline-formula><mml:math id="M17"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> using gradient methods is essentially governed by the</p>
<disp-formula id="E11"><label>(7)</label><mml:math id="M18"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mtext class="textrm" mathvariant="normal">condition&#x000A0;number&#x000A0;</mml:mtext><mml:mo>&#x003BA;</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>&#x02254;</mml:mo><mml:mi>U</mml:mi><mml:mo>/</mml:mo><mml:mi>L</mml:mi><mml:mtext class="textrm" mathvariant="normal">&#x000A0;of&#x000A0;the&#x000A0;function&#x000A0;class&#x000A0;</mml:mtext><mml:mrow><mml:msubsup><mml:mrow><mml:mi mathvariant="-tex-caligraphic">S</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Thus, regarding the difficulty of optimizing the functions <inline-formula><mml:math id="M19"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula>, the absolute values of the bounds <italic>L</italic> and <italic>U</italic> in (6) are not crucial, only their ratio &#x003BA; &#x0003D; <italic>U</italic>/<italic>L</italic> is.</p>
<p>One particular sub-class of functions <inline-formula><mml:math id="M20"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula>, which is of paramount importance for the analysis of gradient methods, are quadratic functions of the form</p>
<disp-formula id="E12"><label>(8)</label><mml:math id="M21"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mn>2</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mstyle mathvariant="bold"><mml:mtext>Q</mml:mtext></mml:mstyle><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>&#x0002B;</mml:mo><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>q</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>&#x0002B;</mml:mo><mml:mi>c</mml:mi><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>with some vector <bold>q</bold> &#x02208; &#x0211D;<sup><italic>n</italic></sup> and a psd matrix <bold>Q</bold> &#x02208; &#x0211D;<sup><italic>n</italic>&#x000D7;<italic>n</italic></sup> having eigenvalues &#x003BB;(<bold>Q</bold>) &#x02208; [<italic>L, U</italic>]. As can be verified easily, the gradient and Hessian of a quadratic function of the form (8) are obtained as &#x02207;<italic>f</italic>(<bold>x</bold>) &#x0003D; <bold>Qx</bold>&#x0002B;<bold>q</bold> and &#x02207;<sup>2</sup><italic>f</italic>(<bold>x</bold>) &#x0003D; <bold>Q</bold>, respectively.</p>
<p>It turns out that most of the results (see below) on gradient methods for minimizing quadratic functions of the form (8), with some matrix <bold>Q</bold> having eigenvalues &#x003BB;(<bold>Q</bold>) &#x02208; [<italic>L, U</italic>], apply (with minor modifications) also when expanding their scope from quadratic functions to the larger set <inline-formula><mml:math id="M22"><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula>. This should not come as a surprise, since any function <inline-formula><mml:math id="M23"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> can be approximated locally around a point <bold>x</bold><sub>0</sub> by a quadratic function which is obtained by a truncated Taylor series [<xref ref-type="bibr" rid="B10">10</xref>]. In particular, we have Rudin [<xref ref-type="bibr" rid="B10">10</xref>, Theorem 5.15]</p>
<disp-formula id="E13"><label>(9)</label><mml:math id="M24"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x0002B;</mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mo>&#x0002B;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mn>2</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:msup><mml:mrow><mml:mo>&#x02207;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>u</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>where <bold>u</bold> &#x0003D; &#x003B7;<bold>x</bold> &#x0002B; (1&#x02212;&#x003B7;)<bold>x</bold><sub>0</sub> with some &#x003B7; &#x02208; [0, 1].</p>
<p>The crucial difference between the quadratic function (8) and a general function <inline-formula><mml:math id="M25"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> is that the matrix &#x02207;<sup>2</sup><italic>f</italic>(<bold>z</bold>) appearing in the quadratic form in (9) typically varies with the point <bold>x</bold>. In particular, we can rewrite (9) as</p>
<disp-formula id="E14"><label>(10)</label><mml:math id="M26"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x0002B;</mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x0002B;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mn>2</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mstyle mathvariant="bold"><mml:mtext>Q</mml:mtext></mml:mstyle><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mtext>&#x000A0;</mml:mtext><mml:mo>&#x0002B;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mn>2</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mo>&#x02207;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>z</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>-</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>Q</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>with <inline-formula><mml:math id="M27"><mml:mstyle mathvariant="bold"><mml:mtext>Q</mml:mtext></mml:mstyle><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mo>&#x02207;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula>. The last summand in (10) quantifies the approximation error</p>
<disp-formula id="E15"><label>(11)</label><mml:math id="M28"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mo>&#x003B5;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02254;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>-</mml:mo><mml:mover accent="true"><mml:mrow><mml:mi>f</mml:mi></mml:mrow><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mtext>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mo>=</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mn>2</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mo>&#x02207;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>z</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>-</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>Q</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>obtained when approximating a function <inline-formula><mml:math id="M29"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> with the quadratic <inline-formula><mml:math id="M30"><mml:mover accent="true"><mml:mrow><mml:mi>f</mml:mi></mml:mrow><mml:mo>&#x0007E;</mml:mo></mml:mover><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula> obtained from (8) with the choices</p>
<disp-formula id="E16"><mml:math id="M31"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mstyle mathvariant="bold"><mml:mtext>Q</mml:mtext></mml:mstyle><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mo>&#x02207;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mstyle mathvariant="bold"><mml:mtext>q</mml:mtext></mml:mstyle><mml:mo>=</mml:mo><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>-</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>Q</mml:mtext></mml:mstyle><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mtext class="textrm" mathvariant="normal">&#x000A0;and</mml:mtext></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mi>c</mml:mi><mml:mo>=</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x0002B;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mn>2</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:msubsup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msubsup><mml:mstyle mathvariant="bold"><mml:mtext>Q</mml:mtext></mml:mstyle><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo>-</mml:mo><mml:msubsup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msubsup><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>According to (6), which implies <inline-formula><mml:math id="M32"><mml:mrow><mml:mo>&#x001C1;</mml:mo><mml:mrow><mml:msup><mml:mo>&#x02207;</mml:mo><mml:mn>2</mml:mn></mml:msup><mml:mi>f</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mo>&#x001C1;</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:mrow><mml:mo>&#x001C1;</mml:mo><mml:mrow><mml:msup><mml:mo>&#x02207;</mml:mo><mml:mn>2</mml:mn></mml:msup><mml:mi>f</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>z</mml:mi></mml:mstyle><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mo>&#x001C1;</mml:mo></mml:mrow><mml:mtext>&#x000A0;</mml:mtext><mml:mo>&#x02264;</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mi>U</mml:mi></mml:math></inline-formula>, we can bound the approximation error (11) as</p>
<disp-formula id="E17"><mml:math id="M33"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mo>&#x003B5;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02264;</mml:mo><mml:mi>U</mml:mi><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:msup><mml:mrow><mml:mo stretchy="false">&#x02016;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Thus, we can ensure a arbitrarily small approximation error &#x003B5; by considering <italic>f</italic>(&#x000B7;) only over a neighborhood <inline-formula><mml:math id="M34"><mml:mrow><mml:mi mathvariant="-tex-caligraphic">B</mml:mi></mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:mi>r</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mrow><mml:mo>{</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>:</mml:mo><mml:mo>|</mml:mo><mml:mo>|</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo>|</mml:mo><mml:mo>|</mml:mo><mml:mo>&#x02264;</mml:mo><mml:mi>r</mml:mi></mml:mrow><mml:mo>}</mml:mo></mml:mrow></mml:math></inline-formula> with sufficiently small radius <italic>r</italic> &#x0003E; 0.</p>
<p>Let us now verify that learning a (regularized) linear regression model (cf. 3) amounts to minimizing a convex quadratic function of the form (8). Indeed, using some elementary linear algebraic manipulations, we can rewrite the objective function in (4) as a quadratic of the form (8) using the particular choices <bold>Q</bold> &#x0003D; <bold>Q</bold><sub>LR</sub> and <bold>q</bold> &#x0003D; <bold>q</bold><sub>LR</sub> with</p>
<disp-formula id="E18"><label>(12)</label><mml:math id="M35"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>Q</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mtext>LR</mml:mtext></mml:mrow></mml:msub><mml:mtext>&#x000A0;</mml:mtext><mml:mo>&#x02254;</mml:mo><mml:mo>&#x003BB;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>I</mml:mtext></mml:mstyle><mml:mo>&#x0002B;</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mi>N</mml:mi></mml:mrow></mml:mfrac><mml:mstyle displaystyle="true"><mml:munderover accentunder="false" accent="false"><mml:mrow><mml:mo>&#x02211;</mml:mo></mml:mrow><mml:mrow><mml:mi>i</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mi>N</mml:mi></mml:mrow></mml:munderover></mml:mstyle><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>d</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:msup><mml:mrow><mml:mo>(</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>d</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:msup><mml:mo>)</mml:mo><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mo>,</mml:mo><mml:mtext class="textrm" mathvariant="normal">and&#x000A0;</mml:mtext><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>q</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mtext>LR</mml:mtext></mml:mrow></mml:msub><mml:mtext>&#x000A0;</mml:mtext><mml:mo>&#x02254;</mml:mo><mml:mfrac><mml:mrow><mml:mn>2</mml:mn></mml:mrow><mml:mrow><mml:mi>N</mml:mi></mml:mrow></mml:mfrac><mml:mstyle displaystyle="true"><mml:munderover accentunder="false" accent="false"><mml:mrow><mml:mo>&#x02211;</mml:mo></mml:mrow><mml:mrow><mml:mi>i</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mi>N</mml:mi></mml:mrow></mml:munderover></mml:mstyle><mml:msup><mml:mrow><mml:mi>y</mml:mi></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>d</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>The eigenvalues of the matrix <bold>Q</bold><sub>LR</sub> obey [<xref ref-type="bibr" rid="B11">11</xref>]</p>
<disp-formula id="E19"><mml:math id="M36"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mo>&#x003BB;</mml:mo><mml:mo>&#x02264;</mml:mo><mml:msub><mml:mrow><mml:mo>&#x003BB;</mml:mo></mml:mrow><mml:mrow><mml:mi>l</mml:mi></mml:mrow></mml:msub><mml:msub><mml:mrow><mml:mo>(</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>Q</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mtext>LR</mml:mtext></mml:mrow></mml:msub><mml:mo>)</mml:mo><mml:mo>&#x02264;</mml:mo><mml:mo>&#x003BB;</mml:mo><mml:mo>&#x0002B;</mml:mo><mml:msub><mml:mrow><mml:mo>&#x003BB;</mml:mo></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>D</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mstyle mathvariant="bold"><mml:mtext>D</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>with the data matrix <bold>D</bold> :&#x0003D; (<bold>d</bold><sup>(1)</sup>, &#x02026;, <bold>d</bold><sup>(<italic>N</italic>)</sup>) &#x02208; &#x0211D;<sup><italic>n</italic>&#x000D7;<italic>N</italic></sup>. Hence, learning a regularized linear regression model via (3) amounts to minimizing a convex quadratic function <inline-formula><mml:math id="M37"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> with <italic>L</italic> &#x0003D; &#x003BB; and <inline-formula><mml:math id="M38"><mml:mi>U</mml:mi><mml:mo>=</mml:mo><mml:mo>&#x003BB;</mml:mo><mml:mo>&#x0002B;</mml:mo><mml:msub><mml:mrow><mml:mo>&#x003BB;</mml:mo></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>D</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mi>T</mml:mi></mml:mrow></mml:msup><mml:mstyle mathvariant="bold"><mml:mtext>D</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula>, where &#x003BB; denotes the regularization parameter used in (3).</p>
</sec>
</sec>
<sec id="s3">
<title>3. Gradient descent</title>
<p>Let us now show how one of the most basic methods for solving the problem (1), i.e., the GD method, can be obtained naturally as fixed-point iterations involving the gradient operator &#x02207;<italic>f</italic> (cf. 5).</p>
<p>Our point of departure is the necessary and sufficient condition [<xref ref-type="bibr" rid="B7">7</xref>]</p>
<disp-formula id="E20"><label>(13)</label><mml:math id="M39"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>0</mml:mtext></mml:mstyle><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>for a vector <inline-formula><mml:math id="M40"><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mrow><mml:mo>&#x0211D;</mml:mo></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msup></mml:math></inline-formula> to be optimal for the problem (1) with a convex differentiable objective function <inline-formula><mml:math id="M41"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula>.</p>
<p><bold>Lemma 1</bold>. <italic>We have</italic> &#x02207;<italic>f</italic>(<bold>x</bold>) &#x0003D; <bold>0</bold> <italic>if and only if the vector</italic> <bold>x</bold> &#x02208; &#x0211D;<sup><italic>n</italic></sup> <italic>is a fixed point of the operator</italic></p>
<disp-formula id="E21"><label>(14)</label><mml:math id="M42"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mo>:</mml:mo><mml:msup><mml:mrow><mml:mo>&#x0211D;</mml:mo></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msup><mml:mo>&#x02192;</mml:mo><mml:msup><mml:mrow><mml:mo>&#x0211D;</mml:mo></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msup><mml:mo>:</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>&#x021A6;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p><italic>for an arbitrary but fixed non-zero</italic> &#x003B1; &#x02208; &#x0211D; \ {0}. <italic>Thus</italic>,</p>
<disp-formula id="E22"><mml:math id="M43"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>0</mml:mtext></mml:mstyle><mml:mtext class="textrm" mathvariant="italic">&#x000A0;if&#x000A0;and&#x000A0;only&#x000A0;if&#x000A0;</mml:mtext><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>=</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p><italic>Proof</italic>. Consider a vector <bold>x</bold> such that &#x02207;<italic>f</italic>(<bold>x</bold>) &#x0003D; <bold>0</bold>. Then,</p>
<disp-formula id="E23"><mml:math id="M44"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mover class="stackrel"><mml:mrow><mml:mo>=</mml:mo></mml:mrow><mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>14</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mover><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Conversely, let <bold>x</bold> be a fixed point of <inline-formula><mml:math id="M45"><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula>, i.e.,</p>
<disp-formula id="E24"><label>(15)</label><mml:math id="M46"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>=</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Then,</p>
<disp-formula id="E25"><mml:math id="M47"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mover class="stackrel"><mml:mrow><mml:mo>=</mml:mo></mml:mrow><mml:mrow><mml:mrow><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x02260;</mml:mo><mml:mn>0</mml:mn></mml:mrow></mml:mrow></mml:mover><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mtext>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mover class="stackrel"><mml:mrow><mml:mo>=</mml:mo></mml:mrow><mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>14</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mover><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mtext>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mover class="stackrel"><mml:mrow><mml:mo>=</mml:mo></mml:mrow><mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>15</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mover><mml:mstyle mathvariant="bold"><mml:mtext>0</mml:mtext></mml:mstyle><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x025A1;</p>
<p>According to Lemma (1), the solution <bold>x</bold><sub>0</sub> of the optimization problem (1) is obtained as the fixed point of the operator <inline-formula><mml:math id="M48"><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> (cf. 14) with some non-zero &#x003B1;. As we will see shortly, the freedom in choosing different values for &#x003B1; can be exploited in order to compute the fixed points of <inline-formula><mml:math id="M49"><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> more efficiently.</p>
<p>A straightforward approach to finding the fixed-points of an operator <inline-formula><mml:math id="M50"><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> is via the fixed-point iteration</p>
<disp-formula id="E26"><label>(16)</label><mml:math id="M51"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>=</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>By tailoring a fundamental result of analysis (cf. [<xref ref-type="bibr" rid="B10">10</xref>], Theorem 9.23], we can characterize the convergence of the sequence <bold>x</bold><sup>(<italic>k</italic>)</sup> obtained from (16).</p>
<p><bold>Lemma 2</bold>. <italic>Assume that for some q</italic>&#x02208;[0, 1), <italic>we have</italic></p>
<disp-formula id="E27"><label>(17)</label><mml:math id="M52"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mo>&#x02264;</mml:mo><mml:mi>q</mml:mi><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p><italic>for any</italic> <bold>x</bold>, <bold>y</bold> &#x02208; &#x0211D;<sup><italic>n</italic></sup>. <italic>Then, the operator</italic> <inline-formula><mml:math id="M53"><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> <italic>has a unique fixed point</italic> <bold>x</bold><sub>0</sub> <italic>and the iterates</italic> <bold>x</bold><sup>(<italic>k</italic>)</sup> <italic>(cf</italic>. 16<italic>) satisfy</italic></p>
<disp-formula id="E28"><label>(18)</label><mml:math id="M54"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mo stretchy="false">&#x02016;</mml:mo><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mo>&#x02264;</mml:mo><mml:mo stretchy="false">&#x02016;</mml:mo><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>0</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo stretchy="false">&#x02016;</mml:mo><mml:msup><mml:mrow><mml:mi>q</mml:mi></mml:mrow><mml:mrow><mml:mi>k</mml:mi></mml:mrow></mml:msup><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p><italic>Proof</italic>. Let us first verify that the operator <inline-formula><mml:math id="M55"><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> cannot have two different fixed points. Indeed, assume there would be two different fixed points <bold>x</bold>, <bold>y</bold> such that</p>
<disp-formula id="E29"><label>(19)</label><mml:math id="M56"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>=</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>,</mml:mo><mml:mtext class="textrm" mathvariant="normal">&#x000A0;and&#x000A0;</mml:mtext><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle><mml:mo>=</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>This would imply, in turn,</p>
<disp-formula id="E30"><mml:math id="M57"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mi>q</mml:mi><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mover class="stackrel"><mml:mrow><mml:mo>&#x02265;</mml:mo></mml:mrow><mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>17</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mover><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle><mml:mo stretchy="false">&#x02016;</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mtext>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mover class="stackrel"><mml:mrow><mml:mo>=</mml:mo></mml:mrow><mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>19</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mover><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>However, since <italic>q</italic> &#x0003C; 1, this inequality can only be satisfied if &#x02016;<bold>x</bold> &#x02212; <bold>y</bold>&#x02016; &#x0003D; 0, i.e., we must have <bold>x</bold> &#x0003D; <bold>y</bold>. Thus, we have shown that no two different fixed points can exist. The existence of one unique fixed point <bold>x</bold><sub>0</sub> follows from Rudin [<xref ref-type="bibr" rid="B10">10</xref>, Theorem 9.23].</p>
<p>The estimate (18) can be obtained by induction and noting</p>
<disp-formula id="E31"><mml:math id="M58"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mo stretchy="false">&#x02016;</mml:mo><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi><mml:mo>&#x0002B;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mover class="stackrel"><mml:mrow><mml:mo>=</mml:mo></mml:mrow><mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>16</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mover><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo stretchy="false">&#x02016;</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mtext>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mover class="stackrel"><mml:mrow><mml:mo>=</mml:mo></mml:mrow><mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>a</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mover><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>-</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo stretchy="false">&#x02016;</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mtext>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mover class="stackrel"><mml:mrow><mml:mo>&#x02264;</mml:mo></mml:mrow><mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>17</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mover><mml:mi>q</mml:mi><mml:mo stretchy="false">&#x02016;</mml:mo><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Here, step (<italic>a</italic>) is valid since <bold>x</bold><sub>0</sub> is a fixed point of <inline-formula><mml:math id="M59"><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula>, i.e., <inline-formula><mml:math id="M60"><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:math></inline-formula>.&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x025A1;</p>
<p>In order to apply Lemma (2) to (16), we have to ensure that the operator <inline-formula><mml:math id="M61"><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> is a contraction, i.e., it satisfies (17) with some contraction coefficient <italic>q</italic> &#x02208; [0, 1). For the operator <inline-formula><mml:math id="M62"><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> (cf. 14) associated with the function <inline-formula><mml:math id="M63"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> this can be verified by standard results from vector analysis.</p>
<p><bold>Lemma 3</bold>. <italic>Consider the operator</italic> <inline-formula><mml:math id="M64"><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:mo>:</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>&#x021A6;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula> <italic>with some convex function</italic> <inline-formula><mml:math id="M65"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula>. <italic>Then</italic>,</p>
<disp-formula id="E32"><mml:math id="M66"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mo>&#x02264;</mml:mo><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle><mml:mo stretchy="false">&#x02016;</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p><italic>with contraction factor</italic></p>
<disp-formula id="E33"><label>(20)</label><mml:math id="M67"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mtext>&#x000A0;</mml:mtext><mml:mo>&#x02254;</mml:mo><mml:mo class="qopname">max</mml:mo><mml:mrow><mml:mo>{</mml:mo><mml:mrow><mml:mo>|</mml:mo><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mi>U</mml:mi><mml:mo>&#x003B1;</mml:mo><mml:mo>|</mml:mo><mml:mo>,</mml:mo><mml:mo>|</mml:mo><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mi>L</mml:mi><mml:mo>&#x003B1;</mml:mo><mml:mo>|</mml:mo></mml:mrow><mml:mo>}</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p><italic>Proof</italic>. First,</p>
<disp-formula id="E34"><label>(21)</label><mml:math id="M68"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle><mml:mover class="stackrel"><mml:mrow><mml:mo>=</mml:mo></mml:mrow><mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>14</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mover><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>-</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>-</mml:mo><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mtext>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mover class="stackrel"><mml:mrow><mml:mo>=</mml:mo></mml:mrow><mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>a</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mover><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>-</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:msup><mml:mrow><mml:mo>&#x02207;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>z</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mtext>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mo>=</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>I</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:msup><mml:mrow><mml:mo>&#x02207;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>z</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>using <bold>z</bold> &#x0003D; &#x003B7;<bold>x</bold> &#x0002B; (1 &#x02212; &#x003B7;)<bold>y</bold> with some &#x003B7; &#x02208; [0, 1]. Here, we used in step (<italic>a</italic>) the mean value theorem of vector calculus [<xref ref-type="bibr" rid="B10">10</xref>, Theorem 5.10].</p>
<p>Combining (21) with the submultiplicativity of Euclidean and spectral norm [<xref ref-type="bibr" rid="B11">11</xref>, p. 55] yields</p>
<disp-formula id="E35"><label>(22)</label><mml:math id="M69"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mo>&#x02264;</mml:mo><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>I</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:msup><mml:mrow><mml:mo>&#x02207;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>z</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>The matrix <bold>M</bold><sup>(&#x003B1;)</sup>: &#x0003D; <bold>I</bold>&#x02212;&#x003B1;&#x02207;<sup>2</sup><italic>f</italic>(<bold>z</bold>) is symmetric (<bold>M</bold><sup>(&#x003B1;)</sup> &#x0003D; (<bold>M</bold><sup>(&#x003B1;)</sup>)<sup><italic>T</italic></sup>) with real-valued eigenvalues [<xref ref-type="bibr" rid="B11">11</xref>]</p>
<disp-formula id="E36"><label>(23)</label><mml:math id="M70"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:msub><mml:mrow><mml:mo>&#x003BB;</mml:mo></mml:mrow><mml:mrow><mml:mi>l</mml:mi></mml:mrow></mml:msub><mml:msup><mml:mrow><mml:mo>(</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>M</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>)</mml:mo><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:mo>[</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mi>U</mml:mi><mml:mo>&#x003B1;</mml:mo><mml:mo>,</mml:mo><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mi>L</mml:mi><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo>]</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Since also</p>
<disp-formula id="E37"><label>(24)</label><mml:math id="M71"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mo stretchy="false">&#x02016;</mml:mo><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>M</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mo>=</mml:mo><mml:mo class="qopname">max</mml:mo><mml:mrow><mml:mo>{</mml:mo><mml:mrow><mml:mo>|</mml:mo><mml:msub><mml:mrow><mml:mo>&#x003BB;</mml:mo></mml:mrow><mml:mrow><mml:mi>l</mml:mi></mml:mrow></mml:msub><mml:mo>|</mml:mo></mml:mrow><mml:mo>}</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mtext>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mover class="stackrel"><mml:mrow><mml:mo>&#x02264;</mml:mo></mml:mrow><mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>23</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mover><mml:mo class="qopname">max</mml:mo><mml:mrow><mml:mo>{</mml:mo><mml:mrow><mml:mo>|</mml:mo><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mi>U</mml:mi><mml:mo>&#x003B1;</mml:mo><mml:mo>|</mml:mo><mml:mo>,</mml:mo><mml:mo>|</mml:mo><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mi>L</mml:mi><mml:mo>&#x003B1;</mml:mo><mml:mo>|</mml:mo></mml:mrow><mml:mo>}</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>we obtain from (22)</p>
<disp-formula id="E38"><mml:math id="M72"><mml:mtable class="eqnarray" columnalign="left"><mml:mtr><mml:mtd><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mover class="stackrel"><mml:mrow><mml:mo>&#x02264;</mml:mo></mml:mrow><mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>24</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mover><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>y</mml:mtext></mml:mstyle><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mo class="qopname">max</mml:mo><mml:mrow><mml:mo>{</mml:mo><mml:mrow><mml:mo>|</mml:mo><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mi>U</mml:mi><mml:mo>&#x003B1;</mml:mo><mml:mo>|</mml:mo><mml:mo>,</mml:mo><mml:mo>|</mml:mo><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mi>L</mml:mi><mml:mo>&#x003B1;</mml:mo><mml:mo>|</mml:mo></mml:mrow><mml:mo>}</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x025A1;</p>
<p>It will be handy to write out the straightforward combination of Lemma (2) and Lemma (3).</p>
<p><bold>Lemma 4</bold>. <italic>Consider a convex function</italic> <inline-formula><mml:math id="M73"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> <italic>with the unique minimizer</italic> <bold>x</bold><sub>0</sub>, <italic>i.e</italic>., <inline-formula><mml:math id="M74"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mo class="qopname">min</mml:mo></mml:mrow><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow></mml:msub><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula>. <italic>We then construct the operator</italic> <inline-formula><mml:math id="M75"><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:mo>:</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>&#x021A6;</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle><mml:mo>-</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula> <italic>with a step size</italic> &#x003B1; <italic>such that</italic></p>
<disp-formula id="E39"><mml:math id="M76"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mover class="stackrel"><mml:mrow><mml:mo>=</mml:mo></mml:mrow><mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>20</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mover><mml:mo class="qopname">max</mml:mo><mml:mrow><mml:mo>{</mml:mo><mml:mrow><mml:mo>|</mml:mo><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mi>U</mml:mi><mml:mo>&#x003B1;</mml:mo><mml:mo>|</mml:mo><mml:mo>,</mml:mo><mml:mo>|</mml:mo><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mi>L</mml:mi><mml:mo>&#x003B1;</mml:mo><mml:mo>|</mml:mo></mml:mrow><mml:mo>}</mml:mo></mml:mrow><mml:mo>&#x0003C;</mml:mo><mml:mn>1</mml:mn><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p><italic>Then, starting from an arbitrary initial guess</italic> <bold>x</bold><sup>(0)</sup>, <italic>the iterates</italic> <bold>x</bold><sup>(<italic>k</italic>)</sup> <italic>(cf</italic>. 16<italic>) satisfy</italic></p>
<disp-formula id="E40"><label>(25)</label><mml:math id="M77"><mml:mtable class="eqnarray" columnalign="right center left"><mml:mtr><mml:mtd><mml:mo stretchy="false">&#x02016;</mml:mo><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mo>&#x02264;</mml:mo><mml:mo stretchy="false">&#x02016;</mml:mo><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>0</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo stretchy="false">&#x02016;</mml:mo><mml:mo>[</mml:mo><mml:mi>q</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:msup><mml:mrow><mml:mo>]</mml:mo></mml:mrow><mml:mrow><mml:mi>k</mml:mi></mml:mrow></mml:msup><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>According to Lemma (4), and also illustrated in Figure <xref ref-type="fig" rid="F1">1</xref>, starting from an arbitrary initial guess <bold>x</bold><sup>(0)</sup>, the sequence <bold>x</bold><sup>(<italic>k</italic>)</sup> generated by the fixed-point iteration (16) is guaranteed to converge to the unique solution <bold>x</bold><sub>0</sub> of (1), i.e., <inline-formula><mml:math id="M78"><mml:msub><mml:mrow><mml:mo class="qopname">lim</mml:mo></mml:mrow><mml:mrow><mml:mi>k</mml:mi><mml:mo>&#x02192;</mml:mo><mml:mo>&#x0221E;</mml:mo></mml:mrow></mml:msub><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>=</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub></mml:math></inline-formula>. What is more, this convergence is quite fast, since the error <inline-formula><mml:math id="M79"><mml:mo>|</mml:mo><mml:mo>|</mml:mo><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo>|</mml:mo><mml:mo>|</mml:mo></mml:math></inline-formula> decays at least exponentially according to (25). Loosely speaking, this exponential decrease implies that the number of additional iterations required to have on more correct digit in <bold>x</bold><sup>(<italic>k</italic>)</sup> is constant.</p>
<fig id="F1" position="float">
<label>Figure 1</label>
<caption><p>Fixed-point iterations for a contractive mapping <inline-formula><mml:math id="M80"><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> with the unique fixed point <bold>x</bold><sub>0</sub>.</p></caption>
<graphic xlink:href="fams-03-00018-g0001.tif"/>
</fig>
<p>Let us now work out the iterations (16) more explicitly by inserting the expression (14) for the operator <inline-formula><mml:math id="M81"><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula>. We then obtain the following equivalent representation of (16):</p>
<disp-formula id="E41"><label>(26)</label><mml:math id="M150"><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>=</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>&#x02212;</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo stretchy='false'>)</mml:mo><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>This iteration is nothing but plain vanilla GD using a fixed step size &#x003B1; [<xref ref-type="bibr" rid="B3">3</xref>].</p>
<p>Since the GD iteration (26) is precisely the fixed-point iteration (16), we can use Lemma (4) to characterize the convergence (rate) of GD. In particular, convergence of GD is ensured by choosing the step size of GD (26) such that <italic>q</italic>(&#x003B1;) &#x0003D; max{|1&#x02212;<italic>U&#x003B1;</italic>|, |1&#x02212;<italic>L&#x003B1;</italic>|} &#x0003C; 1. Moreover, in order to make the convergence as fast as possible we need to chose the step size &#x003B1; &#x0003D; &#x003B1;<sup>&#x0002A;</sup> which makes the contraction factor <italic>q</italic>(&#x003B1;) (cf. 20) as small as possible.</p>
<p>In Figure <xref ref-type="fig" rid="F2">2</xref>, we illustrate how the quantifies |1 &#x02212; &#x003B1;<italic>L</italic>| and |1 &#x02212; &#x003B1;<italic>U</italic>| evolve as the step size &#x003B1; (cf. 26) is varied. From Figure <xref ref-type="fig" rid="F2">2</xref> we can easily read off the optimal choice</p>
<disp-formula id="E42"><label>(27)</label><mml:math id="M151"><mml:mrow><mml:msup><mml:mo>&#x003B1;</mml:mo><mml:mo>*</mml:mo></mml:msup><mml:mo>=</mml:mo><mml:mfrac><mml:mn>2</mml:mn><mml:mrow><mml:mi>L</mml:mi><mml:mo>+</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:mfrac></mml:mrow></mml:math></disp-formula>
<p>yielding the smallest possible contraction factor</p>
<disp-formula id="E43"><mml:math id="M152"><mml:mrow><mml:msup><mml:mi>q</mml:mi><mml:mo>&#x02217;</mml:mo></mml:msup><mml:mo>=</mml:mo><mml:munder><mml:mrow><mml:mi>min</mml:mi></mml:mrow><mml:mrow><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x02208;</mml:mo><mml:mo stretchy='false'>[</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>]</mml:mo></mml:mrow></mml:munder><mml:mi>q</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:mi>U</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mi>L</mml:mi></mml:mrow><mml:mrow><mml:mi>U</mml:mi><mml:mo>+</mml:mo><mml:mi>L</mml:mi></mml:mrow></mml:mfrac><mml:mover><mml:mo>=</mml:mo><mml:mrow><mml:mn>20</mml:mn></mml:mrow></mml:mover><mml:mfrac><mml:mrow><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mo>&#x003BA;</mml:mo><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<fig id="F2" position="float">
<label>Figure 2</label>
<caption><p>Dependence of contraction factor <italic>q</italic>(&#x003B1;) &#x0003D; max{|1&#x02212;&#x003B1;<italic>L</italic>|, |1&#x02212;&#x003B1;<italic>U</italic>|} on step size &#x003B1;.</p></caption>
<graphic xlink:href="fams-03-00018-g0002.tif"/>
</fig>
<p>We have arrived at the following characterization of GD for minimizing convex functions <inline-formula><mml:math id="M82"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula>.</p>
<p><bold>Theorem 5</bold>. <italic>Consider the optimization problem</italic> (1) with objective function <inline-formula><mml:math id="M83"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula>, <italic>where the parameters L and U are fixed and known. Starting from an arbitrarily chosen initial guess</italic> <bold>x</bold><sup>(0)</sup>, <italic>we construct a sequence by GD</italic> (26) <italic>using the optimal step size</italic> (27). <italic>Then</italic>,</p>
<disp-formula id="E44"><label>(28)</label><mml:math id="M153"><mml:mrow><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mo>&#x02264;</mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mo>&#x003BA;</mml:mo><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:mrow><mml:mi>k</mml:mi></mml:msup><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>0</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>In what follows, we will use the shorthand <inline-formula><mml:math id="M84"><mml:mrow><mml:mi mathvariant="-tex-caligraphic">T</mml:mi></mml:mrow><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>*</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> for the gradient operator <inline-formula><mml:math id="M85"><mml:mrow><mml:msup><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> (cf. 14) obtained for the optimal step size &#x003B1; &#x0003D; &#x003B1;<sup>&#x0002A;</sup> (cf. 27).</p>
</sec>
<sec id="s4">
<title>4. First order methods</title>
<p>Without a computational model taking into account a finite amount of resources, the study of the computational complexity inherent to (1) becomes meaningless. Consider having unlimited computational resources at our disposal. Then, we could build an &#x0201C;optimization device&#x0201D; which maps each function <inline-formula><mml:math id="M86"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> to its unique minimum <bold>x</bold><sub>0</sub>. Obviously, this approach is infeasible since we cannot perfectly represent such a mapping, let alone its domain <inline-formula><mml:math id="M87"><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula>, using a physical hardware which allows us only to handle finite sets instead of continuous spaces like <inline-formula><mml:math id="M88"><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula>.</p>
<p>Let us further illustrate the usefulness of using a computational model in the context of machine learning from massive data sets (big data). In particular, as we have seen in the previous section, the regularized linear regression model (3) amounts to minimizing a convex quadratic function (8) with the particular choices (12). Even for this most simple machine learning model, it is typically infeasible to have access to a complete description of the objective function (8).</p>
<p>Indeed, in order to fully specify the quadratic function in (8), we need to fully specify the matrix <bold>Q</bold> &#x02208; &#x0211D;<sup><italic>n</italic>&#x000D7;<italic>n</italic></sup> and the vector <bold>q</bold> &#x02208; &#x0211D;<sup><italic>n</italic></sup>. For the (regularized) linear regression model (3) this would require to compute <bold>Q</bold><sub>LR</sub> (cf. 12) from the training data <inline-formula><mml:math id="M89"><mml:mrow><mml:mi mathvariant="-tex-caligraphic">X</mml:mi></mml:mrow><mml:mo>=</mml:mo><mml:msubsup><mml:mrow><mml:mrow><mml:mo>{</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>z</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>i</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:mo>}</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>i</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mi>N</mml:mi></mml:mrow></mml:msubsup></mml:math></inline-formula>. Computing the matrix <bold>Q</bold><sub>LR</sub> in a naive way, i.e., without exploiting any additional structure, amounts to a number of arithmetic operations on the order of <italic>N</italic> &#x000B7; <italic>n</italic><sup>2</sup>. This might be prohibitive in a typical big data application with <italic>N</italic> and <italic>n</italic> being on the order of billions and using distributed storage of the training data <inline-formula><mml:math id="M90"><mml:mrow><mml:mi mathvariant="-tex-caligraphic">X</mml:mi></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B12">12</xref>].</p>
<p>There has emerged a widely accepted computational model for convex optimization which abstracts away the details of the computational (hard- and software) infrastructure. Within this computational model, an optimization method for solving (1) is not provided with a complete description of the objective function, but rather it can access the objective function only via an &#x0201C;oracle&#x0201D; [<xref ref-type="bibr" rid="B2">2</xref>, <xref ref-type="bibr" rid="B13">13</xref>].</p>
<p>We might think of an oracle model as an application programming interface (API), which specifies the format of queries which can be issued by a convex optimization method executed on an application layer (cf. Figure <xref ref-type="fig" rid="F3">3</xref>). There are different types of oracle models but one of the most popular type (in particular for big data applications) is a first order oracle [<xref ref-type="bibr" rid="B13">13</xref>]. Given a query point <bold>x</bold> &#x02208; &#x0211D;<sup><italic>n</italic></sup>, a first order oracle returns the gradient &#x02207;<italic>f</italic>(<bold>x</bold>) of the objective function at this particular point.</p>
<fig id="F3" position="float">
<label>Figure 3</label>
<caption><p>Programming model underlying a FOM.</p></caption>
<graphic xlink:href="fams-03-00018-g0003.tif"/>
</fig>
<p>A first order method (FOM) aims at solving (1) by sequentially querying a first order oracle, at the current iterate <bold>x</bold><sup>(<italic>k</italic>)</sup>, to obtain the gradient &#x02207;<italic>f</italic>(<bold>x</bold><sup>(<italic>k</italic>)</sup>) (cf. Figure <xref ref-type="fig" rid="F3">3</xref>). Using the current and past information obtained from the oracle, a FOM then constructs the new iterate <bold>x</bold><sup>(<italic>k</italic> &#x0002B; 1)</sup> such that eventually <inline-formula><mml:math id="M91"><mml:msub><mml:mi>lim</mml:mi><mml:mrow><mml:mi>k</mml:mi><mml:mo>&#x02192;</mml:mo><mml:mi>&#x0221E;</mml:mi></mml:mrow></mml:msub><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>=</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub></mml:math></inline-formula>. For the sake of simplicity and without essential loss in generality, we will only consider FOMs whose iterates <bold>x</bold><sup>(<italic>k</italic>)</sup> satisfy [<xref ref-type="bibr" rid="B13">13</xref>]</p>
<disp-formula id="E45"><label>(29)</label><mml:math id="M154"><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>&#x02208;</mml:mo><mml:mtext>span</mml:mtext><mml:mo>&#x0007B;</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>0</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>,</mml:mo><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>0</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo stretchy='false'>)</mml:mo><mml:mo>,</mml:mo><mml:mo>&#x02026;</mml:mo><mml:mo>,</mml:mo><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo stretchy='false'>)</mml:mo><mml:mo>&#x0007D;</mml:mo><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
</sec>
<sec id="s5">
<title>5. Lower bounds on number of iterations</title>
<p>According to Section (3), solving (1) can be accomplished by the simple GD iterations (26). The particular choice &#x003B1;<sup>&#x0002A;</sup> (27) for the step size &#x003B1; in (26) ensures the convergence rate <inline-formula><mml:math id="M92"><mml:msup><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mo>&#x003BA;</mml:mo><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mi>k</mml:mi></mml:msup></mml:math></inline-formula> with the condition number &#x003BA; &#x0003D; <italic>U</italic>/<italic>L</italic> of the function class <inline-formula><mml:math id="M93"><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula>. While this convergence is quite fast, i.e., the error decays exponentially with iteration number <italic>k</italic>, we would, of course, like to know how efficient this method is in general.</p>
<p>As detailed in Section (4), in order to study the computational complexity and efficiency of convex optimization methods, we have to define a computational model such as those underlying FOMs (cf. Figure <xref ref-type="fig" rid="F3">3</xref>). The next result provides a fundamental lower bound on the convergence rate of any FOM (cf. 29) for solving (1).</p>
<p><bold>Theorem 6</bold>. <italic>Consider a particular FOM, which for a given convex function</italic> <inline-formula><mml:math id="M94"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> <italic>generates iterates</italic> <bold>x</bold><sup>(<italic>k</italic>)</sup> <italic>satisfying</italic> (29). <italic>For fixed L, U there is a sequence of functions</italic> <inline-formula><mml:math id="M95"><mml:msub><mml:mrow><mml:mi>f</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> <italic>(indexed by dimension n) such that</italic></p>
<disp-formula id="E46"><label>(30)</label><mml:math id="M155"><mml:mrow><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mo>&#x02265;</mml:mo><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>0</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt></mml:mrow><mml:mrow><mml:mn>1</mml:mn><mml:mo>+</mml:mo><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:mrow><mml:mi>k</mml:mi></mml:msup><mml:mo>&#x02212;</mml:mo><mml:mo stretchy='false'>&#x0007C;</mml:mo><mml:mo>&#x003B4;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>&#x0007C;</mml:mo></mml:mrow></mml:math></disp-formula>
<p>with a sequence &#x003B4;(<italic>n</italic>) such that <inline-formula><mml:math id="M96"><mml:msub><mml:mi>lim</mml:mi><mml:mrow><mml:mi>n</mml:mi><mml:mo>&#x02192;</mml:mo><mml:mi>&#x0221E;</mml:mi></mml:mrow></mml:msub><mml:mo>&#x0007C;</mml:mo><mml:mi>&#x003B4;</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo><mml:mo>&#x0007C;</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:math></inline-formula>.</p>
<p><italic>Proof</italic>. see Section (8.1).&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x025A1;</p>
<p>There is a considerable gap between the upper bound (28) on the error achieved by GD after <italic>k</italic> iterations and the lower bound (30) which applies to any FOM which is run for the same number iterations. In order to illustrate this gap, we have plotted in Figure <xref ref-type="fig" rid="F4">4</xref> the upper and lower bound for the (quite moderate) condition number &#x003BA; &#x0003D; 100.</p>
<fig id="F4" position="float">
<label>Figure 4</label>
<caption><p>Upper bound (28) on convergence rate of GD and lower bound (30) on convergence rate for any FOM minimizing functions <inline-formula><mml:math id="M97"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> with condition number &#x003BA; &#x0003D; <italic>U</italic>/<italic>L</italic> &#x0003D; 100.</p></caption>
<graphic xlink:href="fams-03-00018-g0004.tif"/>
</fig>
<p>Thus, there might exist a FOM which converges faster than the GD method (28) and comes more close to the lower bound (30). Indeed, in the next section, we will detail how to obtain an accelerated FOM by applying a fixed point preserving transformation to the operator <inline-formula><mml:math id="M98"><mml:mrow><mml:mi mathvariant="-tex-caligraphic">T</mml:mi></mml:mrow></mml:math></inline-formula> (cf. 16), which is underlying the GD method (26). This accelerated gradient method is known as the heavy balls (HB) method [<xref ref-type="bibr" rid="B14">14</xref>] and effectively achieves the lower bound (30), i.e., the HB method is already optimal among all FOM&#x00027;s for solving (1) with an objective function <inline-formula><mml:math id="M99"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula>.</p>
</sec>
<sec id="s6">
<title>6. Accelerating gradient descent</title>
<p>Let us now show how to modify the basic GD method (26) in order to obtain an accelerated FOM, whose convergence rate essentially matches the lower bound (30) for the function class <inline-formula><mml:math id="M100"><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> with condition number &#x003BA; &#x0003D; <italic>U</italic>/<italic>L</italic>&#x0003E;1 (cf. 7) and is therefore optimal among all FOMs.</p>
<p>Our derivation of this accelerated gradient method, which is inspired by the techniques used in Ghadimi et al. [<xref ref-type="bibr" rid="B15">15</xref>], starts from an equivalent formulation of GD as the fixed-point iteration</p>
<disp-formula id="E47"><label>(31)</label><mml:math id="M156"><mml:mrow><mml:msup><mml:mrow><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x000AF;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>=</mml:mo><mml:mover accent='true'><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mo stretchy='true'>&#x000AF;</mml:mo></mml:mover><mml:msup><mml:mrow><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x000AF;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup></mml:mrow></mml:math></disp-formula>
<p>with the operator</p>
<disp-formula id="E48"><label>(32)</label><mml:math id="M157"><mml:mrow><mml:mover accent='true'><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mo stretchy='true'>&#x000AF;</mml:mo></mml:mover><mml:mo>:</mml:mo><mml:msup><mml:mo>&#x0211D;</mml:mo><mml:mrow><mml:mn>2</mml:mn><mml:mi>n</mml:mi></mml:mrow></mml:msup><mml:mo>&#x02192;</mml:mo><mml:msup><mml:mo>&#x0211D;</mml:mo><mml:mrow><mml:mn>2</mml:mn><mml:mi>n</mml:mi></mml:mrow></mml:msup><mml:mo>:</mml:mo><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>v</mml:mi></mml:mstyle></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mo>&#x021A6;</mml:mo><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle><mml:mo>&#x02212;</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x02207;</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mi mathvariant="-tex-caligraphic">T</mml:mi><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>As can be verified easily, the fixed-point iteration (31) starting from an arbitrary initial guess <inline-formula><mml:math id="M101"><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mover accent='true'><mml:mi>x</mml:mi><mml:mo>&#x000AF;</mml:mo></mml:mover></mml:mstyle><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mn>0</mml:mn><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>=</mml:mo><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>z</mml:mi></mml:mstyle><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mn>0</mml:mn><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>y</mml:mi></mml:mstyle><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mn>0</mml:mn><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:math></inline-formula> is related to the GD iterate <bold>x</bold><sup>(<italic>k</italic>)</sup> (cf. 26), using initial guess <bold>z</bold><sup>(0)</sup>, as</p>
<disp-formula id="E49"><label>(33)</label><mml:math id="M158"><mml:mrow><mml:msup><mml:mrow><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x000AF;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>=</mml:mo><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:math></disp-formula>
<p>for all iterations <italic>k</italic> &#x02265; 1.</p>
<p>By the equivalence (33), Theorem (5) implies that for any initial guess <inline-formula><mml:math id="M102"><mml:msup><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo>&#x00304;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>0</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:math></inline-formula> the iterations (31) converge to the fixed point</p>
<disp-formula id="E50"><label>(34)</label><mml:math id="M159"><mml:mrow><mml:msub><mml:mrow><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x000AF;</mml:mo></mml:mover></mml:mrow><mml:mn>0</mml:mn></mml:msub><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mrow><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mo>&#x0211D;</mml:mo><mml:mrow><mml:mn>2</mml:mn><mml:mi>n</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:math></disp-formula>
<p>with <bold>x</bold><sub>0</sub> being the unique minimizer of <inline-formula><mml:math id="M103"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula>. Moreover, the convergence rate of the fixed-point iterations (31) is precisely the same as those of the GD method, i.e., governed by the decay of <inline-formula><mml:math id="M104"><mml:msup><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mo>&#x003BA;</mml:mo><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mi>k</mml:mi></mml:msup></mml:math></inline-formula>, which is obtained for the optimal step size &#x003B1; &#x0003D; &#x003B1;<sup>&#x0002A;</sup> (cf. 27).</p>
<p>We will now modify the operator <inline-formula><mml:math id="M105"><mml:mover accent="false" class="mml-overline"><mml:mrow><mml:mrow><mml:mi mathvariant="-tex-caligraphic">T</mml:mi></mml:mrow></mml:mrow><mml:mo accent="true">&#x000AF;</mml:mo></mml:mover></mml:math></inline-formula> in (32) to obtain a new operator <inline-formula><mml:math id="M106"><mml:mrow><mml:mi mathvariant="-tex-caligraphic">M</mml:mi></mml:mrow><mml:mo>:</mml:mo><mml:msup><mml:mrow><mml:mo>&#x0211D;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn><mml:mi>n</mml:mi></mml:mrow></mml:msup><mml:mo>&#x02192;</mml:mo><mml:msup><mml:mrow><mml:mo>&#x0211D;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn><mml:mi>n</mml:mi></mml:mrow></mml:msup></mml:math></inline-formula> which has the same fixed points (34) but improved contraction behavior, i.e., the fixed point iteration</p>
<disp-formula id="E51"><label>(35)</label><mml:math id="M160"><mml:mrow><mml:msup><mml:mrow><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x002DC;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>=</mml:mo><mml:mi mathvariant="-tex-caligraphic">M</mml:mi><mml:msup><mml:mrow><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x002DC;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>,</mml:mo></mml:mrow></mml:math></disp-formula>
<p>will converge faster than those obtained from <inline-formula><mml:math id="M107"><mml:mover accent="false" class="mml-overline"><mml:mrow><mml:mrow><mml:mi mathvariant="-tex-caligraphic">T</mml:mi></mml:mrow></mml:mrow><mml:mo accent="true">&#x000AF;</mml:mo></mml:mover></mml:math></inline-formula> in (31) (cf. Figure <xref ref-type="fig" rid="F5">5</xref>). In particular, this improved operator <inline-formula><mml:math id="M108"><mml:mrow><mml:mi mathvariant="-tex-caligraphic">M</mml:mi></mml:mrow></mml:math></inline-formula> is defined as</p>
<disp-formula id="E52"><label>(36)</label><mml:math id="M161"><mml:mrow><mml:mi mathvariant="-tex-caligraphic">M</mml:mi><mml:mo>:</mml:mo><mml:msup><mml:mo>&#x0211D;</mml:mo><mml:mrow><mml:mn>2</mml:mn><mml:mi>n</mml:mi></mml:mrow></mml:msup><mml:mo>&#x02192;</mml:mo><mml:msup><mml:mo>&#x0211D;</mml:mo><mml:mrow><mml:mn>2</mml:mn><mml:mi>n</mml:mi></mml:mrow></mml:msup><mml:mo>:</mml:mo><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>v</mml:mi></mml:mstyle></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mo>&#x021A6;</mml:mo><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle><mml:mo>&#x02212;</mml:mo><mml:mover accent='true'><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mo>&#x02207;</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle><mml:mo>+</mml:mo><mml:mover accent='true'><mml:mo>&#x003B2;</mml:mo><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mo stretchy='false'>(</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle><mml:mo>&#x02212;</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>v</mml:mi></mml:mstyle><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mrow></mml:math></disp-formula>
<p>with</p>
<disp-formula id="E53"><label>(37)</label><mml:math id="M162"><mml:mrow><mml:mover accent='true'><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mfrac><mml:mn>4</mml:mn><mml:mrow><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:msqrt><mml:mi>U</mml:mi></mml:msqrt><mml:mo>+</mml:mo><mml:msqrt><mml:mi>L</mml:mi></mml:msqrt><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mn>2</mml:mn></mml:msup></mml:mrow></mml:mfrac><mml:mo>,</mml:mo><mml:mtext>and&#x000A0;</mml:mtext><mml:mover accent='true'><mml:mo>&#x003B2;</mml:mo><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo>[</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:msqrt><mml:mi>U</mml:mi></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:msqrt><mml:mi>L</mml:mi></mml:msqrt></mml:mrow><mml:mrow><mml:msqrt><mml:mi>U</mml:mi></mml:msqrt><mml:mo>+</mml:mo><mml:msqrt><mml:mi>L</mml:mi></mml:msqrt></mml:mrow></mml:mfrac></mml:mrow><mml:mo>]</mml:mo></mml:mrow></mml:mrow><mml:mn>2</mml:mn></mml:msup><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<fig id="F5" position="float">
<label>Figure 5</label>
<caption><p>Schematic illustration of the fixed-point iteration using operator <inline-formula><mml:math id="M109"><mml:mover accent="false" class="mml-overline"><mml:mrow><mml:mrow><mml:mi mathvariant="-tex-caligraphic">T</mml:mi></mml:mrow></mml:mrow><mml:mo accent="true">&#x000AF;</mml:mo></mml:mover></mml:math></inline-formula> (32) (equivalent to GD) and for the modified operator <inline-formula><mml:math id="M110"><mml:mrow><mml:mi mathvariant="-tex-caligraphic">M</mml:mi></mml:mrow></mml:math></inline-formula> (36) (yielding HB method).</p></caption>
<graphic xlink:href="fams-03-00018-g0005.tif"/>
</fig>
<p>As can be verified easily, the fixed point <inline-formula><mml:math id="M111"><mml:msup><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn><mml:mi>T</mml:mi></mml:msubsup><mml:mo>,</mml:mo><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn><mml:mi>T</mml:mi></mml:msubsup></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mi>T</mml:mi></mml:msup></mml:math></inline-formula> of <inline-formula><mml:math id="M112"><mml:mover accent="false" class="mml-overline"><mml:mrow><mml:mrow><mml:mi mathvariant="-tex-caligraphic">T</mml:mi></mml:mrow></mml:mrow><mml:mo accent="true">&#x000AF;</mml:mo></mml:mover></mml:math></inline-formula> is also a fixed point of <inline-formula><mml:math id="M113"><mml:mrow><mml:mi mathvariant="-tex-caligraphic">M</mml:mi></mml:mrow></mml:math></inline-formula>.</p>
<p>Before we analyze the convergence rate of the fixed-point iteration (35), let us work out explicitly the FOM which is represented by the fixed-point iteration (35). To this end, we partition the <italic>k</italic>th iterate, for <italic>k</italic> &#x02265; 1, as</p>
<disp-formula id="E54"><label>(38)</label><mml:math id="M163"><mml:mrow><mml:msup><mml:mrow><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x002DC;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mrow><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>Inserting (38) into (35), we have for <italic>k</italic> &#x02265; 1</p>
<disp-formula id="E55"><label>(39)</label><mml:math id="M164"><mml:mrow><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup><mml:mo>=</mml:mo><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup><mml:mo>&#x02212;</mml:mo><mml:mover accent='true'><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mo>&#x02207;</mml:mo><mml:mi>f</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup><mml:mo stretchy='false'>)</mml:mo><mml:mo>+</mml:mo><mml:mover accent='true'><mml:mo>&#x003B2;</mml:mo><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mo stretchy='false'>(</mml:mo><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup><mml:mo>&#x02212;</mml:mo><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>2</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:math></disp-formula>
<p>with the convention <inline-formula><mml:math id="M114"><mml:msubsup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mstyle mathvariant="bold"><mml:mn>0</mml:mn></mml:mstyle></mml:math></inline-formula>. The iteration (39) defines the HB method [<xref ref-type="bibr" rid="B14">14</xref>] for solving the optimization problem (1). As can be verified easily, like the GD method, the HB method is a FOM. However, contrary to the GD iteration (26), the HB iteration (39) also involves the penultimate iterate <inline-formula><mml:math id="M115"><mml:msubsup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi><mml:mo>-</mml:mo><mml:mn>2</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:math></inline-formula> for determining the new iterate <inline-formula><mml:math id="M116"><mml:msubsup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:math></inline-formula>.</p>
<p>We will now characterize the converge rate of the HB method (39) via its fixed-point equivalent (35). To this end, we restrict ourselves to the subclass of <inline-formula><mml:math id="M117"><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> given by quadratic functions of the form (8).</p>
<p><bold>Theorem 7</bold>. <italic>Consider the optimization problem</italic> (1) with objective function <inline-formula><mml:math id="M118"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> which is a quadratic (26). Starting from an arbitrarily chosen initial guess <inline-formula><mml:math id="M119"><mml:msubsup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:math></inline-formula> and <inline-formula><mml:math id="M120"><mml:msubsup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>0</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:math></inline-formula>, we construct a sequence <inline-formula><mml:math id="M121"><mml:msubsup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:math></inline-formula> via iterating (27). Then,</p>
<disp-formula id="E56"><label>(40)</label><mml:math id="M165"><mml:mrow><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mo>&#x02264;</mml:mo><mml:mi>C</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mi>k</mml:mi><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mi>k</mml:mi></mml:msup><mml:mo stretchy='false'>(</mml:mo><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>0</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mo>+</mml:mo><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>with</p>
<disp-formula id="E57"><mml:math id="M166"><mml:mrow><mml:mi>C</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mn>4</mml:mn><mml:mo stretchy='false'>(</mml:mo><mml:mn>2</mml:mn><mml:mo>+</mml:mo><mml:mn>2</mml:mn><mml:mover accent='true'><mml:mo>&#x003B2;</mml:mo><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mo>+</mml:mo><mml:mover accent='true'><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mo stretchy='false'>)</mml:mo><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac><mml:mo>.</mml:mo><mml:mtext>&#x000A0;</mml:mtext></mml:mrow></mml:math></disp-formula>
<p><italic>Proof</italic>. see Section (8.2).&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x025A1;</p>
<p>The upper bound (40) differs from the lower bound (30) by the factor <italic>k</italic>. However, the discrepancy is rather decent as this linear factor in (40) grows much slower than the exponential <inline-formula><mml:math id="M122"><mml:msup><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mi>k</mml:mi></mml:msup></mml:math></inline-formula> in (40) decays. In Figure <xref ref-type="fig" rid="F6">6</xref>, we depict the upper bound (40) on the error of the HB iterations (39) along with the upper bound (28) on the error of the GD iterations (26) and the lower bound (30) on the error of any FOM after <italic>k</italic> iterations.</p>
<fig id="F6" position="float">
<label>Figure 6</label>
<caption><p>Dependence on iteration number <italic>k</italic> of the upper bound (40) on error of HB (solid), upper bound (28) for error of GD (dashed) and lower bound (30) (dotted) for FOMs for the function class <inline-formula><mml:math id="M123"><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> with condition number &#x003BA; &#x0003D; <italic>U</italic>/<italic>L</italic> &#x0003D; 100.</p></caption>
<graphic xlink:href="fams-03-00018-g0006.tif"/>
</fig>
<p>We highlight that, strictly speaking, the bound (40) only applies to a subclass of smooth strongly convex functions <inline-formula><mml:math id="M124"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula>, i.e., it applies only to quadratic functions of the form (8). However, as discussed in Section (2), given a particular point <bold>x</bold>, we can approximate an arbitrary function <inline-formula><mml:math id="M125"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> with a quadratic function <inline-formula><mml:math id="M126"><mml:mover accent="true"><mml:mrow><mml:mi>f</mml:mi></mml:mrow><mml:mo>&#x0007E;</mml:mo></mml:mover><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula> of the form (8). The approximation error &#x003B5;(<bold>x</bold>) (cf. (11)) will be small for all points <bold>x</bold> sufficiently close to <bold>x</bold><sub>0</sub>. Making this reasoning more precise and using well-known results on fixed-point iterations with inexact updates [<xref ref-type="bibr" rid="B6">6</xref>], one can verify that the bound (40) essentially applies to any function <inline-formula><mml:math id="M127"><mml:mi>f</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula>.</p>
</sec>
<sec sec-type="conclusions" id="s7">
<title>7. Conclusions</title>
<p>We have presented a fixed-point theory of some basic gradient methods for minimizing convex functions. The approach via fixed-point theory allows for a rather elegant analysis of the convergence properties of these gradient methods. In particular, their convergence rate is obtained as the contraction factor for an operator associated with the objective function.</p>
<p>The fixed-point approach is also appealing since it leads rather naturally to the acceleration of gradient methods via fixed-point preserving transformations of the underlying operator. We plan to further develop the fixed-point theory of gradient methods in order to accommodate stochastic variants of GD such as SGD. Furthermore, we can bring the popular class of proximal methods into the picture by replacing the gradient operator underlying GD with the proximal operator.</p>
<p>However, by contrast to FOMs (such as the GD method), proximal methods use a different oracle model (cf. Figure <xref ref-type="fig" rid="F3">3</xref>). In particular, proximal methods require an oracle which can evaluate the proximal mapping efficiently which is typically more expensive than gradient evaluations. Nonetheless, the popularity of proximal methods is due to the fact that for objective functions arising in many important machine learning applications, the proximal mapping can be evaluated efficiently.</p>
</sec>
<sec id="s8">
<title>8. Proofs of main results</title>
<p>In this section we present the (somewhat lengthy) proofs for the main results stated in Sections (5) and (6).</p>
<sec>
<title>8.1. Proof of Theorem (6)</title>
<p>Without loss of generality we consider FOM which use the initial guess <bold>x</bold><sup>(0)</sup> &#x0003D; <bold>0</bold>. Let us now construct a function <inline-formula><mml:math id="M128"><mml:msub><mml:mrow><mml:mi>f</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> which is particularly difficult to optimize by a FOM (cf. 29) such as the GD method (26). In particular, this function is the quadratic</p>
<disp-formula id="E58"><label>(41)</label><mml:math id="M167"><mml:mrow><mml:mover accent='true'><mml:mi>f</mml:mi><mml:mo>&#x0005E;</mml:mo></mml:mover><mml:mo stretchy='false'>(</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo stretchy='false'>)</mml:mo><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mn>2</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mi>T</mml:mi></mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>P</mml:mi><mml:mi>x</mml:mi></mml:mstyle><mml:mo>+</mml:mo><mml:msup><mml:mrow><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>q</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x002DC;</mml:mo></mml:mover></mml:mrow><mml:mi>T</mml:mi></mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle></mml:mrow></mml:math></disp-formula>
<p>with vector</p>
<disp-formula id="E59"><label>(42)</label><mml:math id="M168"><mml:mrow><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>q</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x002DC;</mml:mo></mml:mover><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:mi>L</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mn>4</mml:mn></mml:mfrac><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>,</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mo>&#x02026;</mml:mo><mml:mo>,</mml:mo><mml:mn>0</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mi>T</mml:mi></mml:msup><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mo>&#x0211D;</mml:mo><mml:mi>n</mml:mi></mml:msup></mml:mrow></mml:math></disp-formula>
<p>and matrix</p>
<disp-formula id="E60"><label>(43)</label><mml:math id="M169"><mml:mrow><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>P</mml:mi></mml:mstyle><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>L</mml:mi><mml:mo>/</mml:mo><mml:mn>4</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>Q</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x002DC;</mml:mo></mml:mover><mml:mo>+</mml:mo><mml:mi>L</mml:mi><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>I</mml:mi></mml:mstyle><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mo>&#x0211D;</mml:mo><mml:mrow><mml:mi>n</mml:mi><mml:mo>&#x000D7;</mml:mo><mml:mi>n</mml:mi></mml:mrow></mml:msup><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>The matrix <inline-formula><mml:math id="M129"><mml:mover accent="false"><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>Q</mml:mtext></mml:mstyle></mml:mrow><mml:mo>&#x0007E;</mml:mo></mml:mover></mml:math></inline-formula> is defined row-wise by successive circular shifts of its first row</p>
<disp-formula id="E61"><label>(44)</label><mml:math id="M170"><mml:mrow><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>q</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x002DC;</mml:mo></mml:mover><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>2</mml:mn><mml:mo>,</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo>,</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mo>&#x02026;</mml:mo><mml:mo>,</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mi>T</mml:mi></mml:msup><mml:mo>&#x02208;</mml:mo><mml:msup><mml:mo>&#x0211D;</mml:mo><mml:mi>n</mml:mi></mml:msup><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>Note that the matrix <bold>P</bold> in (43) is a circulant matrix [<xref ref-type="bibr" rid="B16">16</xref>] with orthonormal eigenvectors <inline-formula><mml:math id="M130"><mml:msubsup><mml:mrow><mml:mo>{</mml:mo><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>l</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mo>}</mml:mo></mml:mrow><mml:mrow><mml:mi>l</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>n</mml:mi></mml:msubsup></mml:math></inline-formula> given element-wise as</p>
<disp-formula id="E62"><label>(45)</label><mml:math id="M171"><mml:mrow><mml:msubsup><mml:mi>u</mml:mi><mml:mi>i</mml:mi><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>l</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup><mml:mo>=</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:msqrt><mml:mi>n</mml:mi></mml:msqrt><mml:mo stretchy='false'>)</mml:mo><mml:mi>exp</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mi>j</mml:mi><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>i</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>l</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>/</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>The eigenvalues &#x003BB;<sub><italic>l</italic></sub>(<bold>P</bold>) of the circulant matrix <bold>P</bold> are obtained as the discrete Fourier transform (DFT) coefficients of its first row [<xref ref-type="bibr" rid="B16">16</xref>]</p>
<disp-formula id="E63"><label>(46)</label><mml:math id="M131"><mml:mrow><mml:mtable columnalign='left'><mml:mtr columnalign='left'><mml:mtd columnalign='left'><mml:mrow><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>p</mml:mi></mml:mstyle><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:mi>L</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mn>4</mml:mn></mml:mfrac><mml:mover><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>q</mml:mi></mml:mstyle><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mo>+</mml:mo><mml:mi>L</mml:mi><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>e</mml:mi></mml:mstyle><mml:mn>1</mml:mn><mml:mi>T</mml:mi></mml:msubsup></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd columnalign='left'><mml:mrow><mml:mtext>&#x000A0;&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mover><mml:mo>=</mml:mo><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>44</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mover><mml:mfrac><mml:mrow><mml:mi>L</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mn>4</mml:mn></mml:mfrac><mml:mo stretchy='false'>(</mml:mo><mml:mn>2</mml:mn><mml:mo>,</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo>,</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mo>&#x02026;</mml:mo><mml:mo>,</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>+</mml:mo><mml:mi>L</mml:mi><mml:msup><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>,</mml:mo><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mo>&#x02026;</mml:mo><mml:mo>,</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:mrow><mml:mi>T</mml:mi></mml:msup><mml:mo>,</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow></mml:math></disp-formula>
<p>i.e.,</p>
<disp-formula id="E64"><label>(47)</label><mml:math id="M172"><mml:mtable columnalign='left'><mml:mtr><mml:mtd><mml:msub><mml:mo>&#x003BB;</mml:mo><mml:mi>l</mml:mi></mml:msub><mml:mo stretchy='false'>(</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>P</mml:mi></mml:mstyle><mml:mo stretchy='false'>)</mml:mo><mml:mo>=</mml:mo><mml:mstyle displaystyle='true'><mml:munderover><mml:mo>&#x02211;</mml:mo><mml:mrow><mml:mi>i</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>n</mml:mi></mml:munderover><mml:mrow><mml:msub><mml:mi>p</mml:mi><mml:mi>i</mml:mi></mml:msub></mml:mrow></mml:mstyle><mml:mi>exp</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mi>j</mml:mi><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>i</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>l</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>/</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mtext>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mover><mml:mo>=</mml:mo><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>46</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mover><mml:mo stretchy='false'>(</mml:mo><mml:mi>L</mml:mi><mml:mo>/</mml:mo><mml:mn>2</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>&#x02212;</mml:mo><mml:mi>cos</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>i</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>/</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo><mml:mo>+</mml:mo><mml:mi>L</mml:mi><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Thus, &#x003BB;<sub><italic>l</italic></sub>(<bold>P</bold>) &#x02208; [<italic>L, U</italic>] and, in turn, <inline-formula><mml:math id="M132"><mml:msub><mml:mrow><mml:mi>f</mml:mi></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x000B7;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mrow><mml:msubsup><mml:mi mathvariant="-tex-caligraphic">S</mml:mi><mml:mi>n</mml:mi><mml:mrow><mml:mi>L</mml:mi><mml:mo>,</mml:mo><mml:mi>U</mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> (cf. 6).</p>
<p>Consider the sequence <bold>x</bold><sup>(<italic>k</italic>)</sup> generated by some FOM, i.e., which satisfies (29), for the particular objective function <italic>f</italic><sub><italic>n</italic></sub>(<bold>x</bold>) (cf. 41) using initial guess <bold>x</bold><sub>0</sub> &#x0003D; <bold>0</bold>. It can be verified easily that the <italic>k</italic>th iterate <bold>x</bold><sup>(<italic>k</italic>)</sup> has only zero entries starting from index <italic>k</italic> &#x0002B; 1, i.e.,</p>
<disp-formula id="E65"><mml:math id="M173"><mml:mrow><mml:msubsup><mml:mi>x</mml:mi><mml:mi>l</mml:mi><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup><mml:mo>=</mml:mo><mml:mn>0</mml:mn><mml:mtext>&#x000A0;for&#x000A0;all&#x000A0;</mml:mtext><mml:mi>l</mml:mi><mml:mtext>&#x000A0;</mml:mtext><mml:mo>&#x02208;</mml:mo><mml:mo>&#x0007B;</mml:mo><mml:mi>k</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn><mml:mo>,</mml:mo><mml:mo>&#x02026;</mml:mo><mml:mo>,</mml:mo><mml:mi>n</mml:mi><mml:mo>&#x0007D;</mml:mo><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>This implies</p>
<disp-formula id="E66"><label>(48)</label><mml:math id="M208"><mml:mrow><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mo>&#x02265;</mml:mo><mml:mo stretchy='false'>&#x0007C;</mml:mo><mml:msub><mml:mi>x</mml:mi><mml:mrow><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mi>k</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo stretchy='false'>&#x0007C;</mml:mo><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>The main part of the proof is then to show that the minimizer <bold>x</bold><sub>0</sub> for the particular function <italic>f</italic><sub><italic>n</italic></sub>(&#x000B7;) cannot decay too fast, i.e., we will derive a lower bound on |<italic>x</italic><sub>0,<italic>k</italic>&#x0002B;1</sub>|.</p>
<p>Let us denote the DFT coefficients of the finite length discrete time signal represented by the vector <inline-formula><mml:math id="M133"><mml:mover accent="true"><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>q</mml:mtext></mml:mstyle></mml:mrow><mml:mo>&#x0007E;</mml:mo></mml:mover></mml:math></inline-formula> as</p>
<disp-formula id="E67"><label>(49)</label><mml:math id="M174"><mml:mtable columnalign='left'><mml:mtr><mml:mtd><mml:msub><mml:mi>c</mml:mi><mml:mi>l</mml:mi></mml:msub><mml:mo>=</mml:mo><mml:mstyle displaystyle='true'><mml:munderover><mml:mo>&#x02211;</mml:mo><mml:mrow><mml:mi>i</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>n</mml:mi></mml:munderover><mml:mrow><mml:msub><mml:mover accent='true'><mml:mi>q</mml:mi><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mi>i</mml:mi></mml:msub></mml:mrow></mml:mstyle><mml:mi>exp</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mi>j</mml:mi><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>i</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mi>l</mml:mi><mml:mo>/</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mtext>&#x000A0;&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mover><mml:mo>=</mml:mo><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>42</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mover><mml:mo stretchy='false'>(</mml:mo><mml:mi>L</mml:mi><mml:mo>/</mml:mo><mml:mn>4</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Using the optimality condition (13), the minimizer for (41) is</p>
<disp-formula id="E68"><label>(50)</label><mml:math id="M175"><mml:mrow><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo>=</mml:mo><mml:mo>&#x02212;</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>P</mml:mi></mml:mstyle><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>q</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x002DC;</mml:mo></mml:mover><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>Inserting the spectral decomposition <inline-formula><mml:math id="M134"><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>P</mml:mi></mml:mstyle><mml:mo>=</mml:mo><mml:mstyle displaystyle='true'><mml:munderover><mml:mo>&#x02211;</mml:mo><mml:mrow><mml:mi>l</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>n</mml:mi></mml:munderover><mml:mrow><mml:msub><mml:mo>&#x003BB;</mml:mo><mml:mi>l</mml:mi></mml:msub><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>l</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:msup><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>l</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:mrow><mml:mi>H</mml:mi></mml:msup></mml:mrow></mml:mstyle></mml:math></inline-formula> [<xref ref-type="bibr" rid="B16">16</xref>, Theorem 3.1] of the psd matrix <bold>P</bold> into (50),</p>
<disp-formula id="E69"><label>(51)</label><mml:math id="M176"><mml:mrow><mml:mtable columnalign='left'><mml:mtr columnalign='left'><mml:mtd columnalign='left'><mml:mrow><mml:msub><mml:mi>x</mml:mi><mml:mrow><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mi>k</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>P</mml:mi></mml:mstyle><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:mover><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>q</mml:mi></mml:mstyle><mml:mo>&#x002DC;</mml:mo></mml:mover></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:mrow><mml:mi>k</mml:mi></mml:msub></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd columnalign='left'><mml:mrow><mml:mtext>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mover><mml:mo>=</mml:mo><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>45</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mover><mml:mo>&#x02212;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo><mml:mstyle displaystyle='true'><mml:munderover><mml:mstyle mathsize='140%' displaystyle='true'><mml:mo>&#x02211;</mml:mo></mml:mstyle><mml:mrow><mml:mi>i</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>n</mml:mi></mml:munderover></mml:mstyle><mml:mo stretchy='false'>(</mml:mo><mml:msub><mml:mi>c</mml:mi><mml:mi>i</mml:mi></mml:msub><mml:mo>/</mml:mo><mml:msub><mml:mo>&#x003BB;</mml:mo><mml:mi>i</mml:mi></mml:msub><mml:mo stretchy='false'>)</mml:mo><mml:mi>exp</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mi>j</mml:mi><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>i</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>/</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd columnalign='left'><mml:mrow><mml:mover><mml:mo>=</mml:mo><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>47</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>,</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mn>49</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mover><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mn>1</mml:mn><mml:mi>n</mml:mi></mml:mfrac><mml:mstyle displaystyle='true'><mml:munderover><mml:mstyle mathsize='140%' displaystyle='true'><mml:mo>&#x02211;</mml:mo></mml:mstyle><mml:mrow><mml:mi>i</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mi>n</mml:mi></mml:munderover></mml:mstyle><mml:mfrac><mml:mrow><mml:mi>exp</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mi>j</mml:mi><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>i</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>/</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>&#x02212;</mml:mo><mml:mi>cos</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>i</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>/</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mo>+</mml:mo><mml:mn>4</mml:mn><mml:mo>/</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mfrac><mml:mo>.</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow></mml:math></disp-formula>
<p>We will also need a lower bound on the norm &#x02016;<bold>x</bold><sub>0</sub>&#x02016; of the minimizer of <italic>f</italic><sub><italic>n</italic></sub>(&#x000B7;). This bound can be obtained from (50) and &#x003BB;<sub><italic>l</italic></sub>(<bold>P</bold>) &#x02208; [<italic>L, U</italic>], i.e., <inline-formula><mml:math id="M135"><mml:mrow><mml:msub><mml:mi>&#x003BB;</mml:mi><mml:mi>l</mml:mi></mml:msub><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>P</mml:mi></mml:mstyle><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mo>&#x02208;</mml:mo><mml:mo stretchy='false'>[</mml:mo><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mi>U</mml:mi><mml:mo>,</mml:mo><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mi>L</mml:mi><mml:mo stretchy='false'>]</mml:mo></mml:mrow></mml:math></inline-formula>,</p>
<disp-formula id="E70"><label>(52)</label><mml:math id="M177"><mml:mrow><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mo>&#x02264;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mi>L</mml:mi><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>q</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x002DC;</mml:mo></mml:mover><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mover><mml:mo>=</mml:mo><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>42</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mover><mml:mfrac><mml:mrow><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mn>4</mml:mn></mml:mfrac><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>The last expression in (51) is a Riemann sum for the integral <inline-formula><mml:math id="M136"><mml:munderover accentunder="false" accent="false"><mml:mrow><mml:mo>&#x0222B;</mml:mo></mml:mrow><mml:mrow><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:munderover><mml:mfrac><mml:mrow><mml:mo class="qopname">exp</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>-</mml:mo><mml:mi>j</mml:mi><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo>&#x003B8;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mn>2</mml:mn><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>-</mml:mo><mml:mo class="qopname">exp</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>-</mml:mo><mml:mi>j</mml:mi><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo>&#x003B8;</mml:mo></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>&#x0002B;</mml:mo><mml:mn>4</mml:mn><mml:mo>/</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mo>&#x003BA;</mml:mo><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mfrac><mml:mi>d</mml:mi><mml:mo>&#x003B8;</mml:mo></mml:math></inline-formula>. Indeed, by basic calculus [<xref ref-type="bibr" rid="B10">10</xref>, Theorem 6.8]</p>
<disp-formula id="E71"><label>(53)</label><mml:math id="M178"><mml:mrow><mml:msub><mml:mi>x</mml:mi><mml:mrow><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mi>k</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mstyle displaystyle='true'><mml:mrow><mml:munderover><mml:mo>&#x0222B;</mml:mo><mml:mrow><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mn>1</mml:mn></mml:munderover><mml:mrow><mml:mfrac><mml:mrow><mml:mi>exp</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mi>j</mml:mi><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>&#x003B8;</mml:mo><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>&#x02212;</mml:mo><mml:mi>cos</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo>&#x003B8;</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mo>+</mml:mo><mml:mn>4</mml:mn><mml:mo>/</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:mrow></mml:mstyle><mml:mi>d</mml:mi><mml:mo>&#x003B8;</mml:mo><mml:mo>+</mml:mo><mml:mo>&#x003B4;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:math></disp-formula>
<p>where the error &#x003B4;(<italic>n</italic>) becomes arbitrarily small for sufficiently large <italic>n</italic>, i.e., <inline-formula><mml:math id="M137"><mml:munder class="msub"><mml:mrow><mml:mo class="qopname">lim</mml:mo></mml:mrow><mml:mrow><mml:mi>n</mml:mi><mml:mo>&#x02192;</mml:mo><mml:mo>&#x0221E;</mml:mo></mml:mrow></mml:munder><mml:mo>|</mml:mo><mml:mo>&#x003B4;</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>n</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>|</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:math></inline-formula>.</p>
<p>According to Lemma (9),</p>
<disp-formula id="E72"><mml:math id="M179"><mml:mrow><mml:mstyle displaystyle='true'><mml:mrow><mml:munderover><mml:mo>&#x0222B;</mml:mo><mml:mrow><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mn>1</mml:mn></mml:munderover><mml:mrow><mml:mfrac><mml:mrow><mml:mi>exp</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mi>j</mml:mi><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>&#x003B8;</mml:mo><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>&#x02212;</mml:mo><mml:mi>cos</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo>&#x003B8;</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mo>+</mml:mo><mml:mn>4</mml:mn><mml:mo>/</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:mrow></mml:mstyle><mml:mi>d</mml:mi><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>4</mml:mn><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mi>k</mml:mi></mml:msup><mml:mo>,</mml:mo></mml:mrow></mml:math></disp-formula>
<p>which, by inserting into (53), yields</p>
<disp-formula id="E73"><label>(54)</label><mml:math id="M180"><mml:mrow><mml:msub><mml:mi>x</mml:mi><mml:mrow><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mi>k</mml:mi></mml:mrow></mml:msub><mml:mo>=</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mrow><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>4</mml:mn><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mi>k</mml:mi></mml:msup><mml:mo>+</mml:mo><mml:mo>&#x003B4;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>Putting together the pieces,</p>
<disp-formula id="E74"><mml:math id="M181"><mml:mrow><mml:mtable columnalign='left'><mml:mtr columnalign='left'><mml:mtd columnalign='left'><mml:mrow><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mover><mml:mo>&#x02265;</mml:mo><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>48</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mover><mml:mo stretchy='false'>&#x0007C;</mml:mo><mml:msub><mml:mi>x</mml:mi><mml:mrow><mml:mn>0</mml:mn><mml:mo>,</mml:mo><mml:mi>k</mml:mi><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo stretchy='false'>&#x0007C;</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd columnalign='left'><mml:mrow><mml:mover><mml:mo>&#x02265;</mml:mo><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>54</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mover><mml:mfrac><mml:mrow><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>4</mml:mn><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt></mml:mrow></mml:mfrac><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:msup><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:mrow><mml:mi>k</mml:mi></mml:msup><mml:mo>&#x02212;</mml:mo><mml:mo stretchy='false'>&#x0007C;</mml:mo><mml:mo>&#x003B4;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>&#x0007C;</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd columnalign='left'><mml:mrow><mml:mover><mml:mo>&#x02265;</mml:mo><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>52</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mover><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt></mml:mrow><mml:mrow><mml:mn>1</mml:mn><mml:mo>+</mml:mo><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:mrow><mml:mi>k</mml:mi></mml:msup><mml:mo>&#x02212;</mml:mo><mml:mo stretchy='false'>&#x0007C;</mml:mo><mml:mo>&#x003B4;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>&#x0007C;</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd columnalign='left'><mml:mrow><mml:mover><mml:mo>=</mml:mo><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>0</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>=</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mn>0</mml:mn></mml:mstyle></mml:mrow></mml:mover><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>0</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mfrac><mml:mrow><mml:mn>1</mml:mn><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt></mml:mrow><mml:mrow><mml:mn>1</mml:mn><mml:mo>+</mml:mo><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:mrow><mml:mi>k</mml:mi></mml:msup><mml:mo>&#x02212;</mml:mo><mml:mo stretchy='false'>&#x0007C;</mml:mo><mml:mo>&#x003B4;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>&#x0007C;</mml:mo><mml:mo>.</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow></mml:math></disp-formula>
</sec>
<sec>
<title>8.2. Proof of Theorem (7)</title>
<p>By evaluating the operator <inline-formula><mml:math id="M138"><mml:mrow><mml:mi mathvariant="-tex-caligraphic">M</mml:mi></mml:mrow></mml:math></inline-formula> (cf. 36) for a quadratic function <italic>f</italic>(&#x000B7;) of the form (8), we can verify</p>
<disp-formula id="E75"><label>(55)</label><mml:math id="M182"><mml:mrow><mml:mi>M</mml:mi><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo>&#x02212;</mml:mo><mml:mi>M</mml:mi><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>y</mml:mi></mml:mstyle><mml:mo>=</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>R</mml:mi></mml:mstyle><mml:mo stretchy='false'>(</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo>&#x02212;</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>y</mml:mi></mml:mstyle><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:math></disp-formula>
<p>with the matrix</p>
<disp-formula id="E76"><label>(56)</label><mml:math id="M183"><mml:mrow><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>R</mml:mi></mml:mstyle><mml:mo>=</mml:mo><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>+</mml:mo><mml:mover accent='true'><mml:mo>&#x003B2;</mml:mo><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mo stretchy='false'>)</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>I</mml:mi></mml:mstyle><mml:mo>&#x02212;</mml:mo><mml:mover accent='true'><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>Q</mml:mi></mml:mstyle></mml:mrow></mml:mtd><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mover accent='true'><mml:mo>&#x003B2;</mml:mo><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>I</mml:mi></mml:mstyle></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>I</mml:mi></mml:mstyle></mml:mtd><mml:mtd><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mn>0</mml:mn></mml:mstyle></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>This matrix <bold>R</bold> &#x02208; &#x0211D;<sup>2<italic>n</italic>&#x000D7;2<italic>n</italic></sup> is a 2 &#x000D7; 2 block matrix whose individual blocks can be diagonalized simultaneously via the orthonormal eigenvectors <bold>U</bold> &#x0003D; (<bold>u</bold><sup>(1)</sup>, &#x02026;, <bold>u</bold><sup>(<italic>n</italic>)</sup>) of the psd matrix <bold>Q</bold>. Inserting the spectral decomposition <inline-formula><mml:math id="M139"><mml:mstyle mathvariant="bold"><mml:mtext>Q</mml:mtext></mml:mstyle><mml:mo>=</mml:mo><mml:mstyle mathvariant="bold"><mml:mtext>U</mml:mtext></mml:mstyle><mml:mtext>diag</mml:mtext><mml:msubsup><mml:mrow><mml:mrow><mml:mo>{</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mo>&#x003BB;</mml:mo></mml:mrow><mml:mrow><mml:mi>i</mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo>}</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>i</mml:mi><mml:mo>=</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mi>n</mml:mi></mml:mrow></mml:msubsup><mml:msup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>U</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mi>H</mml:mi></mml:mrow></mml:msup></mml:math></inline-formula> into (56),</p>
<disp-formula id="E77"><label>(57)</label><mml:math id="M184"><mml:mrow><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>R</mml:mi></mml:mstyle><mml:mo>=</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>U</mml:mi><mml:mi>P</mml:mi><mml:mi>B</mml:mi></mml:mstyle><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>P</mml:mi></mml:mstyle><mml:mi>H</mml:mi></mml:msup><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>U</mml:mi></mml:mstyle><mml:mi>H</mml:mi></mml:msup><mml:mo>,</mml:mo></mml:mrow></mml:math></disp-formula>
<p>with some (orthonormal) permutation matrix <bold>P</bold> and a block diagonal matrix</p>
<disp-formula id="E78"><label>(58)</label><mml:math id="M185"><mml:mrow><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>B</mml:mi></mml:mstyle><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>B</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup></mml:mrow></mml:mtd><mml:mtd><mml:mo>&#x02026;</mml:mo></mml:mtd><mml:mtd><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mn>0</mml:mn></mml:mstyle></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mn>0</mml:mn></mml:mstyle></mml:mtd><mml:mtd><mml:mo>&#x022F1;</mml:mo></mml:mtd><mml:mtd><mml:mo>&#x022EE;</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mn>0</mml:mn></mml:mstyle></mml:mtd><mml:mtd><mml:mo>&#x02026;</mml:mo></mml:mtd><mml:mtd><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>B</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>n</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mo>,</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>B</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>i</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:mn>1</mml:mn><mml:mo>+</mml:mo><mml:mover accent='true'><mml:mo>&#x003B2;</mml:mo><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mo>&#x02212;</mml:mo><mml:mover accent='true'><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:msub><mml:mo>&#x003BB;</mml:mo><mml:mi>i</mml:mi></mml:msub></mml:mrow></mml:mtd><mml:mtd><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mover accent='true'><mml:mo>&#x003B2;</mml:mo><mml:mo>&#x002DC;</mml:mo></mml:mover></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>1</mml:mn></mml:mtd><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>Combining (57) with (55) and inserting into (35) yields</p>
<disp-formula id="E79"><label>(59)</label><mml:math id="M186"><mml:mrow><mml:msup><mml:mrow><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x002DC;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mrow><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x002DC;</mml:mo></mml:mover></mml:mrow><mml:mn>0</mml:mn></mml:msub><mml:mo>=</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>U</mml:mi><mml:mi>P</mml:mi></mml:mstyle><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>B</mml:mi></mml:mstyle><mml:mi>k</mml:mi></mml:msup><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>P</mml:mi></mml:mstyle><mml:mi>H</mml:mi></mml:msup><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>U</mml:mi></mml:mstyle><mml:mi>H</mml:mi></mml:msup><mml:mo stretchy='false'>(</mml:mo><mml:msup><mml:mrow><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x002DC;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>0</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mrow><mml:mover accent='true'><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo stretchy='true'>&#x002DC;</mml:mo></mml:mover></mml:mrow><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>)</mml:mo><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>In order to control the convergence rate of the iterations (35), i.e., the decay of the error <inline-formula><mml:math id="M140"><mml:mo>|</mml:mo><mml:mo>|</mml:mo><mml:msup><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo>&#x0007E;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo>-</mml:mo><mml:msub><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mo>&#x0007E;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mn>0</mml:mn></mml:mrow></mml:msub><mml:mo>|</mml:mo><mml:mo>|</mml:mo></mml:math></inline-formula>, we will now derive an upper bound on the spectral norm of the block diagonal matrix <bold>B</bold><sup><italic>k</italic></sup> (cf. 58).</p>
<p>Due to the block diagonal structure (58), we can control the norm of <bold>B</bold><sup><italic>k</italic></sup> via controlling the norm of the powers of its diagonal blocks (<bold>B</bold><sup>(<italic>i</italic>)</sup>)<sup><italic>k</italic></sup> since</p>
<disp-formula id="E80"><label>(60)</label><mml:math id="M187"><mml:mrow><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>B</mml:mi></mml:mstyle><mml:mi>k</mml:mi></mml:msup><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mo>=</mml:mo><mml:munder><mml:mrow><mml:mi>max</mml:mi></mml:mrow><mml:mi>i</mml:mi></mml:munder><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>B</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>i</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mi>k</mml:mi></mml:msup><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>A pen and paper exercise reveals</p>
<disp-formula id="E81"><label>(61)</label><mml:math id="M188"><mml:mrow><mml:mo>&#x003C1;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>B</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>i</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo stretchy='false'>)</mml:mo><mml:mo>=</mml:mo><mml:msup><mml:mover accent='true'><mml:mo>&#x003B2;</mml:mo><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mrow><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mn>2</mml:mn></mml:mrow></mml:msup><mml:mover><mml:mo>=</mml:mo><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>37</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mover><mml:mfrac><mml:mrow><mml:msqrt><mml:mi>U</mml:mi></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:msqrt><mml:mi>L</mml:mi></mml:msqrt></mml:mrow><mml:mrow><mml:msqrt><mml:mi>U</mml:mi></mml:msqrt><mml:mo>+</mml:mo><mml:msqrt><mml:mi>L</mml:mi></mml:msqrt></mml:mrow></mml:mfrac><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>Combining (61) with Lemma (8) yields</p>
<disp-formula id="E82"><label>(62)</label><mml:math id="M189"><mml:mrow><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>B</mml:mi></mml:mstyle><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>i</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mi>k</mml:mi></mml:msup><mml:mo>=</mml:mo><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:msubsup><mml:mo>&#x003BB;</mml:mo><mml:mn>1</mml:mn><mml:mi>k</mml:mi></mml:msubsup></mml:mrow></mml:mtd><mml:mtd><mml:mi>d</mml:mi></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd><mml:mtd><mml:mrow><mml:msubsup><mml:mo>&#x003BB;</mml:mo><mml:mn>2</mml:mn><mml:mi>k</mml:mi></mml:msubsup></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mo>,</mml:mo></mml:mrow></mml:math></disp-formula>
<p>with <inline-formula><mml:math id="M141"><mml:mo>|</mml:mo><mml:msub><mml:mrow><mml:mo>&#x003BB;</mml:mo></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo>|</mml:mo><mml:mo>,</mml:mo><mml:mo>|</mml:mo><mml:msub><mml:mrow><mml:mo>&#x003BB;</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msub><mml:mo>|</mml:mo><mml:mo>&#x02264;</mml:mo><mml:msup><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mo>&#x003B2;</mml:mo></mml:mrow><mml:mo>&#x0007E;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mn>1</mml:mn><mml:mo>/</mml:mo><mml:mn>2</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula> and <inline-formula><mml:math id="M142"><mml:mi>d</mml:mi><mml:mo>&#x02264;</mml:mo><mml:mi>k</mml:mi><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>2</mml:mn><mml:mo>&#x0002B;</mml:mo><mml:mn>2</mml:mn><mml:mover accent="true"><mml:mrow><mml:mo>&#x003B2;</mml:mo></mml:mrow><mml:mo>&#x0007E;</mml:mo></mml:mover><mml:mo>&#x0002B;</mml:mo><mml:mover accent="true"><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo>&#x0007E;</mml:mo></mml:mover></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:msup><mml:mrow><mml:mover accent="true"><mml:mrow><mml:mo>&#x003B2;</mml:mo></mml:mrow><mml:mo>&#x0007E;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi><mml:mo>-</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow><mml:mo>/</mml:mo><mml:mn>2</mml:mn></mml:mrow></mml:msup></mml:math></inline-formula>. Using the shorthand <inline-formula><mml:math id="M143"><mml:mover accent="true"><mml:mrow><mml:mi>c</mml:mi></mml:mrow><mml:mo>&#x0007E;</mml:mo></mml:mover><mml:mtext>&#x000A0;</mml:mtext><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mn>2</mml:mn><mml:mo>&#x0002B;</mml:mo><mml:mn>2</mml:mn><mml:mover accent="true"><mml:mrow><mml:mo>&#x003B2;</mml:mo></mml:mrow><mml:mo>&#x0007E;</mml:mo></mml:mover><mml:mo>&#x0002B;</mml:mo><mml:mover accent="true"><mml:mrow><mml:mo>&#x003B1;</mml:mo></mml:mrow><mml:mo>&#x0007E;</mml:mo></mml:mover></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:math></inline-formula>, we can estimate the spectral norm of <bold>B</bold><sup><italic>k</italic></sup> as</p>
<disp-formula id="E83"><label>(63)</label><mml:math id="M190"><mml:mtable columnalign='left'><mml:mtr><mml:mtd><mml:mrow><mml:mo>&#x02016;</mml:mo><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>B</mml:mi></mml:mstyle><mml:mi>k</mml:mi></mml:msup></mml:mrow><mml:mo>&#x02016;</mml:mo></mml:mrow><mml:mover><mml:mo>=</mml:mo><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>60</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mover><mml:munder><mml:mrow><mml:mi>max</mml:mi></mml:mrow><mml:mi>i</mml:mi></mml:munder><mml:mrow><mml:mo>&#x02016;</mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>B</mml:mi></mml:mstyle><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mi>i</mml:mi><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:mrow><mml:mi>k</mml:mi></mml:msup></mml:mrow><mml:mo>&#x02016;</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mtext>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mover><mml:mo>&#x02264;</mml:mo><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>62</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mover><mml:msup><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:msqrt><mml:mi>&#x003BA;</mml:mi></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mi>&#x003BA;</mml:mi></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mi>k</mml:mi></mml:msup><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>+</mml:mo><mml:mi>k</mml:mi><mml:mover accent='true'><mml:mi>c</mml:mi><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mfrac><mml:mrow><mml:msqrt><mml:mi>&#x003BA;</mml:mi></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mi>&#x003BA;</mml:mi></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Combining (63) with (59),</p>
<disp-formula id="E84"><label>(64)</label><mml:math id="M191"><mml:mrow><mml:mtable columnalign='left'><mml:mtr columnalign='left'><mml:mtd columnalign='left'><mml:mrow><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msup><mml:mrow><mml:mover><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo>&#x002DC;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mrow><mml:mover><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo>&#x002DC;</mml:mo></mml:mover></mml:mrow><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mo>&#x02264;</mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:mrow><mml:mi>k</mml:mi></mml:msup><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mn>1</mml:mn><mml:mo>+</mml:mo><mml:mi>k</mml:mi><mml:mover><mml:mi>c</mml:mi><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msup><mml:mrow><mml:mover><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo>&#x002DC;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>0</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mrow><mml:mover><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo>&#x002DC;</mml:mo></mml:mover></mml:mrow><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd columnalign='left'><mml:mrow><mml:mtext>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;</mml:mtext><mml:mover><mml:mo>&#x02264;</mml:mo><mml:mrow><mml:mover><mml:mi>c</mml:mi><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mo>&#x02265;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mover><mml:mn>2</mml:mn><mml:mi>k</mml:mi><mml:mover><mml:mi>c</mml:mi><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:mrow><mml:mi>k</mml:mi></mml:msup><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msup><mml:mrow><mml:mover><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo>&#x002DC;</mml:mo></mml:mover></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>0</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mrow><mml:mover><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mo>&#x002DC;</mml:mo></mml:mover></mml:mrow><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mo>.</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow></mml:math></disp-formula>
<p>Using (38), the error bound (64) can be translated into an error bound on the HB iterates <inline-formula><mml:math id="M144"><mml:msubsup><mml:mrow><mml:mstyle mathvariant="bold"><mml:mtext>x</mml:mtext></mml:mstyle></mml:mrow><mml:mrow><mml:mtext>HB</mml:mtext></mml:mrow><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:mi>k</mml:mi></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:math></inline-formula>, i.e.,</p>
<disp-formula id="E85"><mml:math id="M192"><mml:mrow><mml:mtable columnalign='left'><mml:mtr columnalign='left'><mml:mtd columnalign='left'><mml:mrow><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mi>H</mml:mi><mml:mi>B</mml:mi></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mo>&#x02264;</mml:mo></mml:mrow></mml:mtd></mml:mtr><mml:mtr columnalign='left'><mml:mtd columnalign='left'><mml:mrow><mml:mn>4</mml:mn><mml:mi>k</mml:mi><mml:mover><mml:mi>c</mml:mi><mml:mo>&#x002DC;</mml:mo></mml:mover><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:mrow><mml:mi>k</mml:mi></mml:msup><mml:mo stretchy='false'>(</mml:mo><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mi>H</mml:mi><mml:mi>B</mml:mi></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mn>0</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mo>+</mml:mo><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:msubsup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mrow><mml:mi>H</mml:mi><mml:mi>B</mml:mi></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:msubsup><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>x</mml:mi></mml:mstyle><mml:mn>0</mml:mn></mml:msub><mml:mo stretchy='false'>&#x02016;</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mo>.</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow></mml:math></disp-formula>
</sec>
</sec>
<sec id="s9">
<title>9. Technicalities</title>
<p>We collect some elementary results from linear algebra and analysis, which are required to prove our main results.</p>
<p><bold>Lemma 8</bold>. <italic>Consider a matrix</italic> <bold>M</bold> &#x0003D; <inline-formula><mml:math id="M145"><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mi>a</mml:mi></mml:mtd><mml:mtd><mml:mi>b</mml:mi></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>1</mml:mn></mml:mtd><mml:mtd><mml:mn>0</mml:mn></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> &#x02208; &#x0211D;<sup>2&#x000D7;2</sup> <italic>with spectral radius</italic> &#x003C1;(<bold>M</bold>). <italic>Then, there is an orthonormal matrix</italic> <bold>U</bold> &#x02208; &#x02102;<sup>2&#x000D7;2</sup> <italic>such that</italic></p>
<disp-formula id="E86"><label>(65)</label><mml:math id="M193"><mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>M</mml:mi></mml:mstyle><mml:mi>k</mml:mi></mml:msup><mml:mo>=</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>U</mml:mi></mml:mstyle><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:msubsup><mml:mo>&#x003BB;</mml:mo><mml:mn>1</mml:mn><mml:mi>k</mml:mi></mml:msubsup></mml:mrow></mml:mtd><mml:mtd><mml:mi>d</mml:mi></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd><mml:mtd><mml:mrow><mml:msubsup><mml:mo>&#x003BB;</mml:mo><mml:mn>2</mml:mn><mml:mi>k</mml:mi></mml:msubsup></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>U</mml:mi></mml:mstyle><mml:mi>H</mml:mi></mml:msup><mml:mtext>&#x000A0;</mml:mtext><mml:mi>f</mml:mi><mml:mi>o</mml:mi><mml:mi>r</mml:mi><mml:mtext>&#x000A0;</mml:mtext><mml:mi>k</mml:mi><mml:mo>&#x02208;</mml:mo><mml:mo>&#x02115;</mml:mo><mml:mo>,</mml:mo></mml:mrow></mml:math></disp-formula>
<p><italic>where</italic> |&#x003BB;<sub>1</sub>|, |&#x003BB;<sub>2</sub>| &#x02264; &#x003C1;(<bold>M</bold>) <italic>and</italic> |<italic>d</italic>|(|<italic>a</italic>| &#x0002B; |<italic>b</italic>| &#x0002B; 1)&#x003C1;<sup><italic>k</italic>&#x02212;1</sup>(<bold>M</bold>).</p>
<p><italic>Proof</italic>. Consider an eigenvalue &#x003BB;<sub>1</sub> of the matrix <bold>M</bold> with normalized eigenvector <inline-formula><mml:math id="M146"><mml:mstyle mathvariant="bold"><mml:mtext>u</mml:mtext></mml:mstyle><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>u</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>u</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>H</mml:mi></mml:mrow></mml:msup></mml:math></inline-formula>, i.e., <bold>Mu</bold> &#x0003D; &#x003BB;<sub>1</sub><bold>u</bold> with &#x02016;<bold>u</bold>&#x02016; &#x0003D; 1. According to Golub and Van Loan [<xref ref-type="bibr" rid="B11">11</xref>, Lemma 7.1.2], we can find a normalized vector <inline-formula><mml:math id="M147"><mml:mstyle mathvariant="bold"><mml:mtext>v</mml:mtext></mml:mstyle><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo stretchy="false">(</mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi>v</mml:mi></mml:mrow><mml:mrow><mml:mn>1</mml:mn></mml:mrow></mml:msub><mml:mo>,</mml:mo><mml:msub><mml:mrow><mml:mi>v</mml:mi></mml:mrow><mml:mrow><mml:mn>2</mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi>H</mml:mi></mml:mrow></mml:msup></mml:math></inline-formula>, orthogonal to <bold>u</bold>, such that</p>
<disp-formula id="E87"><label>(66)</label><mml:math id="M194"><mml:mrow><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>M</mml:mi></mml:mstyle><mml:mo>=</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle><mml:mo>,</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>v</mml:mi></mml:mstyle><mml:mo stretchy='false'>)</mml:mo><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:msub><mml:mo>&#x003BB;</mml:mo><mml:mn>1</mml:mn></mml:msub></mml:mrow></mml:mtd><mml:mtd><mml:mi>d</mml:mi></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd><mml:mtd><mml:mrow><mml:msub><mml:mo>&#x003BB;</mml:mo><mml:mn>2</mml:mn></mml:msub></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle><mml:mo>,</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>v</mml:mi></mml:mstyle><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mi>H</mml:mi></mml:msup><mml:mo>,</mml:mo></mml:mrow></mml:math></disp-formula>
<p>or equivalently</p>
<disp-formula id="E88"><label>(67)</label><mml:math id="M195"><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mtable><mml:mtr><mml:mtd><mml:mrow><mml:msub><mml:mo>&#x003BB;</mml:mo><mml:mn>1</mml:mn></mml:msub></mml:mrow></mml:mtd><mml:mtd><mml:mi>d</mml:mi></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mn>0</mml:mn></mml:mtd><mml:mtd><mml:mrow><mml:msub><mml:mo>&#x003BB;</mml:mo><mml:mn>2</mml:mn></mml:msub></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo>)</mml:mo></mml:mrow><mml:mo>=</mml:mo><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle><mml:mo>,</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>v</mml:mi></mml:mstyle><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mi>H</mml:mi></mml:msup><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>M</mml:mi></mml:mstyle><mml:mo stretchy='false'>(</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>u</mml:mi></mml:mstyle><mml:mo>,</mml:mo><mml:mstyle mathvariant='bold' mathsize='normal'><mml:mi>v</mml:mi></mml:mstyle><mml:mo stretchy='false'>)</mml:mo><mml:mo>,</mml:mo></mml:mrow></mml:math></disp-formula>
<p>with some eigenvalue &#x003BB;<sub>2</sub> of <bold>M</bold>. As can be read off (67), <italic>d</italic> &#x0003D; <italic>u</italic><sub>1</sub>(<italic>u</italic><sub>2</sub><italic>a</italic> &#x0002B; <italic>v</italic><sub>2</sub><italic>b</italic>) &#x0002B; <italic>v</italic><sub>1</sub><italic>u</italic><sub>2</sub> which implies (65) since |<italic>u</italic><sub>1</sub>|, |<italic>u</italic><sub>2</sub>|, |<italic>v</italic><sub>1</sub>|, |<italic>v</italic><sub>2</sub>| &#x02264; 1. Based on (66), we can verify (65) by induction.&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x025A1;</p>
<p><bold>Lemma 9</bold>. <italic>For any</italic> &#x003BA; &#x0003E; 1 <italic>and k</italic> &#x02208; &#x02115;,</p>
<disp-formula id="E89"><label>(68)</label><mml:math id="M196"><mml:mrow><mml:mstyle displaystyle='true'><mml:mrow><mml:munderover><mml:mo>&#x0222B;</mml:mo><mml:mrow><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mn>1</mml:mn></mml:munderover><mml:mrow><mml:mfrac><mml:mrow><mml:mi>exp</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mi>j</mml:mi><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>&#x003B8;</mml:mo><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>&#x02212;</mml:mo><mml:mi>cos</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo>&#x003B8;</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mo>+</mml:mo><mml:mn>4</mml:mn><mml:mo>/</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:mrow></mml:mstyle><mml:mi>d</mml:mi><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:mn>4</mml:mn><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt></mml:mrow></mml:mfrac><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mi>k</mml:mi></mml:msup><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p><italic>Proof</italic>. Let us introduce the shorthand <italic>z</italic> :&#x0003D; exp(<italic>j</italic>2&#x003C0;&#x003B8;) and further develop the LHS of (68) as</p>
<disp-formula id="E90"><label>(69)</label><mml:math id="M197"><mml:mtable columnalign='left'><mml:mtr><mml:mtd><mml:mstyle displaystyle='true'><mml:mrow><mml:munderover><mml:mo>&#x0222B;</mml:mo><mml:mrow><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mn>1</mml:mn></mml:munderover><mml:mrow><mml:mfrac><mml:mrow><mml:msup><mml:mi>z</mml:mi><mml:mrow><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup></mml:mrow><mml:mrow><mml:mn>2</mml:mn><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>&#x02212;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:msup><mml:mi>z</mml:mi><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:mo>+</mml:mo><mml:mi>z</mml:mi><mml:mo stretchy='false'>)</mml:mo><mml:mo>/</mml:mo><mml:mn>2</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>+</mml:mo><mml:mn>4</mml:mn><mml:mo>/</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:mrow></mml:mstyle><mml:mi>d</mml:mi><mml:mo>&#x003B8;</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mtext>&#x000A0;&#x000A0;</mml:mtext><mml:mo>=</mml:mo><mml:mstyle displaystyle='true'><mml:mrow><mml:munderover><mml:mo>&#x0222B;</mml:mo><mml:mrow><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mn>1</mml:mn></mml:munderover><mml:mrow><mml:mfrac><mml:mrow><mml:msup><mml:mi>z</mml:mi><mml:mi>k</mml:mi></mml:msup></mml:mrow><mml:mrow><mml:mn>2</mml:mn><mml:mo stretchy='false'>(</mml:mo><mml:mi>z</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>+</mml:mo><mml:msup><mml:mi>z</mml:mi><mml:mn>2</mml:mn></mml:msup><mml:mo stretchy='false'>)</mml:mo><mml:mo>/</mml:mo><mml:mn>2</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>+</mml:mo><mml:mn>4</mml:mn><mml:mi>z</mml:mi><mml:mo>/</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:mrow></mml:mstyle><mml:mi>d</mml:mi><mml:mo>&#x003B8;</mml:mo><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>The denominator of the integrand in (69) can be factored as</p>
<disp-formula id="E91"><label>(70)</label><mml:math id="M198"><mml:mrow><mml:mn>2</mml:mn><mml:mo stretchy='false'>(</mml:mo><mml:mi>z</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>+</mml:mo><mml:msup><mml:mi>z</mml:mi><mml:mn>2</mml:mn></mml:msup><mml:mo stretchy='false'>)</mml:mo><mml:mo>/</mml:mo><mml:mn>2</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>+</mml:mo><mml:mn>4</mml:mn><mml:mi>z</mml:mi><mml:mo>/</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>=</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>z</mml:mi><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mi>z</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>z</mml:mi><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mi>z</mml:mi><mml:mn>2</mml:mn></mml:msub><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:math></disp-formula>
<p>with</p>
<disp-formula id="E92"><label>(71)</label><mml:math id="M199"><mml:mrow><mml:msub><mml:mi>z</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac><mml:mo>,</mml:mo><mml:mtext>and&#x000A0;</mml:mtext><mml:msub><mml:mi>z</mml:mi><mml:mn>2</mml:mn></mml:msub><mml:mo>:</mml:mo><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>Inserting (70) into (69),</p>
<disp-formula id="E93"><label>(72)</label><mml:math id="M200"><mml:mtable columnalign='left'><mml:mtr><mml:mtd><mml:mstyle displaystyle='true'><mml:mrow><mml:munderover><mml:mo>&#x0222B;</mml:mo><mml:mrow><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mn>1</mml:mn></mml:munderover><mml:mrow><mml:mfrac><mml:mrow><mml:msup><mml:mi>z</mml:mi><mml:mi>k</mml:mi></mml:msup></mml:mrow><mml:mrow><mml:mn>2</mml:mn><mml:mo stretchy='false'>(</mml:mo><mml:mi>z</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>+</mml:mo><mml:msup><mml:mi>z</mml:mi><mml:mn>2</mml:mn></mml:msup><mml:mo stretchy='false'>)</mml:mo><mml:mo>/</mml:mo><mml:mn>2</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>+</mml:mo><mml:mn>4</mml:mn><mml:mo>/</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:mrow></mml:mstyle><mml:mi>d</mml:mi><mml:mo>&#x003B8;</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mo>=</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mstyle displaystyle='true'><mml:mrow><mml:munderover><mml:mo>&#x0222B;</mml:mo><mml:mrow><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mn>1</mml:mn></mml:munderover><mml:mrow><mml:mfrac><mml:mrow><mml:msup><mml:mi>z</mml:mi><mml:mi>k</mml:mi></mml:msup></mml:mrow><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:mi>z</mml:mi><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mi>z</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>z</mml:mi><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mi>z</mml:mi><mml:mn>2</mml:mn></mml:msub><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:mrow></mml:mstyle><mml:mi>d</mml:mi><mml:mo>&#x003B8;</mml:mo></mml:mtd></mml:mtr><mml:mtr><mml:mtd><mml:mo>=</mml:mo><mml:mstyle displaystyle='true'><mml:mrow><mml:munderover><mml:mo>&#x0222B;</mml:mo><mml:mrow><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mn>1</mml:mn></mml:munderover><mml:mo>&#x02212;</mml:mo></mml:mrow></mml:mstyle><mml:mfrac><mml:mrow><mml:msup><mml:mi>z</mml:mi><mml:mi>k</mml:mi></mml:msup><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:msub><mml:mi>z</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mi>z</mml:mi><mml:mn>2</mml:mn></mml:msub><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup></mml:mrow><mml:mrow><mml:mi>z</mml:mi><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mi>z</mml:mi><mml:mn>1</mml:mn></mml:msub></mml:mrow></mml:mfrac><mml:mo>+</mml:mo><mml:mfrac><mml:mrow><mml:msup><mml:mi>z</mml:mi><mml:mi>k</mml:mi></mml:msup><mml:msup><mml:mrow><mml:mo stretchy='false'>(</mml:mo><mml:msub><mml:mi>z</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mi>z</mml:mi><mml:mn>2</mml:mn></mml:msub><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mrow><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup></mml:mrow><mml:mrow><mml:mi>z</mml:mi><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mi>z</mml:mi><mml:mn>2</mml:mn></mml:msub></mml:mrow></mml:mfrac><mml:mi>d</mml:mi><mml:mo>&#x003B8;</mml:mo><mml:mo>.</mml:mo></mml:mtd></mml:mtr></mml:mtable></mml:math></disp-formula>
<p>Since |<italic>z</italic><sub>2</sub>| &#x0003C; 1, we can develop the second term in (72) by using the identity [<xref ref-type="bibr" rid="B17">17</xref>, Section 2.7]</p>
<disp-formula id="E94"><label>(73)</label><mml:math id="M201"><mml:mrow><mml:mstyle displaystyle='true'><mml:mrow><mml:munderover><mml:mo>&#x0222B;</mml:mo><mml:mrow><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mn>1</mml:mn></mml:munderover><mml:mrow><mml:mfrac><mml:mrow><mml:mi>exp</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mi>j</mml:mi><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x003B8;</mml:mo><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mrow><mml:mi>exp</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mi>j</mml:mi><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo>&#x003B8;</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mo>&#x003B1;</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:mrow></mml:mstyle><mml:mi>d</mml:mi><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:msup><mml:mo>&#x003B1;</mml:mo><mml:mrow><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msup><mml:mtext>for</mml:mtext><mml:mi>k</mml:mi><mml:mtext>&#x000A0;</mml:mtext><mml:mo>&#x02208;</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>&#x02115;</mml:mo><mml:mo>,</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x02208;</mml:mo><mml:mo>&#x0211D;</mml:mo><mml:mo>,</mml:mo><mml:mo stretchy='false'>&#x0007C;</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo stretchy='false'>&#x0007C;</mml:mo><mml:mo>&#x0003C;</mml:mo><mml:mn>1.</mml:mn></mml:mrow></mml:math></disp-formula>
<p>Since |<italic>z</italic><sub>1</sub>|&#x0003E;1, we can develop the first term in (72) by using the identity [<xref ref-type="bibr" rid="B17">17</xref>, Section 2.7]</p>
<disp-formula id="E95"><label>(74)</label><mml:math id="M202"><mml:mrow><mml:mstyle displaystyle='true'><mml:mrow><mml:munderover><mml:mo>&#x0222B;</mml:mo><mml:mrow><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mn>1</mml:mn></mml:munderover><mml:mrow><mml:mfrac><mml:mrow><mml:mi>exp</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mi>j</mml:mi><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x003B8;</mml:mo><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mrow><mml:mi>exp</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mi>j</mml:mi><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo>&#x003B8;</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mo>&#x003B1;</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:mrow></mml:mstyle><mml:mi>d</mml:mi><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn><mml:mtext>for</mml:mtext><mml:mi>k</mml:mi><mml:mtext>&#x000A0;</mml:mtext><mml:mo>&#x02208;</mml:mo><mml:mtext>&#x000A0;</mml:mtext><mml:mo>&#x02115;</mml:mo><mml:mo>,</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo>&#x02208;</mml:mo><mml:mo>&#x0211D;</mml:mo><mml:mo>,</mml:mo><mml:mo stretchy='false'>&#x0007C;</mml:mo><mml:mo>&#x003B1;</mml:mo><mml:mo stretchy='false'>&#x0007C;</mml:mo><mml:mo>&#x0003E;</mml:mo><mml:mn>1.</mml:mn></mml:mrow></mml:math></disp-formula>
<p>Applying (73) and (74) to (72),</p>
<disp-formula id="E96"><label>(75)</label><mml:math id="M203"><mml:mrow><mml:mstyle displaystyle='true'><mml:mrow><mml:munderover><mml:mo>&#x0222B;</mml:mo><mml:mrow><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mn>1</mml:mn></mml:munderover><mml:mrow><mml:mfrac><mml:mrow><mml:msup><mml:mi>z</mml:mi><mml:mi>k</mml:mi></mml:msup></mml:mrow><mml:mrow><mml:mn>2</mml:mn><mml:mo stretchy='false'>(</mml:mo><mml:mi>z</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>+</mml:mo><mml:msup><mml:mi>z</mml:mi><mml:mn>2</mml:mn></mml:msup><mml:mo stretchy='false'>)</mml:mo><mml:mo>/</mml:mo><mml:mn>2</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>+</mml:mo><mml:mn>4</mml:mn><mml:mo>/</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:mrow></mml:mstyle><mml:mi>d</mml:mi><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:msubsup><mml:mi>z</mml:mi><mml:mn>2</mml:mn><mml:mrow><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup></mml:mrow><mml:mrow><mml:msub><mml:mi>z</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mi>z</mml:mi><mml:mn>2</mml:mn></mml:msub></mml:mrow></mml:mfrac><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>Inserting (75) into (69), we arrive at</p>
<disp-formula id="E97"><label>(76)</label><mml:math id="M204"><mml:mrow><mml:mstyle displaystyle='true'><mml:mrow><mml:munderover><mml:mo>&#x0222B;</mml:mo><mml:mrow><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mn>0</mml:mn></mml:mrow><mml:mn>1</mml:mn></mml:munderover><mml:mrow><mml:mfrac><mml:mrow><mml:mi>exp</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mi>j</mml:mi><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo><mml:mo>&#x003B8;</mml:mo><mml:mo stretchy='false'>)</mml:mo></mml:mrow><mml:mrow><mml:mn>2</mml:mn><mml:mo stretchy='false'>(</mml:mo><mml:mn>1</mml:mn><mml:mo>&#x02212;</mml:mo><mml:mi>cos</mml:mi><mml:mo stretchy='false'>(</mml:mo><mml:mn>2</mml:mn><mml:mo>&#x003C0;</mml:mo><mml:mo>&#x003B8;</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mo stretchy='false'>)</mml:mo><mml:mo>+</mml:mo><mml:mn>4</mml:mn><mml:mo>/</mml:mo><mml:mo stretchy='false'>(</mml:mo><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn><mml:mo stretchy='false'>)</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:mrow></mml:mstyle><mml:mi>d</mml:mi><mml:mo>&#x003B8;</mml:mo><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:msubsup><mml:mi>z</mml:mi><mml:mn>2</mml:mn><mml:mrow><mml:mi>k</mml:mi><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:msubsup></mml:mrow><mml:mrow><mml:msub><mml:mi>z</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mi>z</mml:mi><mml:mn>2</mml:mn></mml:msub></mml:mrow></mml:mfrac><mml:mo>.</mml:mo></mml:mrow></mml:math></disp-formula>
<p>The proof is finished by combining (76) with the identity</p>
<disp-formula id="E98"><mml:math id="M205"><mml:mrow><mml:mfrac><mml:mn>1</mml:mn><mml:mrow><mml:msub><mml:mi>z</mml:mi><mml:mn>1</mml:mn></mml:msub><mml:mo>&#x02212;</mml:mo><mml:msub><mml:mi>z</mml:mi><mml:mn>2</mml:mn></mml:msub></mml:mrow></mml:mfrac><mml:mover><mml:mo>=</mml:mo><mml:mrow><mml:mrow><mml:mo>(</mml:mo><mml:mrow><mml:mn>71</mml:mn></mml:mrow><mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:mover><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac><mml:mo>&#x02212;</mml:mo><mml:mfrac><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow><mml:mrow><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt><mml:mo>+</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac><mml:mo>=</mml:mo><mml:mfrac><mml:mrow><mml:mn>4</mml:mn><mml:msqrt><mml:mo>&#x003BA;</mml:mo></mml:msqrt></mml:mrow><mml:mrow><mml:mo>&#x003BA;</mml:mo><mml:mo>&#x02212;</mml:mo><mml:mn>1</mml:mn></mml:mrow></mml:mfrac><mml:mo>.</mml:mo><mml:mtext>&#x000A0;</mml:mtext></mml:mrow></mml:math></disp-formula>
<p>&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x000A0;&#x025A1;</p>
</sec>
<sec id="s10">
<title>Author contributions</title>
<p>The author confirms being the sole contributor of this work and approved it for publication.</p>
<sec>
<title>Conflict of interest statement</title>
<p>The author declares that the research was conducted in the absence of any commercial or financial relationships that could be construed as a potential conflict of interest.</p>
</sec>
</sec>
</body>
<back>
<ack><p>This paper is a wrap-up of the lecture material created for the course Convex Optimization for Big Data over Networks, taught at Aalto University in spring 2017. The student feedback on the lectures has been a great help to develop the presentation of the contents. In particular, the detailed feedback of students Stefan Mojsilovic and Matthias Grezet on early versions of the paper is appreciated sincerely.</p>
</ack>
<ref-list>
<title>References</title>
<ref id="B1">
<label>1.</label>
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Bottou</surname> <given-names>L</given-names></name> <name><surname>Bousquet</surname> <given-names>O</given-names></name></person-group>. <article-title>The tradeoffs of large scale learning</article-title>. In: <source>Advances in Neural Information Processing Systems (NIPS)</source>. <publisher-loc>Vancouver, BC</publisher-loc> (<year>2008</year>). p. <fpage>161</fpage>&#x02013;<lpage>8</lpage>.</citation>
</ref>
<ref id="B2">
<label>2.</label>
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Cevher</surname> <given-names>V</given-names></name> <name><surname>Becker</surname> <given-names>S</given-names></name> <name><surname>Schmidt</surname> <given-names>M</given-names></name></person-group>. <article-title>Convex optimization for big data: scalable, randomized, and parallel algorithms for big data analytics</article-title>. <source>IEEE Signal Process Mag.</source> (<year>2014</year>) <volume>31</volume>:<fpage>32</fpage>&#x02013;<lpage>43</lpage>. <pub-id pub-id-type="doi">10.1109/MSP.2014.2329397</pub-id></citation>
</ref>
<ref id="B3">
<label>3.</label>
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Goodfellow</surname> <given-names>I</given-names></name> <name><surname>Bengio</surname> <given-names>Y</given-names></name> <name><surname>Courville</surname> <given-names>A</given-names></name></person-group>. <source>Deep Learning</source>. <publisher-loc>Cambridge, MA</publisher-loc>: <publisher-name>MIT Press</publisher-name> (<year>2016</year>).</citation>
</ref>
<ref id="B4">
<label>4.</label>
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Walker</surname> <given-names>HF</given-names></name> <name><surname>Ni</surname> <given-names>P</given-names></name></person-group>. <article-title>Anderson acceleration for fixed-point iterations</article-title>. <source>SIAM J Numer Anal.</source> (<year>2011</year>) <volume>49</volume>:<fpage>1715</fpage>&#x02013;<lpage>35</lpage>. <pub-id pub-id-type="doi">10.1137/10078356X</pub-id></citation>
</ref>
<ref id="B5">
<label>5.</label>
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Birken</surname> <given-names>P</given-names></name></person-group>. <article-title>Termination criteria for inexact fixed-point schemes</article-title>. <source>Num Lin Alg App.</source> (<year>2015</year>) <volume>22</volume>:<fpage>702</fpage>&#x02013;<lpage>16</lpage>. <pub-id pub-id-type="doi">10.1002/nla.1982</pub-id></citation>
</ref>
<ref id="B6">
<label>6.</label>
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Alfeld</surname> <given-names>P</given-names></name></person-group>. <article-title>Fixed point iteration with inexact function values</article-title>. <source>Math Comput</source>. (<year>1982</year>) <volume>38</volume>:<fpage>87</fpage>&#x02013;<lpage>98</lpage>. <pub-id pub-id-type="doi">10.1090/S0025-5718-1982-0637288-5</pub-id></citation>
</ref>
<ref id="B7">
<label>7.</label>
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Boyd</surname> <given-names>S</given-names></name> <name><surname>Vandenberghe</surname> <given-names>L</given-names></name></person-group>. <source>Convex Optimization</source>. <publisher-loc>Cambridge</publisher-loc>: <publisher-name>Cambridge University Press</publisher-name> (<year>2004</year>). <pub-id pub-id-type="doi">10.1017/CBO9780511804441</pub-id><pub-id pub-id-type="pmid">27375369</pub-id></citation>
</ref>
<ref id="B8">
<label>8.</label>
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Bishop</surname> <given-names>CM</given-names></name></person-group>. <source>Pattern Recognition and Machine Learning</source>. <publisher-loc>New York, NY</publisher-loc>: <publisher-name>Springer</publisher-name> (<year>2006</year>).</citation>
</ref>
<ref id="B9">
<label>9.</label>
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Bauschke</surname> <given-names>HH</given-names></name> <name><surname>Combettes</surname> <given-names>PL</given-names></name></person-group>. <source>Convex Analysis and Monotone Operator Theory in Hilbert Spaces</source>. <publisher-loc>New York, NY</publisher-loc>: <publisher-name>Springer</publisher-name> (<year>2010</year>).</citation>
</ref>
<ref id="B10">
<label>10.</label>
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Rudin</surname> <given-names>W</given-names></name></person-group>. <source>Principles of Mathematical Analysis, 3rd Edn.</source> <publisher-loc>New York, NY</publisher-loc>: <publisher-name>McGraw-Hill</publisher-name> (<year>1976</year>).</citation>
</ref>
<ref id="B11">
<label>11.</label>
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Golub</surname> <given-names>GH</given-names></name> <name><surname>Van Loan</surname> <given-names>CF</given-names></name></person-group>. <source>Matrix Computations, 3rd Edn</source>. <publisher-loc>Baltimore, MD</publisher-loc>: <publisher-name>Johns Hopkins University Press</publisher-name> (<year>1996</year>).</citation>
</ref>
<ref id="B12">
<label>12.</label>
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Giannakis</surname> <given-names>GB</given-names></name> <name><surname>Slavakis</surname> <given-names>K</given-names></name> <name><surname>Mateos</surname> <given-names>G</given-names></name></person-group>. <article-title>Signal processing for big data</article-title>. In: <source>Tutorial at EUSIPCO.</source> <publisher-loc>Lisabon</publisher-loc> (<year>2014</year>).</citation>
</ref>
<ref id="B13">
<label>13.</label>
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Nesterov</surname> <given-names>Y</given-names></name></person-group>. <source>Introductory Lectures on Convex Optimization. vol. 87 of Applied Optimization</source>. <publisher-loc>Boston, MA</publisher-loc>: <publisher-name>Kluwer Academic Publishers</publisher-name> (<year>2004</year>).</citation>
</ref>
<ref id="B14">
<label>14.</label>
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Polyak</surname> <given-names>BT</given-names></name></person-group>. <article-title>Some methods of speeding up the convergence of iteration methods</article-title>. <source>USSR Comput Math Math Phys</source>. (<year>1964</year>) <volume>4</volume>:<fpage>1</fpage>&#x02013;<lpage>17</lpage>.</citation>
</ref>
<ref id="B15">
<label>15.</label>
<citation citation-type="journal"><person-group person-group-type="author"><name><surname>Ghadimi</surname> <given-names>E</given-names></name> <name><surname>Shames</surname> <given-names>I</given-names></name> <name><surname>Johansson</surname> <given-names>M</given-names></name></person-group>. <article-title>Multi-step gradient methods for networked optimization</article-title>. <source>IEEE Trans Signal Process</source>. (<year>2013</year>) <volume>61</volume>:<fpage>5417</fpage>&#x02013;<lpage>29</lpage>.</citation>
</ref>
<ref id="B16">
<label>16.</label>
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Gray</surname> <given-names>RM</given-names></name></person-group>. <source>Toeplitz and Circulant Matrices: A review. vol. 2 of Foundations and Trends in Communications and Information Theory.</source> <publisher-loc>Boston, MA</publisher-loc> (<year>2006</year>).</citation>
</ref>
<ref id="B17">
<label>17.</label>
<citation citation-type="book"><person-group person-group-type="author"><name><surname>Oppenheim</surname> <given-names>AV</given-names></name> <name><surname>Schafer</surname> <given-names>RW</given-names></name> <name><surname>Buck</surname> <given-names>JR</given-names></name></person-group>. <source>Discrete-Time Signal Processing, 2nd Edn</source>. <publisher-loc>Englewood Cliffs, NJ</publisher-loc>: <publisher-name>Prentice Hall</publisher-name> (<year>1998</year>).</citation>
</ref>
</ref-list>
</back>
</article>