Experimental design applied to the selection of samples and sensors in multivariate calibration

Author

Ferré Baldrich, Joan

Director

Rius Ferrús, F. Xavier

Date of defense

1998-02-24

ISBN

9788469118757

Legal Deposit

T-337-2008



Department/Institute

Universitat Rovira i Virgili. Departament de Química Analítica i Química Orgànica

Abstract

Els models de calibratge multivariant relacionen respostes instrumentals (per exemple, espectres) d'un conjunt de mostres de calibratge amb quantitats de variables físiques o químiques tals com concentració d'analit, o índexs (per exemple, el nombre d'octà en gasolines). Aquesta relació es fa servir per predir aquestes quantitats a partir de les respostes instrumentals de noves mostres desconegudes, mesurades de la mateixa manera. <br/><br/>La predicció emprant models de calibratge multivariants està esdevenint un pas comú en els procediments analítics. Per tant, l'habilitat del model de donar prediccions precises i no esbiaixades té una influència decisiva en la qualitat del resultat analític. És important que les mostres de calibratge i els sensors es triïn adequadament de manera que els models pugin representar adequadament el fenomen en estudi i assegurar la qualitat de les prediccions. <br/><br/>En aquesta tesi s'ha estudiat la selecció de mostres de calibratge d'un a llista de mostres candidates en regressió sobre components principals (PCR) i la selecció de longituds d'ona en el model de mínims quadrats clàssics (CLS). El fonament l'ha donat la teoria del disseny estadístic d'experiments. <br/><br/>En PCR, el nombre mínim de mostres de calibratge es tria emprant les respostes instrumentals de les mostres candidates. La concentració d'analit només cal determinar-la en les mostres seleccionades. S'han proposat diferents usos del criteri d'optimalitat D.<br/><br/>En CLS, s'han interpretat diferents criteris per la selecció de longituds d'ona des del punt de vista de l'el·lipsoide de confiança de les concentracions predites. Els criteris també s'han revisat de manera crítica d'acord amb el seu efecte en la precisió, exactitud i veracitat (que s'han revisat d'acord amb les definicions ISO). Basat en la teoria del disseny d'experiments, s'han donat les regles per a la selecció de sensors. A demés, s'ha proposat un nou mètode per a detectar i reduir el biaix en les prediccions de noves mostres predites mitjançant CLS. <br/><br/>Conclusions<br/>1. Criteris d'optimalitat del disseny d'experiment en MLR s'han aplicat per triar longituds d'ona de calibratge en CLS i el nombre mínim de mostres de calibratge en MLR i PCR a partir de les respostes instrumentals o scores de components principals d'una llista de candidats. Aquests criteris són un alternativa a (i/o complementen) el criteri subjectiu de l'experimentador. Els models construïts amb els punts triats per aquests criteris tenen una menor variància dels coeficients o concentracions i una millor habilitat de predicció que els models construïts amb mostres triades aleatòriament.<br/><br/>2. El criteri D s'ha emprat amb èxit per triar mostres de calibratge en PCR i MLR, per triar un grup reduït de mostres per a comprovar la validesa de models de PCR abans d'estandarditzar-los i per triar longituds d'ona en CLS a partir de la matriu de sensibilitats. Les mostres de calibratge que són D òptimes generalment donen models de PCR i MLR amb una millor habilitat de predicció que quan les mostres de calibratge es trien aleatòriament o emprant l'algorisme de Kennard-Stone <br/> <br/>3. Cal emprar algorismes d'optimització per trobar, els subconjunts de I punts òptims entre una llista de N candidats. En aquest treball es van emprar els algorismes de Fedorov, de Kennard-Stone i algorismes genètics.<br/><br/>4. L'el·lipsoide de confiança de les concentracions estimades i la teoria del disseny d'experiments proporcionen el marc per interpretar l'efecte dels sensors triats amb aquests criteris en els resultats de predicció del model i per definir noves regles per triar longituds d'ona. <br/><br/>5. L'eficàcia dels criteris de selecció en CLS basats en la matriu de calibratge necessiten que no hi hagi biaix en la resposta dels sensors triats. La qualitat de les dades s'ha de comprovar abans de que s'empri el mètode de selecció de longituds d'ona. <br/><br/>6. La senyal analítica neta (NAS) és important pera comprendre el procés de quantificació en CLS i la propagació dels errors a les concentracions predites. S'han emprat diagnòstics tals com la sensibilitat, selectivitat i el gràfic de regressió del senyal analític net (NASRP), que es basen en el NAS d'un analit particular. S'ha vist que la norma del NAS està relacionada amb l'error de predicció. <br/><br/>7. El NASRP és una eina per a detectar gràficament si la resposta mesurada de la mostra desconeguda segueix el model calculat. La concentració estimada és el pendent de la recta ajustada als punts de gràfic. plot. Els sensors amb biaix es poden detectar i els sensors que segueixen el model es poden triar emprant la funció indicador d'Error i un mètode de finestres mòbils.


Multivariate calibration models relate instrumental responses (e.g. spectra) of a set of calibration samples to the quantities of chemical or physical variables such as analyte concentrations, or indexes (e.g. octane number in fuels). This relationship is used to predict these quantities from the instrumental response data of new unknown samples measured in the same manner. <br/><br/>Prediction using multivariate calibration models is becoming one common step in the analytical procedure. Therefore, the ability of the model to give precise and unbiased predictions has a decisive influence on the quality of the analytical result. It is important that the calibration samples and sensors be carefully selected so that the models can properly represent the phenomenon under study and assure the quality of the predictions.<br/><br/>We have studied the selection of calibration samples from the list of all the available samples in principal component regression (PCR) and the selection of wavelengths in classical least squares (CLS). The underlying basis has been given by experimental design theory. <br/><br/>In PCR, the minimum number of calibration samples are selected using the instrumental responses of the candidate samples. The analyte concentration is only determined in the selected samples. Different uses of the D-criterion have also been proposed.<br/><br/>In CLS, different criteria for wavelength selection have been interpreted from the point of view of the experimental design using the confidence hyperellipsoid of the predicted concentrations. The criteria have also been critically reviewed according to their effect on precision, accuracy and trueness (which are revised following ISO definitions). Based on the experimental design theory, new guidelines for sensor selection have been given. Moreover, a new method for detecting and reducing bias in unknown samples to be analyzed using CLS.<br/><br/>Conclusions<br/>1. Optimality criteria derived from experimental design in MLR have been applied to select calibration wavelengths in CLS and the minimum number of calibration samples in MLR and PCR from the instrumental responses or principal component scores of a list of candidates. These criteria are an alternative (and/or a complement) to the experimenter's subjective criterion. The models built with the points selected with the proposed criteria had a smaller variance of the coefficients or concentrations and better predictive ability than the models built with the samples selected randomly <br/> <br/>2. The D-criterion has been successfully used for selecting calibration samples in PCR and MLR, for selecting a reduced set of samples to assess the validity of PCR models before standardization and for selecting wavelengths in CLS from the matrix of sensitivities. D optimal calibration samples generally give PCR and MLR models with a better predictive ability than calibration samples selected randomly or using the Kennard-Stone algorithm.<br/> <br/>3. Optimization algorithms are needed to find the optimal subsets of I points from a list of N candidates. Fedorov's algorithm, Kennard-Stone algorithm and Genetic Algorithms were studied here. <br/> <br/>4. The confidence ellipsoid of the estimated concentrations and the experimental design theory provide the framework for interpreting the effect of the sensors selected with these criteria on the prediction results of the model and for deriving new guidelines for wavelength selection. <br/> <br/>5. The efficacy of the selection criteria in CLS based on the calibration matrix requires there to be no bias in the response at the selected sensors. The quality of the data must be checked before a wavelength selection method is used.<br/> <br/>6. The net analyte signal (NAS) is important to understand the quantification process in CLS and the propagation of errors to the predicted concentrations. Diagnostics such as sensitivity, selectivity and net analyte signal regression plots (NASRP) which are based on the NAS for each particular analyte have been used. The norm of the NAS has been found to be related to the prediction error .<br/> <br/>7. The NASRP is a tool for graphically detecting whether the measured response of the unknown sample follows the calculated model. The estimated concentration is the slope of the straight line fitted to the points in this plot. The sensors with bias can be detected and the sensors that best follow the model can be selected using the Error Indicator function and a moving window method.

Keywords

disseny d'experiments; Calibratge multivariant

Subjects

311 - Statistics as a science. Statistical theory; 512 - Algebra; 543 - Analytical chemistry

Documents

TJFB1de3.pdf

11.78Mb

TJFB2de3.pdf

11.20Mb

TJFB3de3.pdf

11.35Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)