Advanced Search
MyIDEAS: Login

Nettoyage de fichiers dans le cas de données individuelles : recherche de la cohérence transversale

Contents:

Author Info

  • Elizabeth Kremp

Abstract

[eng] Cleaning Files Containing Individual Data: The Search for Transversal Consistency . by Elizabeth Kremp . This article first defines the notions of aberrant values and extreme values. It then describes the statistical tools and presents different univaried methods for identifying these values. Eight techniques based on these tools and methods are tested on a file of company data for one ratio. One of the conclusions of these tests is that robust statistics need to be used in the methods seeking to identify aberrant points. Three of these techniques are applied to seven ratios for a comparison, evaluation of the role of the choice of ratios and measurement of the cumulative observation elimination phenomena. Two of these techniques produce very similar results. The easiest technique to apply eliminates the observations situated at more than three interquartile intervals from the first and third quartiles. However, if the distribution of the real population for the variable studied differs greatly from a normal distribution, this technique can eliminate too many observations. In this case, a variant that eliminates the observations at more than five interquartile intervals would appear preferable. [ger] Sâuberung yon Dateien im Falle personenbezogener Daten: Streben nach transversaler Koharenz . von Elisabeth Kremp . Nachdem die Begriffe der Abweichungs- und Extremwerte bestimmt worden sind, erinnert dieser Artikel an die statistischen Instrumente und pràsentiert verschiedene univariate Methoden, mit denen sich diese Werte ermitteln lassen. Anhand einer Datei mit Unternehmensdaten fur eine Kennzahl werden danach acht Verfahren getestet, die auf der Grundlage dieser Instrumente und dieser Methoden erstellt wurden. Eine der Lehren, die sich aus diesen Tests ziehen lassen, lautet, daB bei den Methoden, die der Bestimmung der Abweichungspunkte dienen, solide Statistiken benutzt werden mussen. AnschlieBend ermôglicht es die Anwendung von drei dieser Verfahren auf sieben Kennzahlen, diese miteinander zu vergleichen, die Rolle der Wahl der Kennzahlen zu bewerten und die kumulativen Phanomene bei der Eliminierung von Beobachtungen zu messen. Zwei von ihnen fiihren zu recht âhnlichen Ergebnissen. Das Verfahren, das sich am einfachsten anwenden laBt, eliminiert die Beobachtungen, die mehr als drei Quartilabstande vom ersten und vom dritten Quartil entfernt liegen. Wenn die Verteilung der wirklichen Population fur die untersuchte Variable allzusehr von einer normalen Verteilung abweicht, kann dieses Verfahren jedoch dazu fiihren, daB zu viele Beobachtungen eliminiert werden. Wie es scheint, ist eine Variante, die die mehr als funf Quartilabstande entfernt liegenden Beobachtungen eliminiert, zu bevorzugen. [fre] Nettoyage de fichiers dans le cas de données individuelles : recherche de la cohérence transversale . par Elizabeth Kremp . avoir précisé les notions de valeurs aberrantes et de valeurs extrêmes, cet article rappelle les outils statistiques et présente différentes univariées permettant d'identifier ces valeurs. Huit techniques construites à partir de ces outils et de ces méthodes sont ensuite sur un fichier de données d'entreprises pour un ratio. Un des enseignements de ces tests est qu'il faut utiliser des statistiques robustes les méthodes cherchant à identifier les points aberrants. Ensuite, l'application de trois de ces techniques à sept ratios, permet de les d'évaluer le rôle du choix des ratios et de mesurer les phénomènes cumulatifs d'élimination d'observations. Deux d'entre elles des résultats très proches. La plus simple à mettre en œuvre supprime les observations situées à plus de trois intervalles du premier et du troisième quartiles. Cependant, si la distribution de la vraie population pour la variable étudiée est très d'une distribution normale, alors cette technique peut conduire à éliminer trop d'observations, et une variante qui supprime les à plus de cinq intervalles interquartiles semble préférable. [spa] Limpieza de los fîcheros en el caso de datos individuales : busqueda de una coherencia transversal . por Elisabeth Kremp . Tras haber precisado las nociones de valores aberrantes y de valores extremos, este articulo resena los instrumentos estadisticos y présenta diferentes métodos univariados que permiten définir estos valores. Ocho técnicas construidas a partir de estos instrumentos y de estos métodos son luego sometidas a test a partir de un fïchero de datos de empresas ,en vista de la elaboraciôn de un ratio. Una de las ensenanzas que se desprenden de estos tests es la necesidad de utilizar estadfsticas robustas en los métodos destinados a la identificaciôn de los puntos aberrantes. A continuaciôn, la aplicaciôn de très de estas técnicas para siete ratios, permite compararlos, evaluar el papel de la elecciôn de estos ratios y medir los fenômenos cumulativos de eliminaciôn de observaciones. Dos de estas técnicas conducen a resultados muy similares. La mas simple a ser ejecutada suprime las observaciones situadas a mas de très intevalos intercuartiles del primer y del tercer cuartil. Sin embargo, si la distribution de la verdadera poblaciôn para la variable estudiada esta muy alejada de una distribution normal, entonces esta técnica puede conducir a la eliminaciôn de demasiadas observaciones, y una variante que suprime las observaciones situadas a mâs de cinco intervalos intercuartiles pareciera ser preferible.

Download Info

If you experience problems downloading a file, check if you have the proper application to view it first. In case of further problems read the IDEAS help page. Note that these files are not on the IDEAS site. Please be patient as the files may be large.
File URL: http://dx.doi.org/doi:10.3406/ecop.1995.5738
Download Restriction: no

File URL: http://www.persee.fr/articleAsPDF/ecop_0249-4744_1995_num_119_3_5738/ecop_0249-4744_1995_num_119_3_5738.pdf?mode=light
Download Restriction: no

Bibliographic Info

Article provided by Programme National Persée in its journal Économie & prévision.

Volume (Year): 119 (1995)
Issue (Month): 3 ()
Pages: 171-193

as in new window
Handle: RePEc:prs:ecoprv:ecop_0249-4744_1995_num_119_3_5738

Note: DOI:10.3406/ecop.1995.5738
Contact details of provider:
Web page: http://www.persee.fr/web/revues/home/prescript/revue/ecop

Related research

Keywords:

References

References listed on IDEAS
Please report citation or reference errors to , or , if you are the registered author of the cited work, log in to your RePEc Author Service profile, click on "citations" and make appropriate adjustments.:
as in new window
  1. Krasker, William S. & Kuh, Edwin & Welsch, Roy E., 1983. "Estimation for dirty data and flawed models," Handbook of Econometrics, in: Z. Griliches† & M. D. Intriligator (ed.), Handbook of Econometrics, edition 1, volume 1, chapter 11, pages 651-698 Elsevier.
  2. Jacques Mairesse & Elizabeth Kremp, 1993. "A look at productivity at the firm level in eight French service industries," Journal of Productivity Analysis, Springer, vol. 4(1), pages 211-234, June.
  3. William Gould & Ali S. Hadi, 1993. "Identifying multivariate outliers," Stata Technical Bulletin, StataCorp LP, vol. 2(11).
Full references (including those not matched with items on IDEAS)

Citations

Citations are extracted by the CitEc Project, subscribe to its RSS feed for this item.
as in new window

Cited by:
  1. Chevalier, P-A. & Lecat, R. & Oulton, N., 2009. "Convergence of firm-level productivity, globalisation, information technology, and competition: evidence from France," Working papers 237, Banque de France.
  2. Francesco Daveri & Rèmy Lecat & Maria Laura Parisi, 2013. "Service deregulation, competition and the performance of French and Italian firms," Working Papers 3, Department of the Treasury, Ministry of the Economy and of Finance.
  3. Paul-Antoine Chevalier & Rémy Lecat & Nicholas Oulton, 2009. "Convergence of Corporate Productivity, Globalization, Information Technologies, and Competition," Economie et Statistique, Institut National de la Statistique et des Etudes Economiques, vol. 419, pages 101-124, August.

Lists

This item is not listed on Wikipedia, on a reading list or among the top items on IDEAS.

Statistics

Access and download statistics

Corrections

When requesting a correction, please mention this item's handle: RePEc:prs:ecoprv:ecop_0249-4744_1995_num_119_3_5738. See general information about how to correct material in RePEc.

For technical questions regarding this item, or to correct its authors, title, abstract, bibliographic or download information, contact: (Equipe PERSEE).

If you have authored this item and are not yet registered with RePEc, we encourage you to do it here. This allows to link your profile to this item. It also allows you to accept potential citations to this item that we are uncertain about.

If references are entirely missing, you can add them using this form.

If the full references list an item that is present in RePEc, but the system did not link to it, you can help with this form.

If you know of missing items citing this one, you can help us creating those links by adding the relevant references in the same way as above, for each refering item. If you are a registered author of this item, you may also want to check the "citations" tab in your profile, as there may be some citations waiting for confirmation.

Please note that corrections may take a couple of weeks to filter through the various RePEc services.