IDEAS home Printed from https://ideas.repec.org/a/prs/ecoprv/ecop_0249-4744_1995_num_119_3_5738.html
   My bibliography  Save this article

Nettoyage de fichiers dans le cas de données individuelles : recherche de la cohérence transversale

Author

Listed:
  • Elizabeth Kremp

Abstract

[fre] Nettoyage de fichiers dans le cas de données individuelles : recherche de la cohérence transversale . par Elizabeth Kremp . avoir précisé les notions de valeurs aberrantes et de valeurs extrêmes, cet article rappelle les outils statistiques et présente différentes univariées permettant d'identifier ces valeurs. Huit techniques construites à partir de ces outils et de ces méthodes sont ensuite sur un fichier de données d'entreprises pour un ratio. Un des enseignements de ces tests est qu'il faut utiliser des statistiques robustes les méthodes cherchant à identifier les points aberrants. Ensuite, l'application de trois de ces techniques à sept ratios, permet de les d'évaluer le rôle du choix des ratios et de mesurer les phénomènes cumulatifs d'élimination d'observations. Deux d'entre elles des résultats très proches. La plus simple à mettre en œuvre supprime les observations situées à plus de trois intervalles du premier et du troisième quartiles. Cependant, si la distribution de la vraie population pour la variable étudiée est très d'une distribution normale, alors cette technique peut conduire à éliminer trop d'observations, et une variante qui supprime les à plus de cinq intervalles interquartiles semble préférable. [spa] Limpieza de los fîcheros en el caso de datos individuales : busqueda de una coherencia transversal . por Elisabeth Kremp . Tras haber precisado las nociones de valores aberrantes y de valores extremos, este articulo resena los instrumentos estadisticos y présenta diferentes métodos univariados que permiten définir estos valores. Ocho técnicas construidas a partir de estos instrumentos y de estos métodos son luego sometidas a test a partir de un fïchero de datos de empresas ,en vista de la elaboraciôn de un ratio. Una de las ensenanzas que se desprenden de estos tests es la necesidad de utilizar estadfsticas robustas en los métodos destinados a la identificaciôn de los puntos aberrantes. A continuaciôn, la aplicaciôn de très de estas técnicas para siete ratios, permite compararlos, evaluar el papel de la elecciôn de estos ratios y medir los fenômenos cumulativos de eliminaciôn de observaciones. Dos de estas técnicas conducen a resultados muy similares. La mas simple a ser ejecutada suprime las observaciones situadas a mas de très intevalos intercuartiles del primer y del tercer cuartil. Sin embargo, si la distribution de la verdadera poblaciôn para la variable estudiada esta muy alejada de una distribution normal, entonces esta técnica puede conducir a la eliminaciôn de demasiadas observaciones, y una variante que suprime las observaciones situadas a mâs de cinco intervalos intercuartiles pareciera ser preferible. [eng] Cleaning Files Containing Individual Data: The Search for Transversal Consistency . by Elizabeth Kremp . This article first defines the notions of aberrant values and extreme values. It then describes the statistical tools and presents different univaried methods for identifying these values. Eight techniques based on these tools and methods are tested on a file of company data for one ratio. One of the conclusions of these tests is that robust statistics need to be used in the methods seeking to identify aberrant points. Three of these techniques are applied to seven ratios for a comparison, evaluation of the role of the choice of ratios and measurement of the cumulative observation elimination phenomena. Two of these techniques produce very similar results. The easiest technique to apply eliminates the observations situated at more than three interquartile intervals from the first and third quartiles. However, if the distribution of the real population for the variable studied differs greatly from a normal distribution, this technique can eliminate too many observations. In this case, a variant that eliminates the observations at more than five interquartile intervals would appear preferable. [ger] Sâuberung yon Dateien im Falle personenbezogener Daten: Streben nach transversaler Koharenz . von Elisabeth Kremp . Nachdem die Begriffe der Abweichungs- und Extremwerte bestimmt worden sind, erinnert dieser Artikel an die statistischen Instrumente und pràsentiert verschiedene univariate Methoden, mit denen sich diese Werte ermitteln lassen. Anhand einer Datei mit Unternehmensdaten fur eine Kennzahl werden danach acht Verfahren getestet, die auf der Grundlage dieser Instrumente und dieser Methoden erstellt wurden. Eine der Lehren, die sich aus diesen Tests ziehen lassen, lautet, daB bei den Methoden, die der Bestimmung der Abweichungspunkte dienen, solide Statistiken benutzt werden mussen. AnschlieBend ermôglicht es die Anwendung von drei dieser Verfahren auf sieben Kennzahlen, diese miteinander zu vergleichen, die Rolle der Wahl der Kennzahlen zu bewerten und die kumulativen Phanomene bei der Eliminierung von Beobachtungen zu messen. Zwei von ihnen fiihren zu recht âhnlichen Ergebnissen. Das Verfahren, das sich am einfachsten anwenden laBt, eliminiert die Beobachtungen, die mehr als drei Quartilabstande vom ersten und vom dritten Quartil entfernt liegen. Wenn die Verteilung der wirklichen Population fur die untersuchte Variable allzusehr von einer normalen Verteilung abweicht, kann dieses Verfahren jedoch dazu fiihren, daB zu viele Beobachtungen eliminiert werden. Wie es scheint, ist eine Variante, die die mehr als funf Quartilabstande entfernt liegenden Beobachtungen eliminiert, zu bevorzugen.

Suggested Citation

  • Elizabeth Kremp, 1995. "Nettoyage de fichiers dans le cas de données individuelles : recherche de la cohérence transversale," Économie et Prévision, Programme National Persée, vol. 119(3), pages 171-193.
  • Handle: RePEc:prs:ecoprv:ecop_0249-4744_1995_num_119_3_5738
    Note: DOI:10.3406/ecop.1995.5738
    as

    Download full text from publisher

    File URL: https://doi.org/10.3406/ecop.1995.5738
    Download Restriction: no

    File URL: https://www.persee.fr/doc/ecop_0249-4744_1995_num_119_3_5738
    Download Restriction: no

    References listed on IDEAS

    as
    1. Krasker, William S. & Kuh, Edwin & Welsch, Roy E., 1983. "Estimation for dirty data and flawed models," Handbook of Econometrics,in: Z. Griliches† & M. D. Intriligator (ed.), Handbook of Econometrics, edition 1, volume 1, chapter 11, pages 651-698 Elsevier.
    2. Jacques Mairesse & Elizabeth Kremp, 1993. "A look at productivity at the firm level in eight French service industries," Journal of Productivity Analysis, Springer, vol. 4(1), pages 211-234, June.
    3. William Gould & Ali S. Hadi, 1993. "Identifying multivariate outliers," Stata Technical Bulletin, StataCorp LP, vol. 2(11).
    Full references (including those not matched with items on IDEAS)

    Citations

    Citations are extracted by the CitEc Project, subscribe to its RSS feed for this item.
    as


    Cited by:

    1. Paul-Antoine Chevalier & Rémy Lecat & Nicholas Oulton, 2009. "Convergence of Firm-Level Productivity, Globalisation, Information Technology and Competition: Evidence from France," CEP Discussion Papers dp0916, Centre for Economic Performance, LSE.
    2. Rym Ben Ayed Mouelhi & Mohamed Goaied, 2001. "Efficience technique et incitations salariales. Analyse empirique sur un panel incomplet des industries textiles en Tunisie," Économie et Prévision, Programme National Persée, vol. 148(2), pages 99-111.
    3. Francesco Daveri & Rémy Lecat & Maria Laura Parisi, 2016. "Service Deregulation, Competition, and the Performance of French and Italian Firms," Scottish Journal of Political Economy, Scottish Economic Society, vol. 63(3), pages 278-302, July.
    4. Yann Nicolas & Claude Mathieu, 2006. "Coûts d'ajustement de la demande de travail : une comparaison entre la France et la République tchèque," Économie et Prévision, Programme National Persée, vol. 173(2), pages 135-152.
    5. repec:crs:ecosta:es419-420f is not listed on IDEAS

    More about this item

    Statistics

    Access and download statistics

    Corrections

    All material on this site has been provided by the respective publishers and authors. You can help correct errors and omissions. When requesting a correction, please mention this item's handle: RePEc:prs:ecoprv:ecop_0249-4744_1995_num_119_3_5738. See general information about how to correct material in RePEc.

    For technical questions regarding this item, or to correct its authors, title, abstract, bibliographic or download information, contact: (Equipe PERSEE). General contact details of provider: https://www.persee.fr/collection/ecop .

    If you have authored this item and are not yet registered with RePEc, we encourage you to do it here. This allows to link your profile to this item. It also allows you to accept potential citations to this item that we are uncertain about.

    If CitEc recognized a reference but did not link an item in RePEc to it, you can help with this form .

    If you know of missing items citing this one, you can help us creating those links by adding the relevant references in the same way as above, for each refering item. If you are a registered author of this item, you may also want to check the "citations" tab in your RePEc Author Service profile, as there may be some citations waiting for confirmation.

    Please note that corrections may take a couple of weeks to filter through the various RePEc services.

    IDEAS is a RePEc service hosted by the Research Division of the Federal Reserve Bank of St. Louis . RePEc uses bibliographic data supplied by the respective publishers.