IDEAS home Printed from https://ideas.repec.org/a/sgh/annals/i53y2018p147-162.html
   My bibliography  Save this article

Anonimowość w Internecie – identyfikacja płci użytkowników na podstawie historii odwiedzanych stron internetowych

Author

Listed:
  • Łukasz Lipiński

    (Cloud Technologies)

  • Michał Bernardelli

    (Szkoła Główna Handlowa w Warszawie, Kolegium Analiz Ekonomicznych)

Abstract

W artykule przedstawiono metodę identyfikacji płci użytkowników Internetu. Proponowana metoda wykorzystuje dane z profili użytkowników zawierających adresy stron internetowych i częstotliwość odwiedzin. Podejście to łączy w sobie analizę leksykalną słów z domen internetowych, sztuczne sieci neuronowe, wyrafinowaną matematycznie wektorową reprezentację profili użytkowników oraz regresję logistyczną jako główny klasyfikator. Analizę empiryczną przeprowadzono na podstawie 10 mln profili polskich użytkowników, osiągając skuteczność klasyfikacji na poziomie 82%. Dodatkowe korzyści z badania to stworzenie listy najczęściej odwiedzanych stron internetowych według płci w Polsce w 2017 r. oraz określenie sposobu wyszukiwania podobnych portali internetowych, który może być wykorzystany w spersonalizowanym marketingu jako źródło oszczędności w postaci zmniejszenia niepotrzebnych wydatków na źle ukierunkowaną reklamę.

Suggested Citation

  • Łukasz Lipiński & Michał Bernardelli, 2018. "Anonimowość w Internecie – identyfikacja płci użytkowników na podstawie historii odwiedzanych stron internetowych," Collegium of Economic Analysis Annals, Warsaw School of Economics, Collegium of Economic Analysis, issue 53, pages 147-162.
  • Handle: RePEc:sgh:annals:i:53:y:2018:p:147-162
    as

    Download full text from publisher

    File URL: http://rocznikikae.sgh.waw.pl/p/roczniki_kae_z53_09.pdf
    File Function: Full text
    Download Restriction: no
    ---><---

    References listed on IDEAS

    as
    1. Michał Bernardelli, 2015. "Cheater detection in Real Time Bidding system – panel approach," Collegium of Economic Analysis Annals, Warsaw School of Economics, Collegium of Economic Analysis, issue 39, pages 11-24.
    Full references (including those not matched with items on IDEAS)

    Most related items

    These are the items that most often cite the same works as this one and are cited by the same works as this one.
    1. Michał Bernardelli, 2017. "Predicting Hourly Internet Traffic in the RTB System – Panel Approach," Collegium of Economic Analysis Annals, Warsaw School of Economics, Collegium of Economic Analysis, issue 47, pages 11-26.
    2. Łukasz Lipiński & Michał Bernardelli, 2019. "Click fraud detection rules," Collegium of Economic Analysis Annals, Warsaw School of Economics, Collegium of Economic Analysis, issue 55, pages 41-54.

    More about this item

    Keywords

    Internet; zagadnienie klasyfikacji; preferencje użytkowników; word2vec; Big Data;
    All these keywords.

    JEL classification:

    • C01 - Mathematical and Quantitative Methods - - General - - - Econometrics
    • C53 - Mathematical and Quantitative Methods - - Econometric Modeling - - - Forecasting and Prediction Models; Simulation Methods
    • C55 - Mathematical and Quantitative Methods - - Econometric Modeling - - - Large Data Sets: Modeling and Analysis

    Statistics

    Access and download statistics

    Corrections

    All material on this site has been provided by the respective publishers and authors. You can help correct errors and omissions. When requesting a correction, please mention this item's handle: RePEc:sgh:annals:i:53:y:2018:p:147-162. See general information about how to correct material in RePEc.

    If you have authored this item and are not yet registered with RePEc, we encourage you to do it here. This allows to link your profile to this item. It also allows you to accept potential citations to this item that we are uncertain about.

    If CitEc recognized a bibliographic reference but did not link an item in RePEc to it, you can help with this form .

    If you know of missing items citing this one, you can help us creating those links by adding the relevant references in the same way as above, for each refering item. If you are a registered author of this item, you may also want to check the "citations" tab in your RePEc Author Service profile, as there may be some citations waiting for confirmation.

    For technical questions regarding this item, or to correct its authors, title, abstract, bibliographic or download information, contact: Michał Bernardelli (email available below). General contact details of provider: https://edirc.repec.org/data/sgwawpl.html .

    Please note that corrections may take a couple of weeks to filter through the various RePEc services.

    IDEAS is a RePEc service. RePEc uses bibliographic data supplied by the respective publishers.