17 Data Science besplatnih projekata

Data Science projekti nude obećavajući  put kako bi započeli svoju karijeru analitičara i naučnika koji se bavi podacima. Ne samo da ćete naučiti dosta o podacima primenom ovih projekata, već ćete moći da ih priložite i u svom CV-ju kao dokaz da ste upoznati sa njima i da ste uspešno došli do zanimljivih činjenica i vizualizacija analizirajući podatke.

U današnje vreme regruteri procenjuju potencijal kandidata na osnovu onoga što mogu da pokažu da znaju, a ne samo putem sertifikata i rezimea. Drugim rečima, neće ništa značiti ako im samo kažete koliko znate, a da pritom nemate  šta da im pokažete od veština koje posedujete.

Možda ste radili na nekoliko problema, ali ako se rešenja ne mogu učiniti vidljivim koje se pritom i lako mogu objasniti, kako će onda tek neko znati za šta ste zaista sposobni? Upravo u tome će vam pomoći ovi primeri besplatnih projekta koji su u daljem tekstu.

Razmišljate o vremenu provedenom na ovim projektima kao o veoma potrebnom treningu. Što više vremena provedete radeći na njima, postajaćete sve bolji i izoštravaćete sve više vaše veštine. Svi projekti su pažljivo izabrani i bilo je bitno obezbediti raznolikost problema iz različitih izvora, sa drugačijim  veličinama podataka i problemima.

Korisne informacije

Kako bi bilo lakše početi sa treningom, setovi podataka su podeljeni na 3 nivoa, u zavisnosti od veština i znanja:

Početni nivo: ovaj nivo uključuje setove podataka koji su laki za rad i ne zahtevaju kompleksne data science tehnike. Možete ih rešiti koristeći osnovne regresione/ klasifikacione algoritme. Takođe, ovi setovi podataka imaju dosta slobodnih tutorijala koji će vam pomoći da napredujete.

Srednji nivo: ovaj nivo uključuje setove podataka koji predstavljaju veći izazov od prethodnog nivo-a. Sastoji se od srednjih i velikih setova podataka koji zahtevaju ozbiljne obrasce veštine prepoznavanja. Nema ograničenja u korišćenju tehnika mašinskog učenja.

Napredni nivo: ovaj nivo je najbolji za one koji razumeju napredne teme poput neuralnih mreža, deep learning itd.

POČETNI NIVO

1. Iris Data Set

Najverovatnije najsvestraniji set podataka koji je vrlo lak za upotrebu. Ništa nije lakše od IRIS data set-a za učenje klasifikacionih tehnika. Ukoliko ste potpuno novi u svetu nauke podataka (data science), ovo je sjajan početak. Baza sadrži 3 vrste po 50 informacija od svake, gde svaka vrsta predstavlja tip biljke Iris. Podaci imaju samo 150 redova i 4 kolone.

Problem: predviđanje klase biljke Iris

Link

Tutorijal

2. Titanic Data Set

Takođe jedan od preporučljivijih projekata od strane data science zajednice. Sa nekoliko tutorijala i pomoćnih vežbi, ovaj projekat vam pomaže da se ozbiljnije i dublje bavite podacima.

Potapanje Titanika je jedan od najozloglašenijih brodoloma u istoriji. Pre više od 100 godine, tačnije, 15. aprila 1912. godine, tokom svog prvog putovanja, Titanik je potonuo nakon sudara sa ledenim bregom.

Ova senzacionalna tragedija šokirala je međunarodnu zajednicu i dovela je do boljih sigurnosnih propisa za brodove. Jedan od razloga zbog kojih je ova brodolom doveo do takvog gubitka života je da nije bilo dovoljno čamaca za spasavanje za putnika i članove posade. U ovom izazovu je glavni cilj da se završi analiza primenom alata mašinskog učenja i da se predvide putnici koji će preživeti tragediju.

Sa raznolikošću varijabli koje se sastoje od kategorija, brojeva i teksta, ovaj set podataka ima dovoljan obim da podrži svakakve ideje! Podrazumeva klasifikacijski problem. Podaci imaju 891 redova i 12 kolona.

Problem: predviđanje broja preživelih putnika na Titaniku

Link

Tutorijal

3. Loan Prediction Data Set

Među svim industrijama, domen osiguranja ima najveću korist od metoda koje podrazumevaju nauka o podacima i analitika.

Ovaj set podataka će obezbediti dovoljan prikaz kako je raditi na skupovima podataka iz osiguravajućih kompanija, sa kakvim se izazovima suočavaju, koje strategije koriste, koje varijable utiću na rezultat itd. Klasifikacijski je problem koji se sastoji od 615 redova i 13 kolona.

Problem: predviđanje da li će kredit biti odobren ili ne

Link 

Tutorijal

4. Bigmart Sales Data Set

Maloprodaja (retail) je još jedna industrija koja dosta koristi analitiku kako bi optimizovala svoje poslovne procese. Zadaci poput plasiranje proizvoda, upravljanje zalihama, prilagođavanje ponude, uvezivanje proizvoda itd, koriste se raznim tehnikama nauke o podacima. Kao što i naziv ovog projekta govori, podaci sadrže zapis transakcija sa prodajnih mesta. Ovo je regresioni problem i podaci imaju 8.523 redova i 12 varijabli.

Problem: predviđanje prodaje

Link

Tutorijal

5. Boston Housing Data Set

Ovaj set podataka je preuzet iz StatLib biblioteke, univerziteta Carnegie Mellon. Ovo je još jedan popularan set podataka. Dolazi iz industrije nekretnina, konkretno iz grada Boston u Americi. Ovo je regresioni problem. Podaci imaju 506 redova i 14 kolona. Prema tome, ovo je mali skup podataka gde možete pokušati da primenite neku tehniku bez brige o problemima sa memorijom svog računara (lap topa).

Problem : odnos vrednosti nekretnina u predgrađu Bostona

Link

Tutorijal

SREDNJI NIVO

1. Human activity recognition

Ovaj projekat se skuplja podatke preuzete sa pametnih (smart) telefona sa ugrađenim inercionim senzorima.

Eksperimenti su sprovedeni sa grupom od 30 dobrovoljaca u okviru  19-48 godina. Svaka osoba obavlja šest aktivnosti (hodanje, hodanje uzbrdo, hodanje nizbrdo, sedenje, stajanje, ležanje) i nosi smartphone (Samsung Galaxy S II) na struku.  Mnogi uređaji za učenje koriste ove podatke za studentske prakse. Ovo je multiklasifikacioni problem. Podaci koriste 10.299 redova i 561 kolona.

Problem : predviđanje kategorije aktivnosti kod ljudi tokom nošenja uređaja

Link

2. Black Friday Data Set

Ovaj set podataka se sastoji od prodajnih transakcija preuzetih iz maloprodajnih radnji kako bi se istražilo i dodatno razumelo ponašanje potrošača u svakodnevnoj kupovini. Predstavlja regresioni problem. Set podataka ima 55.069 redova i 12 kolona.

Problem : predviđanje iznosa kupovine

Link

3. Text Mining Data Set

Ovaj set podataka je izvorno iz SIAM takmičenja 2007. Set podataka se sastoji iz sigurnosnih avijacijskih izveštaja opisujući problem koji se dešava na određenim letovima. Ovo je multiklasifikacija, visoko dimenzioni problem. Ima 21.519 redova i 30.438 kolona.

Problem : Klasifikovanje dokumenata na osnovu njihovih obeležja

Link

4. Trip History Data Set

Ovaj set podataka dolazi od agencije koja se bavi rentiranje bicikala u Americi.  U trenutku kada se iznajmljuje bicikl, unutar sistema softver prikuplja osnovne podatke o putovanju. Ti podaci se mogu exportovati i koristi za različite vrste analiza i istraživanja. Podaci su dostupni po kvartalima i to od Q4 2010. godine. Svaki fajl ima 7 kolona. Predstavlja klasifikacioni problem.

Problem: predviđanje klase korisnika

Link

5. Million Song Data Set

Da li ste znali da se analitika može koristiti i u industriji zabave? Ovi setovi podataka ističu regresioni zadatak. Sastoji se iz 515.345 zapažanja i 90 varijabli. Međutim, ovo je samo podskup od originalne milionske baze podataka.

Problem: predviđanje godine izdanja pesme

Link

6. Census Income Data Set

Mašinsko učenje se obimno koristi za rešavanje neuravnoteženih problema kao što je otkrivanje raka, otkrivanje prevara itd. Ovi podaci imaju 48.842 redova i 14 kolona.

Problem: predviđanje klase prihoda populacije Amerike

Link

7. Movie Lens Data Set

Ovaj skup podataka omogućava da se izgradi program preporuke. Da li ste već neki napravili? Ovo je jedan od popularnijih i citiranijih skupova podataka u industriji nauke o podacima. Podaci su dostupni u različitim dimenzijama. Ima milion ocena od 6.000 korisnika za 4.000 filmova.

Problem: preporučivanje novih filmova korisnicima

Link

NAPREDNI NIVO

1. Digits Data Set

Ovaj skup podataka omogućava učenje, analizu i prepoznavanje elemenata u slikama. To je upravo način na koji kamera detektuje vaše lice, koristeći se identifikovanjem slika. Vaš je zadatak da spoznate i unapredite tu tehniku. Ova baza podataka ima 7 hiljada slika od 28 x 28 veličine 31MB.

Problem: Prepoznavanje cifara sa slika

Link

2. ImageNet Data Set

ImageNet nudi raznolikost problema koji obuhvataju detektovanje, lokalizaciju, klasifikaciju. Sve slike su besplatno dostupne. Možete pronaći bilo koji tip slike i napraviti svoj projekat sa njima. Do sada ovaj pretraživač slika ima oko 14.197.122 slika različitih oblika koje dostižu i do 140GB.

Problem : problem koji treba rešiti je sadržan u tipu slike koju skidate

Link

3. KDD 1999 Data Set

Ovaj set podataka se jednostavno ne može preskočiti. Izvorno, KDD je doprineo takmičenju u data miningu u svetu. Ne želite li da saznate koje su podatke pre nudili? Ovi podaci predstavljaju klasifikacijski problem. Baza ima 4 miliona redova i 48 kolone u fajlu od 1.2 GB.

Problem: klasifikacija upada na mrežu kao dobar ili loš

Link

4. Chicago Crime Data Set

Sposobnost manipulacija sa velikih bazama podataka (big data) se očekuje od svakog data scientist-a. Kompanije više ne žele da rade sa uzorcima, već koriste sve raspoložive podatke koje imaju. Ovaj projekat će zahtevati mnogo više iskustva sa rukovanjem big data na svojim mašinama. Problem je lak, ali rukovanje sa ovim podacima je ključno! Baza ima oko 6 miliona upisa i predstavlja multiklasifikacioni problem.

Problem: predviđanje tipa kriminalne aktivnosti

Link Export/Download .csv 

Zaključak

Od ponuđenih 17 projekta sa bazama podataka, imate izbor da pronađete pravi koji odgovara vašim sposobnostima i veštinama. Ukoliko ste početnik u mašinskom učenju, izbegavajte praktikovanje naprednog nivoa. Ne preuzimajte na sebe više nego što možete i ne opterećujte se sa tim koliko još morate da uradite. Umesto toga, usresredite se na postepen napredak i rezultati će biti vidljivi ubrzo.

O autoru

Dušan Milošević

Curious digital analyst passionate about analytics, funk/disco music and new travel destinations. Always chasing the spark and searching for signal in the noise, combining technical know-how with digital marketing looking for actionable insights.
Proactive thinker, with the ability to adapt and learn quickly. Collaborative, with cross-functional team experience working with product, development and client-side teams.

Dodaj komentar

This site uses Akismet to reduce spam. Learn how your comment data is processed.