Subjektiivsete hinnagute problemaatilusest ehk Netflix’i auhinnast

august 6, 2007

Netflixi auhinnast oli viimati juttu päris mitu kuud tagasi. Auhinda veel võidetud ei ole, kuid juuni alguses New York Times’is ilmunud lühike lugu annab siiski lootust:

About 18,000 teams from more than 150 countries — using ideas from machine learning, neural networks, collaborative filtering and data mining — have submitted more than 12,000 sets of guesses. And the improvement level to Netflix’s rating system is now at 7.42 percent.

The competition is “three-quarters of the way there in three-quarters of a year,” said Reed Hastings, the chairman and chief executive of Netflix, based in Los Gatos, Calif.

The race is very close, with no consistent front-runner. Each contestant is given a set of data from which three million predictions are made about how certain users rated certain movies. Netflix compares that list with the actual ratings and generates a score.

Mind ajendas seda postitust kirjutama aga üks märksa kriitilisem ja huvitavam käsitlusi, mis on üllatavalt palju tähelepanu pälvinud erinevate blogijate seas seal hulgas Tyler Cowen ja Brad DeLong.

The Netflix Prize: 300 Days Later on põhjalik ja tehniline, kuid tõstab esile mõned olulised küsimused, mis on seotud pigem kogu süsteemi ülesehitusest, kus oluline roll on inimeste subjektiivsetel hinnangutel, mida võib mõjutada näiteks tuju:

We users provide inconsistent ratings – sometimes we’d rate a movie a 3 and sometimes a 4, with no consistency. It may depend on our mood when we watched the movie – we may give a romantic movie a higher rating if we watched it on a first date than if we watched it a week later after being left broken hearted, or a demanding movie a low rating because we were tired and out of sorts when we watched it – or it may depend on our mood when we actually provide the rating.

Postituse autor, Tom Slee, pakub välja mõned põhjused, mis seavad tõenäoliselt hinnangute põhisele soovitusmehhanismile täiendavaid piiranguid:

Netflix itself and most competitors talk about the data in terms of “movies” and “users”. But the “movies” in the list are not all movies: a lot are TV series or music video collections. The variability among the episodes of a series (Do you think Lost Season 1 deserves a 3 or a 4?) must make single-number ranking even more variable and these composite DVDs figure prominently among those titles that have the biggest variance in ratings.
. . .
Then there’s the fact that a customer might not really be a single person. It might be a household with several viewers in it. So perhaps one person likes Terminator, one likes Bridget Jones, and one likes Spongebob Squarepants. Once we realize that the “user” might be a collection of people there is no strangeness between giving high ratings to each of these, but you can see how, depending on which household member entered the rating, the values may be quite different (perhaps this is why titles like ‘N Sync: Making of the Tour, Pokemon Vol 9, and Boston Red Sox 2004 World Series Collectors’ Edition have high variance – the person rating may not always have been the person who wanted to watch it).

Seda kõike lisaks anomaaliatele Netflixi poolt testimiseks jagatavas näidisandmebaasides nagu klient, kes on hinnanud 1963 filmi 1 punkti vääriliseks; kasutaja, kes hindas ühe päevaga üle 5000 filmi ja kasutajad, kes on hinnanud üle 10 000 filmi.

Igal juhul jäi minule Slee postitusest mulje, et tema on skeptiline auhinna võtmise võimalikkuses ja kasutajate/vaatajate hinnangutepõhise soovitussüsteem võimekuses. Arnold Kling seda seisukohta ei jaga, kuid on põhimõtteliselt nõus sellega, et subjektiivsetest hinnangutest koosnev andmebaas on puudulik ja probleemile tuleks läheneda natuke teise nurga alt:

Suppose that instead of ratings, you asked consumers to vote with dollars. For any movie, a consumer who owns the movie can post an “ask” price and a consumer who does not own the movie can post a “bid” price. To ensure that these prices are real, every once in a while, you would fill all the orders for a particular customer–that is, you would buy the consumers’ DVD’s at her asking prices and sell her DVD’s at her bid prices.

My guess is that this approach would generate better data than Netflix’s current process. Perhaps I am wrong about that. But the point is, if you had good data, meaning data that is based on revealed preference rather than survey ratings, my guess is that recommender systems would be quite powerful. It’s the garbage data, not the concept of statistically-based recommendations, that limits the ability of the Netflix system.

Kes Vabalogi varem lugenud teab, et mind ei huvita niivõrd andmebaasides sisalduv informatsioon kui auhindade kasutamine innovatsiooni esilekutsumiseks ja võistluste kontseptuaalne raamistik, millest kirjutasin isegi magistritöö (PDF).

Klingi kommentaar on minu arvates esile tõstmist väärt sellepärast, et näitab kui oluline on eduka tulemuse saavutamiseks eelduste ja piirangute läbi mõtlemine. Netflixi auhinna võitmine on võib-olla olemas olevaid andmebaase kasutades võimatu eelnevalt mainitud põhjustel, kuid see ei tähenda, et soovitustepõhine süsteem ei võiks töötada, kuid andmed läbivad taustsüsteemifiltri. Klingi näites oleks taustsüsteemiks meie kõigi igapäevane kokkupuutumine rahaga ja inimeste suutlikus määrata objekti rahaline väärtus mitmete alternatiivide olemas olu korral.

Seega, kui Netflix pakub auhinda olemas olevate andmebaaside informatsiooni töötlemise eest, siis tegelikult tuleks auhind anda selle eest, kuidas saavutada paremaid tulemusi üldisemalt või kuidas parandada andmebaasi kvaliteeti ehk vähendada subjektiivsust. Ühtlasi hakkab siit ka välja kooruma tõsiasi, et kõige suurem küsimus kogu Netflixi auhinna juures on subjektiivsus, mis tuleks hoida minimaalsena selliste võistluste puhul nagu kirjutasin ka enda uurimuses.

Tagged with: auhinnad

Categorised as: Määratlemata