Tip:
Highlight text to annotate it
X
>> LUCAS FREITAS: Hey.
Tere kõigile.
Minu nimi on Lucas Freitas.
Ma olen junior [kuuldamatu] õppimise arvutiteaduse fookus
arvutilingvistika.
Nii et minu teisese on keel ja keelelise teooria.
Ma olen väga põnevil, et õpetada teid natuke valdkonnas.
See on väga põnev ala õppima.
Samuti on palju potentsiaali tulevikuks.
Niisiis, ma olen väga põnevil, et te kaaluvad projektide
arvutilingvistika.
Ja ma olen rohkem kui õnnelik, et nõustada ükskõik, kui sa otsustad
jätkama üks neist.
>> Nii kõigepealt, millised on arvutuslikke keeleteadus?
Nii arvutilingvistika on ristumine lingvistika ja
arvutiteadus.
Niisiis, mis on lingvistika?
Mis on infotehnoloogia?
Hästi lingvistika, mida võtame, on need keeled.
Nii lingvistika on tegelikult uuring loomuliku keele üldiselt.
Nii loomulik keel - me räägime keel, mida me tegelikult kasutada
üksteisega suhelda.
Nii et me ei rääkinud eriti umbes C või Java.
Me räägime lähemalt inglise ja Hiina ja teistes keeltes, mida me
shelda üksteisega.
>> Keeruline asi see on, et Praegu on meil ligi 7000
maailma keeli.
Seega on üsna kõrge sort keeli, et me saame õppida.
Ja siis te arvate, et see on ilmselt väga raske teha, näiteks
tõlkimine ühest keelest muu, arvestades, et teil on
peaaegu 7000 neist.
Niisiis, kui te arvate, teeme tõlge ühest keelest teise sa
on peaaegu üle miljoni erinevaid kombinatsioone, mida saate
on Keelest keeles.
Nii et see on tõesti raske teha mõned selline näide tõlke süsteem
iga keel.
>> Niisiis, lingvistika kohtleb süntaks, semantika, pragmaatika.
Te ei ole täpselt vaja teada mida *** on.
Aga väga huvitav asi on see, et nagu emakeel, kui sa õpid
keele kui laps, sa tegelikult õppida kõik need asjad - süntaks semantika
ja pragmaatika -
ise.
Ja keegi ei õpetab süntaks et sa aru kuidas lause on
struktureeritud.
Nii, see on tõesti huvitav, sest see on midagi, mis tuleb väga
intuitiivselt.
>> Ja mida te võtate alates arvutiteadus?
Noh, kõige olulisem asi, mida me on infotehnoloogia on esimene
kõik, tehisintellekti ja masin õppe.
Niisiis, mida me üritame teed arvutilingvistika on õpetada
arvuti, kuidas midagi teha keelega.
>> Nii, näiteks masina tõlge.
Püüan õpetada minu arvuti, kuidas teada, kuidas üleminek ühelt
keele vahel.
Niisiis, põhimõtteliselt nagu õpetamine arvuti kahes keeles.
Kui ma seda loomuliku keele töötlemise, mis kehtib näiteks
Facebook Graph Search õpetad arvuti, kuidas mõista
päringuid hästi.
>> Niisiis, kui sa ütled "fotod minu sõbrad. "Facebook ei ravi, mis
tervikuna string, mis on lihtsalt hunnik sõnu.
See tegelikult mõistab seoses vahel "fotod" ja "Minu sõbrad" ja
mõistab, et "fotod" on vara "mu sõbrad."
>> Nii, et see on osa, näiteks loomuliku keele töötlemiseks.
Ta püüab aru saada, mis on seos
sõ*** lause.
Ja suur küsimus on, kas sa õpetada arvuti, kuidas rääkida
keel üldiselt?
Mis on väga huvitav küsimus arvad, sest kui võib-olla tulevikus
sa lähed, et oleks võimalik rääkida oma mobiili.
Selline tunne, mida me teeme koos Siri kuid midagi nagu saab tegelikult
öelda, mida sa tahad ja telefon läheb kõigest aru.
Ja see võib olla järelmeetmete küsimused ja edasi rääkida.
See on midagi tõesti põnev, minu arvates.
>> Niisiis, midagi loomulikus keeles.
Midagi tõeliselt huvitavat loomulikus keeles on, ja see on
krediidi minu keeleteaduse professor, Maria Polinsky.
Ta toob näite ja ma arvan, see on tõesti huvitav.
Kuna me õpime keele kui me sündinud ja siis meie emakeel
keel liiki kasvab meile.
>> Ja põhimõtteliselt sa õppida keelt alates minimaalne sisend, eks?
Sa lihtsalt saada panus oma vanemad, mida teie keeles kõlab
meeldib ja sa lihtsalt õppida seda.
Nii, see on huvitav, sest kui te vaatate neile lausetest näiteks.
Näed, "Mary paneb mantel iga kord, kui ta lahkub majast. "
>> Sel juhul on võimalik, et on Sõna "ta" viitab Mary, eks?
Sa ei saa öelda "Mary paneb mantel iga kord Mary jätab
maja. "nii, et see on hea.
Aga siis, kui te vaatate lause "Ta paneb mantel iga kord Mary
lahkub majast. "sa tead, et see võimatu öelda, et "ta" on
viidates Mary.
>> Ei ole nii, et öelda, et "Mary paneb on mantel iga kord Mary jätab
maja. "Nii et see on huvitav, sest see on selline intuitsioon
et iga emakeelena kõneleja on.
Ja keegi ei õpetanud, et see on nii, et süntaks töötab.
Ja mis saab olla ainult see "ta" viidates Mary see esimene juhtum,
ja tegelikult see muu liiga, kuid mitte seda.
Aga igaüks omamoodi muutub sama vastus.
Kõik nõustuvad sellega.
Nii et see on tõesti huvitav, kuidas küll sa ei tea kõiki reegleid
oma keele omamoodi aru kuidas keel töötab.
>> Nii huvitav asi loomulik keel on see, et sa ei pea
tea süntaks teada, kui lause on grammatilisi või ungrammatical eest
enamikel juhtudel.
Mis paneb sind arvama, et võib-olla see, mida juhtub see, et läbi oma elu, siis
muudkui üha rohkem ja rohkem lauset öelnud sulle.
Ja siis hoida meeldejätmist kõik laused.
Ja kui keegi ütleb teile midagi, sa kuulsid seda lauset ja
te vaatate oma sõnavara lauseid ja vaata, kas
See lause on olemas.
Ja kui see on olemas, sa öelda, et see grammatiline.
Kui see ei ole teile öelda, et see ungrammatical.
>> Niisiis, sel juhul sa ütleksid, oh, nii et teil on tohutu nimekiri kõigist
karistus.
Ja siis, kui sa kuuled lauset sa tead, kui see on grammatilisi või
mitte selle põhjal.
Asi on selles, et kui te vaatate lause, näiteks "
viis otsaga CS50 TF keedetud pime kaheksajalad kasutades DAPA kruus. "On
Kindlasti ei ole lause et olete kuulnud enne.
Kuid samal ajal sa tead, et see päris palju grammatilisi, eks?
Puuduvad grammatilisi vigu ja võib öelda, et
see on võimalik lause.
>> Nii et see paneb meid mõtlema, et tegelikult nii, et me õpime keelt ei ole ainult
omades tohutu andmebaas võimalik sõ*** või laused, kuid rohkem
mõista seost sõ*** need laused.
Kas see on mõtet?
Nii, siis küsimus on, kas arvutid keeli õppida?
Kas me õpetame keel arvutitega?
>> Nii, mõtleme selle vahe vahel emakeel keel
ja arvuti.
Niisiis, mis juhtub kõlar?
Noh, emakeel õpib keel kokkupuudet.
Tavaliselt oma varasest lapsepõlvest aastat.
Niisiis, põhimõtteliselt, sa lihtsalt laps, ja hoiate rääkinud, ja see
lihtsalt õpib rääkima keelt, eks?
Niisiis, sa oled põhiliselt andes input lapsele.
Nii, siis ei saa väita, et arvuti saab teha sama asi, eks?
Võid lihtsalt anna keel sisendi arvuti.
>> Nagu näiteks hunnik faile et on raamatuid inglise keeles.
Võibolla see on üks viis, et sa võiks õpetada
arvuti inglise, eks?
Ja tegelikult, kui sa mõtled seda, see viib teid ehk paar
päeva raamatut lugeda.
Sest arvuti kulub teine vaata kõiki sõnu raamat.
Nii et sa ei mõtle, et võib olla just see argument panusele ümber,
see ei ole piisav, et öelda, et see on midagi, et ainult inimesed võivad teha.
Võite mõelda arvutid Samuti võite sisestada.
>> Teine asi on see, et emakeel Samuti on ajus, mis on
Keeleõppe võimekus.
Aga kui sa arvad, aju on hea asi.
Kui olete sündinud, see on juba määratud -
see on sinu aju.
Ja kui sa suureks kasvad, siis lihtsalt saada rohkem input keele ja võibolla toitaineid
ja muud kraami.
Aga päris palju oma aju on hea asi.
>> Nii saab öelda, hästi, äkki saab ehitada arvuti, mis on kamp
funktsioone ja meetodeid, et lihtsalt matkivad Keeleõppe võimekus.
Nii et selles mõttes võib öelda, ma võib olla arvuti, mis on kõik
asjad, mida ma pean õppima keelt.
Ja viimane asi on see, et native esineja õpib katse-eksituse meetodil.
Nii et põhimõtteliselt on veel üks oluline asi keeleõpet, et sa lahke
kohta õppima asju tehes üldistused, mida te kuulete.
>> Nii nagu te kasvavad teil õppida, et Mõned sõ*** on rohkem nagu nimisõ***,
mõned teised on omadussõ***.
Ja sa ei pea mingit teadmised lingvistika
mõista, et.
Aga sa tead, seal on mõned sõ*** positsioneeritakse mingi osa
lause ja mõned teised ka teistes osades lause.
>> Ja mis siis, kui midagi, mis on nagu lause, et ei ole õige -
võibolla, sest üle üldistus näiteks.
Võib-olla, kui sa suureks, märkate et mitmuses on tavaliselt
moodustatud pannes S juures lõpuks sõna.
Ja siis sa püüad teha mitmus "Hirved" kui "hirved" või "geen" nagu
"Tooths." Nii siis teie vanemad või keegi parandab teid ja ütleb, ei,
mitmus "hirv" on "hirv", ja mitmus "hammas" on "hambad". Ja siis
sa õpid neid asju.
Nii et te õppida katse-eksituse meetodil.
>> Aga sa võid ka teha koos arvutiga.
Sul võib olla midagi, mida nimetatakse tugevdamine õppimist.
Mis on põhimõtteliselt nagu andes arvuti tasu, kui see ei
midagi õigesti.
Ja annab see vastand tasu ja kui ta teeb midagi valesti.
Võite tegelikult näha, et kui sa lähed Google Tõlgi ja püüad
tõlkima lause, see küsib tagasisidet.
Nii et kui te ütlete, oh, seal on parem tõlkimine selle lause.
Sa võid kirjutada see üles ja siis kui palju inimesed hoiavad öeldes, et on parem
tõlge, see lihtsalt saab teada, et ta peaks kasutama, et tõlge asemel
üks ta andis.
>> Nii, see on väga filosoofiline küsimus näha, kui arvutid hakkavad olema
rääkida või mitte tulevikus.
Aga mul on suured lootused, et *** saaksid lihtsalt põhinevad nende argumendid.
Aga see on lihtsalt rohkem filosoofiline küsimus.
>> Niisiis, kui arvuteid veel ei saa rääkida, Mis on asjad, mida me saame teha?
Mõned lahedaid asju on andmete liigitus.
Nii näiteks, te teate, et e-teenused teevad, sest
Näiteks rämpsposti filtreerimine.
Nii et kui te saate rämpsposti, see püüab filtreerida teise kasti.
Niisiis, kuidas see seda teha?
See ei ole nagu arvuti lihtsalt teab Mis e-posti aadressid on rämpsposti saatmiseks.
Nii, et see põhineb rohkem sisu Sõnumi või äkki pealkirja või
äkki mõned muster, mis sul on.
>> Niisiis, põhimõtteliselt, mida saate teha, on saada palju andmeid kirju, mis on rämpspost,
kirju, mis ei ole rämpsposti, ja õppida, mida liiki mustrid sul
need, mis on rämpspost.
Ja see on osa arvutuslikku keeleteadus.
Seda nimetatakse andmete liigitus.
Ja me tegelikult näeme näide et järgmisel slaidid.
>> Teine asi on see loomulik keel töötlemine, mis on see, mis
Graph Otsi teeb üürile Sa kirjutad lause.
Ja ta usaldab sind mõista, mida tähendus ja annab
sa parem tulemus.
Tegelikult, kui te lähete Google või Bing ja otsida midagi Lady
Gaga on kõrgus, sa oled tegelikult toimub saada 5 "1" asemel teave
tema, sest ta tegelikult mõistab mida sa räägid.
Nii et see osa looduslike keelekasutus.
>> Või ka siis, kui te kasutate Siri esimene teil on algoritm, mis püüab
tõlkida, mida sa räägid sõnadesse teksti.
Ja siis ta üritab tõlkida et arvesse tähenduses.
Nii et see kõik on osa looduslik keelekasutus.
>> Siis on masintõlge -
mis on tegelikult üks minu lemmikud -
mis on lihtsalt tõlkimisel keelest teise.
Nii et sa ei mõtle, et kui sa teed masintõlge, teil on
erakordseid võimalusi lausetest.
Nii et seal on kuidagi lihtsalt ladustamiseks iga tõlge.
Nii et teil on tulla huvitav algoritme suutma
tõlkida iga lause kuidagi.
>> Kutid on küsimusi nii palju?
Ei?
OK.
>> Mida me näeme täna?
Esiteks, ma lähen rääkima klassifitseerimise probleemi.
Niisiis see, kes ma olin räägivad rämpsposti.
Mida ma teen on, arvestades lyrics laulu, võite proovida välja nuputada,
suure tõenäosusega kes on laulja?
Oletame, et mul on laule Lady Gaga ja Katy Perry, kui ma annan teile
uus laul, saate aru saada, kui see on Katy Perry ja Lady Gaga?
>> Teine, ma lihtsalt rääkida umbes segmenteerimine probleem.
Nii et ma ei tea, kas te teate, kuid Hiina, jaapani, teistest Ida-Aasia
keeles ja teistes keeltes üldiselt ei ole
ruumide vahel sõnu.
Ja siis, kui sa arvad, kuidas arvuti liiki üritab
mõista loomuliku keele töötlemise, vaadeldakse sõ*** ja
püüab mõista suhete nende vahel, eks?
Aga siis, kui teil on Hiina ja te on null ruumid, see on tõesti raske
teada saada, mis on seos sõnadega, kuna neil ei ole mingit
sõna alguses.
Nii et sa pead tegema midagi, mida nimetatakse killustatust, mis tähendab lihtsalt pannes
ruumide vahel, mida me nimetame sõ*** nendes keeltes.
Mõtet?
>> Ja siis me läheme rääkida süntaks.
Nii lihtsalt natuke loomulik keelekasutus.
See saab olla ainult ülevaate.
Nii et täna, põhimõtteliselt mida ma tahan teha on teile poisid natuke
sees, millised on võimalused , mida saate teha koos arvutuslikku
keeleteadus.
Ja siis sa näed, mida sa arvad on lahe vahel neid asju.
Ja võib-olla sa ei mõtle projekti ja tulevad minuga rääkima.
Ja ma ei saa anda teile nõu kuidas seda rakendada.
>> Nii süntaks läheb natuke umbes Graph Search and machine
tõlge.
Ma lihtsalt annan näide sellest, kuidas siis võiks näiteks tõlkida
midagi portugali keeles.
Kõlab hästi?
>> Nii et esimene, klassifitseerimise probleemi.
Ma ütlen, et see osa seminar saab olema kõige keerulisem
üks lihtsalt sellepärast, et seal saab olla mõned kodeerimist.
Aga see saab olema Python.
Ma tean, et te ei tea, Python, nii Ma lihtsalt seletada on kõrge
tase, mida ma teen.
Ja sa ei pea hooli liiga palju süntaks, sest see on
midagi kutid saavad õppida.
OK?
Kõlab hästi.
>> Mis on liigituse probleem?
Nii et sa oled andnud mõned lyrics laulu ja soovite arvan
kes laulab seda.
Ja see võib olla mis tahes liiki muid probleeme.
Seega võib näiteks sul on presidendivalimiste kampaania ja pead
kõne ja soovite leida välja, kui see oli näiteks
Obama või Mitt Romney.
Või teil on hunnik kirju ja sa tahad, et aru saada, kas *** on
rämpspost või mitte.
Nii et see on lihtsalt klassifitseerimisel mõned andmed põhinevad sõ***
mis sul seal on.
>> Nii et seda teha, pead sa teha mõningaid oletusi.
Nii palju, arvutilingvistika teeb oletusi,
tavaliselt smart eeldused, et saad häid tulemusi.
Proovin luua mudel ta.
Ja siis seda proovida ja vaata, kas see toimib, kui see annab sulle hea täpsus.
Ja kui see on nii, siis proovida seda parandada.
Kui seda ei ole, sa oled nagu, OK, võib-olla ma peaks eri eeldus.
>> Seega eeldades, et me ei kavatse teha on see, et kunstnik tavaliselt laulab
teemal, mitu korda, ja võib-olla kasutab sõnu mitu korda lihtsalt
sest *** on sellega harjunud.
Sa võid mõelda oma sõbraga.
Ma olen kindel, et te kõik on sõbrad et öelda oma allkirja fraasi
sõna otseses mõttes iga lause -
nagu teatud sõna või teatud lause, mis *** ütlevad
iga lause.
>> Ja mida te ei saa öelda, et kui te näete lause, mis on allkirja
fraasi, siis võib arvata, et tõenäoliselt sõber on
üks ütleb ta, eks?
Nii et sa eeldad ja seejärel see on, kuidas sa luua mudel.
>> Näiteks, et ma annan on kuidas Lady Gaga on näiteks inimesed
öelda, et ta kasutab "laps" eest kõik tema number üks laule.
Ja tegelikult on see video, mis näitab, teda öeldes sõna "laps" eest
erinevad laulud.
>> [VIDEO PLAYBACK]
>> - (Laul) Baby.
Baby.
Baby.
Baby.
Baby.
Babe.
Baby.
Baby.
Baby.
Baby.
>> [END VIDEO PLAYBACK-
>> LUCAS FREITAS: Nii on, ma arvan, 40 laulu siin, kus ta ütleb,
sõna "laps". Nii saab põhimõtteliselt arvan et kui näed laul, mis on
sõna "laps", seal on mõned kõrge Tõenäosus, et see on Lady Gaga.
Aga proovime arendada seda veelgi rohkem ametlikult.
>> Nii et need on laulusõnu poolt Lady Gaga ja Katy Perry.
Nii et te vaatate Lady Gaga, näed *** on palju juhtumeid "baby"
palju esinemistest "viis". Ja siis Katy Perry on palju esinemistest
"," Palju esinemistest "tulekahju".
>> Ühesõnaga, mida me tahame vaja on, saad lüüriline.
Oletame, et sa saad lüürika jaoks laul, mis on "laps", vaid "laps". Kui
sa saad sõna "laps" ja selle on kõik andmed, mida on alates
Lady Gaga ja Katy Perry, kes oleks sa vist on inimene
kes laulab laulu?
Lady Gaga või Katy Perry?
Lady Gaga, eks?
Sest ta on ainus, kes ütleb, "Laps". See kõlab tobedalt, eks?
OK, see on tõesti lihtne.
Ma lihtsalt vaatasin kaks laulu ja Muidugi, ta on ainus, kes on
"Laps".
>> Aga kui sul on hunnik sõnu?
Kui teil on tegelik sõnadeni midagi nagu "kallis, ma lihtsalt
käisime [? CFT?]
loeng "või midagi sellist, ja siis tegelikult on aru saada -
põhinevad kõik need sõ*** -
kes on kunstnik, kes tõenäoliselt laulis seda laulu?
Seega proovime arendada see veidi kaugemale.
>> OK, nii põhineb lihtsalt andmete kohta, mida me sain, tundub, et Gaga on ilmselt
laulja.
Aga kuidas me saame kirjutada see veel ametlikult?
Ja seal saab olema veidi natuke statistikat.
Nii et kui sa ära eksida, lihtsalt proovida mõista kontseptsiooni.
See ei ole tähtis, kui sa aru võrrandid väga hästi.
See kõik saab olema võrgus.
>> Ühesõnaga, mida ma arvutamiseks on Tõenäosus, et see laul on poolt
Lady Gaga, arvestades, et -
nii see riba tähendab, arvestades, et -
Ma nägin sõna "laps". Kas see on mõtet?
Nii et ma üritan arvutada et tõenäosus.
>> Nii on see teoreem nimetatakse Bayesi teoreem, mis ütleb, et
tõenäosus antud B on tõenäosus B andnud, korda
tõenäosus üle tõenäosus B. See on pikk võrrand.
Aga mida sa pead mõistma, alates see on, et see on see, mida ma tahan
arvutada, eks?
Seega on tõenäosus, et see laul on poolt Lady Gaga, arvestades, et ma nägin sõna
"Laps".
>> Ja nüüd, mida ma saan on tõenäosus sõna "laps" antud
et mul on Lady Gaga.
Ja mis on see, et põhiliselt?
Mida see tähendab, mis on tõenäosus näha sõna "laps"
aastal Gaga lyrics?
Kui ma tahan arvutada, et väga lihtsalt, see on lihtsalt number
korda näen "beebi" üle koguarv sõnade Gaga lyrics, eks?
Mis on sagedus, mis ma näen, et sõna Gaga töö?
Mõtet?
>> Teine mõiste on tõenäosus Gaga.
Mida see tähendab?
See tähendab põhimõtteliselt, mis on tõenäosust klassifitseerimisel
mõned lyrics nagu Gaga?
Ja see on omamoodi veider, kuid Mõtleme näiteks.
Ütleme, et tõenäosus võttes "laps" on laul on sama
jaoks Gaga ja Britney Spears.
Aga Britney Spears on kaks korda rohkem laule kui Lady Gaga.
Nii et kui keegi just juhuslikult annab teile lyrics "baby", esimene asi, mida
vaadata, siis mis on tõenäosus võttes "laps" on Gaga laulu "Baby"
in Britney laulu?
Ja see on sama asi.
>> Nii teine asi, mida sa näed, on Noh, mis on tõenäosus
see luuletus iseenesest on Gaga lyric, ja milline on tõenäosus
on Britney luuletus?
Niisiis, kuna Britney on nii palju rohkem lyrics kui Gaga, siis tõenäoliselt
ütleme, et see on ilmselt Britney luuletus.
Nii et miks meil seda liige siin.
Tõenäosus Gaga.
Mõtet?
Kas see?
OK.
>> Ja viimane on lihtsalt tõenäosus "baby", mis ei ole
tegelikult küsimus, et palju.
Aga see on tõenäosus nägemine "laps" inglise keeles.
Me tavaliselt ei huvita, et palju, et perspektiivis.
Kas see on mõtet?
Seega tõenäosus Gaga on kutsutakse enne tõenäosus
klassi Gaga.
Sest see lihtsalt tähendab, et see, mis on tõenäosus on, et klass -
mis on Gaga -
lihtsalt üldiselt vaid ilma tingimustes.
>> Ja siis kui mul on tõenäosus Gaga antud "laps", siis me nimetame seda pluss
pisarais tõenäosusega, sest see on tõenäosus on
Gaga anda mõningaid tõendeid.
Nii et ma annan sulle tõendeid et ma nägin sõna laps ja
laulu mõtet?
OK.
>> Nii et kui ma välja arvutanud, et iga laulud Lady Gaga,
Mis oleks -
Ilmselt ma ei saa seda liigutada.
Tõenäosus Gaga on midagi sellist, 2 üle 24, korda 1/2,
üle 2 üle 53.
See ei ole tähtis, kas sa tead, mida need numbrid tulevad.
Aga see on lihtsalt number, mis läheb rohkem kui 0, eks?
>> Ja siis, kui ma Katy Perry, tõenäosus "laps" antud Katy on
juba 0, eks?
Sest seal ei ole "laps" Katy Perry.
Nii siis see muutub 0 ja Gaga võitu, mis tähendab, et Gaga on
ilmselt laulja.
Kas see on mõtet?
OK.
>> Nii et kui ma tahan teha seda veel ametlik, Ma ei saa tegelikult teha mudel
Mitme sõna.
Ütleme, et mul on midagi nagu "kallis, ma olen
põlema "või midagi.
Nii et see on mitu sõna.
Ja sel juhul, näete et "laps" on Gaga,
aga see pole Katy.
Ja "tulekahju" on Katy, kuid see ei ole Gaga, eks?
Nii see on üha keerukam, eks?
Kuna tundub, et sa peaaegu on tie vahel kaks.
>> Nii et mida sa pead tegema, on arvata, sõltumatuse vahel sõnu.
Ühesõnaga, mida see tähendab, et Ma lihtsalt arvutada, mis on
tõenäosusega näeme "laps", mis on tõenäosusega näeme "I" ja
"Mina" ja "on" ja "tulekahju" kõik eraldi.
Siis ma korrutades neid kõiki.
Ja ma näen mis on tõenäosus näha terve lause.
Mõtet?
>> Ühesõnaga, kui mul on ainult üks sõna, mida ma tahan teada on arg max,
mis tähendab, mis on klass, mis on annab mulle kõige tõenäolisem?
Mis on klass, mis annab mulle kõige tõenäolisem
tõenäosus klassi antud sõna.
Nii et sel juhul Gaga antud "laps". Või Katy antud "laps". Mõtet?
>> Ja just Bayes, et võrrand et ma näitasin,
loome selles fraktsioonis.
Ainuke asi on see, et sa näed, et tõenäosus sõna antud
klass muutub olenevalt klassist, eks?
Number "Baby" s, et mul on aastal Gaga erineb Katy.
Tõenäosus klass ka muudatusi, sest see on lihtsalt number
laule on igaühel neist.
>> Aga tõenäosus sõna ise saab olema sama kõigi
kunstnikud, eks?
Seega on tõenäosus, et sõna on lihtsalt, milline on tõenäosus, et
näeme, et sõna Inglise keeles?
Nii et see on sama kõigile.
Niisiis, kuna see on konstantne, saame lihtsalt tilk seda ja ei hooli sellest.
Seega see on tegelikult võrrand me otsime.
>> Ja kui mul on mitu sõna, ma olen ikkagi ise enne
tõenäosus siin.
Ainuke asi on see, et ma olen korrutades tõenäosus
kõik muud sõ***.
Nii et ma olen korrutades neid kõiki.
Mõtet?
Tundub imelik, kuid põhimõtteliselt tähendab, arvutada enne klassi ja
seejärel korrutada tõenäosus iga sõ*** on selles klassis.
>> Ja sa tead, et tõenäosus sõna antud klass saab olema
mitu korda sa näed, et sõna selle klassi jagatuna arvu
sõ***, mida on selles klass üldiselt.
Mõtet?
See on lihtsalt, kuidas "laps" oli 2 üle sõnade arv
Mul oli ka laulusõ***.
Nii lihtsalt sagedust.
>> Kuid on üks asi.
Mäletan, kuidas ma olin näidanud, et tõenäosus "laps" on lyrics
Katy Perry oli 0 lihtsalt sellepärast, et Katy Perry ei olnud "laps" üldse?
Aga see kõlab natuke karm lihtsalt lihtsalt öelda, et sõ*** ei tohi olla pärit
artist lihtsalt sellepärast, et neil ei ole et sõna eriti igal ajal.
>> Nii võib öelda, hästi, kui te ei ole see sõna, ma lähen
teile väiksema tõenäosusega aga ma ei kavatse
teile 0 kohe.
Sest võib-olla oli midagi sellist, "Tule, tule, tule, tule," mis on
täiesti Katy Perry.
Ja siis "laps" ja see lihtsalt läheb 0 kohe, sest seal oli üks
"Laps".
>> Ühesõnaga, mida me teeme, on midagi nimetatakse Laplace'i silumiseks.
Ja see tähendab lihtsalt, et ma annan teatud tõenäosusega isegi sõnu
et ei ole olemas.
Nii, mida ma teen, et kui ma olen arvutamisel seda, ma alati lisada 1
lugeja.
Nii et isegi kui sõna ei ole olemas, on Sel juhul, kui see on 0, ma olen ikka veel
arvutamisel seda 1 üle sõnade koguarv.
Muidu ma saan, kui palju sõnu Mul on ja ma lisada 1.
Ma loodan mõlemal juhul.
Mõtet?
>> Nüüd teeme mõned kodeerimist.
Ma pean seda üsna kiiresti, aga see on lihtsalt oluline, et te
poisid aru mõisted.
Niisiis, mida me üritame teha on täpselt rakendada seda
asi, mida ma just ütlesin -
Ma tahan sind panna lyrics Lady Gaga ja Katy Perry.
Ja programm hakkab saama öelda, kas need uued sõ*** on pärit Gaga
või Katy Perry.
Mõtet?
OK.
>> Nii et mul on selle programmi ma lähen helistada classify.py.
Nii et see on Python.
See on uus programmeerimiskeel.
See on väga sarnane mõnes viise C ja PHP.
See on sarnane, sest kui sa tahad õppida Python pärast teades C, see on
tõesti ei ole nii palju väljakutse lihtsalt sellepärast, et Python on palju lihtsam
kui C, kõigepealt.
Ja palju asju on juba rakendatud teile.
Nii lihtsalt, kuidas nagu PHP on funktsioone, mis sorteerida nimekirja või lisada midagi
massiivi või blah, blah, blah.
Python on kõik need samuti.
>> Nii et ma lihtsalt lähen selgitada kiiresti kuidas me võiksime teha klassifikatsioon
probleem siin.
Ütleme, et antud juhul on mul lyrics Gaga ja Katy Perry.
Nii, et ma pean need sõ*** on, et esimene sõna lyrics on
Kunstniku nimi ja ülejäänud on lyrics.
Ütleme, et mul on see nimekiri millest esimene on lyrics by Gaga.
Nii et siin ma olen õigel teel.
Ja järgmine on Katy ja see on ka laulusõ***.
>> Nii et see on, kuidas deklareerida muutuja Python.
Sa ei pea andma andmete liiki.
Sa lihtsalt kirjutada "lyrics" selline nagu PHP.
Mõtet?
>> Millised on asju, mida ma pean arvutada, et oleks võimalik arvutada
tõenäosused?
Ma pean arvutama "priors" iga erineva
klassi, et mul on.
Ma pean arvutama "tagumikuga" või üsna palju tõenäosuste
Iga erinev sõnade Saan iga kunstnik.
Niisiis jooksul Gaga, näiteks, ma lähen on nimekiri, kui palju kordi ma näen
iga sõna.
Mõtet?
>> Ja lõpuks, ma olen lihtsalt kavatse olla loendi nimega "sõ***" mis on lihtsalt läheb
on, kui palju sõnu ma on iga kunstnik.
Nii Gaga, näiteks kui ma vaatan libreto, olin ma arvan, et 24
sõnu kokku.
Nii, et see nimekiri on lihtsalt saab olema Gaga 24 ja Katy teine number.
Mõtet?
OK.
>> Nüüd, tegelikult, olgem minge kodeerimine.
Nii Python, saate tegelikult tagasi hunnik erinevaid
asju funktsioon.
Ma lähen, et luua seda funktsiooni nn "tingimisi", mis toimub
tagasi kõik need asjad, "Priors" "tõenäosuste" ja
"Sõnu." Nii "tingimisi", ja see on kavatse kahtluse "lyrics".
>> Nüüd ma tahan, et sa tegelikult kirjutan seda funktsiooni.
Niisiis, kuidas ma saan seda funktsiooni Ma määratletud käesoleva
toimida "def." Nii et ma tegin "def tingimuseks, "ja see võtab
"Lyrics". Ja mida see kavatseb teha on kõigepealt, mul on priors
et ma tahan arvutada.
>> Niisiis, kuidas ma saan seda teha, on luua sõnastik Python, mis
on päris palju sama räsi lauda või see on nagu korduv
massiivi PHP.
See on, kuidas ma kuulutada sõnastik.
Ja põhimõtteliselt tähendab see, et aprioorni Gaga on 0,5, kui näiteks
50% lyrics on pärit Gaga, 50% on pärit Katy.
Mõtet?
Nii et ma pean välja mõtlema, kuidas arvutada priors.
>> Järgmisel need, mis ma pean tegema, ka, on tõenäosused ja sõ***.
Nii tõenäosuste Gaga on nimekiri kõik tõenäosused, et ma
on iga sõna jaoks Gaga.
Nii et kui ma lähen tõenäosuste Gaga "Laps", näiteks, see annab mulle
midagi 2 üle 24 juhul.
Mõtet?
Nii ma lähen "tõenäosuste" minna "Gaga" ämber, mis on nimekiri kõigist
Gaga sõnul siis mine "laps" ja ma näen tõenäosust.
>> Ja lõpuks ma pean seda "Sõnadega" sõnastik.
Nii et siin, "tõenäosused." Ja siis "Sõnu." Nii et kui ma teen "sõ***", "Gaga"
Mis juhtub on see, et see on annan mina 24 ja ütles, et ma
on 24 sõnu lyrics Gaga.
Mõtet?
Nii et siin, "sõ***" on võrdne dah-dah-dah.
Korras
>> Niisiis, mida ma lähen tegema, on ma lähen Käi iga lyrics, nii
iga stringe, mis Mul on nimekirjas.
Ja ma lähen välja arvutada neid asju iga kandidaate.
Mõtet?
Nii et ma pean tegema silmus.
>> Nii Python, mida ma teha saan, on "for real aastal lyrics. "sama, mis
"Iga" väljavõte PHP.
Mäletan, kuidas, kui see oli PHP suutsin öelda "iga lyrics nagu
line. "Mõtet?
Nii et ma võtan iga rida selles juhul see string ja järgmise
string nii iga rida, mida ma lähen tegema, on esimene, ma lähen
jagada seda rida nimekirja sõ*** eraldatud tühikutega.
>> Nii lahe asi Python on see, et võid lihtsalt Google nagu "Kuidas ma saan
split string sõnu? "Ja see on ütlen teile, kuidas seda teha.
Ja kuidas seda teha, see on lihtsalt "line = Line.split () "ja see on põhimõtteliselt
annan teile nimekirja iga sõna siin.
Mõtet?
Nüüd, et ma tegin, et ma tahan teada, kes on laulja seda laulu.
Ja seda, et ma pean esimene element massiivi, eks?
Ma võin ainult öelda, et ma "laulja = Line (0) "Mõtet?
>> Ja siis, mida ma pean tegema, on esmalt kõik, ma lähen uuendada, kui palju
sõ*** on mul all "Gaga". nii et ma olen lihtsalt läheb välja arvutada, kui palju sõnu ma
on selles nimekirjas, eks?
Sest see on, kui palju sõnu on mul aastal lyrics ja ma olen lihtsalt kavatse
lisab ta "Gaga" massiivi.
Kas see on mõtet?
Ärge keskenduda liigselt süntaks.
Rohkem mõtlema mõisted.
See on kõige olulisem osa.
OK.
>> Niisiis, mida ma teha saan, on see, kui "Gaga" on juba selles nimekirjas, siis "kui laulja
sõ*** ", mis tähendab, et mul on juba on sõnu Gaga.
Ma lihtsalt tahan, et lisada täiendavaid sõna selle peale.
Niisiis, mida ma teha, on "sõ*** (laulja) + = Len (line) - 1 ".
Ja siis ma ei saa lihtsalt teha joone pikkus.
Niisiis, kuidas paljud elemendid I on massiiv.
Ja ma pean tegema, miinus 1 lihtsalt sellepärast, esimene element massiivi on lihtsalt
laulja ja need ei ole lyrics.
Mõtet?
OK.
>> "Else", see tähendab, et ma tahan, et tegelikult sisestada Gaga nimestikku.
Nii et ma lihtsalt ei "sõna (laulja) = Len (line) - 1, "kahju.
Niisiis ainus erinevus kahe read on, et see üks, see ei ole
veel olemas, nii et ma olen lihtsalt lähtestamisel.
See, mida ma olen tegelikult lisades.
OK.
Nii see oli, lisades sõ***.
>> Nüüd tahan lisada priors.
Niisiis, kuidas ma arvutada prioriteete?
Priors saab arvutada poolt mitu korda.
Nii mitu korda sa näed, et laulja hulgas kõik lauljad, et sa
olema, eks?
Nii Gaga ja Katy Perry, sel juhul ma näen Gaga
kord, Katy Perry kord.
>> Nii et põhimõtteliselt on kahtlustatud Gaga ja Katy Perry oleks
ainult üks, eks?
Sa lihtsalt mitu korda Näen kunstnik.
Seega on see väga lihtne arvutada.
Ma vaid midagi sarnast nagu näiteks "kui laulja priors, "Ma lihtsalt
lisada 1 oma priors kasti.
Niisiis, "priors (laulda)" + = 1 "ja siis" teine " Ma lähen tegema, "priors (laulja)
= 1. "Mõtet?
>> Seega, kui seda ei ole ma lihtsalt panna kui 1, muidu ma lihtsalt lisada 1.
OK, nii et nüüd on kõik, mis mul on jäänud teha Samuti lisage iga sõnu
tõenäosused.
Nii et ma pean lugema, mitu korda Ma näen iga sõna.
Nii et ma lihtsalt pean seda veel silmus real.
>> Nii et esimene asi, mida ma lähen tegema, on kontrollida, kas laulja on juba
tõenäosuste massiivi.
Nii et ma kontrollin, kas laulja ei on tõenäosus massiiv, ma olen lihtsalt
läheb initsialiseerida üks neist.
See ei ole isegi massiivi, vabandust, see sõnastik.
Nii tõenäosuste laulja läheb olema avatud sõnastik, nii et ma olen
lihtsalt algväärtustamisel sõnastik ta.
OK?
>> Ja nüüd ma ei saa tegelikult teha loop arvutada iga sõna "
tõenäosused.
OK.
Niisiis, mida ma teha saan, on silmus.
Nii et ma olen lihtsalt kavatse kinnitada, üle massiivi.
Niisiis, kuidas ma saan teha, et Python on "for i in range." Alates 1.
sest ma tahan alustada teises elemendina, kuna esimene on
laulja nime.
Nii ühest kuni joone pikkus.
Ja kui ma ei ulatuvad tegelikult minna nagu siin 1 kuni len kohta
line miinus 1.
Nii see juba teeb seda asja tehes n miinus 1 massiive, mis on väga
mugav.
Mõtet?
>> Seega on kõigi nende, mida ma teha, on, nagu ka teine,
Ma lähen, et kontrollida, kas sõna selles positsiooni juhe juba
tõenäosused.
Ja siis kui ma ütlesin siin, tõenäosuste sõ***, nagu ma panna
"Tõenäosuste (laulja)".
Nii nime laulja.
Nii et kui see on juba "Probabilit (laulja)," see tähendab, et ma
soovite lisada 1 see, et ma lähen teha "tõenäosuste (laulja)" ja
sõna on "line (i)".
Ma lähen lisada 1 ja "teine" Ma olen lihtsalt läheb initsialiseerida see 1.
"Line (i)".
Mõtet?
>> Niisiis, ma arvutatud kõik massiivid.
Nii, nüüd on kõik, mis mul on, mida teha see on lihtsalt "return priors,
tõenäosuste ja sõ***. "Teeme kas on üldse OK.
Tundub, et kõik töötab siiani.
Nii, et on mõtet?
Mingil moel?
OK.
Nüüd on mul kõik tõenäosused.
Nüüd on ainus asi, mis mulle on jäänud on lihtsalt olla, et asi, mis
arvutab toote kogu tõenäosuste kui ma lyrics.
>> Ütleme, et ma tahan nüüd helistada Selle funktsiooni "liigitada ()" ja
asi, mis funktsioon jääb on lihtsalt argument.
Ütleme "Kallis, ma olen põleb" ja see on läheb välja selgitada, mis on
Tõenäosus, et see on Gaga?
Milline on tõenäosus, et see on Katie?
Kõlab hästi?
Nii et ma olen lihtsalt kavatse on luua uus funktsioon nimega "liigitada ()" ja
see aega võtab mõned lyrics samuti.
Ja pealegi lyrics Olen ka saatma priors,
tõenäosuste ja sõ***.
Ma lähen saata lyrics, priors, tõenäosuste sõnu.
>> Nii et see võtab lyrics, priors, tõenäosuste sõnu.
Niisiis, mida see teeb?
Põhiliselt läheb läbi kõik võimalikke kandidaate, et sa
on laulja.
Ja kus on need kandidaadid?
*** on kahtlustatud, eks?
Nii et mul on kõik need olemas.
Nii et ma lähen on sõnastik kõiki võimalikke kandidaate.
Ja siis iga kandidaadi priors, nii et see tähendab, et see läheb
olema Gaga, Katie, kui mul oleks rohkem oleks rohkem.
Ma hakkan arvutamisel Selle tõenäosus.
Tõenäosus, nagu nägime PowerPoint on eelnevalt korda
toote iga teiste tõenäosused.
>> Ma võin teha sama siin.
Võin lihtsalt teha tõenäosus on esialgu ainult enne.
Nii priors kandidaadi.
Eks ole?
Ja nüüd ma pean Käi kõik sõ***, mis mul on lyrics olla
võimalik lisada tõenäosus iga neist, eks?
Niisiis, "sest sõna lyrics" mida ma teha on, kui sõna on
"Tõenäosuste (kandidaat)", mis tähendab, et see on sõna, mida
kandidaadil on oma lyrics -
näiteks "laps" jaoks Gaga -
mida ma lähen tegema, on see, et tõenäosusega läheb korrutatakse
1. pluss tõenäosuste kandidaat, et sõna.
Ja seda nimetatakse "sõnaga".
See on jagatud sõnade arv et mul on, et kandidaat.
Sõnade koguarv, mis mul on laulja, et ma otsin.
>> "Else". see tähendab, et see on uus sõna nii et see oleks nagu näiteks
"Tulekahju" Lady Gaga.
Nii et ma tahan lihtsalt teha 1 üle "Sõna (kandidaat)".
Nii et ma ei taha panna seda sõna.
>> Nii et see saab olema põhimõtteliselt kopeerige see.
Aga ma lähen kustutada osa.
Nii et see on lihtsalt saab olema 1 üle, et.
Kõlab hästi?
Ja nüüd lõpuks, ma olen lihtsalt läheb prindi kandidaadi nimi ja
tõenäosus, et teil on võttes S oma lyrics.
Mõtet?
Ja ma tegelikult ei ole isegi vaja seda sõnastikku.
Mõtet?
>> Nii, vaatame, kas see tegelikult toimib.
Nii et kui ma saan seda, see ei tööta.
Oota üks sekund.
"Words (kandidaat)", "sõ*** (kandidaat)", see on
nimi massiivi.
Ok, nii, see ütleb, et seal on mingi putukas kandidaat on eelnevalt karistatud.
Lubage mul jahedus natuke.
OK.
Proovime.
OK.
>> Nii et see annab Katy Perry on see tõenäosus seda korda 10
miinus 7 ja Gaga on see korda 10 astmel miinus 6.
Nii et näete see näitab, et Gaga on suurem tõenäosus.
Nii "Kallis, ma olen Fire" on ilmselt Gaga laul.
Mõtet?
Nii et see on see, mida me tegime.
>> Seda koodi läheb Internetti, Nii et te saate seda kontrollida.
Võib-olla kasutada mõningaid seda, kui soovite teha projekti või midagi sarnast.
OK.
See oli lihtsalt näidata mida arvutuslikku
lingvistika kood välja näeb.
Aga nüüd lähme veel kõrge tase värk.
OK.
>> Nii muid probleeme I rääkisin -
killustatust probleem on esimene neist.
Nii et teil on siin Jaapani.
Ja siis te näete, et puuduvad ruumid.
Nii et see on põhimõtteliselt tähendab, et see on top tool, eks?
Sa räägid Jaapani?
See on top of tool, eks?
>> Õpilane: Ma ei tea, mida kanji üle on.
>> LUCAS FREITAS: See on [räägitakse jaapani keeles]
OK.
Nii et see tähendab põhimõtteliselt juhataja top.
Nii et kui teil oli panna ruumi oleks siin.
Ja siis on [? Ueda-san. ?]
Mis põhimõtteliselt tähendab, härra Ueda.
Ja te näete, et "Ueda" ja teil on ruumi ja siis "san". Nii et näete, et
Siin "UE" on nagu iseenesest.
Ja siin see on märk kõrval.
>> Nii see ei meeldi nende keelte märkide tähendus sõna see, et sa
lihtsalt panna palju ruume.
Tegelased omavahel seotud.
Ja *** võivad olla koos nagu kaks, kolm, üks.
Nii et te tegelikult luua mingi on võimalus panna ruumid.
>> Ja see on see, et iga kord, kui sa saad andmeid nende Aasia keeltes,
kõike tuleb unsegmented.
Sest keegi, kes kirjutab jaapani või hiina kirjutab koos tühikutega.
Kui sa oled kirjalikult hiina, Jaapani sa lihtsalt kirjutada kõike
ilma tühikuteta.
See ei ole isegi mõtet panna ruumid.
Niisiis, kui sa saad andmeid, mõned Ida-Aasia keeles, kui soovite
tegelikult midagi teha, et pead segment esimene.
>> Mõtlema näiteks lyrics tühikuteta.
Nii et ainus lyrics, et teil on on lause, eks?
Eraldatud perioodidel.
Aga siis oleks lihtsalt lause ei aita edasi, mis sisaldab teavet
kes need sõ*** on poolt.
Eks ole?
Nii et sa peaksid paneb ruumid esimene.
Niisiis, kuidas sa seda tegid?
>> Siis tuleb mõte keel mudel, mis on midagi, mida tegelikult
oluline arvutuslikku keeleteadus.
Niisiis keel mudel on sisuliselt tabel tõenäosuste et näitab
Kõigepealt, mis on tõenäosus võttes sõna keeles?
Nii näitab, kuidas sageli sõna.
Ja siis ka näitab seoses sõnade lauses.
>> Seega on peamine idee on, kui võõras tuli sina ja ütles lause
teid, mis on tõenäosus, et Näiteks: "See on mu õde [? GTFi"?]
oli lause, et inimene ütles?
Nii et ilmselt mõned laused rohkem levinud kui teised.
Näiteks: "Tere hommikust!" Või "hea öösel "või" Tere, "on palju rohkem
ühist kui enamik lauseid et meil on inglise keel.
Miks on need laused sagedamini?
>> Esiteks sellepärast, et teil on sõ***, mis on sagedamini.
Nii näiteks, kui te ütlete, et koer on suur ja koer on hiiglaslik, siis
tavaliselt kuulen et koer on suur sagedamini, sest "suur" on
sagedased inglise kui "hiiglaslik". Niisiis, üks
asjad on sõna sagedus.
>> Teine asi, mis on tõesti tähtis on vaid
sõnade järjekord.
Niisiis, see on tavaline, et öelda: "kass karbi sees. "Aga sa ei ole tavaliselt
vt "kasti sees on kass." nii te näete, et seal on mõned tähtsust
aastal järjekorras sõnu.
Sa ei saa lihtsalt öelda, et need kaks laused on sama tõenäosus
lihtsalt sellepärast, et *** on sama sõna.
Sa tegelikult on hoolitseda umbes, et samuti.
Mõtet?
>> Mida me siis teeme?
Niisiis, mida ma võiks proovida sulle?
Ma üritan sulle, mida me kutsuvad n-gramm mudeleid.
Nii n-gramm mudelid põhimõtteliselt eeldada et iga sõna, mis
teil on lause.
See tõenäosus on, et sõna ei sõltu mitte ainult
sagedusega, et sõna keeles, vaid ka sõnu, mis
on seda ümbritsevad.
>> Nii näiteks, tavaliselt siis, kui te näete midagi on või olete
Tõenäoliselt näeme nimisõna pärast seda, eks?
Sest kui sul on eessõna Tavaliselt kulub nimisõna pärast seda.
Või kui teil on verb, mis on transitiivne sa tavaliselt hakkavad
on nimisõna fraas.
Nii et see saab olema nimisõna kuskil see.
>> Niisiis, põhimõtteliselt, mida ta teeb, on see, et leiab tõenäosus on
sõ*** üksteise kõrval, kui sa oled arvutamisel
tõenäosus lause.
Ja see, mida keel mudel on sisuliselt.
Lihtsalt öeldes, mis on tõenäosus võttes konkreetseid
lause keeles?
Miks see nii on kasulik, põhiliselt?
Ja kõigepealt, mis on n-gramm mudel, siis?
>> Nii n-gramm mudel tähendab, et Iga sõna, sõltub
Järgmine N miinus 1 sõ***.
Niisiis, põhimõtteliselt tähendab see, et kui ma vaatan, Näiteks on CS50 TF kui
Ma arvutamisel tõenäosus lause, siis saad nagu "
tõenäosus on sõna "the" korda tõenäosus on "
CS50 "korda tõenäosus on "CS50 TF". Niisiis, põhimõtteliselt, ma loodan
kõiki võimalusi venitades seda.
>> Ja siis tavaliselt siis, kui sa seda teed, nagu projekti, paned N olla
madala väärtusega.
Nii on tavaliselt bigrams või trigrams.
Nii et sa lihtsalt loota kaks sõna, grupp kahte sõna või kolm sõna,
lihtsalt jõudlus.
Ja ka sellepärast, et võib-olla, kui teil on midagi "CS50 TF". Kui te
on "TF", et see on väga oluline, et "CS50" kõrval on see, eks?
Need kaks asja on tavaliselt üksteise kõrval.
>> Kui sa arvad, et "TF", on see ilmselt läheb on see, mida
klass see TF'ing eest.
Ka "" on tõesti oluline jaoks CS50 TF.
Aga kui sul on midagi "CS50 TF läks klassi ja andis oma
õpilased kommi. "" Candy "ja" " ei ole seost tegelikult, eks?
*** on nii üksteisest väga kaugel, et see ei ole tegelikult oluline, mida
sõ*** olete.
>> Nii tehes Bigrammi või trigram, see tähendab lihtsalt, et sa piiramine
ise mõned sõ*** mis on umbes.
Mõtet?
Nii et kui sa tahad teha killustatust Põhimõtteliselt, mida sa tahad teha, on näha,
mis kõik on võimalik viisil, mis saate segment lause.
>> Selline, et sa näed, mida on tõenäosus iga nimetatud lausete
olemasoleva keeles?
Niisiis, mida sa teed on nagu, noh, las ma proovin panna ruumi siin.
Nii paned ruumi seal ja sa näed, mida on
tõenäosus, et lause?
Siis on nagu OK, võib-olla see ei olnud nii hea.
Nii panin ruumi seal ja ruum seal, ja sa arvutada
tõenäosus nüüd, ja te näete, et see on suurem tõenäosus.
>> Nii et see on algoritm, mida nimetatakse TANGO segmenteerimine algoritmi, mis on
tegelikult midagi, mis oleks tõesti lahe projekt, mis
Põhiliselt kulub unsegmented teksti võib olla jaapani või hiina või äkki
English tühikuteta ja üritab panna tühikud sõnade ja see
et kasutades keele mudeli püüdes näha, mis on suurim
tõenäosusega saad.
OK.
Nii et see on killustatust.
>> Nüüd süntaks.
Niisiis, süntaks on kasutatud nii palju asju kohe.
Nii Graph Search jaoks Siri jaoks päris palju tahes looduslik
keelekasutus olete.
Millised on oluline asju süntaks?
Niisiis, lauseid üldiselt on mida me nimetame koostisosad.
Mis on selline nagu sõnagruppide mis on funktsioon lauses.
Ja *** ei saa tõesti olla teineteisest.
>> Niisiis, kui ma ütlen, näiteks "Lauren armastab Milo. "Ma tean, et" Lauren "on
koostisosa ja seejärel "armastab Milo "on ka teine.
Sest sa ei saa öelda, nagu "Lauren Milo armastab "on sama tähendus.
See ei kavatse olla sama tähendus.
Või ma ei saa öelda, nagu "Milo Lauren armastab. "Mitte kõik on sama
mis tähendab seda tehes.
>> Nii kaks tähtsam asju süntaks on leksikaalse liigid, mis on
põhiliselt funktsiooni, mida on sõnu, mida ise.
Nii et sa pead teadma, et "Lauren" ja "Milo" on nimisõ***.
"Love" on verb.
Ja teine oluline asi on see, et *** phrasal tüübid.
Nii et sa tead, et "armastab Milo" tegelikult sõnaline väljend.
Nii et kui ma ütlen "Lauren" Ma tean, et Lauren teeb midagi.
Mida ta teeb?
Ta armastav Milo.
Nii et see on kogu asja.
Aga selle komponentide nimisõna ja verb.
Aga koos *** verb lause.
>> Niisiis, mida me tegelikult teeme arvutilingvistika?
Seega, kui mul on midagi näiteks "Sõbrad Allison." Ma näen, kui ma
ei süntaktiline puu ma tean, et "Sõbrad" on nimisõna fraas on
nimisõna ja siis "on Allison" on prepositionaali fraasi mis "on" on
ettepanekute ja "Allison" on nimisõna.
Mida ma saaksin teha, on õpetada minu arvuti et kui mul on nimisõna fraas üks ja
siis prepositionaali fraas.
Nii selles asjas "sõbrad" ja seejärel "kohta Milo "Ma tean, et see tähendab, et
NP2, teine omab NP1.
>> Ma võin luua mingi seos, mingi funktsiooni ta.
Nii et kui ma näen, see struktuur, mis sobib täpselt "sõprade
Allison, "Ma tean, et Allison omab sõpru.
Nii sõbrad on midagi et Allison on.
Mõtet?
Nii et see on põhimõtteliselt see, mida Graph Otsi teeb.
See lihtsalt tekitab reeglid jaoks palju asju.
Nii "sõprade Allison," "mu sõbrad kes elab Cambridge "," minu sõbrad
kes Harvardi minna. "See loob reeglid kõik need asjad.
>> Nüüd masintõlge.
Niisiis, masintõlge on ka midagi statistiline.
Ja tegelikult, kui saad osaleda arvutilingvistika, palju
oma asjad saab olema statistika.
Nii nagu ma tegin näiteks palju tõenäosused, et olin
arvutamisel, ja siis sa saad seda väga väike number, mis on lõplik
tõenäosus ja see, mida annab teile vastuse.
Masintõlge kasutab ka statistilise mudeli.
Ja kui sa tahad mõelda masin tõlkimine lihtsaimal võimalikul
Muide, mida sa ei mõtle, on lihtsalt tõlkida sõna-sõnalt, eks?
>> Kui sa õpid keelt Esimest korda, see on tavaliselt, mida
sa teed, eks?
Kui sa soovid tõlkida lause Teie keel keel
sa õpid, tavaliselt esimene, siis tõlkida iga sõna
individuaalselt ja siis proovida panna sõ*** paika.
>> Nii et kui ma tahtsin tõlkida see, [Räägitakse Portugali]
mis tähendab "valge kass jooksis minema." Kui ma tahtsin seda tõlkida alates
Portugali keelest inglise keelde, mida ma võiks teha, on esimene, ma lihtsalt
tõlkida sõna-sõnalt.
Nii "o" ei "," "Gato", "kass" "Branco", "valge" ja seejärel "fugio" on
"Jooksis minema."
>> Nii siis on mul kõik sõ*** siin, kuid *** ei ole selleks.
See on nagu "kass valge põgenesin" mis on ungrammatical.
Nii, siis ma võib olla teine samm, mis läheb leida ideaalne
positsiooni iga sõna.
Nii et ma tean, mida ma tegelikult tahan olla "Valge kass", mitte "kass valge." Nii
Mida ma saan teha, on kõige naiivne meetod oleks luua kõik
võimalike kombinatsioonide sõnadega seisukohti.
Ja siis vaata, millest üks on suurima tõenäosusega vastavalt
minu keel mudel.
Ja siis, kui ma leida üks, mis on suurima tõenäosusega see, mis on
ilmselt "valge kass jooksis minema," see on minu tõlge.
>> Ja see on lihtsalt seletada kuidas palju masintõlge
algoritmide töö.
Kas see on mõtet?
See on ka midagi väga põnevat et te saate olla uuringuteks
lõplik projekt, jah?
>> Õpilane: Noh, sa ütlesid, et see oli naiivne, nii, mida on
mitte-naiivne viis?
>> LUCAS FREITAS: mitte-naiivne viis?
OK.
Nii et esimene asi, mis on halvasti see meetod on see, et ma lihtsalt tõlkida
sõ***, sõna-sõnalt.
Aga mõnikord pead sõnu, võib olla mitu tõlked.
Ma lähen, et proovida mõelda midagi.
Näiteks "manga" portugali purk kas "purustama" või "varrukas". Nii
kui sa üritad tõlkida sõna sõna, see võib anda teile
midagi, mis ei ole mõistlik.
>> Nii et te tegelikult soovite te vaatate kõik võimalik tõlked
sõ*** ja vaadata kõigepealt, mis on järjekorras.
Me rääkisime permutating asjad?
Et näha kõiki võimalikke käske ja valida üks kõrgeim
tõenäosus?
Võite ka kõiki võimalikke tõlked iga
sõna ja siis vaata -
koos permutatsiooni -
millest üks on suurim tõenäosus.
>> Plus, saate vaadata ka mitte ainult sõnades, vaid fraasid.
nii saad ***üüsida suhteid sõ*** ja siis saad
paremat tõlget.
Ka midagi muud, nii et see semester Ma tegelikult teadustöö
Hiina-inglise masintõlge, nii tõlkimisel
Hiina keelest inglise keelde.
>> Ja mida me teeme on, peale kasutades statistiline mudel, mis on vaid
nägemine tõenäosuste nägemine mõned positsiooni lause, ma olen
tegelikult ka lisades mõned süntaks minu mudel, öeldes, oh, kui ma näen seda tüüpi
ehitus, see on see, mida ma tahan, seda muuta, kui ma tõlkida.
Nii saate lisada ka mingi element süntaksi teha
tõlkimise tõhusama ja täpsemaks.
OK.
>> Niisiis, kuidas saab kohe alustada, kui soovite midagi arvutilingvistika
keeleteadus?
>> Esmalt vali projekt mis hõlmab keelt.
Niisiis, seal on nii palju seal.
Seal on nii palju asju, mida saate teha.
Ja siis ei mõtle mudel , mida saab kasutada.
Tavaliselt see tähendab, et mõtlemine eeldused, nagu näiteks, oh, kui ma olin
nagu mõtlemine lyrics.
Ma olin nagu, noh, kui ma tahan, et aru välja, kes selle kirjutas, ma ilmselt tahad
pilk sõnu isik kasutada ja näha, kes kasutab seda sõna väga tihti.
Nii et proovige teha oletusi ja proovi mõelda mudeleid.
Ja siis saate ka otsida online selline probleem, et teil on,
ja see läheb soovitan Teile mudeleid, mis võib-olla
modelleeritud, et asi hästi.
>> Ja ka võite alati emaili mulle.
me@lfreitas.com.
Ja ma ei saa lihtsalt vastata teie küsimustele.
Me võime isegi võib vastata nii, et mu anda soovitusi selle kohta, kuidas
rakendamise projekti.
Ja ma mõtlen, kui sa lüüa arvutilingvistika, see läheb
olema suur.
Sa lähed, et näha seal on nii palju potentsiaali.
Ja tööstuse tahab palgata sa nii halb sellepärast.
Nii et ma loodan, et te nautida seda.
Kui te on küsimusi, võite küsida mind pärast seda.
Aga tänan.