JULIO ADISANTOSO - ILKOM IPB
Ad H oc Re t r ie va l KOM 3 4 1
User m encari inform asi dengan m em berikan
Te m u Ke m ba li I n for m a si sat u at au lebih query t erhadap koleksi t erkini.
Cont oh: m encari m ult icore com put er chips t erbaru.
Query : m ult icore AND com put er AND chip KULI AH # 7 Akan dieksekusi set iap ada penam bahan dokum en
- Text Classificat ion baru Æ st anding query Mungkin t idak m enem ukan art ikel baru lain yang relevan, m isalnya m ult icore processors.
Gunakan Boolean: ( m ult icore OR m ult i- core) AND ( chip OR processor OR m icroprocessor) JAS - DEPT. I LMU KOMPUTER I PB
2 Cla ssifica t ion Ca t e gor iz a t ion / Cla ssifica t ion
Given:
Lebih m udah kalau dokum en Deskripsi dokum en d
dikelom pokkan m enj adi m isalnya dua ∈X, dim ana X adalah kum pulan
dokum en. kelas, yait u dokum en t ent ang m ult icore Him punan kelas at au kat egori: com put er chips dan dokum en BUKAN
C = { c C { c , c , c ,…, c ,…, c } }
1
1
2 2 n n t ent ang m ult icore com put er chips. t t lt i t hi
Tuj uan:
Kelas biasanya m eruj uk ke t opik Menent ukan kat egori dari d: c( d) ∈C, dim ana c( d) dokum en. adalah fungsi kat egorisasi ( classifier) .
Prosesnya sering disebut sebagai t ext classificat ion, t ext cat egorizat ion, t opic classificat ion, t opic spot t ing.
JAS - DEPT. I LMU KOMPUTER I PB
3 JAS - DEPT. I LMU KOMPUTER I PB
4 D ocu m e n t Cla ssifica t ion Le a r n in g M e t h od “planning
Kit a m em pelaj ari fungsi klasifikasi yang
Test language
m em et akan dokum en ke kat egori t ert ent u:
proof Data: intelligence”
γ : Χ → C
(AI) (Programming) (HCI)
Disebut j uga supervised learning, karena
Classes:
supervisor ( orang yang m enent ukan kat egori
ML Planning Semantics Garb.Coll. Multimedia GUI
dokum en) berperan langsung di dalam proses
Training pem belaj aran. learning planning programming garbage ... ...
Data: intelligence temporal semantics collection algorithm reasoning language memory reinforcement plan proof... optimization network... language... region...
JAS - DEPT. I LMU KOMPUTER I PB
5 JAS - DEPT. I LMU KOMPUTER I PB
6
M e t ode
, ) ( ˆ N N
| c) adalah peluang t erm t
k
m uncul pada dokum en kelas c, P( c) peluang dokum en ada pada kelas c.
JAS - DEPT. I LMU KOMPUTER I PB
11 ∏
≤ ≤ ∝ d n k k
P c t c P d c P
1 ) | ( ) ( ) | (
Pe n du ga a n Pa r a m e t e r
Pendugaan param et er
P c c
dim ana P( t
= ∑
= ct ct
T T P c t
' ) | ( ˆ
dim ana N
c
adalah banyaknya dokum en dalam kelas c, N adalah t ot al dokum en, T
ct
adalah banyaknya t dalam dokum en t raining dari kelas c.
JAS - DEPT. I LMU KOMPUTER I PB
k
∏ P P d P ) | ( ) ( ) | (
Manual
k - Nearest Neighbors ( sim ple, powerful) Naiv e Bayes ( sim ple, com m on m et hod) Support - v ect or m achines ( new , m ore pow erful) dsb Mem but uhkan hand- classified t raining dat a Dat a dapat dibangun oleh am at ir
Digunakan oleh Yahoo! , Looksm art , about .com , ODP, Medline Sangat akurat karena dilakukan oleh ahli. Konsist en pada saat ukurannya kecil/ sedikit Konsist en pada saat ukurannya kecil/ sedikit . Sulit dan m ahal
JAS - DEPT. I LMU KOMPUTER I PB
7 M e t ode
Aut om at ic docum ent classificat ion
Hand- coded rule- based syst em s Digunakan oleh CS dept ’s spam filt er, Reut ers, CI A, Verit y, … Masukkan ke kat egori j ika dokum en m engandung g j g g kom binasi kat a t ert ent u.
Akurasi t inggi j ika rule dibuat dengan sangat baik oleh ahli dan kom pleks.
JAS - DEPT. I LMU KOMPUTER I PB
8 M e t ode
Aut om at ic docum ent classificat ion
Supervised learning Beberapa m enggunakan m achine learning ( Aut onom y, MSN, Verit y, Enkat a, Yahoo! , …)
Banyak sist em kom ersial m enggunakan m et ode cam puran
Supervised learning m et hod Multinom ial Naïve Bayes Model Peluang dokum en d dalam kelas c :
JAS - DEPT. I LMU KOMPUTER I PB
9 M e t ode Ba ye s
Berbasis teori peluang Ut am anya t eorem a Bayes Unt uk kej adian a dan b, Bayes Rules:
JAS - DEPT. I LMU KOMPUTER I PB
10 ∑ =
= = = = = ∩ = a a x x p x b p a p a b p b p a p a b p b a p a p a b p b p b a p a p a b p b p b a p b a p b a p
, ) ( ) | ( ) ( ) | (
) ( ) ( ) | ( ) | ( ) ( ) | ( ) ( ) | (
) ( ) | ( ) ( ) | ( ) ( ) , ( Posterior Prior
N a ïve Ba ye s M ode l
12 ∈V t '
TRAI NI NG SET
- =
- dim ana B = | V| = banyaknya t erm dalam vocabulary.
- ⎟ ⎠ ⎞
TRAI NI NG SET
ˆ | 1 )).( (
≈ − − − ⋅ ⋅ ⋅ = − − −
5
ˆ
ˆ ) | (
ˆ ). (
ˆ ). | (
ˆ ). | (
ˆ 1 .( ) | (
3 )) | (
ˆ | 1 )).( (
Macao c P c Shanghai P c Beijing P Tokyo c P c Japan P c Chinese P c P d c P JAS - DEPT. I LMU KOMPUTER I PB
1 5 / 4 4 /
2 1 ( 5 /
2 1 ).( 5 /
2 1 ).( 5 /
5 /
Con t oh ) 005 .
16 P( c) = ¾ dan P( ¬c) = ¼ P( Chinese| c) = ( 3+ 1) / ( 3+ 2) = 4/ 5 P( Tok yo| c) = P( Japan| c) = ( 0+ 1) / ( 3+ 2) = 1/ 5 P( Beij ing| c) = P( Shanghai| c) = P( Macao| c) = ( 1+ 1) / ( 3+ 2) = 2/ 5 P( Chinese| ¬c) = (1+ 1)/ (1+ 2) = 2/ 3 P( Tok yo| ¬ c) = P(Japan| ¬ c) = (1+ 1)/ (1+ 2) = 2/ 3 P( Beij ing| c) = P( Shanghai| c) = P( Macao| c) = ( 0+ 1) / ( 1+ 2) = 1/ 3
∝
( bukan China) ) 022 .
5 diklasifikasik an ke ¬c
Tuj uan klasifikasi: m endapat kan kelas t erbaik unt uk suat u dokum en. Kelas t erbaik : sangat m irip at au m axim um a post eriori ( MAP) kelas c
) ( ˆ ) max arg | ( ˆ max arg diduga dari training set
1 ) | ( ˆ
P c t c P d c P c
≤ ≤ ∈ ∈ = = d n k k C c C c map
18 ∏
JAS - DEPT. I LMU KOMPUTER I PB
:
m ap
P d c M a x im u m a Post e r ior i
La pla ce sm oot h in g At au Add- One Sm oot hing.
≈ − − − ⋅ ⋅ ⋅ ∝
5
ˆ
2 4 / | 1 ) (
2 3 / 2 3 /
1 1 .( 3 /
1 1 ).( 3 /
1 1 ).( 3 /
3 /
5 Chinese Chinese Chinese Tokyo Japan ? JAS - DEPT. I LMU KOMPUTER I PB
4 Tok yo Japan Chinese no TEST SET
4 Tok yo Japan Chinese no
' ' ' '
2 Chinese Chinese Shanghai yes
1 Chinese Beij ing Chinese yes
Con t oh docI D w or ds in docu m e n t in c = Ch in a ?
∑ ∑ ∈ ∈
=
⎜ ⎝ ⎛
V t ct ct V t ct ct
B T T T T P c t
1 ) | (
4 Tok yo Japan Chinese no
1 ) 1 (
'
13
JAS - DEPT. I LMU KOMPUTER I PB
T T P t t
ˆ
1 ) | (
1
Unt uk m enghilangkan dugaan param et er yang bernilai nol.
3 Chinese Macao yes
4 Tok yo Japan Chinese no TEST SET
3 Chinese Macao yes
5 Chinese Chinese Chinese Tokyo Japan ? JAS - DEPT. I LMU KOMPUTER I PB
2 Chinese Chinese Shanghai yes
1 Chinese Beij ing Chinese yes
docI D w or ds in docu m e n t in c = Ch in a ?
JAS - DEPT. I LMU KOMPUTER I PB
didefinisikan sebagai rasio t oken dalam dokum en kelas c yang m engandung t erm t .
) | ( ˆ P c t
: rasio dokum en dari kelas c yang m engandung t erm t . Dalam m ult inom ial
Kej adian Bernoulli Multivariate Bernoulli Model
P d c P d c Be r n ou lli M ode l
5 ≈ ⋅ ⋅ ⋅ ∝ ≈ ⋅ ⋅ ⋅ ∝
3
5
3
3 ( 4 / | 3 ) ( ˆ
1 14 / 1 ) 7 /
0003 . 14 /
2 ( 4 / | 1 ) ( ˆ
2 9 / 2 ) 9 /
0001 . 9 /
14 P( c) = ¾ dan P( ¬c) = ¼ P( Chinese| c) = ( 5+ 1) / ( 8+ 6) = 6/ 14 = 3/ 7 P( Tok yo| c) = P( Japan| c) = ( 0+ 1) / ( 8+ 6) = 1/ 14 P( Chinese| ¬c) = (1+ 1)/ (3+ 6) = 2/ 9 P( Tok yo| ¬ c) = P(Japan| ¬ c) = (1+ 1)/ (3+ 6) = 2/ 9
15 Con t oh
17 Jadi, dokum en d
- Kej adian A dan B saling bebas
1
P( A ∩B) = P(A,B) = P(A).P(B)
- Maka:
- Maka:
X P c t t P c d P l Multinomia d d
- Mult inom ial P( d| c) = P( < t
- Bernoulli P( d| c) = P( < e
JAS - DEPT. I LMU KOMPUTER I PB
JAS - DEPT. I LMU KOMPUTER I PB
20 ∏ ∏
≤ ≤ ≤ ≤
= = = = = =
M i M i i n k k k n
U c e P c e e P c d P Bernoulli c t
23 Government Science Arts
JAS - DEPT. I LMU KOMPUTER I PB
1
1
Te st D ocu m e n t = Gove r n m e n t ? Sim ilar it y hypot hesis t rue in general?
) | ( ) | ,..., ( ) | ( ) | ( ) | ,..., ( ) | (
M u lt in om ia l vs Be r n ou lli JAS - DEPT. I LMU KOMPUTER I PB
21 V e ct or Spa ce Cla ssifica t ion Kla sifik a si M e n ggu n a k a n Ru a n g V e k t or Set iap dokum en t raining direpresent asikan sebagai vekt or.
Set iap t it ik ( vekt or) dokum en t raining diberi label sesuai dengan kelasnya.
1
M
Asu m si Sa lin g Be ba s
19
M a x im u m a Post e r ior i
) ( ) | ( max arg ) (
) ( ) | ( ) max arg | ( max arg
P c c d P P d P c c d P P d c c
C c C c C c map
∈ ∈ ∈
= = =
JAS - DEPT. I LMU KOMPUTER I PB
1
> | c)
, …, t
k
, …, t
nd
> | c)
1
, …, e
k
, …, e
24 Government Science Arts
30 Government Science Arts
JAS - DEPT. I LMU KOMPUTER I PB
JAS - DEPT. I LMU KOMPUTER I PB
27 ) ( min arg d v c c
µ )) ( ), ( cos( max arg d v c c r r
µ Con t oh Dari cont oh sebelum nya, diperoleh: Jarak d
5 t erhadap cent roid: | µ c
5 | ≈1.15 dan | µ
¬c
5 | ≈0.00 m aka Rocchio m engklasifikasikan d
5 ke kelas ¬c ( bukan
China) .
28 k N e a r e st N e igh bor Cla ssifica t ion
) ( min arg d v r µ r −
Mengklasifikasikan dokum en d ke dalam kelas
c
Tent ukan k- neighborhood N at au kNN sebagai
k
t erdekat dari d Hit ung banyaknya dokum en i dalam N pada kelas c Duga nilai P( c| d) = i/ k Pilih
JAS - DEPT. I LMU KOMPUTER I PB
29 ) | ( max arg d c P c
C c map ∈
= Con t oh : k = 6 ( 6 N N )
P( science| ) ? JAS - DEPT. I LMU KOMPUTER I PB
Menggunakan ukuran kesam aan Cosine
Dokum en d dikelom pokkan ke dalam kelas c Menggunakan j arak
Rocch io Cla ssifica t ion
1
Cent roid dari kelas c:
∑ =
D d d v D c ) (
1 ) ( r r µ
JAS - DEPT. I LMU KOMPUTER I PB
25 ∈ c
D d c D
Rocch io Cla ssifica t ion
Bat as ant ara dua kelas adalah t it ik yang m em ilik i j arak sam a ke kedua t id Æ cent roid- nya Æ
| a
| = | a
26 Rocch io Cla ssifica t ion
2
| , | b
1
| = | b
2
| , | c
1
| = | c
2
|
JAS - DEPT. I LMU KOMPUTER I PB
- d
- d
- d
- d
- d
- d
JAS - DEPT. I LMU KOMPUTER I PB
Adapt ive classifier com binat ion ( ACC) Kom binasi NB dan kNN
Dynam ic classifier select ion ( DCS) Dynam ic classifier select ion ( DCS) Pendekat an kNN dengan ukuran kesam aan Cosine, dilakukan it erasi.
Unt uk t iap dokum en t est , kit a klasifikasikan ke kelas c i j ika m ayor it as classifier m em asukkan dokum en t est ke kelas c i .
Sim ple vot ing
Kom bin a si M e t ode Kla sifik a si
33 X Æ class1 Classifier 2: X Æ class2 Jadi, X dim asukkan kem ana?
Classifier 1: JAS - DEPT. I LMU KOMPUTER I PB
Beberapa penelit i m enunj ukkan bahw a kom binasi beberapa classifier yang berbeda dapat m eningkat kan akurasi.
Kom bin a si M e t ode Kla sifik a si
4 .
5 lebih dekat ke kelas d
5 | = 0.0000 Maka d
4
5 | = 1.4171 | d
3
5 | = | d
2
5 | = | d
1
32 Dengan m enggunakan j arak Euclidean, m aka: | d
31 Con t oh : 1 N N JAS - DEPT. I LMU KOMPUTER I PB
JAS - DEPT. I LMU KOMPUTER I PB
( d’) = 1 j j k d’ ada dalam kelas c, dan sebaliknya = 0.
dim ana I c
Met ode kNN t ergant ung pada ukuran kem iripan ( bisa j uga j arak) yang digunakan. Paling sederhana adalah j arak Euclidean. Unt uk t eks, yang paling efekt if adalah ukuran kem iripan cosine dengan bobot vekt or t f idf kem iripan cosine dengan bobot vekt or t f.idf. Skor dokum en di suat u kelas:
Uk u r a n Ke m ir ipa n
34