JULIO ADISANTOSO - ILKOM IPB

  Ad H oc Re t r ie va l KOM 3 4 1

  † User m encari inform asi dengan m em berikan

  Te m u Ke m ba li I n for m a si sat u at au lebih query t erhadap koleksi t erkini.

  † Cont oh: m encari m ult icore com put er chips t erbaru.

  „ Query : m ult icore AND com put er AND chip KULI AH # 7 „ Akan dieksekusi set iap ada penam bahan dokum en

  • Text Classificat ion baru Æ st anding query „ Mungkin t idak m enem ukan art ikel baru lain yang relevan, m isalnya m ult icore processors.

  „ Gunakan Boolean: ( m ult icore OR m ult i- core) AND ( chip OR processor OR m icroprocessor) JAS - DEPT. I LMU KOMPUTER I PB

  2 Cla ssifica t ion Ca t e gor iz a t ion / Cla ssifica t ion

  † Given:

  † Lebih m udah kalau dokum en „ Deskripsi dokum en d

dikelom pokkan m enj adi m isalnya dua ∈X, dim ana X adalah kum pulan

dokum en. kelas, yait u dokum en t ent ang m ult icore

  „ Him punan kelas at au kat egori: com put er chips dan dokum en BUKAN

  C = { c C { c , c , c ,…, c ,…, c } }

  1

  1

  2 2 n n t ent ang m ult icore com put er chips. t t lt i t hi

  † Tuj uan:

  † Kelas biasanya m eruj uk ke t opik „ Menent ukan kat egori dari d: c( d) ∈C, dim ana c( d) dokum en. adalah fungsi kat egorisasi ( classifier) .

  † Prosesnya sering disebut sebagai t ext classificat ion, t ext cat egorizat ion, t opic classificat ion, t opic spot t ing.

  JAS - DEPT. I LMU KOMPUTER I PB

  3 JAS - DEPT. I LMU KOMPUTER I PB

  4 D ocu m e n t Cla ssifica t ion Le a r n in g M e t h od “planning

  † Kit a m em pelaj ari fungsi klasifikasi yang

  Test language

  m em et akan dokum en ke kat egori t ert ent u:

  proof Data: intelligence”

  γ : Χ → C

  (AI) (Programming) (HCI)

  † Disebut j uga supervised learning, karena

  Classes:

  supervisor ( orang yang m enent ukan kat egori

  ML Planning Semantics Garb.Coll. Multimedia GUI

  dokum en) berperan langsung di dalam proses

  Training pem belaj aran. learning planning programming garbage ... ...

  Data: intelligence temporal semantics collection algorithm reasoning language memory reinforcement plan proof... optimization network... language... region...

  JAS - DEPT. I LMU KOMPUTER I PB

  5 JAS - DEPT. I LMU KOMPUTER I PB

  6

  M e t ode

  , ) ( ˆ N N

  | c) adalah peluang t erm t

  k

  m uncul pada dokum en kelas c, P( c) peluang dokum en ada pada kelas c.

  JAS - DEPT. I LMU KOMPUTER I PB

  11 ∏

  ≤ ≤ ∝ d n k k

  P c t c P d c P

  1 ) | ( ) ( ) | (

  Pe n du ga a n Pa r a m e t e r

  Pendugaan param et er

  P c c

  dim ana P( t

  = ∑

  = ct ct

  T T P c t

  ' ) | ( ˆ

  dim ana N

  c

  adalah banyaknya dokum en dalam kelas c, N adalah t ot al dokum en, T

  ct

  adalah banyaknya t dalam dokum en t raining dari kelas c.

  JAS - DEPT. I LMU KOMPUTER I PB

  k

  ∏ P P d P ) | ( ) ( ) | (

  † Manual

  „ k - Nearest Neighbors ( sim ple, powerful) „ Naiv e Bayes ( sim ple, com m on m et hod) „ Support - v ect or m achines ( new , m ore pow erful) „ dsb „ Mem but uhkan hand- classified t raining dat a „ Dat a dapat dibangun oleh am at ir

  „ Digunakan oleh Yahoo! , Looksm art , about .com , ODP, Medline „ Sangat akurat karena dilakukan oleh ahli. „ Konsist en pada saat ukurannya kecil/ sedikit „ Konsist en pada saat ukurannya kecil/ sedikit . „ Sulit dan m ahal

  JAS - DEPT. I LMU KOMPUTER I PB

  7 M e t ode

  † Aut om at ic docum ent classificat ion

  „ Hand- coded rule- based syst em s † Digunakan oleh CS dept ’s spam filt er, Reut ers, CI A, Verit y, … † Masukkan ke kat egori j ika dokum en m engandung g j g g kom binasi kat a t ert ent u.

  † Akurasi t inggi j ika rule dibuat dengan sangat baik oleh ahli dan kom pleks.

  JAS - DEPT. I LMU KOMPUTER I PB

  8 M e t ode

  † Aut om at ic docum ent classificat ion

  „ Supervised learning † Beberapa m enggunakan m achine learning ( Aut onom y, MSN, Verit y, Enkat a, Yahoo! , …)

  † Banyak sist em kom ersial m enggunakan m et ode cam puran

  † Supervised learning m et hod † Multinom ial Naïve Bayes Model † Peluang dokum en d dalam kelas c :

  JAS - DEPT. I LMU KOMPUTER I PB

  9 M e t ode Ba ye s

  † Berbasis teori peluang † Ut am anya t eorem a Bayes † Unt uk kej adian a dan b, Bayes Rules:

  JAS - DEPT. I LMU KOMPUTER I PB

  10 ∑ =

  = = = = = ∩ = a a x x p x b p a p a b p b p a p a b p b a p a p a b p b p b a p a p a b p b p b a p b a p b a p

  , ) ( ) | ( ) ( ) | (

  ) ( ) ( ) | ( ) | ( ) ( ) | ( ) ( ) | (

  ) ( ) | ( ) ( ) | ( ) ( ) , ( Posterior Prior

  N a ïve Ba ye s M ode l

  12 ∈V t '

TRAI NI NG SET

  • =
  • dim ana B = | V| = banyaknya t erm dalam vocabulary.
  • ⎟ ⎠ ⎞

TRAI NI NG SET

  ˆ | 1 )).( (

  ≈ − − − ⋅ ⋅ ⋅ = − − −

  5

  ˆ

  ˆ ) | (

  ˆ ). (

  ˆ ). | (

  ˆ ). | (

  ˆ 1 .( ) | (

  3 )) | (

  ˆ | 1 )).( (

  Macao c P c Shanghai P c Beijing P Tokyo c P c Japan P c Chinese P c P d c P JAS - DEPT. I LMU KOMPUTER I PB

  1 5 / 4 4 /

  2 1 ( 5 /

  2 1 ).( 5 /

  2 1 ).( 5 /

  5 /

  Con t oh ) 005 .

  16 P( c) = ¾ dan P( ¬c) = ¼ P( Chinese| c) = ( 3+ 1) / ( 3+ 2) = 4/ 5 P( Tok yo| c) = P( Japan| c) = ( 0+ 1) / ( 3+ 2) = 1/ 5 P( Beij ing| c) = P( Shanghai| c) = P( Macao| c) = ( 1+ 1) / ( 3+ 2) = 2/ 5 P( Chinese| ¬c) = (1+ 1)/ (1+ 2) = 2/ 3 P( Tok yo| ¬ c) = P(Japan| ¬ c) = (1+ 1)/ (1+ 2) = 2/ 3 P( Beij ing| c) = P( Shanghai| c) = P( Macao| c) = ( 0+ 1) / ( 1+ 2) = 1/ 3

  ∝

  ( bukan China) ) 022 .

  5 diklasifikasik an ke ¬c

  † Tuj uan klasifikasi: m endapat kan kelas t erbaik unt uk suat u dokum en. † Kelas t erbaik : sangat m irip at au m axim um a post eriori ( MAP) kelas c

  ) ( ˆ ) max arg | ( ˆ max arg diduga dari training set

  1 ) | ( ˆ

  P c t c P d c P c

  ≤ ≤ ∈ ∈ = = d n k k C c C c map

  18 ∏

  JAS - DEPT. I LMU KOMPUTER I PB

  :

  m ap

  P d c M a x im u m a Post e r ior i

  La pla ce sm oot h in g † At au Add- One Sm oot hing.

  ≈ − − − ⋅ ⋅ ⋅ ∝

  5

  ˆ

  2 4 / | 1 ) (

  2 3 / 2 3 /

  1 1 .( 3 /

  1 1 ).( 3 /

  1 1 ).( 3 /

  3 /

  5 Chinese Chinese Chinese Tokyo Japan ? JAS - DEPT. I LMU KOMPUTER I PB

  4 Tok yo Japan Chinese no TEST SET

  4 Tok yo Japan Chinese no

  ' ' ' '

  2 Chinese Chinese Shanghai yes

  1 Chinese Beij ing Chinese yes

  Con t oh docI D w or ds in docu m e n t in c = Ch in a ?

  ∑ ∑ ∈ ∈

  =

  ⎜ ⎝ ⎛

  V t ct ct V t ct ct

  B T T T T P c t

  1 ) | (

  4 Tok yo Japan Chinese no

  1 ) 1 (

  '

  13

  JAS - DEPT. I LMU KOMPUTER I PB

  T T P t t

  ˆ

  1 ) | (

  1

  † Unt uk m enghilangkan dugaan param et er yang bernilai nol.

  3 Chinese Macao yes

  4 Tok yo Japan Chinese no TEST SET

  3 Chinese Macao yes

  5 Chinese Chinese Chinese Tokyo Japan ? JAS - DEPT. I LMU KOMPUTER I PB

  2 Chinese Chinese Shanghai yes

  1 Chinese Beij ing Chinese yes

  docI D w or ds in docu m e n t in c = Ch in a ?

  JAS - DEPT. I LMU KOMPUTER I PB

  didefinisikan sebagai rasio t oken dalam dokum en kelas c yang m engandung t erm t .

  ) | ( ˆ P c t

  : rasio dokum en dari kelas c yang m engandung t erm t . Dalam m ult inom ial

  † Kej adian Bernoulli † Multivariate Bernoulli Model †

  P d c P d c Be r n ou lli M ode l

  5 ≈ ⋅ ⋅ ⋅ ∝ ≈ ⋅ ⋅ ⋅ ∝

  3

  5

  3

  3 ( 4 / | 3 ) ( ˆ

  1 14 / 1 ) 7 /

  0003 . 14 /

  2 ( 4 / | 1 ) ( ˆ

  2 9 / 2 ) 9 /

  0001 . 9 /

  14 P( c) = ¾ dan P( ¬c) = ¼ P( Chinese| c) = ( 5+ 1) / ( 8+ 6) = 6/ 14 = 3/ 7 P( Tok yo| c) = P( Japan| c) = ( 0+ 1) / ( 8+ 6) = 1/ 14 P( Chinese| ¬c) = (1+ 1)/ (3+ 6) = 2/ 9 P( Tok yo| ¬ c) = P(Japan| ¬ c) = (1+ 1)/ (3+ 6) = 2/ 9

15 Con t oh

17 Jadi, dokum en d

  • Kej adian A dan B saling bebas

  1

  P( A ∩B) = P(A,B) = P(A).P(B)

  • Maka:
  • Maka:

  X P c t t P c d P l Multinomia d d

  • Mult inom ial P( d| c) = P( < t

  • Bernoulli P( d| c) = P( < e

  JAS - DEPT. I LMU KOMPUTER I PB

  JAS - DEPT. I LMU KOMPUTER I PB

  20 ∏ ∏

  ≤ ≤ ≤ ≤

  = = = = = =

  M i M i i n k k k n

  U c e P c e e P c d P Bernoulli c t

  23 Government Science Arts

  JAS - DEPT. I LMU KOMPUTER I PB

  1

  1

  Te st D ocu m e n t = Gove r n m e n t ? Sim ilar it y hypot hesis t rue in general?

  ) | ( ) | ,..., ( ) | ( ) | ( ) | ,..., ( ) | (

  M u lt in om ia l vs Be r n ou lli JAS - DEPT. I LMU KOMPUTER I PB

  21 V e ct or Spa ce Cla ssifica t ion Kla sifik a si M e n ggu n a k a n Ru a n g V e k t or † Set iap dokum en t raining direpresent asikan sebagai vekt or.

  † Set iap t it ik ( vekt or) dokum en t raining diberi label sesuai dengan kelasnya.

  1

  M

  Asu m si Sa lin g Be ba s

  19

  M a x im u m a Post e r ior i

  ) ( ) | ( max arg ) (

  ) ( ) | ( ) max arg | ( max arg

  P c c d P P d P c c d P P d c c

  C c C c C c map

  ∈ ∈ ∈

  = = =

  JAS - DEPT. I LMU KOMPUTER I PB

  1

  > | c)

  , …, t

  k

  , …, t

  nd

  > | c)

  1

  , …, e

  k

  , …, e

  24 Government Science Arts

  30 Government Science Arts

  JAS - DEPT. I LMU KOMPUTER I PB

  JAS - DEPT. I LMU KOMPUTER I PB

  27 ) ( min arg d v c c

  µ )) ( ), ( cos( max arg d v c c r r

  µ Con t oh Dari cont oh sebelum nya, diperoleh: Jarak d

  5 t erhadap cent roid: † | µ c

  5 | ≈1.15 dan | µ

  ¬c

  5 | ≈0.00 † m aka Rocchio m engklasifikasikan d

  5 ke kelas ¬c ( bukan

  China) .

  28 k N e a r e st N e igh bor Cla ssifica t ion

  ) ( min arg d v r µ r −

  † Mengklasifikasikan dokum en d ke dalam kelas

  c

  † Tent ukan k- neighborhood N at au kNN sebagai

  k

  t erdekat dari d † Hit ung banyaknya dokum en i dalam N pada kelas c † Duga nilai P( c| d) = i/ k † Pilih

  JAS - DEPT. I LMU KOMPUTER I PB

  29 ) | ( max arg d c P c

  C c map

  = Con t oh : k = 6 ( 6 N N )

  P( science| ) ? JAS - DEPT. I LMU KOMPUTER I PB

  † Menggunakan ukuran kesam aan Cosine

  Dokum en d dikelom pokkan ke dalam kelas c † Menggunakan j arak

  Rocch io Cla ssifica t ion

  1

  Cent roid dari kelas c:

  ∑ =

  D d d v D c ) (

  1 ) ( r r µ

  JAS - DEPT. I LMU KOMPUTER I PB

  25 ∈ c

  D d c D

  Rocch io Cla ssifica t ion

  Bat as ant ara dua kelas adalah t it ik yang m em ilik i j arak sam a ke kedua t id Æ cent roid- nya Æ

  | a

  | = | a

  26 Rocch io Cla ssifica t ion

  2

  | , | b

  1

  | = | b

  2

  | , | c

  1

  | = | c

  2

  |

  JAS - DEPT. I LMU KOMPUTER I PB

  • d
  • d
  • d

  • d
  • d

  • d

  JAS - DEPT. I LMU KOMPUTER I PB

  † Adapt ive classifier com binat ion ( ACC) Kom binasi NB dan kNN

  † Dynam ic classifier select ion ( DCS) † Dynam ic classifier select ion ( DCS) Pendekat an kNN dengan ukuran kesam aan Cosine, dilakukan it erasi.

  Unt uk t iap dokum en t est , kit a klasifikasikan ke kelas c i j ika m ayor it as classifier m em asukkan dokum en t est ke kelas c i .

  † Sim ple vot ing

  Kom bin a si M e t ode Kla sifik a si

  33 X Æ class1 Classifier 2: X Æ class2 Jadi, X dim asukkan kem ana?

  Classifier 1: JAS - DEPT. I LMU KOMPUTER I PB

  Beberapa penelit i m enunj ukkan bahw a kom binasi beberapa classifier yang berbeda dapat m eningkat kan akurasi.

  Kom bin a si M e t ode Kla sifik a si

  4 .

  5 lebih dekat ke kelas d

  5 | = 0.0000 Maka d

  4

  5 | = 1.4171 | d

  3

  5 | = | d

  2

  5 | = | d

  1

  32 Dengan m enggunakan j arak Euclidean, m aka: | d

  31 Con t oh : 1 N N JAS - DEPT. I LMU KOMPUTER I PB

  JAS - DEPT. I LMU KOMPUTER I PB

  ( d’) = 1 j j k d’ ada dalam kelas c, dan sebaliknya = 0.

  dim ana I c

  † Met ode kNN t ergant ung pada ukuran kem iripan ( bisa j uga j arak) yang digunakan. † Paling sederhana adalah j arak Euclidean. † Unt uk t eks, yang paling efekt if adalah ukuran kem iripan cosine dengan bobot vekt or t f idf kem iripan cosine dengan bobot vekt or t f.idf. † Skor dokum en di suat u kelas:

  Uk u r a n Ke m ir ipa n

  34