Latar Belakang - Mathematics Background

  

Mathematics Mathematics

Background Background Text Mining Text Mining

Latar Belakang Latar Belakang

  Beberapa pengetahuan tentang statistic Beberapa pengetahuan tentang statistic dan aljabar linear diperlukan untuk dan aljabar linear diperlukan untuk memahami dan membangun aplikasi memahami dan membangun aplikasi text mining text mining

  

Mean and Variance Mean and Variance

Text Mining - Mathematics Background Text Mining - Mathematics Background

Latar Belakang Latar Belakang

  

Karakteristik dari populasi data yang Karakteristik dari populasi data yang

  sangat banyak bisa diperkirakan dari sangat banyak bisa diperkirakan dari beberapa sample. beberapa sample.

  

Poin pentingnya ada 2 : Bagaimana Poin pentingnya ada 2 : Bagaimana

  kita bisa mendapatkan sample yang kita bisa mendapatkan sample yang tidak bias dan berapa sample yang tidak bias dan berapa sample yang seharusnya diperlukan seharusnya diperlukan

Latar Belakang Latar Belakang

  Untuk mendapatkan sample yang tidak Untuk mendapatkan sample yang tidak bias tidak mudah juga, salah satu bias tidak mudah juga, salah satu caranya kita bisa mengambil beberapa caranya kita bisa mengambil beberapa sample secara random. sample secara random.

Latar Belakang Latar Belakang

  

Lalu, bagaimana cara menentukan Lalu, bagaimana cara menentukan

  batas banyaknya sample yang harus batas banyaknya sample yang harus diambil? diambil?

  

Kita bisa menggunakan mean (pusat Kita bisa menggunakan mean (pusat

  lokasi nilai data) dan variance (tingkat lokasi nilai data) dan variance (tingkat variasi nilai data) sebagai pendukung variasi nilai data) sebagai pendukung keputusannya keputusannya

Mean Mean

  

Mean adalah rata-rata nilai sebuah

data

Di mana N adalah jumlah populasi dan

x i adalah nilai pada populasi ke-i

  

  Mean adalah rata-rata nilai sebuah data

  

  Di mana N adalah jumlah populasi dan

  x i

  adalah nilai pada populasi ke-i

Standart Deviasi Standart Deviasi

  

Standar Standar Deviasi adalah Deviasi adalah besar besar

perbedaan dari nilai sampel terhadap perbedaan dari nilai sampel terhadap rata-rata. rata-rata.

  

Di mana N adalah jumlah populasi dan Di mana N adalah jumlah populasi dan

x x adalah nilai pada populasi ke-I, adalah nilai pada populasi ke-I, i i sedangkan µ adalah nilai mean. sedangkan µ adalah nilai mean.

Variance Variance

  

Varian adalah ukuran persebaran Varian adalah ukuran persebaran

(dispersi) data. Dihitung dengan cara (dispersi) data. Dihitung dengan cara mengkuadratkan standart deviasi mengkuadratkan standart deviasi

    Di mana N adalah jumlah populasi dan x Di mana N adalah jumlah populasi dan x i i adalah adalah nilai nilai pada pada populasi populasi ke-I, ke-I, sedangkan µ adalah nilai mean. sedangkan µ adalah nilai mean.

Reuters Collection Reuters Collection

  

Reuters Collection berisi dokumen- Reuters Collection berisi dokumen-

dokumen berita yang sangat banyak. dokumen berita yang sangat banyak.

  

Misal kita ambil 10000 dokumen lalu Misal kita ambil 10000 dokumen lalu

  kita cari mean, varian dan standart kita cari mean, varian dan standart deviasinya. deviasinya.

Reuters Collection Reuters Collection

  

Kata Mean Standart Deviasi

And

  2.79

  3.57 Of

  3.86

  4.61 The

  6.30

  8.52 United

  0.08

  0.41 States

  0.06

  0.37 America

  0.02

  0.20 Misal kita analisis statistic dari beberapa kata

  berikut : Kata and, of dan the sangat sering muncul. Kata

Reuters Collection Reuters Collection Kata Mean Standart Deviasi

  And

  2.79

  3.57 Of

  3.86

  4.61 The

  6.30

  8.52 United

  0.08

  0.41 States

  0.06

  0.37 America

  0.02

  0.20 Misal kita analisis statistic dari beberapa kata

  berikut :

  

Kata the memiliki standart deviasi yang tinggi, artinya sering

muncul dalam jumlah yang jauh kurang dari atau lebih dari

Reuters Collection Reuters Collection

  

Kebanyakan data yang memiliki Mean Kebanyakan data yang memiliki Mean

  yang tinggi cenderung akan memiliki yang tinggi cenderung akan memiliki variance dan standart deviasi yang variance dan standart deviasi yang tinggi pula tinggi pula

  

Bisa juga kita gambarkan dalam Bisa juga kita gambarkan dalam

  bentuk distribusi jumlah kemunculan bentuk distribusi jumlah kemunculan

  

Reuters Collection Reuters Collection

  Probability Probability

Text Mining - Mathematics Background Text Mining - Mathematics Background

Probability Probability

  Probabilitas atau peluang adalah nilai di Probabilitas atau peluang adalah nilai di antara 0 dan 1 yang mengindikasikan antara 0 dan 1 yang mengindikasikan seberapa mungkin sebuah kejadian atau seberapa mungkin sebuah kejadian atau beberapa kumpulan kejadian akan beberapa kumpulan kejadian akan terjadi terjadi

Probability Probability

  

Nilai 0 mengindikasikan kejadian tidak Nilai 0 mengindikasikan kejadian tidak

  akan pernah terjadi, sedangkan nilai 1 akan pernah terjadi, sedangkan nilai 1 mengindikasikan kejadian pasti akan mengindikasikan kejadian pasti akan pernah terjadi pernah terjadi

  

Nilai di antara 0-1 mengindikasikan Nilai di antara 0-1 mengindikasikan

  besarnya kemungkinan terjadi besarnya kemungkinan terjadi

Probability Probability

  

Contoh, Contoh, kita kita bisa bisa menghitung menghitung

probabilitas kata and muncul tepat probabilitas kata and muncul tepat satu kali pada sebuah dokumen. satu kali pada sebuah dokumen.

  

Kita bisa tuliskan p(x) sebagai peluang Kita bisa tuliskan p(x) sebagai peluang

  kata kata and muncul x kali and muncul x kali

  

Atau P(X=x) peluang random variable Atau P(X=x) peluang random variable

  X bernilai x X bernilai x

Probability Probability

  

Kadang kita tidak bisa menghitung Kadang kita tidak bisa menghitung

  rata-rata jumlah kemunculan sebuah rata-rata jumlah kemunculan sebuah kata kata dalam dalam sebuah sebuah kumpulan kumpulan

  dokumen karena, misal dokumenya dokumen karena, misal dokumenya

  sangat banyak sangat banyak

Probability Probability

  

Oleh Oleh karena karena itu, itu, mean mean bisa bisa

diperkirakan dari Expected value diperkirakan dari Expected value

  E X xp x

       x

  

Di mana E[X] adalah Expected value Di mana E[X] adalah Expected value

dari random variable x dijumlahkan dari random variable x dijumlahkan semuanya untuk semua kemungkinan semuanya untuk semua kemungkinan x x

Probability Probability

  

Oleh karena itu, mean bisa dihitung Oleh karena itu, mean bisa dihitung

  dari Expected value dari Expected value

  E X xp x

       x

  

Namun, Namun, dengan dengan menggunakan menggunakan

  Expected value ini bisa jadi berbeda Expected value ini bisa jadi berbeda

  dengan mean yang sebenarnya dengan mean yang sebenarnya

Probability Probability

  

Pengukuran lain adalah Covariance Pengukuran lain adalah Covariance

  dan dan Correlation Correlation untuk untuk membandingkan dua buah variable membandingkan dua buah variable

Probability Probability

  

Covariance Covariance menggambarkan menggambarkan

  bagaimana dua buah variable memiliki bagaimana dua buah variable memiliki perubahan nilai yang sama atau tidak perubahan nilai yang sama atau tidak

  

Misal, menghitung Covariance dari Misal, menghitung Covariance dari

  variable X dan Y variable X dan Y

  Cov X , Y E

  X Y   

    x y

     

    

  

Probability Probability

  

Misal, menghitung Covariance dari variable X dan Misal, menghitung Covariance dari variable X dan

Y Y 

Nilai Kovarian yang tinggi mengindikasikan jika Nilai Kovarian yang tinggi mengindikasikan jika

semakin besar nilai X, maka semakin besar juga semakin besar nilai X, maka semakin besar juga nilai Y dan jika semakin kecil nilai X, maka nilai Y dan jika semakin kecil nilai X, maka semakin kecil juga nilai Y. Atau bisa dikatakan X semakin kecil juga nilai Y. Atau bisa dikatakan X dan Y punya perilaku yang sama. dan Y punya perilaku yang sama.

    Sebaliknya, Sebaliknya, nilai nilai Kovarian Kovarian yang yang rendah rendah mengindikasikan jika semakin besar nilai X, maka mengindikasikan jika semakin besar nilai X, maka nilai Y malah semakin kecil, dan sebaliknya. Atau nilai Y malah semakin kecil, dan sebaliknya. Atau bisa dikatakan X dan Y punya perilaku yang bisa dikatakan X dan Y punya perilaku yang

Probability Probability

  

Sama halnya dengan Covariance, Sama halnya dengan Covariance,

  Correlation juga mengukur hubungan Correlation juga mengukur hubungan

  antara 2 buah variable, namun dengan antara 2 buah variable, namun dengan

  hasil hasil yang yang lebih lebih mudah mudah di di interpretasikan interpretasikan

  Cov X , Y  

  X , Y

    

    x y

Probability Probability

  

Nilai Korelasi pasti di antara -1 sampai Nilai Korelasi pasti di antara -1 sampai

  1 

Korelasi tinggi mengindikasikan jika Korelasi tinggi mengindikasikan jika

  1

  semakin besar nilai X, maka semakin semakin besar nilai X, maka semakin besar juga nilai Y, dan sebaliknya. besar juga nilai Y, dan sebaliknya.

Probability Probability

   Nilai Korelasi pasti di antara -1 sampai 1 Nilai Korelasi pasti di antara -1 sampai 1  

  Dari data 10.000 dokumen berita Dari data 10.000 dokumen berita Reuters, korelasi kemunculan ata Reuters, korelasi kemunculan ata United United dan dan States adalah 0.84. Artinya United States adalah 0.84. Artinya United dan dan States sering muncul dalam jumlah States sering muncul dalam jumlah yang sama dalam dokumen manapun yang sama dalam dokumen manapun

  

Least Square Method Least Square Method

Text Mining - Mathematics Background Text Mining - Mathematics Background

Least Square Method Least Square Method

  

Misal Misal kita kita gambarkan gambarkan hubungan hubungan

  antara probabilitas kemunculan kata antara probabilitas kemunculan kata

  United dan States dalam sebuah United dan States dalam sebuah

  dokumen dokumen

Least Square Method Least Square Method

  

Seperti pada gambar, ketika kata Seperti pada gambar, ketika kata

  United muncul 4 kali dalam sebuah United muncul 4 kali dalam sebuah dokumen, maka ada peluang 0.6 kata dokumen, maka ada peluang 0.6 kata States juga muncul sebanyak 4 kali States juga muncul sebanyak 4 kali

  dalam dokumen tersebut. ketika kata dalam dokumen tersebut. ketika kata

  United muncul 5 kali dalam sebuah United muncul 5 kali dalam sebuah

  dokumen, maka ada peluang 0.75 kata dokumen, maka ada peluang 0.75 kata States juga muncul sebanyak 5 kali States juga muncul sebanyak 5 kali

  dalam dokumen tersebut. dalam dokumen tersebut.

Least Square Method Least Square Method

  

Probabilitasnya cenderung naik jika

jumlah kemunculanya bertambah.

  Kita bisa menarik sebuah garis Regresi

Garis regresi ini bisa digunakan untuk

memprediksi probabilitas dari nilai x selanjutnya

  

  Probabilitasnya cenderung naik jika jumlah kemunculanya bertambah.

  

  Kita bisa menarik sebuah garis Regresi

  

  Garis regresi ini bisa digunakan untuk memprediksi probabilitas dari nilai x selanjutnya

Least Square Method Least Square Method

  

Untuk membuat garis Regresi ini bisa Untuk membuat garis Regresi ini bisa

  membuat prediksi yang terbaik, maka membuat prediksi yang terbaik, maka garis regresi ini harus didefnisikan garis regresi ini harus didefnisikan sedemikian sehingga jarak garis ke sedemikian sehingga jarak garis ke nilai aslinya tidak berbeda jauh nilai aslinya tidak berbeda jauh

  

Kita bisa menggunakan metode Least Kita bisa menggunakan metode Least

  Square untuk meminimalisir jarak ini Square untuk meminimalisir jarak ini

  Entropy Entropy

Text Mining - Mathematics Background Text Mining - Mathematics Background

Entropy Entropy

  

Entropy bisa diartikan sebagai ketidak Entropy bisa diartikan sebagai ketidak

  pastian pastian

  

Entropy dalam Information Theory Entropy dalam Information Theory

  digunakan sebagai metode kompresi digunakan sebagai metode kompresi pada tahun 1940an untuk mengirim pada tahun 1940an untuk mengirim lebih banyak informasi dengan akurasi lebih banyak informasi dengan akurasi yang tinggi yang tinggi

Entropy Entropy

    Nilai Entropy yang tinggi berarti data Nilai Entropy yang tinggi berarti data berasal dari sebuah distribusi uniform berasal dari sebuah distribusi uniform dan ada banyak ketidakpastian dari dan ada banyak ketidakpastian dari data tersebut data tersebut

    Nilai Entropy yang rendah berarti data Nilai Entropy yang rendah berarti data berasal dari sebuah distribusi dengan berasal dari sebuah distribusi dengan puncak juga lembah dan tingkat puncak juga lembah dan tingkat ketidakpastianya kecil ketidakpastianya kecil

    Nilai Entropy 0 berrarti 100% kepastian Nilai Entropy 0 berrarti 100% kepastian

Entropy Entropy

  

Misal, dalam Bahasa Inggris, huruf u Misal, dalam Bahasa Inggris, huruf u

  sering muncul setalah q. Ada sedikit sering muncul setalah q. Ada sedikit ketidakpastian kalau huruf u sering ketidakpastian kalau huruf u sering muncul setalah q, sehingga nilai muncul setalah q, sehingga nilai entropynya rendah entropynya rendah

Entropy Entropy

  

Entropy menghitung jumlah informasi Entropy menghitung jumlah informasi

yang yang dibutuhkan dibutuhkan dalam dalam

  menyelesaikan ketidakpastian menyelesaikan ketidakpastian

  

Jika banyak ketidakpastian, maka kita Jika banyak ketidakpastian, maka kita

  perlu lebih banyak informasi yang perlu lebih banyak informasi yang dikirimkan, sehingga nilai Entropynya dikirimkan, sehingga nilai Entropynya pun tinggi pun tinggi

Entropy Entropy

   Di mana p i adalah peluang kata w i

Untuk dua buah kata dengan peluang 0.75

dan 0.25, entropynya adalah 0.811  Untuk dua buah kata dengan peluang 0.5 dan 0.5, entropynya adalah 1

  

Entropy bertambah seiring banyaknya

ketidakpastian 

  Di mana p i adalah peluang kata w i

  Untuk dua buah kata dengan peluang 0.75 dan 0.25, entropynya adalah 0.811 

  Untuk dua buah kata dengan peluang 0.5 dan 0.5, entropynya adalah 1 

  Entropy bertambah seiring banyaknya ketidakpastian 

    n i i i H p p 1 2 log

  

Related-Event

Probability

Related-Event

Probability

  Text Mining - Mathematics Background Text Mining - Mathematics Background

Related-Event Related-Event Probability Probability

    Misal ada sebuah Bahasa yang hanya Misal ada sebuah Bahasa yang hanya terdiri dari 3 kata : (apple, baker, charlie) terdiri dari 3 kata : (apple, baker, charlie)   Jika dalam Bahasa tersebut hanya bisa Jika dalam Bahasa tersebut hanya bisa membuat kalimat dengan 2 buah kata, membuat kalimat dengan 2 buah kata, maka kemungkinanya adalah maka kemungkinanya adalah

    {apple apple, baker baker, Charlie {apple apple, baker baker, Charlie Charlie, apple baker, apple Charlie, baker Charlie, apple baker, apple Charlie, baker apple, baker Charlie, Charlie apple, apple, baker Charlie, Charlie apple, Charlie baker} Charlie baker}

Related-Event Related-Event Probability Probability

   

  Kemungkinan terjadi kata Kemungkinan terjadi kata apple baker apple baker adalah 1/9 dan kemungkinan tidak terjadi adalah 1/9 dan kemungkinan tidak terjadi

  adalah 8/9 adalah 8/9   P(apple) : Peluang apple muncul minimal P(apple) : Peluang apple muncul minimal satu kali adalah 5/9 satu kali adalah 5/9

    P(apple ∩ baker) : Peluang apple dan baker P(apple ∩ baker) : Peluang apple dan baker

  muncul bersama adalah 2/9 muncul bersama adalah 2/9

   

  P(apple U baker) : Peluang apple atau baker P(apple U baker) : Peluang apple atau baker muncul adalah 8/9 muncul adalah 8/9

  p a b p a p b p a b     

         

Related-Event Related-Event Probability Probability

  

 P(apple|baker) : Peluang muncul apple jika P(apple|baker) : Peluang muncul apple jika

  kata baker muncul juga adalah 2/5 kata baker muncul juga adalah 2/5

  p a b

    p a | b

     p b

      P(apple|baker) = 2/9 / 5/9 = 2/5 P(apple|baker) = 2/9 / 5/9 = 2/5

Related-Event Probability Related-Event Probability

  Jika p(a 1 |c 2 ) = p(a 1 ), maka dua kejadian ini independent, tidak saling mempengaruhi, sehingga

    

  1 c p a p c a p

  2

  1

  2

       

   Misal, kita memiliki dua event a 1 dan c 2a 1 : Kalimat berawalan apple

   c 2 : Kalimat berakhiran Charlie

  : Kalimat berakhiran Charlie

   c 2

  : Kalimat berawalan apple

   a 1

  Misal, kita memiliki dua event a 1 dan c 2

  

   Jika p(a 1 |c 2 ) = p(a 1 ), maka dua kejadian ini independent, tidak saling mempengaruhi, sehingga

  

  

Related-Event Related-Event

Probability Probability

  Bayes Rule Bayes Rule

Text Mining - Mathematics Background Text Mining - Mathematics Background

Bayes Rule Bayes Rule

  

Misal di pulau terpencil hidup seorang

  Misal di pulau terpencil hidup seorang

  manusia manusia  

  Kita tidak tahu jenis kelaminya apa Kita tidak tahu jenis kelaminya apa

  

P(pria) adalah peluang manusia tersebut P(pria) adalah peluang manusia tersebut

  berjenis kelamin pria dan P(wanita) adalah berjenis kelamin pria dan P(wanita) adalah peluang manusia tersebut berjenis kelamin peluang manusia tersebut berjenis kelamin wanita wanita

    P(pria)= P(wanita) =1/2 P(pria)= P(wanita) =1/2

    Ini disebut sebagai prior probability, nilai Ini disebut sebagai prior probability, nilai

Bayes Rule Bayes Rule

  

Lalu kita mendapat info kalau orang Lalu kita mendapat info kalau orang

  tersebut tersebut suka suka main main sepakbola sepakbola (kejadian s), maka sekarang P(pria) (kejadian s), maka sekarang P(pria)

  akan berubah karena adanya informasi akan berubah karena adanya informasi

  baru, yaitu suka main bola. Ini yang baru, yaitu suka main bola. Ini yang disebut sebagai posterior probability disebut sebagai posterior probability

  p pria s p s | pria p ( pria )  

      p pria | s

      p s p s

     

  Probability

Distribution

  Probability

Distribution

  Text Mining - Mathematics Background Text Mining - Mathematics Background

Binomial Distribution Binomial Distribution

  

  A fixed number of observations (trials), n e.g., 15 tosses of a coin; 20 patients; 1000 people surveyed

  A binary outcome e.g., head or tail in each toss of a coin; disease or no disease Generally called “success” and “failure” Probability of success is p, probability of failure is 1 – p

  Constant probability for each observation e.g., Probability of getting a tail is the same each time

Binomial distribution Binomial distribution

  

Take the example of 5 coin tosses. Take the example of 5 coin tosses.

What’s the probability that you fip What’s the probability that you fip

  exactly 3 heads in 5 coin tosses? exactly 3 heads in 5 coin tosses?

Binomial distribution Binomial distribution

  Solution: Solution:

  One way to get exactly 3 heads: HHHTT One way to get exactly 3 heads: HHHTT What’s the probability of this exact arrangement? What’s the probability of this exact arrangement?

  P(heads)xP(heads) xP(heads)xP(tails)xP(tails) P(heads)xP(heads) xP(heads)xP(tails)xP(tails) 3 3 2 2 =(1/2) =(1/2) x (1/2) x (1/2) Another way to get exactly 3 heads: THHHT Another way to get exactly 3 heads: THHHT 1 1 3 3 Probability of this exact outcome = (1/2) Probability of this exact outcome = (1/2) 1 1 3 3 2 2 x (1/2) x (1/2) x x (1/2) (1/2) = (1/2) = (1/2)

  x (1/2) x (1/2)

Binomial distribution Binomial distribution

  3

  3

  2

  x (1/2) x (1/2)

  each unique outcome that has exactly 3 each unique outcome that has exactly 3 heads and 2 tails. heads and 2 tails.

  So, the overall probability of 3 heads and So, the overall probability of 3 heads and 2 tails is: 2 tails is:

  3

  3

  2

  2

  3

  3

  2

  2

  3 (1/2) (1/2) x (1/2) x (1/2) + (1/2) + (1/2) x (1/2) x (1/2) + (1/2) + (1/2) x x

  3

  2 (1/2) (1/2)

  2

  • ….. for as many unique + ….. for as many unique arrangements as there are—but how arrangements as there are—but how

Binomial distribution Binomial distribution

    Outcome Probability  3 2 THHHT (1/2)   x (1/2) 3 2 HHHTT              (1/2) 3 x (1/2) 2 TTHHH  (1/2) 3 x (1/2) 2 HTTHH (1/2)   x (1/2) 3 2 The probability   ways to  HHTTH (1/2)   x (1/2)

  5 3 2 of each unique  arrange 3   

  HTHHT (1/2)   x (1/2) 3 2 outcome  (note:    heads  in 

  THTHH (1/2)   x (1/2) 3 2 they are all 

  3 5 trials HTHTH (1/2)   x (1/2)

    ) 3 2 equal HHTHT (1/2)   3 x (1/2) 2 THHTH (1/2)   x (1/2) 3 2 10 arrangements x (1/2) x (1/2)   5 C  = 5!/3!2!  = 10 3

Binomial distribution Binomial distribution

   

  P(3 heads and 2 tails) =  x P(heads)

  3 x P(tails)

  2 =

  10 x (½) 5=

  31.25% 

     

    5 3

Binomial distribution Binomial distribution Binomial distribution Binomial distribution function: function:

  

X= the number of heads tossed X= the number of heads tossed

in 5 coin tosses in 5 coin tosses p(x) p(x) x

  3 4 5 1 2

Binomial distribution, Binomial distribution, generally generally

  Note the general pattern emerging  if you have only two possible outcomes (call them 1/0 or yes/no or success/failure) in n independent trials, then the probability of exactly X “successes”=

  n = number of trials n

    X n

  X

p ( 1 p )

    

  X  

  1-p = probability 

  of failure

  X = # successes 

Binomial distribution: Binomial distribution: example example

   If I toss a coin 20 times, what’s the If I toss a coin 20 times, what’s the

  probability of getting exactly 10 heads? probability of getting exactly 10 heads?

  20   10 10 (. 5 ) (. 5 ) . 176 

    10  

Binomial distribution: example Binomial distribution: example

  20 ) ) 5 (. 5 (.

     x x x x x x x

       

    

        

      

          

  ) 5 (. 5 (.

  20 ! 20 )

  ! !

  10 5 . 9 ) 5 (.

  If I toss a coin 20 times, what’s the probability of getting of getting 2 or fewer heads?

  

  9 20 ) 5 (.

  10 5 .

  1

  10 9 .

  20 ) ) 5 (. 5 (.

  ! 2 ! 18 !

  10 5 . ) 9 190 5 (.

  1

  4 4 7 20 18 2 20 2 5 7 20 19 1 20 1 7 20 20 20 10 8 .

  If I toss a coin 20 times, what’s the probability of getting of getting 2 or fewer heads?

  ! 1 ! 19 !

  • **All probability distributions are **All probability distributions are

  

characterized by an expected value characterized by an expected value

and a variance: and a variance: If X follows a binomial distribution with parameters n and p: If X follows a binomial distribution with parameters n and p: X ~ Bin (n, p) X ~ Bin (n, p) Then: Then: Note: the variance will always lie between

  E(X) = np E(X) = np 0*N-.25 *N Var (X) = np(1-p) Var (X) = np(1-p) p(1-p) reaches SD (X)= SD (X)= maximum at p=.5

  ( 1 p ) np P(1-p)=.25

The Poisson Distribution The Poisson Distribution

  The Poisson distribution is defned by:

  x   e

  

f ( x )

   x !

  Where f(x) is the probability of x occurrences in an interval m is the expected value or mean value of occurrences within an interval

  e is the natural logarithm. e = 2.71828

Properties of the Poisson Distribution Properties of the Poisson Distribution

  1. The probability of occurrences is the same for any two intervals of equal length.

  2. The occurrence or nonoccurrence of an event in one interval is independent of an occurrence on nonoccurrence of an event in any other interval

Example: Mercy Hospital Example: Mercy Hospital

   MERCY

   Poisson Probability Function Poisson Probability Function Patients arrive at the Patients arrive at the

  emergency room of Mercy emergency room of Mercy Hospital at the average Hospital at the average rate of 6 per hour on rate of 6 per hour on weekend evenings. weekend evenings.

  What is the What is the probability of 4 arrivals in probability of 4 arrivals in

  

Example: Mercy Hospital Example: Mercy Hospital

   = 6/hour = 3/half-hour, x = 4 4 3

  3 (2.71828) f (4) .1680

    4!

  

The Normal The Normal

Distribution Distribution

The Normal Distribution: The Normal Distribution:

  

as mathematical function as mathematical function

(pdf) (pdf)

  1 x  

  2 ( ) 

  1

  2  f ( x ) e

   

  2  

  This is a bell shaped curve with diferent

  Note constants:

  centers and spreads

   =3.14159

  depending on  and 

The Normal PDF The Normal PDF

  1 2 ) (

  It’s a probability function, so no matter what the values of  and , must integrate to 1!

  

It’s a probability function, so no matter what the

values of  and , must integrate to 1!

     

    dx e x

     

  1  

  2

  1

  2

  1

     

    dx e x

     

  1  

  2

  1 2 ) (

  2

Normal distribution is Normal distribution is

  defned by its mean and defned by its mean and standard dev. standard dev.   1 x 2 E(X)= = E(X)= = ( )

  1 2 x e dx

   

  2      1 x ( )   2 2 2 2

  1 2 2 ( x e dx )  

  

Var(X)= Var(X)= = =

  2    

  Standard Deviation(X)= Standard Deviation(X)=

  • **The beauty of the normal curve: **The beauty of the normal curve:

  No matter what  and  are, the area between - and + is about 68%; the area between -2 and +2 is about 95%; and the area between -3 and +3 is about 99.7%. Almost all values fall within 3 standard deviations.

  

68-95-99.7 Rule 68-95-99.7 Rule

  

68-95-99.7 Rule in Math terms… 68-95-99.7 Rule in Math terms…

   1 x   2 ( )

  1

  68   

  

2

e dx .

  2       

  2 1 x 2

( )

  1

  2 e dx .

  95   

  2    

  2  

  3 1 x 2 ( )

  1

  2 e dx . 997

    

  2     

  3

How good is rule for real data? How good is rule for real data?

  Check some example data:

The mean of the weight of the women

= 127.8 The standard deviation (SD) = 15.5

  

  Check some example data:

  

  The mean of the weight of the women = 127.8

  

  The standard deviation (SD) = 15.5

  68% of 120 = .68x120 = ~ 82 runners In fact, 79 runners fall within 1-SD (15.5 lbs) of the mean.   112.3 127.8 143.3 2 0   2 5   e   r   e   1 5   P   n   c   t   1 0   5   0   8 0   9 0   1 0 0   1 1 0   1 2 0   1 3 0   1 4 0   1 5 0   1 6 0   P O U N D S  

  95% of 120 = .95 x 120 = ~ 114 runners In fact, 115 runners fall within 2-SD’s of the mean.   96.8 127.8 158.8 2 0   2 5   e   r   e   1 5   P   n   c   t   1 0   5   0   8 0   9 0   1 0 0   1 1 0   1 2 0   1 3 0   1 4 0   1 5 0   1 6 0   P O U N D S  

  

99.7% of 120 = .997 x 120 = 119.6 runners

In fact, all 120 runners fall within 3-SD’s of the mean.  

  81.3 127.8 174.3 2 0   2 5   e   c   e   1 5   P   n   r   t   1 0   5   0  

8 0   9 0   1 0 0   1 1 0   1 2 0   1 3 0   1 4 0   1 5 0   1 6 0  

P O U N D S  

  Sampling

Distribution

  Sampling

Distribution

  Text Mining - Mathematics Background Text Mining - Mathematics Background

Sampling Distribution Sampling Distribution

  

Dalam teks mining, alasan untuk Dalam teks mining, alasan untuk

  melakukan sampling sangat jelas, melakukan sampling sangat jelas, yaitu kita tidak bisa mengkases semua yaitu kita tidak bisa mengkases semua teks online yang tersedia dalam teks online yang tersedia dalam berbagai Bahasa dan sampling adalah berbagai Bahasa dan sampling adalah

  satu-satunya cara untuk membangun satu-satunya cara untuk membangun representasi representasi model model semua semua teks teks

  tersebut tersebut

Sampling Distribution Sampling Distribution

  

Beberapa tipe sampling yang bisa

dipakai 

  Beberapa tipe sampling yang bisa dipakai

  Statistic Populatio n Distributi on Populatio

n

Variance

  Sample Distributi on Mean Normal Known Normal Mean Normal Unknown Student-t Mean Unknown Known Normal Variance Normal Known Chi-Square

  

Hypothesis Testing Hypothesis Testing

Text Mining - Mathematics Background Text Mining - Mathematics Background

Hypothesis Testing Hypothesis Testing

  

Hipotesis adalah teori yang belum Hipotesis adalah teori yang belum

  teruji yang diyakini berdasarkan data teruji yang diyakini berdasarkan data yang yang atau atau pengalaman pengalaman sudah sudah terkumpul terkumpul

    H H adalah null Hipotesis, hipotesis yang adalah null Hipotesis, hipotesis yang diyakini tidak benar diyakini tidak benar

  Test Result H True H True 1  

  H H adalah hipotesis yang diyakini adalah hipotesis yang diyakini H0 diterima Benar Type II Error benar benar

  H1 diterima Type I Error Benar

Chi-Square Test Chi-Square Test

  

Misal kita mendapatkan spam dan Misal kita mendapatkan spam dan

  email yang bukan spam pada hari libur email yang bukan spam pada hari libur maupun hari aktif maupun hari aktif

  

Bisakah kita membangun sebuah Bisakah kita membangun sebuah

  hubungan antara tipe email dan hari hubungan antara tipe email dan hari

  pengirimanya pengirimanya Type Weekday Weekend Total Bukan Spam 182 100 282 Spam

73 145 218

255 245 500

Chi-Square Test Chi-Square Test

   

  Expected Expected Frequency(EF) Frequency(EF) bisa bisa dihitung dihitung dengan distribusi normal. dengan distribusi normal.

    EF(Spam, Weekday) adalah EF spam pada EF(Spam, Weekday) adalah EF spam pada

  weekday weekday

   

  EF(Spam, Weekday) = 255x218/500 = EF(Spam, Weekday) = 255x218/500 =

  111.18 111.18   Dst, Dst, sehingga sehingga didapat didapat nlai nlai Expected Expected Type Weekday Weekend Total

  Frequency(EF) : Frequency(EF) : Spam 111.18 106.82 218

  Bukan Spam 143.82 138.18 282

Chi-Square Test Chi-Square Test

   

  Chi-square bisa dihitung dengan rumus Chi-square bisa dihitung dengan rumus 2 O E .

  5 ij ij   2    

   i , j E ij  

  O O adalah frekuensi yang diobservasi dan E adalah frekuensi yang diobservasi dan E ij ij ij ij adalah frekuensi yang diharapkan (expected adalah frekuensi yang diharapkan (expected Frequency) Frequency)

  

 Koreksi 0.5 digunakan untuk meningkatkan Koreksi 0.5 digunakan untuk meningkatkan

  perkiraan distribusi chi-square. Hasilnya : perkiraan distribusi chi-square. Hasilnya :

Chi-Square Test Chi-Square Test

   

  Chi-square bisa dihitung dengan rumus Chi-square bisa dihitung dengan rumus 2 O E .

  5 ij ij   2    

   i , j E ij   Nilai Chi-square Spam pada Weekdays = Nilai Chi-square Spam pada Weekdays = 2 2

  (|73-111.18|+0.5) (|73-111.18|+0.5) / / 111.18 111.18 = = 1496.1424/111.18 = 13.45 1496.1424/111.18 = 13.45 Spam Type Weekday Weekend 13.45 14.00 Bukan Spam 10.40 10.82

Chi-Square Test Chi-Square Test

   Jumlah totalnya = 48.67  Untuk chi-square dengan 1 degree of freedom minimalnya adalah 6.635  Jadi H0 ditolak  Oleh karena itu, memang ada hubungan antara hari dan tipe email

  

  Jumlah totalnya = 48.67

  

  Untuk chi-square dengan 1 degree of freedom minimalnya adalah 6.635

  

  Jadi H0 ditolak

  

  Oleh karena itu, memang ada hubungan antara hari dan tipe email

  Type Weekday Weekend Spam 13.45 14.00 Bukan Spam 10.40 10.82

T-Test T-Test

  

 Kalau Chi-square membandingkan variance, kalau Kalau Chi-square membandingkan variance, kalau

t-test membandingkan nilai tunggal seperti mean. t-test membandingkan nilai tunggal seperti mean.

  

 Misal kita memiliki koleksi dokumen yang Misal kita memiliki koleksi dokumen yang

dimasukkan ke dalam 8 kategori dimasukkan ke dalam 8 kategori 

 Dokumen yang tidak bisa dikategorikan di Dokumen yang tidak bisa dikategorikan di

masukkan ke dalam kategori lain-lain yang berada masukkan ke dalam kategori lain-lain yang berada di luar 8 kategori tersebut di luar 8 kategori tersebut

Dokumen yang terkait

Henny Utarsih Program Studi Manajemen Sekolah Tinggi Ilmu (STIE) Ekuitas, Jl. PH.H. Mustofa No.31 Bandung Email : henny.utarsihgmail.com ABSTRAK - View of PENGARUH EXPERIENTAL MARKETING, CUSTOMER RELATIONSHIP MARKETING, DAN CUSTOMER SATISFACTION TERHADAP

0 0 24

(Studi Kasus pada Perusahaan yang Go Publik di Bursa Efek Indonesia) Dedi Gumilar Program Studi Manajemen Sekolah Tinggi Ilmu Ekonomi Indonesia Membangun Jl. Sukarno Hatta No.448 Bandung Email : goo.meelargmail.com ABSTRAK - View of Beta: Tinjauan atas Op

0 0 17

Program Studi Magister Manajemen Sekolah Tinggi Ilmu Ekonomi Indonesia Membangun Jl. Soekarno Hatta No. 448 Bandung Email : gurawandayonayahoo.co.id ridhaagus86gmail.com ABSTRAK - View of PENGARUH KOMPENSASI TIDAK LANGSUNG DAN LINGKUNGAN KERJA FISIK TERHA

0 0 22

Program Studi Magister Manajemen Sekolah Tinggi Ilmu Ekonomi Indonesia Membangun Jl. Soekarno Hatta No. 448 Bandung Email : ade.salmangmail.com NDC_75yahoo.com ABSTRAK - View of ANALISA CAPITAL BUDGETING SEBAGAI ALAT UNTUK MENILAI KELAYAKAN RENCANA INVEST

1 1 20

Program Studi S1 Administrasi Bisnis, Fakultas Komunikasi dan Bisnis, Universitas Telkom Email : geniamegaymail.com Email : yahyaarwiyahtelkomuniversity.ac.id ABSTRAK - View of PENGARUH NILAI-NILAI RELIGIUS PEGAWAI DALAM MENDUKUNG PENINGKATAN KINERJA PEGA

0 0 13

View of ANALISIS FAKTOR - FAKTOR YANG MEMOTIVASI FANSCLUB A.R.M.Y MENONTON KONSER BTS THE WINGS TOUR IN JAKARTA

0 0 15

Faktor - Faktor Determinan Kurs Rupiah Terhadap Dollar Amerika

0 0 12

Persamaan Saint Venant - Exner Model Parabolik

0 1 39

Latar Belakang - Text Pre Processing v2

0 0 82

6.825 Techniques in Artificial Intelligence - Bayesian Network

0 0 97