Latar Belakang - Mathematics Background
Mathematics Mathematics
Background Background Text Mining Text MiningLatar Belakang Latar Belakang
Beberapa pengetahuan tentang statistic Beberapa pengetahuan tentang statistic dan aljabar linear diperlukan untuk dan aljabar linear diperlukan untuk memahami dan membangun aplikasi memahami dan membangun aplikasi text mining text mining
Mean and Variance Mean and Variance
Text Mining - Mathematics Background Text Mining - Mathematics BackgroundLatar Belakang Latar Belakang
Karakteristik dari populasi data yang Karakteristik dari populasi data yang
sangat banyak bisa diperkirakan dari sangat banyak bisa diperkirakan dari beberapa sample. beberapa sample.
Poin pentingnya ada 2 : Bagaimana Poin pentingnya ada 2 : Bagaimana
kita bisa mendapatkan sample yang kita bisa mendapatkan sample yang tidak bias dan berapa sample yang tidak bias dan berapa sample yang seharusnya diperlukan seharusnya diperlukan
Latar Belakang Latar Belakang
Untuk mendapatkan sample yang tidak Untuk mendapatkan sample yang tidak bias tidak mudah juga, salah satu bias tidak mudah juga, salah satu caranya kita bisa mengambil beberapa caranya kita bisa mengambil beberapa sample secara random. sample secara random.
Latar Belakang Latar Belakang
Lalu, bagaimana cara menentukan Lalu, bagaimana cara menentukan
batas banyaknya sample yang harus batas banyaknya sample yang harus diambil? diambil?
Kita bisa menggunakan mean (pusat Kita bisa menggunakan mean (pusat
lokasi nilai data) dan variance (tingkat lokasi nilai data) dan variance (tingkat variasi nilai data) sebagai pendukung variasi nilai data) sebagai pendukung keputusannya keputusannya
Mean Mean
Mean adalah rata-rata nilai sebuah
dataDi mana N adalah jumlah populasi dan
x i adalah nilai pada populasi ke-i
Mean adalah rata-rata nilai sebuah data
Di mana N adalah jumlah populasi dan
x i
adalah nilai pada populasi ke-i
Standart Deviasi Standart Deviasi
Standar Standar Deviasi adalah Deviasi adalah besar besar
perbedaan dari nilai sampel terhadap perbedaan dari nilai sampel terhadap rata-rata. rata-rata.
Di mana N adalah jumlah populasi dan Di mana N adalah jumlah populasi dan
x x adalah nilai pada populasi ke-I, adalah nilai pada populasi ke-I, i i sedangkan µ adalah nilai mean. sedangkan µ adalah nilai mean.Variance Variance
Varian adalah ukuran persebaran Varian adalah ukuran persebaran
(dispersi) data. Dihitung dengan cara (dispersi) data. Dihitung dengan cara mengkuadratkan standart deviasi mengkuadratkan standart deviasi Di mana N adalah jumlah populasi dan x Di mana N adalah jumlah populasi dan x i i adalah adalah nilai nilai pada pada populasi populasi ke-I, ke-I, sedangkan µ adalah nilai mean. sedangkan µ adalah nilai mean.
Reuters Collection Reuters Collection
Reuters Collection berisi dokumen- Reuters Collection berisi dokumen-
dokumen berita yang sangat banyak. dokumen berita yang sangat banyak.
Misal kita ambil 10000 dokumen lalu Misal kita ambil 10000 dokumen lalu
kita cari mean, varian dan standart kita cari mean, varian dan standart deviasinya. deviasinya.
Reuters Collection Reuters Collection
Kata Mean Standart Deviasi
And2.79
3.57 Of
3.86
4.61 The
6.30
8.52 United
0.08
0.41 States
0.06
0.37 America
0.02
0.20 Misal kita analisis statistic dari beberapa kata
berikut : Kata and, of dan the sangat sering muncul. Kata
Reuters Collection Reuters Collection Kata Mean Standart Deviasi
And
2.79
3.57 Of
3.86
4.61 The
6.30
8.52 United
0.08
0.41 States
0.06
0.37 America
0.02
0.20 Misal kita analisis statistic dari beberapa kata
berikut :
Kata the memiliki standart deviasi yang tinggi, artinya sering
muncul dalam jumlah yang jauh kurang dari atau lebih dariReuters Collection Reuters Collection
Kebanyakan data yang memiliki Mean Kebanyakan data yang memiliki Mean
yang tinggi cenderung akan memiliki yang tinggi cenderung akan memiliki variance dan standart deviasi yang variance dan standart deviasi yang tinggi pula tinggi pula
Bisa juga kita gambarkan dalam Bisa juga kita gambarkan dalam
bentuk distribusi jumlah kemunculan bentuk distribusi jumlah kemunculan
Reuters Collection Reuters Collection
Probability Probability
Text Mining - Mathematics Background Text Mining - Mathematics Background
Probability Probability
Probabilitas atau peluang adalah nilai di Probabilitas atau peluang adalah nilai di antara 0 dan 1 yang mengindikasikan antara 0 dan 1 yang mengindikasikan seberapa mungkin sebuah kejadian atau seberapa mungkin sebuah kejadian atau beberapa kumpulan kejadian akan beberapa kumpulan kejadian akan terjadi terjadi
Probability Probability
Nilai 0 mengindikasikan kejadian tidak Nilai 0 mengindikasikan kejadian tidak
akan pernah terjadi, sedangkan nilai 1 akan pernah terjadi, sedangkan nilai 1 mengindikasikan kejadian pasti akan mengindikasikan kejadian pasti akan pernah terjadi pernah terjadi
Nilai di antara 0-1 mengindikasikan Nilai di antara 0-1 mengindikasikan
besarnya kemungkinan terjadi besarnya kemungkinan terjadi
Probability Probability
Contoh, Contoh, kita kita bisa bisa menghitung menghitung
probabilitas kata and muncul tepat probabilitas kata and muncul tepat satu kali pada sebuah dokumen. satu kali pada sebuah dokumen.
Kita bisa tuliskan p(x) sebagai peluang Kita bisa tuliskan p(x) sebagai peluang
kata kata and muncul x kali and muncul x kali
Atau P(X=x) peluang random variable Atau P(X=x) peluang random variable
X bernilai x X bernilai x
Probability Probability
Kadang kita tidak bisa menghitung Kadang kita tidak bisa menghitung
rata-rata jumlah kemunculan sebuah rata-rata jumlah kemunculan sebuah kata kata dalam dalam sebuah sebuah kumpulan kumpulan
dokumen karena, misal dokumenya dokumen karena, misal dokumenya
sangat banyak sangat banyak
Probability Probability
Oleh Oleh karena karena itu, itu, mean mean bisa bisa
diperkirakan dari Expected value diperkirakan dari Expected valueE X xp x
x
Di mana E[X] adalah Expected value Di mana E[X] adalah Expected value
dari random variable x dijumlahkan dari random variable x dijumlahkan semuanya untuk semua kemungkinan semuanya untuk semua kemungkinan x xProbability Probability
Oleh karena itu, mean bisa dihitung Oleh karena itu, mean bisa dihitung
dari Expected value dari Expected value
E X xp x
x
Namun, Namun, dengan dengan menggunakan menggunakan
Expected value ini bisa jadi berbeda Expected value ini bisa jadi berbeda
dengan mean yang sebenarnya dengan mean yang sebenarnya
Probability Probability
Pengukuran lain adalah Covariance Pengukuran lain adalah Covariance
dan dan Correlation Correlation untuk untuk membandingkan dua buah variable membandingkan dua buah variable
Probability Probability
Covariance Covariance menggambarkan menggambarkan
bagaimana dua buah variable memiliki bagaimana dua buah variable memiliki perubahan nilai yang sama atau tidak perubahan nilai yang sama atau tidak
Misal, menghitung Covariance dari Misal, menghitung Covariance dari
variable X dan Y variable X dan Y
Cov X , Y E
X Y
x y
Probability Probability
Misal, menghitung Covariance dari variable X dan Misal, menghitung Covariance dari variable X dan
Y Y Nilai Kovarian yang tinggi mengindikasikan jika Nilai Kovarian yang tinggi mengindikasikan jika
semakin besar nilai X, maka semakin besar juga semakin besar nilai X, maka semakin besar juga nilai Y dan jika semakin kecil nilai X, maka nilai Y dan jika semakin kecil nilai X, maka semakin kecil juga nilai Y. Atau bisa dikatakan X semakin kecil juga nilai Y. Atau bisa dikatakan X dan Y punya perilaku yang sama. dan Y punya perilaku yang sama. Sebaliknya, Sebaliknya, nilai nilai Kovarian Kovarian yang yang rendah rendah mengindikasikan jika semakin besar nilai X, maka mengindikasikan jika semakin besar nilai X, maka nilai Y malah semakin kecil, dan sebaliknya. Atau nilai Y malah semakin kecil, dan sebaliknya. Atau bisa dikatakan X dan Y punya perilaku yang bisa dikatakan X dan Y punya perilaku yang
Probability Probability
Sama halnya dengan Covariance, Sama halnya dengan Covariance,
Correlation juga mengukur hubungan Correlation juga mengukur hubungan
antara 2 buah variable, namun dengan antara 2 buah variable, namun dengan
hasil hasil yang yang lebih lebih mudah mudah di di interpretasikan interpretasikan
Cov X , Y
X , Y
x y
Probability Probability
Nilai Korelasi pasti di antara -1 sampai Nilai Korelasi pasti di antara -1 sampai
1
Korelasi tinggi mengindikasikan jika Korelasi tinggi mengindikasikan jika
1
semakin besar nilai X, maka semakin semakin besar nilai X, maka semakin besar juga nilai Y, dan sebaliknya. besar juga nilai Y, dan sebaliknya.
Probability Probability
Nilai Korelasi pasti di antara -1 sampai 1 Nilai Korelasi pasti di antara -1 sampai 1
Dari data 10.000 dokumen berita Dari data 10.000 dokumen berita Reuters, korelasi kemunculan ata Reuters, korelasi kemunculan ata United United dan dan States adalah 0.84. Artinya United States adalah 0.84. Artinya United dan dan States sering muncul dalam jumlah States sering muncul dalam jumlah yang sama dalam dokumen manapun yang sama dalam dokumen manapun
Least Square Method Least Square Method
Text Mining - Mathematics Background Text Mining - Mathematics BackgroundLeast Square Method Least Square Method
Misal Misal kita kita gambarkan gambarkan hubungan hubungan
antara probabilitas kemunculan kata antara probabilitas kemunculan kata
United dan States dalam sebuah United dan States dalam sebuah
dokumen dokumen
Least Square Method Least Square Method
Seperti pada gambar, ketika kata Seperti pada gambar, ketika kata
United muncul 4 kali dalam sebuah United muncul 4 kali dalam sebuah dokumen, maka ada peluang 0.6 kata dokumen, maka ada peluang 0.6 kata States juga muncul sebanyak 4 kali States juga muncul sebanyak 4 kali
dalam dokumen tersebut. ketika kata dalam dokumen tersebut. ketika kata
United muncul 5 kali dalam sebuah United muncul 5 kali dalam sebuah
dokumen, maka ada peluang 0.75 kata dokumen, maka ada peluang 0.75 kata States juga muncul sebanyak 5 kali States juga muncul sebanyak 5 kali
dalam dokumen tersebut. dalam dokumen tersebut.
Least Square Method Least Square Method
Probabilitasnya cenderung naik jika
jumlah kemunculanya bertambah.Kita bisa menarik sebuah garis Regresi
Garis regresi ini bisa digunakan untuk
memprediksi probabilitas dari nilai x selanjutnya
Probabilitasnya cenderung naik jika jumlah kemunculanya bertambah.
Kita bisa menarik sebuah garis Regresi
Garis regresi ini bisa digunakan untuk memprediksi probabilitas dari nilai x selanjutnya
Least Square Method Least Square Method
Untuk membuat garis Regresi ini bisa Untuk membuat garis Regresi ini bisa
membuat prediksi yang terbaik, maka membuat prediksi yang terbaik, maka garis regresi ini harus didefnisikan garis regresi ini harus didefnisikan sedemikian sehingga jarak garis ke sedemikian sehingga jarak garis ke nilai aslinya tidak berbeda jauh nilai aslinya tidak berbeda jauh
Kita bisa menggunakan metode Least Kita bisa menggunakan metode Least
Square untuk meminimalisir jarak ini Square untuk meminimalisir jarak ini
Entropy Entropy
Text Mining - Mathematics Background Text Mining - Mathematics Background
Entropy Entropy
Entropy bisa diartikan sebagai ketidak Entropy bisa diartikan sebagai ketidak
pastian pastian
Entropy dalam Information Theory Entropy dalam Information Theory
digunakan sebagai metode kompresi digunakan sebagai metode kompresi pada tahun 1940an untuk mengirim pada tahun 1940an untuk mengirim lebih banyak informasi dengan akurasi lebih banyak informasi dengan akurasi yang tinggi yang tinggi
Entropy Entropy
Nilai Entropy yang tinggi berarti data Nilai Entropy yang tinggi berarti data berasal dari sebuah distribusi uniform berasal dari sebuah distribusi uniform dan ada banyak ketidakpastian dari dan ada banyak ketidakpastian dari data tersebut data tersebut
Nilai Entropy yang rendah berarti data Nilai Entropy yang rendah berarti data berasal dari sebuah distribusi dengan berasal dari sebuah distribusi dengan puncak juga lembah dan tingkat puncak juga lembah dan tingkat ketidakpastianya kecil ketidakpastianya kecil
Nilai Entropy 0 berrarti 100% kepastian Nilai Entropy 0 berrarti 100% kepastian
Entropy Entropy
Misal, dalam Bahasa Inggris, huruf u Misal, dalam Bahasa Inggris, huruf u
sering muncul setalah q. Ada sedikit sering muncul setalah q. Ada sedikit ketidakpastian kalau huruf u sering ketidakpastian kalau huruf u sering muncul setalah q, sehingga nilai muncul setalah q, sehingga nilai entropynya rendah entropynya rendah
Entropy Entropy
Entropy menghitung jumlah informasi Entropy menghitung jumlah informasi
yang yang dibutuhkan dibutuhkan dalam dalammenyelesaikan ketidakpastian menyelesaikan ketidakpastian
Jika banyak ketidakpastian, maka kita Jika banyak ketidakpastian, maka kita
perlu lebih banyak informasi yang perlu lebih banyak informasi yang dikirimkan, sehingga nilai Entropynya dikirimkan, sehingga nilai Entropynya pun tinggi pun tinggi
Entropy Entropy
Di mana p i adalah peluang kata w i
Untuk dua buah kata dengan peluang 0.75
dan 0.25, entropynya adalah 0.811 Untuk dua buah kata dengan peluang 0.5 dan 0.5, entropynya adalah 1
Entropy bertambah seiring banyaknya
ketidakpastian Di mana p i adalah peluang kata w i
Untuk dua buah kata dengan peluang 0.75 dan 0.25, entropynya adalah 0.811
Untuk dua buah kata dengan peluang 0.5 dan 0.5, entropynya adalah 1
Entropy bertambah seiring banyaknya ketidakpastian
n i i i H p p 1 2 log
Related-Event
ProbabilityRelated-Event
ProbabilityText Mining - Mathematics Background Text Mining - Mathematics Background
Related-Event Related-Event Probability Probability
Misal ada sebuah Bahasa yang hanya Misal ada sebuah Bahasa yang hanya terdiri dari 3 kata : (apple, baker, charlie) terdiri dari 3 kata : (apple, baker, charlie) Jika dalam Bahasa tersebut hanya bisa Jika dalam Bahasa tersebut hanya bisa membuat kalimat dengan 2 buah kata, membuat kalimat dengan 2 buah kata, maka kemungkinanya adalah maka kemungkinanya adalah
{apple apple, baker baker, Charlie {apple apple, baker baker, Charlie Charlie, apple baker, apple Charlie, baker Charlie, apple baker, apple Charlie, baker apple, baker Charlie, Charlie apple, apple, baker Charlie, Charlie apple, Charlie baker} Charlie baker}
Related-Event Related-Event Probability Probability
Kemungkinan terjadi kata Kemungkinan terjadi kata apple baker apple baker adalah 1/9 dan kemungkinan tidak terjadi adalah 1/9 dan kemungkinan tidak terjadi
adalah 8/9 adalah 8/9 P(apple) : Peluang apple muncul minimal P(apple) : Peluang apple muncul minimal satu kali adalah 5/9 satu kali adalah 5/9
P(apple ∩ baker) : Peluang apple dan baker P(apple ∩ baker) : Peluang apple dan baker
muncul bersama adalah 2/9 muncul bersama adalah 2/9
P(apple U baker) : Peluang apple atau baker P(apple U baker) : Peluang apple atau baker muncul adalah 8/9 muncul adalah 8/9
p a b p a p b p a b
Related-Event Related-Event Probability Probability
P(apple|baker) : Peluang muncul apple jika P(apple|baker) : Peluang muncul apple jika
kata baker muncul juga adalah 2/5 kata baker muncul juga adalah 2/5
p a b
p a | b
p b
P(apple|baker) = 2/9 / 5/9 = 2/5 P(apple|baker) = 2/9 / 5/9 = 2/5
Related-Event Probability Related-Event Probability
Jika p(a 1 |c 2 ) = p(a 1 ), maka dua kejadian ini independent, tidak saling mempengaruhi, sehingga
1 c p a p c a p
2
1
2
Misal, kita memiliki dua event a 1 dan c 2 a 1 : Kalimat berawalan apple
c 2 : Kalimat berakhiran Charlie
: Kalimat berakhiran Charlie
c 2
: Kalimat berawalan apple
a 1
Misal, kita memiliki dua event a 1 dan c 2
Jika p(a 1 |c 2 ) = p(a 1 ), maka dua kejadian ini independent, tidak saling mempengaruhi, sehingga
Related-Event Related-Event
Probability ProbabilityBayes Rule Bayes Rule
Text Mining - Mathematics Background Text Mining - Mathematics Background
Bayes Rule Bayes Rule
Misal di pulau terpencil hidup seorang
Misal di pulau terpencil hidup seorang
manusia manusia
Kita tidak tahu jenis kelaminya apa Kita tidak tahu jenis kelaminya apa
P(pria) adalah peluang manusia tersebut P(pria) adalah peluang manusia tersebut
berjenis kelamin pria dan P(wanita) adalah berjenis kelamin pria dan P(wanita) adalah peluang manusia tersebut berjenis kelamin peluang manusia tersebut berjenis kelamin wanita wanita
P(pria)= P(wanita) =1/2 P(pria)= P(wanita) =1/2
Ini disebut sebagai prior probability, nilai Ini disebut sebagai prior probability, nilai
Bayes Rule Bayes Rule
Lalu kita mendapat info kalau orang Lalu kita mendapat info kalau orang
tersebut tersebut suka suka main main sepakbola sepakbola (kejadian s), maka sekarang P(pria) (kejadian s), maka sekarang P(pria)
akan berubah karena adanya informasi akan berubah karena adanya informasi
baru, yaitu suka main bola. Ini yang baru, yaitu suka main bola. Ini yang disebut sebagai posterior probability disebut sebagai posterior probability
p pria s p s | pria p ( pria )
p pria | s
p s p s
Probability
Distribution
Probability
Distribution
Text Mining - Mathematics Background Text Mining - Mathematics Background
Binomial Distribution Binomial Distribution
A fixed number of observations (trials), n e.g., 15 tosses of a coin; 20 patients; 1000 people surveyed
A binary outcome e.g., head or tail in each toss of a coin; disease or no disease Generally called “success” and “failure” Probability of success is p, probability of failure is 1 – p
Constant probability for each observation e.g., Probability of getting a tail is the same each time
Binomial distribution Binomial distribution
Take the example of 5 coin tosses. Take the example of 5 coin tosses.
What’s the probability that you fip What’s the probability that you fip
exactly 3 heads in 5 coin tosses? exactly 3 heads in 5 coin tosses?
Binomial distribution Binomial distribution
Solution: Solution:
One way to get exactly 3 heads: HHHTT One way to get exactly 3 heads: HHHTT What’s the probability of this exact arrangement? What’s the probability of this exact arrangement?
P(heads)xP(heads) xP(heads)xP(tails)xP(tails) P(heads)xP(heads) xP(heads)xP(tails)xP(tails) 3 3 2 2 =(1/2) =(1/2) x (1/2) x (1/2) Another way to get exactly 3 heads: THHHT Another way to get exactly 3 heads: THHHT 1 1 3 3 Probability of this exact outcome = (1/2) Probability of this exact outcome = (1/2) 1 1 3 3 2 2 x (1/2) x (1/2) x x (1/2) (1/2) = (1/2) = (1/2)
x (1/2) x (1/2)
Binomial distribution Binomial distribution
3
3
2
x (1/2) x (1/2)
each unique outcome that has exactly 3 each unique outcome that has exactly 3 heads and 2 tails. heads and 2 tails.
So, the overall probability of 3 heads and So, the overall probability of 3 heads and 2 tails is: 2 tails is:
3
3
2
2
3
3
2
2
3 (1/2) (1/2) x (1/2) x (1/2) + (1/2) + (1/2) x (1/2) x (1/2) + (1/2) + (1/2) x x
3
2 (1/2) (1/2)
2
- ….. for as many unique + ….. for as many unique arrangements as there are—but how arrangements as there are—but how
Binomial distribution Binomial distribution
Outcome Probability 3 2 THHHT (1/2) x (1/2) 3 2 HHHTT (1/2) 3 x (1/2) 2 TTHHH (1/2) 3 x (1/2) 2 HTTHH (1/2) x (1/2) 3 2 The probability ways to HHTTH (1/2) x (1/2)
5 3 2 of each unique arrange 3
HTHHT (1/2) x (1/2) 3 2 outcome (note: heads in
THTHH (1/2) x (1/2) 3 2 they are all
3 5 trials HTHTH (1/2) x (1/2)
) 3 2 equal HHTHT (1/2) 3 x (1/2) 2 THHTH (1/2) x (1/2) 3 2 10 arrangements x (1/2) x (1/2) 5 C = 5!/3!2! = 10 3
Binomial distribution Binomial distribution
P(3 heads and 2 tails) = x P(heads)
3 x P(tails)
2 =
10 x (½) 5=
31.25%
5 3
Binomial distribution Binomial distribution Binomial distribution Binomial distribution function: function:
X= the number of heads tossed X= the number of heads tossed
in 5 coin tosses in 5 coin tosses p(x) p(x) x3 4 5 1 2
Binomial distribution, Binomial distribution, generally generally
Note the general pattern emerging if you have only two possible outcomes (call them 1/0 or yes/no or success/failure) in n independent trials, then the probability of exactly X “successes”=
n = number of trials n
X n
X
p ( 1 p )
X
1-p = probability
of failure
X = # successes
Binomial distribution: Binomial distribution: example example
If I toss a coin 20 times, what’s the If I toss a coin 20 times, what’s the
probability of getting exactly 10 heads? probability of getting exactly 10 heads?
20 10 10 (. 5 ) (. 5 ) . 176
10
Binomial distribution: example Binomial distribution: example
20 ) ) 5 (. 5 (.
x x x x x x x
) 5 (. 5 (.
20 ! 20 )
! !
10 5 . 9 ) 5 (.
If I toss a coin 20 times, what’s the probability of getting of getting 2 or fewer heads?
9 20 ) 5 (.
10 5 .
1
10 9 .
20 ) ) 5 (. 5 (.
! 2 ! 18 !
10 5 . ) 9 190 5 (.
1
4 4 7 20 18 2 20 2 5 7 20 19 1 20 1 7 20 20 20 10 8 .
If I toss a coin 20 times, what’s the probability of getting of getting 2 or fewer heads?
! 1 ! 19 !
- **All probability distributions are **All probability distributions are
characterized by an expected value characterized by an expected value
and a variance: and a variance: If X follows a binomial distribution with parameters n and p: If X follows a binomial distribution with parameters n and p: X ~ Bin (n, p) X ~ Bin (n, p) Then: Then: Note: the variance will always lie betweenE(X) = np E(X) = np 0*N-.25 *N Var (X) = np(1-p) Var (X) = np(1-p) p(1-p) reaches SD (X)= SD (X)= maximum at p=.5
( 1 p ) np P(1-p)=.25
The Poisson Distribution The Poisson Distribution
The Poisson distribution is defned by:
x e
f ( x ) x !
Where f(x) is the probability of x occurrences in an interval m is the expected value or mean value of occurrences within an interval
e is the natural logarithm. e = 2.71828
Properties of the Poisson Distribution Properties of the Poisson Distribution
1. The probability of occurrences is the same for any two intervals of equal length.
2. The occurrence or nonoccurrence of an event in one interval is independent of an occurrence on nonoccurrence of an event in any other interval
Example: Mercy Hospital Example: Mercy Hospital
MERCY
Poisson Probability Function Poisson Probability Function Patients arrive at the Patients arrive at the
emergency room of Mercy emergency room of Mercy Hospital at the average Hospital at the average rate of 6 per hour on rate of 6 per hour on weekend evenings. weekend evenings.
What is the What is the probability of 4 arrivals in probability of 4 arrivals in
Example: Mercy Hospital Example: Mercy Hospital
= 6/hour = 3/half-hour, x = 4 4 3
3 (2.71828) f (4) .1680
4!
The Normal The Normal
Distribution Distribution
The Normal Distribution: The Normal Distribution:
as mathematical function as mathematical function
(pdf) (pdf)1 x
2 ( )
1
2 f ( x ) e
2
This is a bell shaped curve with diferent
Note constants:
centers and spreads
=3.14159
depending on and
The Normal PDF The Normal PDF
1 2 ) (
It’s a probability function, so no matter what the values of and , must integrate to 1!
It’s a probability function, so no matter what the
values of and , must integrate to 1!
dx e x
1
2
1
2
1
dx e x
1
2
1 2 ) (
2
Normal distribution is Normal distribution is
defned by its mean and defned by its mean and standard dev. standard dev. 1 x 2 E(X)= = E(X)= = ( )
1 2 x e dx
2 1 x ( ) 2 2 2 2
1 2 2 ( x e dx )
Var(X)= Var(X)= = =
2
Standard Deviation(X)= Standard Deviation(X)=
- **The beauty of the normal curve: **The beauty of the normal curve:
No matter what and are, the area between - and + is about 68%; the area between -2 and +2 is about 95%; and the area between -3 and +3 is about 99.7%. Almost all values fall within 3 standard deviations.
68-95-99.7 Rule 68-95-99.7 Rule
68-95-99.7 Rule in Math terms… 68-95-99.7 Rule in Math terms…
1 x 2 ( )1
68
2
e dx .2
2 1 x 2
( )1
2 e dx .
95
2
2
3 1 x 2 ( )
1
2 e dx . 997
2
3
How good is rule for real data? How good is rule for real data?
Check some example data:
The mean of the weight of the women
= 127.8 The standard deviation (SD) = 15.5
Check some example data:
The mean of the weight of the women = 127.8
The standard deviation (SD) = 15.5
68% of 120 = .68x120 = ~ 82 runners In fact, 79 runners fall within 1-SD (15.5 lbs) of the mean. 112.3 127.8 143.3 2 0 2 5 e r e 1 5 P n c t 1 0 5 0 8 0 9 0 1 0 0 1 1 0 1 2 0 1 3 0 1 4 0 1 5 0 1 6 0 P O U N D S
95% of 120 = .95 x 120 = ~ 114 runners In fact, 115 runners fall within 2-SD’s of the mean. 96.8 127.8 158.8 2 0 2 5 e r e 1 5 P n c t 1 0 5 0 8 0 9 0 1 0 0 1 1 0 1 2 0 1 3 0 1 4 0 1 5 0 1 6 0 P O U N D S
99.7% of 120 = .997 x 120 = 119.6 runners
In fact, all 120 runners fall within 3-SD’s of the mean.81.3 127.8 174.3 2 0 2 5 e c e 1 5 P n r t 1 0 5 0
8 0 9 0 1 0 0 1 1 0 1 2 0 1 3 0 1 4 0 1 5 0 1 6 0
P O U N D S
Sampling
Distribution
Sampling
Distribution
Text Mining - Mathematics Background Text Mining - Mathematics Background
Sampling Distribution Sampling Distribution
Dalam teks mining, alasan untuk Dalam teks mining, alasan untuk
melakukan sampling sangat jelas, melakukan sampling sangat jelas, yaitu kita tidak bisa mengkases semua yaitu kita tidak bisa mengkases semua teks online yang tersedia dalam teks online yang tersedia dalam berbagai Bahasa dan sampling adalah berbagai Bahasa dan sampling adalah
satu-satunya cara untuk membangun satu-satunya cara untuk membangun representasi representasi model model semua semua teks teks
tersebut tersebut
Sampling Distribution Sampling Distribution
Beberapa tipe sampling yang bisa
dipakai Beberapa tipe sampling yang bisa dipakai
Statistic Populatio n Distributi on Populatio
n
VarianceSample Distributi on Mean Normal Known Normal Mean Normal Unknown Student-t Mean Unknown Known Normal Variance Normal Known Chi-Square
Hypothesis Testing Hypothesis Testing
Text Mining - Mathematics Background Text Mining - Mathematics BackgroundHypothesis Testing Hypothesis Testing
Hipotesis adalah teori yang belum Hipotesis adalah teori yang belum
teruji yang diyakini berdasarkan data teruji yang diyakini berdasarkan data yang yang atau atau pengalaman pengalaman sudah sudah terkumpul terkumpul
H H adalah null Hipotesis, hipotesis yang adalah null Hipotesis, hipotesis yang diyakini tidak benar diyakini tidak benar
Test Result H True H True 1
H H adalah hipotesis yang diyakini adalah hipotesis yang diyakini H0 diterima Benar Type II Error benar benar
H1 diterima Type I Error Benar
Chi-Square Test Chi-Square Test
Misal kita mendapatkan spam dan Misal kita mendapatkan spam dan
email yang bukan spam pada hari libur email yang bukan spam pada hari libur maupun hari aktif maupun hari aktif
Bisakah kita membangun sebuah Bisakah kita membangun sebuah
hubungan antara tipe email dan hari hubungan antara tipe email dan hari
pengirimanya pengirimanya Type Weekday Weekend Total Bukan Spam 182 100 282 Spam
73 145 218
255 245 500
Chi-Square Test Chi-Square Test
Expected Expected Frequency(EF) Frequency(EF) bisa bisa dihitung dihitung dengan distribusi normal. dengan distribusi normal.
EF(Spam, Weekday) adalah EF spam pada EF(Spam, Weekday) adalah EF spam pada
weekday weekday
EF(Spam, Weekday) = 255x218/500 = EF(Spam, Weekday) = 255x218/500 =
111.18 111.18 Dst, Dst, sehingga sehingga didapat didapat nlai nlai Expected Expected Type Weekday Weekend Total
Frequency(EF) : Frequency(EF) : Spam 111.18 106.82 218
Bukan Spam 143.82 138.18 282
Chi-Square Test Chi-Square Test
Chi-square bisa dihitung dengan rumus Chi-square bisa dihitung dengan rumus 2 O E .
5 ij ij 2
i , j E ij
O O adalah frekuensi yang diobservasi dan E adalah frekuensi yang diobservasi dan E ij ij ij ij adalah frekuensi yang diharapkan (expected adalah frekuensi yang diharapkan (expected Frequency) Frequency)
Koreksi 0.5 digunakan untuk meningkatkan Koreksi 0.5 digunakan untuk meningkatkan
perkiraan distribusi chi-square. Hasilnya : perkiraan distribusi chi-square. Hasilnya :
Chi-Square Test Chi-Square Test
Chi-square bisa dihitung dengan rumus Chi-square bisa dihitung dengan rumus 2 O E .
5 ij ij 2
i , j E ij Nilai Chi-square Spam pada Weekdays = Nilai Chi-square Spam pada Weekdays = 2 2
(|73-111.18|+0.5) (|73-111.18|+0.5) / / 111.18 111.18 = = 1496.1424/111.18 = 13.45 1496.1424/111.18 = 13.45 Spam Type Weekday Weekend 13.45 14.00 Bukan Spam 10.40 10.82
Chi-Square Test Chi-Square Test
Jumlah totalnya = 48.67 Untuk chi-square dengan 1 degree of freedom minimalnya adalah 6.635 Jadi H0 ditolak Oleh karena itu, memang ada hubungan antara hari dan tipe email
Jumlah totalnya = 48.67
Untuk chi-square dengan 1 degree of freedom minimalnya adalah 6.635
Jadi H0 ditolak
Oleh karena itu, memang ada hubungan antara hari dan tipe email
Type Weekday Weekend Spam 13.45 14.00 Bukan Spam 10.40 10.82
T-Test T-Test
Kalau Chi-square membandingkan variance, kalau Kalau Chi-square membandingkan variance, kalau
t-test membandingkan nilai tunggal seperti mean. t-test membandingkan nilai tunggal seperti mean.
Misal kita memiliki koleksi dokumen yang Misal kita memiliki koleksi dokumen yang
dimasukkan ke dalam 8 kategori dimasukkan ke dalam 8 kategori Dokumen yang tidak bisa dikategorikan di Dokumen yang tidak bisa dikategorikan di
masukkan ke dalam kategori lain-lain yang berada masukkan ke dalam kategori lain-lain yang berada di luar 8 kategori tersebut di luar 8 kategori tersebut