전체 글
-
Dirac Delta Function카테고리 없음 2019. 8. 6. 10:18
델타 함수는 Bayesian learning에서 posterior를 그냥 point estimation 함수로 놓고 싶을때 많이 등장한다. 정의는 간단하다. $x$를 제외한 영역에서는 0이고 $x$에서는 무한대인 함수이다. 문제는 $x$에서 미분값이 무한대라서 처음 만났을때 핸들링하기가 어렵다는 것. 미분이 까다롭다면 적분을 통해 보다 smoothing된 상황에서 생각해볼 수 있겠다. 어떤 함수(CDF)를 미분하면 delta 함수가 될까? step function이다. 가만 생각해보면 $x=0$일때 미분값이 0이되는 step function은 무한개 이다. $x>0$일때의 값이 꼭 1일 필요가 없다는 것이다. 0.5나 10이되어도 미분은 똑같이 발산한다. Delta function을 PDF로 사용하려는 ..
-
General PAC-Bayes Theorem카테고리 없음 2019. 8. 5. 20:35
증명하는 방법은 theorem의 형태에서 확률안 inequality의 좌변으로부터 시작하는 방법이 있고, 다소 느닷없긴 하지만 식의 일부 term으로 시작해서 최종 모습을 점점 만들어가는 방법이 있다. 현재 포스트에서는 후자를 다룬다. 결국에 사용하는 요소는 똑같지만, 순서만 다르다. 전자에 대한 reference: https://bguedj.github.io/nips2017/pdf/laviolette_nips2017.pdf http://chercheurs.lille.inria.fr/pgermain/talks/modal2017_handout.pdf https://icml.cc/media/Slides/icml/2019/grandball(10-09-15)-10-09-15-4338-a_primer_on.pdf..
-
Change of Measure Inequality카테고리 없음 2019. 8. 5. 18:50
Csiszar, 1975, Donsker and Varadhan, 1975. Equation 두번째 line에서 $\mathcal{H}$에 대한 새로운 distribution인 $Q$를 도입하면, $$\mathop{\mathbb{E}}\limits_{h \sim P}f(h)=\int_{\mathcal{H}}{P(h)f(h)dh}=\int_{\mathcal{H}}{Q(h)\frac{P(h)}{Q(h)}f(h)dh}$$ 그러나 $Q$의 support($\mathcal{H}_Q$)가 $P$의 support ($\mathcal{H}$)에 완전히 포함되지 않은 영역($\mathcal{H} \backslash \mathcal{H}_Q$)의 경우, 즉, $Q$가 전체 $\mathcal{H}$ 공간에서 $Q(h)=0$..
-
Markov / Chebyshev / Hoeffding Inequality카테고리 없음 2019. 8. 5. 14:02
The Markov Inequality If $X \geq 0$ and $a>0$, $P(X\geq a)\leq \frac{E[X]}{a}$ Expectation만 알고 있을때 확률변수가 상수 a보다 클 확률에 대해, 어느 정도의 upper bound를 예측할 수 있게 해줌. Bound가 tight하지 않을 수 있기 때문에 정보량이 크지는 않음. - 큰 값에 대한 기준 a가 커질 수록 확률은 줄어듦 (더 rare한 event) - E[X]가 커질 수록 큰 값 a(고정)가 나올 확률은 늘어남 증명 1. 증명2. 예시. - 첫번째 예시의 경우 exponential distribution가 a보다 클 확률은 a에 대해서 exponential한 속도로 감소하는데 비해, 1/a는 linear한 속도로 감소함. 즉..
-
PAC Learning카테고리 없음 2019. 8. 4. 17:40
https://www.youtube.com/watch?v=qOMOYM0WCzU PAC = Probably Approximately Correct Notation Given: Set of instances $X$ Set of hypotheses $H$ Set of possible target concepts $C$ Training instances generated by a fixed, unknown probability distribution $\mathcal{D}$ over $X$ Learner observes sequence $D$ of training examples $\langle x,c(x) \rangle$, for some target concept $c\in C$ Instances $x$ a..
-
Amortized Inference란?카테고리 없음 2019. 8. 2. 16:52
https://www.quora.com/What-is-amortized-variational-inference What is amortized variational inference? Answer: Let me briefly describe the setting first, as the best way to understand amortized variational inference (in my opinion) is in the context of regular variational inference (VI). Quick background on VI Let’s assume that we have some latent variable www.quora.com http://ruishu.io/2017/11/..
-
QR Method(eigen value & singluar value 추정)카테고리 없음 2019. 7. 30. 12:21
MATLAB에서 eig() 함수를 호출하면 교과서에서 배운 방법이 그대로 사용되지 않는다. *교과서에서 배운 방법: characteristic polynomial이라고 불리는 $|A-\lambda I|=0$를 계산. 그러나 large scale에서 실제로는 절대 이렇게 계산하지 않는다. Determinant는 계산하기 매우 비싸기 때문에. Singluar value의 경우도 $A^\top A$에 대한 eigen value에 square root이므로, 결국 같은 문제점으로 귀결된다. 그렇다면 MATLAB에서 eig(), svd() 등의 함수를 사용할 때 실제로 어떤 알고리즘이 사용되는 것일까? Eigen value shift ($A-sI$) Reduction $A$ to Hessenberg form QR..