[parallel vardtc] minor adjustments to work with current implementation of

psi stats
2026-05-24 14:15:14 +02:00 · 2014-06-18 08:44:29 -07:00 · 2014-06-18 08:44:29 -07:00 · 1e006f63b5
commit 1e006f63b5
parent c62dd85418
1 changed files with 84 additions and 67 deletions
--- a/GPy/inference/latent_function_inference/var_dtc_parallel.py
+++ b/GPy/inference/latent_function_inference/var_dtc_parallel.py
@ -112,12 +112,12 @@ class VarDTC_minibatch(LatentFunctionInference):
                if het_noise:
                    psi2_full += beta_slice*psi2
                else:
-                    psi2_full += psi2
+                    psi2_full += psi2.sum(0)
            else:
                if het_noise:
                    psi2_full += beta_slice*np.outer(psi1,psi1)
                else:
-                    psi2_full += np.outer(psi1,psi1)
+                    psi2_full += np.einsum('nm,jk->mk',psi1,psi1)

        if not het_noise:
            psi0_full *= beta
@ -128,7 +128,7 @@ class VarDTC_minibatch(LatentFunctionInference):
        #======================================================================
        # Compute Common Components
        #======================================================================
-        
+        self.psi1Y = psi1Y_full
        Kmm = kern.K(Z).copy()
        diag.add(Kmm, self.const_jitter)
        Lm = jitchol(Kmm)
@ -159,7 +159,10 @@ class VarDTC_minibatch(LatentFunctionInference):
            logL_R = -np.log(beta).sum()
        else:
            logL_R = -num_data*np.log(beta)
-        logL = -(output_dim*(num_data*log_2_pi+logL_R+psi0_full-np.trace(LmInvPsi2LmInvT))+YRY_full-bbt)/2.-output_dim*(-np.log(np.diag(Lm)).sum()+np.log(np.diag(LL)).sum())
+        logL = (
+                -(output_dim*(num_data*log_2_pi+logL_R+psi0_full-np.trace(LmInvPsi2LmInvT))+YRY_full-bbt)/2.
+                -output_dim*(-np.log(np.diag(Lm)).sum()+np.log(np.diag(LL)).sum())
+                )

        #======================================================================
        # Compute dL_dKmm
@ -256,14 +259,14 @@ class VarDTC_minibatch(LatentFunctionInference):

        if het_noise:
            if uncertain_inputs:
-                psiR = np.einsum('mo,nmo->n',dL_dpsi2R,psi2)
+                psiR = np.einsum('mo,nmo->',dL_dpsi2R,psi2)
            else:
-                psiR = np.einsum('nm,no,mo->n',psi1,psi1,dL_dpsi2R)
+                psiR = np.einsum('nm,no,mo->',psi1,psi1,dL_dpsi2R)

            dL_dthetaL = ((np.square(betaY)).sum(axis=-1) + np.square(beta)*(output_dim*psi0)-output_dim*beta)/2. - np.square(beta)*psiR- (betaY*np.dot(betapsi1,v)).sum(axis=-1)
        else:
            if uncertain_inputs:
-                psiR = np.einsum('mo,mo->',dL_dpsi2R,psi2)
+                psiR = np.einsum('mo,nmo->',dL_dpsi2R,psi2)
            else:
                psiR = np.einsum('nm,no,mo->',psi1,psi1,dL_dpsi2R)

@ -305,30 +308,44 @@ def update_gradients(model):
        if isinstance(model.X, VariationalPosterior):
            X_slice = model.X[n_range[0]:n_range[1]]

+            dL_dpsi1 = grad_dict['dL_dpsi1']#[None, :]
+            dL_dpsi2 = grad_dict['dL_dpsi2'][None, :, :]
            #gradients w.r.t. kernel
-            model.kern.update_gradients_expectations(variational_posterior=X_slice, Z=model.Z, dL_dpsi0=grad_dict['dL_dpsi0'], dL_dpsi1=grad_dict['dL_dpsi1'], dL_dpsi2=grad_dict['dL_dpsi2'])
+            model.kern.update_gradients_expectations(variational_posterior=X_slice,Z=model.Z,dL_dpsi0=grad_dict['dL_dpsi0'],dL_dpsi1=dL_dpsi1,dL_dpsi2=dL_dpsi2)
            kern_grad += model.kern.gradient

            #gradients w.r.t. Z
            model.Z.gradient += model.kern.gradients_Z_expectations(
-                               dL_dpsi0=grad_dict['dL_dpsi0'], dL_dpsi1=grad_dict['dL_dpsi1'], dL_dpsi2=grad_dict['dL_dpsi2'], Z=model.Z, variational_posterior=X_slice)
+                                    dL_dpsi0=grad_dict['dL_dpsi0'],
+                                    dL_dpsi1=dL_dpsi1,
+                                    dL_dpsi2=dL_dpsi2,
+                                    Z=model.Z, variational_posterior=X_slice)

            #gradients w.r.t. posterior parameters of X
-            X_grad = model.kern.gradients_qX_expectations(variational_posterior=X_slice, Z=model.Z, dL_dpsi0=grad_dict['dL_dpsi0'], dL_dpsi1=grad_dict['dL_dpsi1'], dL_dpsi2=grad_dict['dL_dpsi2'])
-            model.set_X_gradients(X_slice, X_grad)
+            X_grad = model.kern.gradients_qX_expectations(
+                                    variational_posterior=X_slice,
+                                    Z=model.Z,
+                                    dL_dpsi0=grad_dict['dL_dpsi0'],
+                                    dL_dpsi1=dL_dpsi1,
+                                    dL_dpsi2=dL_dpsi2)
+
+            model.X.mean[n_range[0]:n_range[1]].gradient = X_grad[0]
+            model.X.variance[n_range[0]:n_range[1]].gradient = X_grad[1]

            if het_noise:
                dL_dthetaL[n_range[0]:n_range[1]] = grad_dict['dL_dthetaL']
            else:
                dL_dthetaL += grad_dict['dL_dthetaL']
+    #import ipdb;ipdb.set_trace()
+    model.grad_dict = grad_dict
+    if isinstance(model.X, VariationalPosterior):
+        # Update Log-likelihood
+        model._log_marginal_likelihood -= model.variational_prior.KL_divergence(model.X)
+        # update for the KL divergence
+        model.variational_prior.update_gradients_KL(model.X)

    # Set the gradients w.r.t. kernel
    model.kern.gradient = kern_grad

-    # Update Log-likelihood
-    model._log_marginal_likelihood -= model.variational_prior.KL_divergence(model.X)
-    # update for the KL divergence
-    model.variational_prior.update_gradients_KL(model.X)
-    
    # dL_dthetaL
    model.likelihood.update_gradients(dL_dthetaL)