diff --git a/GPy/core/model.py b/GPy/core/model.py
index 46cf6ac9..183cf0f0 100644
--- a/GPy/core/model.py
+++ b/GPy/core/model.py
@@ -363,7 +363,8 @@ class model(parameterised):
                     grad_string = "{0:^{c0}}|{1:^{c1}}|{2:^{c2}}|{3:^{c3}}|{4:^{c4}}".format(formatted_name,r,d,g, ng, c0 = cols[0]+9, c1 = cols[1], c2 = cols[2], c3 = cols[3], c4 = cols[4])
                     print grad_string
 
-            print ''
-            
+            if verbose:
+                print ''
+
             return False
         return True
diff --git a/GPy/models/__init__.py b/GPy/models/__init__.py
index ab7ff5b4..3b8b31c8 100644
--- a/GPy/models/__init__.py
+++ b/GPy/models/__init__.py
@@ -3,7 +3,7 @@
 
 
 from GP_regression import GP_regression
-from sparse_GP_regression import sparse_GP_regression
+from sparse_GP_regression import sparse_GP_regression, sgp_debugB, sgp_debugC, sgp_debugE
 from GPLVM import GPLVM
 from warped_GP import warpedGP
 from GP_EP import GP_EP
diff --git a/GPy/models/sparse_GP_regression.py b/GPy/models/sparse_GP_regression.py
index fe5f7cc1..45376cf2 100644
--- a/GPy/models/sparse_GP_regression.py
+++ b/GPy/models/sparse_GP_regression.py
@@ -197,3 +197,127 @@ class sparse_GP_regression(GP_regression):
                 pb.errorbar(self.X[:,0], pb.ylim()[0]+np.zeros(self.N), xerr=2*np.sqrt(self.X_uncertainty.flatten()))
         if self.Q==2:
             pb.plot(self.Z[:,0],self.Z[:,1],'wo')
+
+class sgp_debugB(sparse_GP_regression):
+    def _computations(self):
+        self.V = self.beta*self.Y
+        self.psi1V = np.dot(self.psi1, self.V)
+        self.psi1VVpsi1 = np.dot(self.psi1V, self.psi1V.T)
+        self.Kmmi, self.Lm, self.Lmi, self.Kmm_logdet = pdinv(self.Kmm)
+        self.A = mdot(self.Lmi, self.beta*self.psi2, self.Lmi.T)
+        self.B = np.eye(self.M) + self.A
+        self.Bi, self.LB, self.LBi, self.B_logdet = pdinv(self.B)
+        self.LLambdai = np.dot(self.LBi, self.Lmi)
+        self.trace_K = self.psi0 - np.trace(self.A)/self.beta
+        self.LBL_inv = mdot(self.Lmi.T, self.Bi, self.Lmi)
+        self.C = mdot(self.LLambdai, self.psi1V)
+        self.G =  mdot(self.LBL_inv, self.psi1VVpsi1, self.LBL_inv.T)
+
+        # Compute dL_dpsi
+        self.dL_dpsi0 = - 0.5 * self.D * self.beta * np.ones(self.N)
+        self.dL_dpsi1 = np.zeros_like(self.psi1)
+        self.dL_dpsi2 = - 0.5 * self.beta * (self.D*( - self.Kmmi))
+
+        # Compute dL_dKmm
+        self.dL_dKmm = -0.5 * self.D * mdot(self.Lmi.T, self.A, self.Lmi) # dB
+
+    def log_likelihood(self):
+        A = -0.5*self.N*self.D*(np.log(2.*np.pi) - np.log(self.beta))
+        B = -0.5*self.beta*self.D*self.trace_K
+        C = -0.5*self.D * self.B_logdet
+        D = -0.5*self.beta*self.trYYT
+        E = +0.5*np.sum(self.psi1VVpsi1 * self.LBL_inv)
+        return B
+
+    def dL_dbeta(self):
+        dA_dbeta =   0.5 * self.N*self.D/self.beta
+        dB_dbeta = - 0.5 * self.D * self.trace_K
+        dC_dbeta = - 0.5 * self.D * np.sum(self.Bi*self.A)/self.beta
+        dD_dbeta = - 0.5 * self.trYYT
+        tmp = mdot(self.LBi.T, self.LLambdai, self.psi1V)
+        dE_dbeta = (np.sum(np.square(self.C)) - 0.5 * np.sum(self.A * np.dot(tmp, tmp.T)))/self.beta
+        return np.squeeze(dB_dbeta)
+
+
+class sgp_debugC(sparse_GP_regression):
+    def _computations(self):
+        self.V = self.beta*self.Y
+        self.psi1V = np.dot(self.psi1, self.V)
+        self.psi1VVpsi1 = np.dot(self.psi1V, self.psi1V.T)
+        self.Kmmi, self.Lm, self.Lmi, self.Kmm_logdet = pdinv(self.Kmm)
+        self.A = mdot(self.Lmi, self.beta*self.psi2, self.Lmi.T)
+        self.B = np.eye(self.M) + self.A
+        self.Bi, self.LB, self.LBi, self.B_logdet = pdinv(self.B)
+        self.LLambdai = np.dot(self.LBi, self.Lmi)
+        self.trace_K = self.psi0 - np.trace(self.A)/self.beta
+        self.LBL_inv = mdot(self.Lmi.T, self.Bi, self.Lmi)
+        self.C = mdot(self.LLambdai, self.psi1V)
+        self.G =  mdot(self.LBL_inv, self.psi1VVpsi1, self.LBL_inv.T)
+
+        # Compute dL_dpsi
+        self.dL_dpsi0 = np.zeros(self.N)
+        self.dL_dpsi1 = np.zeros_like(self.psi1)
+        self.dL_dpsi2 = - 0.5 * self.beta * (self.D*(self.LBL_inv))
+
+        # Compute dL_dKmm
+        self.dL_dKmm = -0.5 * self.D * (- self.LBL_inv - 2.*self.beta*mdot(self.LBL_inv, self.psi2, self.Kmmi) + self.Kmmi) # dC
+
+    def log_likelihood(self):
+        A = -0.5*self.N*self.D*(np.log(2.*np.pi) - np.log(self.beta))
+        B = -0.5*self.beta*self.D*self.trace_K
+        C = -0.5*self.D * self.B_logdet
+        D = -0.5*self.beta*self.trYYT
+        E = +0.5*np.sum(self.psi1VVpsi1 * self.LBL_inv)
+        return C
+
+    def dL_dbeta(self):
+        dA_dbeta =   0.5 * self.N*self.D/self.beta
+        dB_dbeta = - 0.5 * self.D * self.trace_K
+        dC_dbeta = - 0.5 * self.D * np.sum(self.Bi*self.A)/self.beta
+        dD_dbeta = - 0.5 * self.trYYT
+        tmp = mdot(self.LBi.T, self.LLambdai, self.psi1V)
+        dE_dbeta = (np.sum(np.square(self.C)) - 0.5 * np.sum(self.A * np.dot(tmp, tmp.T)))/self.beta
+        return np.squeeze(dC_dbeta)
+
+
+class sgp_debugE(sparse_GP_regression):
+    def _computations(self):
+        self.V = self.beta*self.Y
+        self.psi1V = np.dot(self.psi1, self.V)
+        self.psi1VVpsi1 = np.dot(self.psi1V, self.psi1V.T)
+        self.Kmmi, self.Lm, self.Lmi, self.Kmm_logdet = pdinv(self.Kmm)
+        self.A = mdot(self.Lmi, self.beta*self.psi2, self.Lmi.T)
+        self.B = np.eye(self.M) + self.A
+        self.Bi, self.LB, self.LBi, self.B_logdet = pdinv(self.B)
+        self.LLambdai = np.dot(self.LBi, self.Lmi)
+        self.trace_K = self.psi0 - np.trace(self.A)/self.beta
+        self.LBL_inv = mdot(self.Lmi.T, self.Bi, self.Lmi)
+        self.C = mdot(self.LLambdai, self.psi1V)
+        self.G =  mdot(self.LBL_inv, self.psi1VVpsi1, self.LBL_inv.T)
+
+        # Compute dL_dpsi
+        self.dL_dpsi0 = np.zeros(self.N)
+        self.dL_dpsi1 = np.zeros_like(self.psi1)
+        self.dL_dpsi2 = - 0.5 * self.beta * (self.G)
+
+        # Compute dL_dKmm
+        self.dL_dKmm =  np.dot(np.dot(self.G,self.beta*self.psi2) - np.dot(self.LBL_inv, self.psi1VVpsi1), self.Kmmi) + 0.5*self.G # dE
+
+    def log_likelihood(self):
+        A = -0.5*self.N*self.D*(np.log(2.*np.pi) - np.log(self.beta))
+        B = -0.5*self.beta*self.D*self.trace_K
+        C = -0.5*self.D * self.B_logdet
+        D = -0.5*self.beta*self.trYYT
+        E = +0.5*np.sum(self.psi1VVpsi1 * self.LBL_inv)
+        return E
+
+    def dL_dbeta(self):
+        dA_dbeta =   0.5 * self.N*self.D/self.beta
+        dB_dbeta = - 0.5 * self.D * self.trace_K
+        dC_dbeta = - 0.5 * self.D * np.sum(self.Bi*self.A)/self.beta
+        dD_dbeta = - 0.5 * self.trYYT
+        tmp = mdot(self.LBi.T, self.LLambdai, self.psi1V)
+        dE_dbeta = (np.sum(np.square(self.C)) - 0.5 * np.sum(self.A * np.dot(tmp, tmp.T)))/self.beta
+        return np.squeeze(dE_dbeta)
+
+
diff --git a/grid_parameters.py b/grid_parameters.py
index 8c4c1e0a..421eef10 100644
--- a/grid_parameters.py
+++ b/grid_parameters.py
@@ -16,11 +16,14 @@ Y = np.sin(X) + np.random.randn(*X.shape)/np.sqrt(50.)
 k = GPy.kern.rbf(1)
 
 
-m = GPy.models.sparse_GP_regression(X,Y,Z=Z,kernel=k)
-m.constrain_fixed('iip')
+models = [GPy.models.sparse_GP_regression(X,Y,Z=Z,kernel=k),
+    GPy.models.sgp_debugB(X,Y,Z=Z,kernel=k),
+    GPy.models.sgp_debugC(X,Y,Z=Z,kernel=k),
+    GPy.models.sgp_debugE(X,Y,Z=Z,kernel=k)]
+#[m.constrain_fixed('iip') for m in models]
 #m.constrain_fixed('white',1e-6)
-m.constrain_fixed('precision',50)
-m.ensure_default_constraints()
+#[m.constrain_fixed('precision',50) for m in models]
+#[m.ensure_default_constraints() for m in models]
 
 
 xx,yy = np.mgrid[1.5:4:0+resolution*1j,-2:2:0+resolution*1j]
@@ -28,24 +31,16 @@ xx,yy = np.mgrid[1.5:4:0+resolution*1j,-2:2:0+resolution*1j]
 lls = []
 cgs = []
 for l,v in zip(xx.flatten(),yy.flatten()):
-    m.set('lengthscale',l)
-    m.set('rbf_variance',10.**v)
-    lls.append(m.log_likelihood())
-    cgs.append(m.checkgrad())
-    #m.plot()
+    [m.set('lengthscale',l) for m in models]
+    [m.set('rbf_variance',10.**v) for m in models]
+    lls.append(models[0].log_likelihood())
+    cgs.append([m.checkgrad(verbose=0) for m in models])
 
 lls = np.array(lls).reshape(resolution,resolution)
-cgs = np.array(cgs,dtype=np.float64).reshape(resolution,resolution)
+cgs = np.array(zip(*cgs),dtype=np.float64).reshape(-1,resolution,resolution)
 
-pb.contourf(xx,yy,lls,np.linspace(-500,560,100),linewidths=2,cmap=pb.cm.jet)
-pb.colorbar()
-pb.scatter(xx.flatten(),yy.flatten(),10,cgs.flatten(),linewidth=0,cmap=pb.cm.gray)
-pb.figure()
-#pb.imshow(lls,origin='upper',cmap=pb.cm.jet,extent=[xx[0,0],xx[-1,0],yy[0].min(),yy[0].max()],vmin=-500)
-pb.scatter(xx.flatten(),yy.flatten(),10,lls.flatten(),linewidth=0,cmap=pb.cm.jet)
-pb.colorbar()
-pb.figure()
-#pb.imshow(cgs,origin='upper',cmap=pb.cm.jet,extent=[xx[0,0],xx[-1,0],yy[0].min(),yy[0].max()])
-pb.scatter(xx.flatten(),yy.flatten(),10,cgs.flatten(),linewidth=0,cmap=pb.cm.jet)
-pb.colorbar()
+for cg in cgs:
+    pb.figure()
+    pb.contourf(xx,yy,lls,cmap=pb.cm.jet)
+    pb.scatter(xx.flatten(),yy.flatten(),12,cg.flatten(),cmap=pb.cm.gray)