From 68839b95e7751afd04155cd2565cc53362f01fa2 Mon Sep 17 00:00:00 2001
From: Marc Glisse <marc.glisse@inria.fr>
Date: Sat, 28 Mar 2020 10:41:50 +0100
Subject: Missing test

---
 src/python/test/test_knn.py | 82 +++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 82 insertions(+)
 create mode 100755 src/python/test/test_knn.py

(limited to 'src/python/test/test_knn.py')

diff --git a/src/python/test/test_knn.py b/src/python/test/test_knn.py
new file mode 100755
index 00000000..e455fb48
--- /dev/null
+++ b/src/python/test/test_knn.py
@@ -0,0 +1,82 @@
+""" This file is part of the Gudhi Library - https://gudhi.inria.fr/ - which is released under MIT.
+    See file LICENSE or go to https://gudhi.inria.fr/licensing/ for full license details.
+    Author(s):       Marc Glisse
+
+    Copyright (C) 2020 Inria
+
+    Modification(s):
+      - YYYY/MM Author: Description of the modification
+"""
+
+from gudhi.point_cloud.knn import KNN
+import numpy as np
+import pytest
+
+
+def test_knn_explicit():
+    base = np.array([[1.0, 1], [1, 2], [4, 2], [4, 3]])
+    query = np.array([[1.0, 1], [2, 2], [4, 4]])
+    knn = KNN(2, metric="manhattan", return_distance=True, return_index=True)
+    knn.fit(base)
+    r = knn.transform(query)
+    assert r[0] == pytest.approx(np.array([[0, 1], [1, 0], [3, 2]]))
+    assert r[1] == pytest.approx(np.array([[0.0, 1], [1, 2], [1, 2]]))
+
+    knn = KNN(2, metric="chebyshev", return_distance=True, return_index=False)
+    knn.fit(base)
+    r = knn.transform(query)
+    assert r == pytest.approx(np.array([[0.0, 1], [1, 1], [1, 2]]))
+    r = (
+        KNN(2, metric="chebyshev", return_distance=True, return_index=False, implementation="keops")
+        .fit(base)
+        .transform(query)
+    )
+    assert r == pytest.approx(np.array([[0.0, 1], [1, 1], [1, 2]]))
+
+    knn = KNN(2, metric="minkowski", p=3, return_distance=False, return_index=True)
+    knn.fit(base)
+    r = knn.transform(query)
+    assert np.array_equal(r, [[0, 1], [1, 0], [3, 2]])
+    r = (
+        KNN(2, metric="minkowski", p=3, return_distance=False, return_index=True, implementation="keops")
+        .fit(base)
+        .transform(query)
+    )
+    assert np.array_equal(r, [[0, 1], [1, 0], [3, 2]])
+
+    dist = np.array([[0.0, 3, 8], [1, 0, 5], [1, 2, 0]])
+    knn = KNN(2, metric="precomputed", return_index=True, return_distance=False)
+    r = knn.fit_transform(dist)
+    assert np.array_equal(r, [[0, 1], [1, 0], [2, 0]])
+    knn = KNN(2, metric="precomputed", return_index=True, return_distance=True)
+    r = knn.fit_transform(dist)
+    assert np.array_equal(r[0], [[0, 1], [1, 0], [2, 0]])
+    assert np.array_equal(r[1], [[0, 3], [0, 1], [0, 1]])
+
+
+def test_knn_compare():
+    base = np.array([[1.0, 1], [1, 2], [4, 2], [4, 3]])
+    query = np.array([[1.0, 1], [2, 2], [4, 4]])
+    r0 = KNN(2, implementation="ckdtree", return_index=True, return_distance=False).fit(base).transform(query)
+    r1 = KNN(2, implementation="sklearn", return_index=True, return_distance=False).fit(base).transform(query)
+    r2 = KNN(2, implementation="hnsw", return_index=True, return_distance=False).fit(base).transform(query)
+    r3 = KNN(2, implementation="keops", return_index=True, return_distance=False).fit(base).transform(query)
+    assert np.array_equal(r0, r1) and np.array_equal(r0, r2) and np.array_equal(r0, r3)
+
+    r0 = KNN(2, implementation="ckdtree", return_index=True, return_distance=True).fit(base).transform(query)
+    r1 = KNN(2, implementation="sklearn", return_index=True, return_distance=True).fit(base).transform(query)
+    r2 = KNN(2, implementation="hnsw", return_index=True, return_distance=True).fit(base).transform(query)
+    r3 = KNN(2, implementation="keops", return_index=True, return_distance=True).fit(base).transform(query)
+    assert np.array_equal(r0[0], r1[0]) and np.array_equal(r0[0], r2[0]) and np.array_equal(r0[0], r3[0])
+    d0 = pytest.approx(r0[1])
+    assert r1[1] == d0 and r2[1] == d0 and r3[1] == d0
+
+
+def test_knn_nop():
+    # This doesn't look super useful...
+    p = np.array([[0.0]])
+    assert None is KNN(k=1, return_index=False, return_distance=False, implementation="sklearn").fit_transform(p)
+    assert None is KNN(k=1, return_index=False, return_distance=False, implementation="ckdtree").fit_transform(p)
+    assert None is KNN(k=1, return_index=False, return_distance=False, implementation="hnsw", ef=5).fit_transform(p)
+    assert None is KNN(k=1, return_index=False, return_distance=False, implementation="keops").fit_transform(p)
+    assert None is KNN(k=1, return_index=False, return_distance=False, metric="precomputed").fit_transform(p)
-- 
cgit v1.2.3


From f9a933862050ca95b3a96d7a8572d62f7f2205a9 Mon Sep 17 00:00:00 2001
From: Marc Glisse <marc.glisse@inria.fr>
Date: Sat, 11 Apr 2020 18:18:14 +0200
Subject: Use longer names

---
 src/python/gudhi/point_cloud/dtm.py | 10 +++--
 src/python/gudhi/point_cloud/knn.py |  2 +-
 src/python/test/test_dtm.py         | 18 ++++-----
 src/python/test/test_knn.py         | 76 +++++++++++++++++++++++++++----------
 4 files changed, 71 insertions(+), 35 deletions(-)

(limited to 'src/python/test/test_knn.py')

diff --git a/src/python/gudhi/point_cloud/dtm.py b/src/python/gudhi/point_cloud/dtm.py
index 23c36b88..38368f29 100644
--- a/src/python/gudhi/point_cloud/dtm.py
+++ b/src/python/gudhi/point_cloud/dtm.py
@@ -7,10 +7,10 @@
 # Modification(s):
 #   - YYYY/MM Author: Description of the modification
 
-from .knn import KNN
+from .knn import KNearestNeighbors
 
 
-class DTM:
+class DistanceToMeasure:
     """
     Class to compute the distance to the empirical measure defined by a point set, as introduced in :cite:`dtm`.
     """
@@ -20,7 +20,7 @@ class DTM:
         Args:
             k (int): number of neighbors (possibly including the point itself).
             q (float): order used to compute the distance to measure. Defaults to 2.
-            kwargs: same parameters as :class:`~gudhi.point_cloud.knn.KNN`, except that metric="neighbors" means that :func:`transform` expects an array with the distances to the k nearest neighbors.
+            kwargs: same parameters as :class:`~gudhi.point_cloud.knn.KNearestNeighbors`, except that metric="neighbors" means that :func:`transform` expects an array with the distances to the k nearest neighbors.
         """
         self.k = k
         self.q = q
@@ -35,7 +35,9 @@ class DTM:
             X (numpy.array): coordinates for mass points.
         """
         if self.params.setdefault("metric", "euclidean") != "neighbors":
-            self.knn = KNN(self.k, return_index=False, return_distance=True, sort_results=False, **self.params)
+            self.knn = KNearestNeighbors(
+                self.k, return_index=False, return_distance=True, sort_results=False, **self.params
+            )
             self.knn.fit(X)
         return self
 
diff --git a/src/python/gudhi/point_cloud/knn.py b/src/python/gudhi/point_cloud/knn.py
index 8369f1f8..6642a3c2 100644
--- a/src/python/gudhi/point_cloud/knn.py
+++ b/src/python/gudhi/point_cloud/knn.py
@@ -10,7 +10,7 @@
 import numpy
 
 
-class KNN:
+class KNearestNeighbors:
     """
     Class wrapping several implementations for computing the k nearest neighbors in a point set.
     """
diff --git a/src/python/test/test_dtm.py b/src/python/test/test_dtm.py
index 93b13e1a..37934fdb 100755
--- a/src/python/test/test_dtm.py
+++ b/src/python/test/test_dtm.py
@@ -8,7 +8,7 @@
       - YYYY/MM Author: Description of the modification
 """
 
-from gudhi.point_cloud.dtm import DTM
+from gudhi.point_cloud.dtm import DistanceToMeasure
 import numpy
 import pytest
 
@@ -16,35 +16,35 @@ import pytest
 def test_dtm_compare_euclidean():
     pts = numpy.random.rand(1000, 4)
     k = 3
-    dtm = DTM(k, implementation="ckdtree")
+    dtm = DistanceToMeasure(k, implementation="ckdtree")
     r0 = dtm.fit_transform(pts)
-    dtm = DTM(k, implementation="sklearn")
+    dtm = DistanceToMeasure(k, implementation="sklearn")
     r1 = dtm.fit_transform(pts)
     assert r1 == pytest.approx(r0)
-    dtm = DTM(k, implementation="sklearn", algorithm="brute")
+    dtm = DistanceToMeasure(k, implementation="sklearn", algorithm="brute")
     r2 = dtm.fit_transform(pts)
     assert r2 == pytest.approx(r0)
-    dtm = DTM(k, implementation="hnsw")
+    dtm = DistanceToMeasure(k, implementation="hnsw")
     r3 = dtm.fit_transform(pts)
     assert r3 == pytest.approx(r0)
     from scipy.spatial.distance import cdist
 
     d = cdist(pts, pts)
-    dtm = DTM(k, metric="precomputed")
+    dtm = DistanceToMeasure(k, metric="precomputed")
     r4 = dtm.fit_transform(d)
     assert r4 == pytest.approx(r0)
-    dtm = DTM(k, implementation="keops")
+    dtm = DistanceToMeasure(k, implementation="keops")
     r5 = dtm.fit_transform(pts)
     assert r5 == pytest.approx(r0)
 
 
 def test_dtm_precomputed():
     dist = numpy.array([[1.0, 3, 8], [1, 5, 5], [0, 2, 3]])
-    dtm = DTM(2, q=1, metric="neighbors")
+    dtm = DistanceToMeasure(2, q=1, metric="neighbors")
     r = dtm.fit_transform(dist)
     assert r == pytest.approx([2.0, 3, 1])
 
     dist = numpy.array([[2.0, 2], [0, 1], [3, 4]])
-    dtm = DTM(2, q=2, metric="neighbors")
+    dtm = DistanceToMeasure(2, q=2, metric="neighbors")
     r = dtm.fit_transform(dist)
     assert r == pytest.approx([2.0, 0.707, 3.5355], rel=0.01)
diff --git a/src/python/test/test_knn.py b/src/python/test/test_knn.py
index e455fb48..6aac2006 100755
--- a/src/python/test/test_knn.py
+++ b/src/python/test/test_knn.py
@@ -8,7 +8,7 @@
       - YYYY/MM Author: Description of the modification
 """
 
-from gudhi.point_cloud.knn import KNN
+from gudhi.point_cloud.knn import KNearestNeighbors
 import numpy as np
 import pytest
 
@@ -16,39 +16,39 @@ import pytest
 def test_knn_explicit():
     base = np.array([[1.0, 1], [1, 2], [4, 2], [4, 3]])
     query = np.array([[1.0, 1], [2, 2], [4, 4]])
-    knn = KNN(2, metric="manhattan", return_distance=True, return_index=True)
+    knn = KNearestNeighbors(2, metric="manhattan", return_distance=True, return_index=True)
     knn.fit(base)
     r = knn.transform(query)
     assert r[0] == pytest.approx(np.array([[0, 1], [1, 0], [3, 2]]))
     assert r[1] == pytest.approx(np.array([[0.0, 1], [1, 2], [1, 2]]))
 
-    knn = KNN(2, metric="chebyshev", return_distance=True, return_index=False)
+    knn = KNearestNeighbors(2, metric="chebyshev", return_distance=True, return_index=False)
     knn.fit(base)
     r = knn.transform(query)
     assert r == pytest.approx(np.array([[0.0, 1], [1, 1], [1, 2]]))
     r = (
-        KNN(2, metric="chebyshev", return_distance=True, return_index=False, implementation="keops")
+        KNearestNeighbors(2, metric="chebyshev", return_distance=True, return_index=False, implementation="keops")
         .fit(base)
         .transform(query)
     )
     assert r == pytest.approx(np.array([[0.0, 1], [1, 1], [1, 2]]))
 
-    knn = KNN(2, metric="minkowski", p=3, return_distance=False, return_index=True)
+    knn = KNearestNeighbors(2, metric="minkowski", p=3, return_distance=False, return_index=True)
     knn.fit(base)
     r = knn.transform(query)
     assert np.array_equal(r, [[0, 1], [1, 0], [3, 2]])
     r = (
-        KNN(2, metric="minkowski", p=3, return_distance=False, return_index=True, implementation="keops")
+        KNearestNeighbors(2, metric="minkowski", p=3, return_distance=False, return_index=True, implementation="keops")
         .fit(base)
         .transform(query)
     )
     assert np.array_equal(r, [[0, 1], [1, 0], [3, 2]])
 
     dist = np.array([[0.0, 3, 8], [1, 0, 5], [1, 2, 0]])
-    knn = KNN(2, metric="precomputed", return_index=True, return_distance=False)
+    knn = KNearestNeighbors(2, metric="precomputed", return_index=True, return_distance=False)
     r = knn.fit_transform(dist)
     assert np.array_equal(r, [[0, 1], [1, 0], [2, 0]])
-    knn = KNN(2, metric="precomputed", return_index=True, return_distance=True)
+    knn = KNearestNeighbors(2, metric="precomputed", return_index=True, return_distance=True)
     r = knn.fit_transform(dist)
     assert np.array_equal(r[0], [[0, 1], [1, 0], [2, 0]])
     assert np.array_equal(r[1], [[0, 3], [0, 1], [0, 1]])
@@ -57,16 +57,40 @@ def test_knn_explicit():
 def test_knn_compare():
     base = np.array([[1.0, 1], [1, 2], [4, 2], [4, 3]])
     query = np.array([[1.0, 1], [2, 2], [4, 4]])
-    r0 = KNN(2, implementation="ckdtree", return_index=True, return_distance=False).fit(base).transform(query)
-    r1 = KNN(2, implementation="sklearn", return_index=True, return_distance=False).fit(base).transform(query)
-    r2 = KNN(2, implementation="hnsw", return_index=True, return_distance=False).fit(base).transform(query)
-    r3 = KNN(2, implementation="keops", return_index=True, return_distance=False).fit(base).transform(query)
+    r0 = (
+        KNearestNeighbors(2, implementation="ckdtree", return_index=True, return_distance=False)
+        .fit(base)
+        .transform(query)
+    )
+    r1 = (
+        KNearestNeighbors(2, implementation="sklearn", return_index=True, return_distance=False)
+        .fit(base)
+        .transform(query)
+    )
+    r2 = (
+        KNearestNeighbors(2, implementation="hnsw", return_index=True, return_distance=False).fit(base).transform(query)
+    )
+    r3 = (
+        KNearestNeighbors(2, implementation="keops", return_index=True, return_distance=False)
+        .fit(base)
+        .transform(query)
+    )
     assert np.array_equal(r0, r1) and np.array_equal(r0, r2) and np.array_equal(r0, r3)
 
-    r0 = KNN(2, implementation="ckdtree", return_index=True, return_distance=True).fit(base).transform(query)
-    r1 = KNN(2, implementation="sklearn", return_index=True, return_distance=True).fit(base).transform(query)
-    r2 = KNN(2, implementation="hnsw", return_index=True, return_distance=True).fit(base).transform(query)
-    r3 = KNN(2, implementation="keops", return_index=True, return_distance=True).fit(base).transform(query)
+    r0 = (
+        KNearestNeighbors(2, implementation="ckdtree", return_index=True, return_distance=True)
+        .fit(base)
+        .transform(query)
+    )
+    r1 = (
+        KNearestNeighbors(2, implementation="sklearn", return_index=True, return_distance=True)
+        .fit(base)
+        .transform(query)
+    )
+    r2 = KNearestNeighbors(2, implementation="hnsw", return_index=True, return_distance=True).fit(base).transform(query)
+    r3 = (
+        KNearestNeighbors(2, implementation="keops", return_index=True, return_distance=True).fit(base).transform(query)
+    )
     assert np.array_equal(r0[0], r1[0]) and np.array_equal(r0[0], r2[0]) and np.array_equal(r0[0], r3[0])
     d0 = pytest.approx(r0[1])
     assert r1[1] == d0 and r2[1] == d0 and r3[1] == d0
@@ -75,8 +99,18 @@ def test_knn_compare():
 def test_knn_nop():
     # This doesn't look super useful...
     p = np.array([[0.0]])
-    assert None is KNN(k=1, return_index=False, return_distance=False, implementation="sklearn").fit_transform(p)
-    assert None is KNN(k=1, return_index=False, return_distance=False, implementation="ckdtree").fit_transform(p)
-    assert None is KNN(k=1, return_index=False, return_distance=False, implementation="hnsw", ef=5).fit_transform(p)
-    assert None is KNN(k=1, return_index=False, return_distance=False, implementation="keops").fit_transform(p)
-    assert None is KNN(k=1, return_index=False, return_distance=False, metric="precomputed").fit_transform(p)
+    assert None is KNearestNeighbors(
+        k=1, return_index=False, return_distance=False, implementation="sklearn"
+    ).fit_transform(p)
+    assert None is KNearestNeighbors(
+        k=1, return_index=False, return_distance=False, implementation="ckdtree"
+    ).fit_transform(p)
+    assert None is KNearestNeighbors(
+        k=1, return_index=False, return_distance=False, implementation="hnsw", ef=5
+    ).fit_transform(p)
+    assert None is KNearestNeighbors(
+        k=1, return_index=False, return_distance=False, implementation="keops"
+    ).fit_transform(p)
+    assert None is KNearestNeighbors(
+        k=1, return_index=False, return_distance=False, metric="precomputed"
+    ).fit_transform(p)
-- 
cgit v1.2.3


From 83a1bc1fb6124a35d515f4836d2e830f3dbdf0e7 Mon Sep 17 00:00:00 2001
From: Marc Glisse <marc.glisse@inria.fr>
Date: Sun, 12 Apr 2020 21:57:51 +0200
Subject: Parallelize the "precomputed" case of knn

It is supposed to be possible to compile numpy with openmp, but it looks
like it isn't done in any of the usual packages.

It may be possible to refactor that code so there is less redundancy.
---
 src/python/gudhi/point_cloud/knn.py | 78 +++++++++++++++++++++++++++++--------
 src/python/test/test_dtm.py         |  3 ++
 src/python/test/test_knn.py         |  8 ++++
 3 files changed, 73 insertions(+), 16 deletions(-)

(limited to 'src/python/test/test_knn.py')

diff --git a/src/python/gudhi/point_cloud/knn.py b/src/python/gudhi/point_cloud/knn.py
index 6642a3c2..f6870517 100644
--- a/src/python/gudhi/point_cloud/knn.py
+++ b/src/python/gudhi/point_cloud/knn.py
@@ -115,25 +115,71 @@ class KNearestNeighbors:
 
         if metric == "precomputed":
             # scikit-learn could handle that, but they insist on calling fit() with an unused square array, which is too unnatural.
-            X = numpy.array(X)
             if self.return_index:
-                neighbors = numpy.argpartition(X, k - 1)[:, 0:k]
-                if self.params.get("sort_results", True):
-                    X = numpy.take_along_axis(X, neighbors, axis=-1)
-                    ngb_order = numpy.argsort(X, axis=-1)
-                    neighbors = numpy.take_along_axis(neighbors, ngb_order, axis=-1)
+                n_jobs = self.params.get("n_jobs", 1)
+                # Supposedly numpy can be compiled with OpenMP and handle this, but nobody does that?!
+                if n_jobs == 1:
+                    neighbors = numpy.argpartition(X, k - 1)[:, 0:k]
+                    if self.params.get("sort_results", True):
+                        X = numpy.take_along_axis(X, neighbors, axis=-1)
+                        ngb_order = numpy.argsort(X, axis=-1)
+                        neighbors = numpy.take_along_axis(neighbors, ngb_order, axis=-1)
+                    else:
+                        ngb_order = neighbors
+                    if self.return_distance:
+                        distances = numpy.take_along_axis(X, ngb_order, axis=-1)
+                        return neighbors, distances
+                    else:
+                        return neighbors
                 else:
-                    ngb_order = neighbors
-                if self.return_distance:
-                    distances = numpy.take_along_axis(X, ngb_order, axis=-1)
-                    return neighbors, distances
-                else:
-                    return neighbors
+                    from joblib import Parallel, delayed, effective_n_jobs
+                    from sklearn.utils import gen_even_slices
+
+                    slices = gen_even_slices(len(X), effective_n_jobs(-1))
+                    parallel = Parallel(backend="threading", n_jobs=-1)
+                    if self.params.get("sort_results", True):
+
+                        def func(M):
+                            neighbors = numpy.argpartition(M, k - 1)[:, 0:k]
+                            Y = numpy.take_along_axis(M, neighbors, axis=-1)
+                            ngb_order = numpy.argsort(Y, axis=-1)
+                            return numpy.take_along_axis(neighbors, ngb_order, axis=-1)
+
+                    else:
+
+                        def func(M):
+                            return numpy.argpartition(M, k - 1)[:, 0:k]
+
+                    neighbors = numpy.concatenate(parallel(delayed(func)(X[s]) for s in slices))
+                    if self.return_distance:
+                        distances = numpy.take_along_axis(X, neighbors, axis=-1)
+                        return neighbors, distances
+                    else:
+                        return neighbors
             if self.return_distance:
-                distances = numpy.partition(X, k - 1)[:, 0:k]
-                if self.params.get("sort_results"):
-                    # partition is not guaranteed to sort the lower half, although it often does
-                    distances.sort(axis=-1)
+                n_jobs = self.params.get("n_jobs", 1)
+                if n_jobs == 1:
+                    distances = numpy.partition(X, k - 1)[:, 0:k]
+                    if self.params.get("sort_results"):
+                        # partition is not guaranteed to sort the lower half, although it often does
+                        distances.sort(axis=-1)
+                else:
+                    from joblib import Parallel, delayed, effective_n_jobs
+                    from sklearn.utils import gen_even_slices
+
+                    if self.params.get("sort_results"):
+
+                        def func(M):
+                            # Not partitioning in place, because we should not modify the user's array?
+                            r = numpy.partition(M, k - 1)[:, 0:k]
+                            r.sort(axis=-1)
+                            return r
+
+                    else:
+                        func = lambda M: numpy.partition(M, k - 1)[:, 0:k]
+                    slices = gen_even_slices(len(X), effective_n_jobs(-1))
+                    parallel = Parallel(backend="threading", n_jobs=-1)
+                    distances = numpy.concatenate(parallel(delayed(func)(X[s]) for s in slices))
                 return distances
             return None
 
diff --git a/src/python/test/test_dtm.py b/src/python/test/test_dtm.py
index 37934fdb..bc0d3698 100755
--- a/src/python/test/test_dtm.py
+++ b/src/python/test/test_dtm.py
@@ -33,6 +33,9 @@ def test_dtm_compare_euclidean():
     dtm = DistanceToMeasure(k, metric="precomputed")
     r4 = dtm.fit_transform(d)
     assert r4 == pytest.approx(r0)
+    dtm = DistanceToMeasure(k, metric="precomputed", n_jobs=2)
+    r4b = dtm.fit_transform(d)
+    assert r4b == pytest.approx(r0)
     dtm = DistanceToMeasure(k, implementation="keops")
     r5 = dtm.fit_transform(pts)
     assert r5 == pytest.approx(r0)
diff --git a/src/python/test/test_knn.py b/src/python/test/test_knn.py
index 6aac2006..6269df54 100755
--- a/src/python/test/test_knn.py
+++ b/src/python/test/test_knn.py
@@ -52,6 +52,14 @@ def test_knn_explicit():
     r = knn.fit_transform(dist)
     assert np.array_equal(r[0], [[0, 1], [1, 0], [2, 0]])
     assert np.array_equal(r[1], [[0, 3], [0, 1], [0, 1]])
+    # Second time in parallel
+    knn = KNearestNeighbors(2, metric="precomputed", return_index=True, return_distance=False, n_jobs=2)
+    r = knn.fit_transform(dist)
+    assert np.array_equal(r, [[0, 1], [1, 0], [2, 0]])
+    knn = KNearestNeighbors(2, metric="precomputed", return_index=True, return_distance=True, n_jobs=2)
+    r = knn.fit_transform(dist)
+    assert np.array_equal(r[0], [[0, 1], [1, 0], [2, 0]])
+    assert np.array_equal(r[1], [[0, 3], [0, 1], [0, 1]])
 
 
 def test_knn_compare():
-- 
cgit v1.2.3


From 280eb9d2323837619db1ae013b929adb9b45013b Mon Sep 17 00:00:00 2001
From: Marc Glisse <marc.glisse@inria.fr>
Date: Mon, 13 Apr 2020 01:09:45 +0200
Subject: enable_autodiff with keops

This doesn't seem like the best way to handle it, we may want to handle
it like a wrapper that gets the indices from knn (whatever backend) and
then computes the distances.
---
 src/python/gudhi/point_cloud/knn.py | 33 +++++++++++++++++++++++++++++----
 src/python/test/test_dtm.py         |  8 ++++++++
 src/python/test/test_knn.py         |  6 ++++++
 3 files changed, 43 insertions(+), 4 deletions(-)

(limited to 'src/python/test/test_knn.py')

diff --git a/src/python/gudhi/point_cloud/knn.py b/src/python/gudhi/point_cloud/knn.py
index f6870517..79362c09 100644
--- a/src/python/gudhi/point_cloud/knn.py
+++ b/src/python/gudhi/point_cloud/knn.py
@@ -36,6 +36,9 @@ class KNearestNeighbors:
             sort_results (bool): if True, then distances and indices of each point are
                 sorted on return, so that the first column contains the closest points.
                 Otherwise, neighbors are returned in an arbitrary order. Defaults to True.
+            enable_autodiff (bool): if the input is a torch.tensor, jax.numpy.array or similar, this instructs
+                the function to compute distances in a way that works with automatic differentiation.
+                This is experimental and not supported for all implementations.
             kwargs: additional parameters are forwarded to the backends.
         """
         self.k = k
@@ -202,13 +205,18 @@ class KNearestNeighbors:
         if self.params["implementation"] == "keops":
             import torch
             from pykeops.torch import LazyTensor
+            import eagerpy as ep
 
             # 'float64' is slow except on super expensive GPUs. Allow it with some param?
-            XX = torch.tensor(X, dtype=torch.float32)
-            if X is self.ref_points:
+            queries = X
+            X = ep.astensor(X)
+            XX = torch.as_tensor(X.numpy(), dtype=torch.float32)
+            if queries is self.ref_points:
+                Y = X
                 YY = XX
             else:
-                YY = torch.tensor(self.ref_points, dtype=torch.float32)
+                Y = ep.astensor(self.ref_points)
+                YY = torch.as_tensor(Y.numpy(), dtype=torch.float32)
 
             p = self.params["p"]
             if p == numpy.inf:
@@ -219,6 +227,24 @@ class KNearestNeighbors:
             else:
                 mat = ((LazyTensor(XX[:, None, :]) - LazyTensor(YY[None, :, :])).abs() ** p).sum(-1)
 
+            # pykeops does not support autodiff for kmin yet :-(
+            if self.params.get("enable_autodiff", False) and self.return_distance:
+                # Compute the indices of the neighbors, and recompute the relevant distances autodiff-friendly.
+                # Another strategy would be to compute the whole distance matrix with torch.cdist
+                # and use neighbors as indices into it.
+                neighbors = ep.astensor(mat.argKmin(k, dim=1)).numpy()
+                neighbor_pts = Y[neighbors]
+                diff = neighbor_pts - X[:, None, :]
+                if p == numpy.inf:
+                    distances = diff.abs().max(-1)
+                elif p == 2:
+                    distances = (diff ** 2).sum(-1) ** 0.5
+                else:
+                    distances = (diff.abs() ** p).sum(-1) ** (1.0 / p)
+                if self.return_index:
+                    return neighbors.raw, distances.raw
+                else:
+                    return distances.raw
             if self.return_index:
                 if self.return_distance:
                     distances, neighbors = mat.Kmin_argKmin(k, dim=1)
@@ -234,7 +260,6 @@ class KNearestNeighbors:
                     distances = distances ** (1.0 / p)
                 return distances
             return None
-        # FIXME: convert everything back to numpy arrays or not?
 
         if self.params["implementation"] == "ckdtree":
             qargs = {key: val for key, val in self.params.items() if key in {"p", "eps", "n_jobs"}}
diff --git a/src/python/test/test_dtm.py b/src/python/test/test_dtm.py
index bc0d3698..8709dd07 100755
--- a/src/python/test/test_dtm.py
+++ b/src/python/test/test_dtm.py
@@ -11,6 +11,7 @@
 from gudhi.point_cloud.dtm import DistanceToMeasure
 import numpy
 import pytest
+import torch
 
 
 def test_dtm_compare_euclidean():
@@ -39,6 +40,13 @@ def test_dtm_compare_euclidean():
     dtm = DistanceToMeasure(k, implementation="keops")
     r5 = dtm.fit_transform(pts)
     assert r5 == pytest.approx(r0)
+    pts2 = torch.tensor(pts, requires_grad=True)
+    assert pts2.grad is None
+    dtm = DistanceToMeasure(k, implementation="keops", enable_autodiff=True)
+    r6 = dtm.fit_transform(pts2)
+    assert r6.detach().numpy() == pytest.approx(r0)
+    r6.sum().backward()
+    assert pts2.grad is not None
 
 
 def test_dtm_precomputed():
diff --git a/src/python/test/test_knn.py b/src/python/test/test_knn.py
index 6269df54..415c9d48 100755
--- a/src/python/test/test_knn.py
+++ b/src/python/test/test_knn.py
@@ -32,6 +32,12 @@ def test_knn_explicit():
         .transform(query)
     )
     assert r == pytest.approx(np.array([[0.0, 1], [1, 1], [1, 2]]))
+    r = (
+        KNearestNeighbors(2, metric="chebyshev", return_distance=True, return_index=False, implementation="keops", enable_autodiff=True)
+        .fit(base)
+        .transform(query)
+    )
+    assert r == pytest.approx(np.array([[0.0, 1], [1, 1], [1, 2]]))
 
     knn = KNearestNeighbors(2, metric="minkowski", p=3, return_distance=False, return_index=True)
     knn.fit(base)
-- 
cgit v1.2.3


From 9ef7ba65367ab2ff92bf66b1b8166c5990530b76 Mon Sep 17 00:00:00 2001
From: Marc Glisse <marc.glisse@inria.fr>
Date: Mon, 20 Apr 2020 12:16:15 +0200
Subject: Explicitly pass sort_results=True on some tests

---
 src/python/test/test_knn.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

(limited to 'src/python/test/test_knn.py')

diff --git a/src/python/test/test_knn.py b/src/python/test/test_knn.py
index 415c9d48..a87ec212 100755
--- a/src/python/test/test_knn.py
+++ b/src/python/test/test_knn.py
@@ -54,12 +54,12 @@ def test_knn_explicit():
     knn = KNearestNeighbors(2, metric="precomputed", return_index=True, return_distance=False)
     r = knn.fit_transform(dist)
     assert np.array_equal(r, [[0, 1], [1, 0], [2, 0]])
-    knn = KNearestNeighbors(2, metric="precomputed", return_index=True, return_distance=True)
+    knn = KNearestNeighbors(2, metric="precomputed", return_index=True, return_distance=True, sort_results=True)
     r = knn.fit_transform(dist)
     assert np.array_equal(r[0], [[0, 1], [1, 0], [2, 0]])
     assert np.array_equal(r[1], [[0, 3], [0, 1], [0, 1]])
     # Second time in parallel
-    knn = KNearestNeighbors(2, metric="precomputed", return_index=True, return_distance=False, n_jobs=2)
+    knn = KNearestNeighbors(2, metric="precomputed", return_index=True, return_distance=False, n_jobs=2, sort_results=True)
     r = knn.fit_transform(dist)
     assert np.array_equal(r, [[0, 1], [1, 0], [2, 0]])
     knn = KNearestNeighbors(2, metric="precomputed", return_index=True, return_distance=True, n_jobs=2)
-- 
cgit v1.2.3