Fixing bug that assumed # codepoints was equal to # UTF-8 bytes.

uwescience · Aug 12, 2015 · 2d53469 · 2d53469 · jingjingwang · Aug 14, 2015
1 parent 5b3c414
commit 2d53469
Showing 1 changed file with 3 additions and 1 deletion.
diff --git a/src/edu/washington/escience/myria/column/Column.java b/src/edu/washington/escience/myria/column/Column.java
@@ -2,6 +2,7 @@
 
 import java.io.Serializable;
 import java.nio.ByteBuffer;
+import java.nio.charset.StandardCharsets;
 import java.util.BitSet;
 
 import org.joda.time.DateTime;
@@ -288,7 +289,8 @@ protected static ColumnMessage defaultStringProto(final Column<?> column) {
     StringBuilder sb = new StringBuilder();
     int startP = 0, endP = 0;
     for (int i = 0; i < column.size(); i++) {
-      endP = startP + column.getString(i).length();
+      int len = column.getString(i).getBytes(StandardCharsets.UTF_8).length;
+      endP = startP + len;
       inner.addStartIndices(startP);
       inner.addEndIndices(endP);
       sb.append(column.getString(i));