From 7c2b7254601d1bd00c7945814d2aae764e26782c Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Thu, 6 Feb 2025 08:09:30 +0100
Subject: [PATCH 01/18] Tests for mixed encodings in a column chunk

---
 tests/testthat/_snaps/read-parquet-5.md |  16 ++++++++++++++++
 tests/testthat/data/mixed-int32.parquet | Bin 0 -> 9802 bytes
 tests/testthat/test-read-parquet-5.R    |  14 ++++++++++++++
 3 files changed, 30 insertions(+)
 create mode 100644 tests/testthat/data/mixed-int32.parquet
diff --git a/tests/testthat/_snaps/read-parquet-5.md b/tests/testthat/_snaps/read-parquet-5.md
index 2dd4726..84a3aae 100644
--- a/tests/testthat/_snaps/read-parquet-5.md
+++ b/tests/testthat/_snaps/read-parquet-5.md
@@ -52,3 +52,19 @@
       Error in `read_parquet()`:
       ! Columns cyl, disp selected multiple times in `read_parquet()`.
 
+# mixing RLE_DICTIONARY and PLAIN
+
+    Code
+      as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
+    Output
+         type repetition_type
+      1  <NA>        REQUIRED
+      2 INT32        OPTIONAL
+    Code
+      as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
+    Output
+              page_type num_values       encoding
+      1 DICTIONARY_PAGE       1024          PLAIN
+      2       DATA_PAGE       1024 RLE_DICTIONARY
+      3       DATA_PAGE        976          PLAIN
+
diff --git a/tests/testthat/data/mixed-int32.parquet b/tests/testthat/data/mixed-int32.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..5d9933685ff3c4a79f00473a7965f723471425c0
GIT binary patch
literal 9802
zcmYk?cU;YH|G@F0g%CO^LTI6dB7{mMgix}z2Q9ShP|03NcG5y+Wv_N23N3{8UT7iQ
zufE^=_xRn{<MF)q=Q`*7alOxHnHww~FAx#<>kESQ%>@2Z0-=FILjDS^zr}?}!svmX
z5P>Mf&^;)DUg(WJkVIefLw`tN09a3G5Tqf13<g6Mau|Z4kjF3##|S83Bt~I06rluV
zs6Z8CFc#yW26bpa6IvLL3780N=wK2iLl;vp71N-H>6n3;(1!sGF$+d8h6!fF6mu{a
z^I(SgSb&8v$097o5?H_zOJRj&SdJA~iB(vQHCPL4*uWNcu!jR2;RI*6U>(-O6>e~c
z2RyL>8?gyq@P-e3;fKxGg00ww?bv~x@W(Ff#vTM95JA|BVC=(w9Kb;w!eJc2Q5?f@
zoInUpA{3_(hSNBMvp9$IxPXfY$0bDIG9nR$Xv82ES8x^A5Qlgq;5u&LCT`(25^)E2
zaS!+L01xp9kMRUg@eD~wMha4qhIC{g6IpnU7kG(myuxebAQx}&7VnUUd=#J%MR<=7
z_=sYB!e@Lz2})6ha#WxaRj5V{YEg%JG@ubpXhsXZ;v2rB6>Vro2RiWsKk*A)_>DjK
zi|)-Yj2`F-5r{$z;*dZu^hO^@qA&WPKcp}K12G8F5I_clAqzPS!BEI!7=~j66fhE_
zFdB+bf-+Q~iZK|AaZrOgG@uDBjK>5_gf?_A36r6VDVU0B(8F}hz)a}F0EU<aBN)R3
zvtf!kn2UKZ!+b2jLYQL_7Gnu4V2P!$!ZIw!3arE`ti~Fwg*9wo3p?1u0giBjGhDC^
z>){GFxWfaU*no}L1TT2Q2fpybW^BP$Y{Pc!z)tvM7j|P00uYEG>_ss4VLuMwAP(U$
zj^HSc;W$np1Sb)SQwYOpoWWU~!+Bi5MTFxLB5)azh(a`C5Q{6giff2NJQ8pnH*gcT
za2tuZgS)tg`*?tdc!bAzf~R<fBqSpRsYpXQGLVTZJjV;XL^fXGHFA)PH+YM8$U{B~
zP>3SD#|L~wF+SllzMur9C__0aP>Cv3qXxC8Lp>VMh$b|n1z+(E-_eRTw4(!^_<^7J
zg)aQYAN&=r{n7eMT(}3@A3Y%gQHVht66l5A=mSagML+b16b4`*20<DE$Y3yJA%`It
z3V95}aEyQgMq(63LlH_)h6+?M24gV}YEXv;G@*s@n1G4Uh7KlSGITKoQ!x#Cn2s5k
z34IvA5VK$eW0+tzOfd&@F%M>#j|Er=b1cGQEP(|qu@qKVhUHj+l~{$<ScA2&h7D|C
z2YWcc5l(Q13)W#hT;T?Hc)$}Iuo0W!1#kGk7k=1`E!c`}*p40834iRuZtOt-0uhA0
z2*y6_#{nF~AsogL9K|sl#|ebsBtmftVK|L5IE!;Qj|;ena9lzJE+Z0Ah(-)zaRpa#
z4RMG^0<Pl*ZsHbhBN2CS7x!=<5AYC=@EA|<6wi=^WTYS!X-G!~GLePnc!8J5#w)x=
z4s!7ZZ}AR!$VUMRQH1ySfR8A~Cw#^il%N!4C`Sb<QH5&MpcZwgM*|wsgl4qhE56}7
zTG57fbf6PI@Dsn#h2Qvtzvw>a7e){Cga||-260HB7kZ-)B+(cB&>vD5fPokUX$T;L
z!H|U<hF~b<F$}{o0ty(3Q5X$HC_x!2P{kOG#W<)z9U9Pt7RF-&CPEuJn1spD#S~1%
zH0WVEW?&}tVE{wSf)R{ig4r;|9L&W$m|;E^U?I%02#c`<7O=!pSYa8KV+B@X6;@*n
z*1{S#u!SA$;Q&WC!5J=ChxKrU8{FXmPi(+OY=RfO;R9dzVKcU1E4E=fc3>y`u?xGg
z2LT8~5cVP%`>-Dea1e)Z7)Njv$8a1c5Q38k#VLg0G|u2G&fz>R;3C3t2@$xANJJqT
zF^I(#T*WoSAsz|1jvKg%Teyux+`(Pk!+ku!Lp;J`Ji${uLlTmaf>fj-9T~_(7M|k;
zULqT>@ESSD#T&fEJLDlB1t>%j-s1y4q8Oj>8DCI>Qk0<_6{tiNs!@Yl)S(^?Xhaj5
z(Son|hVN)a8`{x<PW-@6{6ZIg;}8BqAS4Kt7KBTyb>9?_5{L=J<Yh&=2V_OMFAijc
zRR5<%$AR9hy+s)o@|P0sy;Dd;AxTI?+B!*CLNPq4hop8%Qco!(g=7(F3+rT2S^My0
zF?p|&WO0Q6g%k<J5bKm)s*&L-z10#+Qu=76DWpnj=UJ!r)vX9m?WfmTlG<NiWMrC@
zk+e<P08_<FX#>r)OVb9K8;wktwy>~C7c8^ClrFQ%t2BMEb->6BS^E&13_0h>OBq94
z6H7COdZvxcl=sTB$sFcaaVc~7w${?j5&j~hvJ?WOZL>xOD@J6EI;dTiHTtO0sOO3y
z7Pilo!t5iSE1&Z!d#(~5FzSVBWQgsHF|m;mFUH0tmc1BvBW=`6wZuHzm+JQ`B3^1d
zZY_JMnItkgTPsc4E_-~I;^piK+1lmV6LXD5ztYaLuzRIbWPkb9q++k~SCdNuM!(jr
z2(f!Tr6%(7>!}Ti<*%o;q>aweYt6IEnci7(IcG*!YkAI0AyLI#eG!3uu7QM7WUis4
zPDSo4DPzSqM$(q{Z;WLfBHx(Edsn=ftq`dA)>QGN{o6UJQIT)ws@<u0J5MWJ@tv7=
zzWuxTx|Nad7U;EAyj!R*s+4DLByh-EWU3UEx7bXlGH;2wu~NQ;g{4Ej<uZq;{H3eB
zEAy?a1C<Jv*`IVMSneDZRj|VKPG!ML&vd22RbKfHg{%E4qYBq-YpX0=>o2NYWE~)I
zEV2n!iY~G}s8dyBchp$<y?uzK<9mlNhv@f?=e(=lJB0@-e{haG>G;7VHY)nVy0|-4
zAJ*SUSN`alnD6+}?S5tSNB75VRUbW)L{*AC(*#b%8?uyQiZ^EKR2Of`HCFlLm1pVn
z$-BrQ=95pccl9UVl0cQueibL3K5wpxiut^y;ZF7Etu5&)U$(X8JAK){v$Hbh%Z{$L
z>MuKm#8gZCMP!^yc1bA5mh6_CR8z7?%0#s^KzgZjX`rlQY-y0ZPfh7wg&@_kV8u}9
zvVE%2v1R+!?$(qY(8^FPKd4>cTz*KmDz^NvUVBaX5q+^S6-SL^Tq=&4DqpEMZZ@g5
z;)J=$n92}~r7o2xmpNXk3|-|@TY1VlXiQa@eW**-Y3JxGRcBo9)>fVM%otOB&a1$s
z`n+G&mFf%I+H0#X`iqUN2@jB2S92*?`D#tX!AW&Bmyeo^t&I#>x~?`V%<*b%^f{lp
z+L-X5v30SLq3i0d#71AOyBc@5uI}26jIs4`i3RKG<L_5ptxtH|URQrTNo-uhjWn6{
z4L7rtuQlAto>bp(JJ)1fV`ARY^^JFm9IrLrE%vEzyjK!5uIYY7==!DyHPP3a9yZ*q
zZ+g^{F|PS>Yr*>FC!JN-nxA&H*Ec^C5?5<U5*h5;k}RPT*ODSRxuGRhYPQ<fG-)f>
zuj#T*abGj!eH*@JD(qGJmZf;g_1kmRn7D5*)b2HWd#RPF_B~s>(DnN(-RijSuk|__
zzUSzRtGDJF4R&jNW2zG0`qpf6W9vKf+3Ib17FKR;`OBQ*+X`0sHntU7?^SOvvOne4
z{@ytzzWsyiy~g&Bo|)<$#a@MO9iRNF<2ycY>uBuw;xDezSrRbVy|Xk}C84wI;N+&x
z@}sjgepG~5x&NpPb4vJ8b<VfxM|JpKjh{7<r`&(m#>OQ4tc$zX^t1j(rpB*^#6tI9
zjrXe)el<PrX!_NhB(B-jk~Y|*>uZ+E^{#K(lbgG~=g!vr-I{0R@w=_a>H6>XV&CT9
z9VL4;|8!QI^7!+kCg%E|pAGk#|NIhd$<+MY)mrHB_jhOY^}m0*I-39fC4L^BE(n{h
zCJ66O{onYRBmPhPB!YIw&;M@`HZzB}n)L6EpW*$5g_t0W9_R@Xh(ZkFkU%f=MjuF`
zFZ!WBq%Z&jF$mHSKn8=+9m3@>1VbT@VHl1PP{2rx!e}T$3Cd7`D#l<e#z770(10ei
zFdh>y5!%qfBus`breG?jK@Zb012dry0~lf!j9?5C%!VoEU@qpt4D+!73t^5$Sd1mG
zfF+i~3d^t@E3gu)uo`Qy7S^zVE$m<q2ROnB&TzpxtcNSy;0_OXVgoi}6TILJANax#
zo3RC3u?^d?13Tf5UD%C12tXi$uouDDhy6H!gE)l4ID(@%hT}Ma5S&CPP9Y4ZaRz5`
z4(D+J7ZHw2h`?n;A_~!nK`gG|Dy|_8@kqdR+`vuT!fhnt4({R}?&AR-;t?L>37+B^
zl8}rPq#_OJ$Ur8t@EkAj64`i#*T_LG-rz0XArJW|Kp~3o9v|=##rTBJ_<|CYq73Dz
zKqabBjT+RV4)th2Bbv~R7JS7wd`BzV(2fpt;s<`>7rO8pfAAMVqU?Y4Ku?H36k-sE
z1bU%2`alwW(GUG0g#j3dL6C+3G8hb5$YBVELLS2~93!BBkr;*1P=pecp#oKm!B~ug
z8q}cyO=w{}CSW48p@T`73|&mYR7`^&reg+XLLUYH%W7$%qvQ_R6!%!3)`V*wVz
z9E-3ROJD&@EQJ-8VL4V{C01cI)?h8HVFO#(!5$89gcF?Mf^}FASGd6)9`M8lY{Vvb
z!5cpCg&#I!3$|h#wqpl&!XLY^8+#CdKm=hgg0T<#aR3K#2#0Y5M{x|taRMPYiBOzE
z7*691&f*--;{q-s9G4J*%ZNl2q7j2wT)|abLmc9ffa|z{o4AGBNW>l7#Xa1|13bhd
zJjN3|#WN%!87W9b8q$%0Ol09XUf?CN@d~ezgIv79Tf9Ra@=<_76yZHS;3JCh37_!=
zB`8H1%29zzRG}I*s6`#>(SSxYp&2dsif{OiR<xlV9q7al{KPMG;Wz%^FNDO{|LB39
z5P>MfAPx!iLT~heB>JKs`a=o>Fc5<v4FO~@7_yMV5DbMphG95HKmj8$3ZtP2B`8A$
zsu+W@7zZ_|Lj#)7!gx%;L})_?lQ0>&n1ZR820cv249tW+3}A>^FoH2mFdL?rgSnUo
zGt9>VEQC20VKJ7#0+v_`D=foutiVdF!fLF+T3Evdwy=Xe9N-8iIKu_&upX{(gF8In
zi4E9@P4I#@eBcW|Y{nLB#Wrlm4(x<Kc40U6AOL{~!d?VpANJz_4&o3F;|Px87>?rv
zLU0nHIE65r#u=Q&Ih@A@Ttql7Ap(~Xi6}%P2C=w;tGI?Z#3KRMaRWDT3%8MoJGhH`
zxQ_>Th(~ygCwPiyNJ27Fkcu><BLkVp!gIX9OJw5}ULyy&c!Rfihdkt?0EH;Rdwjr0
z6yp;<;|oeqiZYa=0+pyjHEK|cI@F^9jc7tMTJRO$@ExsaLpwUqi68ihU+BVb{J~!c
zahV{D9_R@Xh(ZkFkU%f=MjuF`FZ!WBq%Z&jF$mHSKn8;$3potIP{?B#hGPU2FcPCM
z8j4VYGE|_7F&K++P=h)&pb0IE#{^7-Hgqrvlc9?#n2Kr8!*tBROz6V^hL{B-7{dg!
zVTw7Ji+M1^d@R61m}3zZV+kx^iKVc@GAzdmti&p;#u}`JHEduDJJ`bkj&OoAT(A!7
z;R-jn!vmh!fQ{G$FL=WTzVO3lY{6D+!*=YzPWWRNc4H3$5Qre`MKJbZKMvp^4&gA4
z;3$saI8Go0ClQKM2*YWd!C9Qcd0fCngyRw-a2b(^LNsC!iz~Q_YluTU5^x<ia1*z1
z8;Q7sySRt@cz}m^gvWS-r+9`WBqIf>NJBa@kclij#|ykfHeTU1av%_qQ`6yJZj+s}
zgPV<@2M->VddLd<3CV<ykdv2_R~C{N^pMjL5|fgnSI~oQnV=KGG7%?)m2c@QOK_*N
zdl}j8Q}O@3Qtxic>G8T$_mfPr{}xiTnAg2R_y}c*?q#HzC@(8%uz2x8tEvBf4cRzh
z&F(bO$$+$|J0s0AFz_`nbTTk8FmN)M_0N!jp`n4n{O-Y71_pDwOWOZe(lYMuvh2>N
zQ95-WZ`!>MX;Js&f0Oa7e`Xr~)BjKPzx@=3+TC^5=W{sT_uuvZ8DH{GK3zyw!P92r
u25$#1bvsW_b(@VFJ$w~>95!xp@o-ldud6X$LrYFxp5N`p^I~(}BKr?qi98(u

literal 0
HcmV?d00001

diff --git a/tests/testthat/test-read-parquet-5.R b/tests/testthat/test-read-parquet-5.R
index 8cdc88c..5d9b8bc 100644
--- a/tests/testthat/test-read-parquet-5.R
+++ b/tests/testthat/test-read-parquet-5.R
@@ -118,3 +118,17 @@ test_that("class", {
   withr::local_options(nanoparquet.class = "foobar")
   expect_equal(class(read_parquet(tmp)), c("foobar", "data.frame"))
 })
+
+test_that("mixing RLE_DICTIONARY and PLAIN", {
+  # https://github.com/r-lib/nanoparquet/issues/110
+  # import pyarrow as pa
+  # import pyarrow.parquet as pq
+  # table = pa.table({'x': pa.array(range(2000), type=pa.int32())})
+  # pq.write_table(table, 'mixed-int32.parquet', dictionary_pagesize_limit = 400)
+  pf <- test_path("data/mixed-int32.parquet")
+  expect_snapshot({
+    as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
+    as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
+  })
+  expect_equal(read_parquet(pf)$x, 0:1999)
+})

From ddc9d8f700ebd4382c63d5ca28941b357085a48f Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Fri, 7 Feb 2025 10:31:50 +0100
Subject: [PATCH 02/18] Start of supporting dict + non-dict mix

---
 src/RParquetReader.cpp                        | 596 ++++++++++--------
 src/RParquetReader.h                          |  20 +
 tests/testthat/_snaps/read-parquet-5.md       |  52 +-
 tests/testthat/data/create-data.py            |  41 ++
 tests/testthat/data/mixed-miss.parquet        | Bin 0 -> 22803 bytes
 .../{mixed-int32.parquet => mixed.parquet}    | Bin 9802 -> 11631 bytes
 tests/testthat/data/mixed2.parquet            | Bin 0 -> 6938 bytes
 tests/testthat/test-read-parquet-5.R          |  28 +-
 8 files changed, 470 insertions(+), 267 deletions(-)
 create mode 100644 tests/testthat/data/create-data.py
 create mode 100644 tests/testthat/data/mixed-miss.parquet
 rename tests/testthat/data/{mixed-int32.parquet => mixed.parquet} (54%)
 create mode 100644 tests/testthat/data/mixed2.parquet

diff --git a/src/RParquetReader.cpp b/src/RParquetReader.cpp
index 2fd7e8a..27958d0 100644
--- a/src/RParquetReader.cpp
+++ b/src/RParquetReader.cpp
@@ -463,8 +463,20 @@ void RParquetReader::alloc_data_page(DataPage &data) {
     data.present = present[cl][rg].map.data() + data.from;
   }
 
-  if (data.cc.has_dictionary) {
-    data.data = (uint8_t*) (dicts[cl][rg].indices.data() + page_off);
+  bool has_dict = data.cc.has_dictionary;
+  bool is_index = has_dict &&
+    (data.encoding == parquet::Encoding::RLE_DICTIONARY ||
+     data.encoding == parquet::Encoding::PLAIN_DICTIONARY);
+
+  // A non-dict-index page in a column chunk that has a
+  // dictionary page. Should be rare, but arrow does write
+  // these: https://github.com/r-lib/nanoparquet/issues/110
+  if (has_dict && !is_index) {
+    notdicts.push_back({ cl, rg, page_off, data.num_values, data.num_present });
+  }
+
+  if (is_index) {
+      data.data = (uint8_t*) (dicts[cl][rg].indices.data() + page_off);
 
   } else if (!rt.byte_array) {
     int64_t off = metadata.row_group_offsets[rg];
@@ -499,6 +511,7 @@ struct postprocess {
   rmetadata &metadata;
   std::vector<std::vector<uint8_t>> &tmpdata;
   std::vector<std::vector<tmpdict>> &dicts;
+  std::vector<std::vector<std::vector<dict_step>>> &dict_steps;
   std::vector<std::vector<std::vector<tmpbytes>>> &byte_arrays;
   std::vector<std::vector<presentmap>> &present;
 };
@@ -506,125 +519,12 @@ struct postprocess {
 void convert_column_to_r_dicts(postprocess *pp, uint32_t cl) {
   if (pp->dicts[cl].size() == 0) return;
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    // In theory some row groups might be non dictionary encoded
-    if (pp->dicts[cl][rg].dict_len == 0) {
-      continue;
-    }
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    int64_t from = pp->metadata.row_group_offsets[rg];
-    SEXP x = VECTOR_ELT(pp->columns, cl);
-    switch (TYPEOF(x)) {
-    case INTSXP: {
-      int *beg = INTEGER(x) + from;
-      int *end = beg + num_values;
-      int *dict = (int*) pp->dicts[cl][rg].buffer.data();
-      uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data();
-      while (beg < end) {
-        *beg++ = dict[*idx++];
-      }
-      break;
-    }
-    case REALSXP: {
-      double *beg = REAL(x) + from;
-      double *end = beg + num_values;
-      double *dict = (double*) pp->dicts[cl][rg].buffer.data();
-      uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data();
-      while (beg < end) {
-        *beg++ = dict[*idx++];
-      }
-      break;
-    }
-    case LGLSXP: {                                                     // # nocov start
-      int *beg = LOGICAL(x) + from;
-      int *end = beg + num_values;
-      int *dict = (int*) pp->dicts[cl][rg].buffer.data();
-      uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data();
-      while (beg < end) {
-        *beg++ = dict[*idx++];
-      }
-      break;                                                           // # nocov end
-    }
-    }
-  }
-}
-
-void convert_column_to_r_dicts_na(postprocess *pp, uint32_t cl) {
-  bool hasdict0 = pp->dicts[cl].size() > 0;
-  for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    // in theory some row groups might be dict encoded, some not
-    bool hasdict = hasdict0 && pp->dicts[cl][rg].dict_len > 0;
-    uint32_t num_present = pp->present[cl][rg].num_present;
-    bool hasmiss = num_present != num_values;
-    if (!hasdict && !hasmiss) {
-      continue;
-    } else if (!hasdict && hasmiss) {
-      // missing values in place
-      int64_t from = pp->metadata.row_group_offsets[rg];
-      SEXP x = VECTOR_ELT(pp->columns, cl);
-      switch (TYPEOF(x)) {
-      case INTSXP: {
-        int *beg = INTEGER(x) + from;
-        int *endm1 = beg + num_values - 1;
-        int *pendm1 = beg + num_present - 1;
-        uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-        uint32_t num_miss = num_values - num_present;
-        while (num_miss > 0) {
-          if (*presm1 != 0) {
-            *endm1-- = *pendm1--;
-            presm1--;
-          } else {
-            *endm1-- = NA_INTEGER;
-            presm1--;
-            num_miss--;
-          }
-        }
-        break;
-      }
-      case REALSXP: {
-        double *beg = REAL(x) + from;
-        double *endm1 = beg + num_values - 1;
-        double *pendm1 = beg + num_present - 1;
-        uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-        uint32_t num_miss = num_values - num_present;
-        while (num_miss > 0) {
-          if (*presm1) {
-            *endm1-- = *pendm1--;
-            presm1--;
-          } else {
-            *endm1-- = NA_REAL;
-            presm1--;
-            num_miss--;
-          }
-        }
-        break;
-      }
-      case LGLSXP: {
-        int *beg = LOGICAL(x) + from;
-        int *endm1 = beg + num_values - 1;
-        int *pendm1 = beg + num_present - 1;
-        uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-        uint32_t num_miss = num_values - num_present;
-        while (num_miss > 0) {
-          if (*presm1) {
-            *endm1-- = *pendm1--;
-            presm1--;
-          } else {
-            *endm1-- = NA_LOGICAL;
-            presm1--;
-            num_miss--;
-          }
-        }
-        break;
-      }
-      default:
-        throw std::runtime_error("Unknown type when processing dictionaries"); // # nocov
-      }
-    } else if (hasdict && !hasmiss) {
-      // only dict
-      int64_t from = pp->metadata.row_group_offsets[rg];
+    if (pp->dicts[cl][rg].dict_len == 0) continue;
+    std::vector<dict_step> &dss = pp->dict_steps[cl][rg];
+    for (uint32_t dsi = 0; dsi < dss.size(); dsi++) {
+      if (!dss[dsi].dict) continue;
+      int64_t from = dss[dsi].start;
+      int64_t num_values = dss[dsi].num_values;
       SEXP x = VECTOR_ELT(pp->columns, cl);
       switch (TYPEOF(x)) {
       case INTSXP: {
@@ -647,8 +547,7 @@ void convert_column_to_r_dicts_na(postprocess *pp, uint32_t cl) {
         }
         break;
       }
-      case LGLSXP: {                                                   // # nocov start
-        // BOOLEAN dictionaries are not really possible...
+      case LGLSXP: {                                                     // # nocov start
         int *beg = LOGICAL(x) + from;
         int *end = beg + num_values;
         int *dict = (int*) pp->dicts[cl][rg].buffer.data();
@@ -656,73 +555,186 @@ void convert_column_to_r_dicts_na(postprocess *pp, uint32_t cl) {
         while (beg < end) {
           *beg++ = dict[*idx++];
         }
-        break;                                                         // # nocov end
+        break;                                                           // # nocov end
       }
-      default:
-        throw std::runtime_error("Unknown type when processing dictionaries"); // # nocov
       }
-    } else if (hasdict && hasmiss) {
-      // dict + missing values
-      int64_t from = pp->metadata.row_group_offsets[rg];
-      SEXP x = VECTOR_ELT(pp->columns, cl);
-      switch (TYPEOF(x)) {
-      case INTSXP: {
-        int *beg = INTEGER(x) + from;
-        int *endm1 = beg + num_values - 1;
-        int *dict = (int*) pp->dicts[cl][rg].buffer.data();
-        uint32_t *idxm1 =
-          (uint32_t*) pp->dicts[cl][rg].indices.data() + num_present - 1;
-        uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-        while (endm1 >= beg) {
-          if (*presm1) {
-            *endm1-- = dict[*idxm1--];
-            presm1--;
-          } else {
-            *endm1-- = NA_INTEGER;
-            presm1--;
+    }
+  }
+}
+
+void convert_column_to_r_dicts_na(postprocess *pp, uint32_t cl) {
+  for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
+    std::vector<dict_step> &dss = pp->dict_steps[cl][rg];
+    for (uint32_t dsi = 0; dsi < dss.size(); dsi++) {
+      int64_t from = dss[dsi].start;
+      uint32_t num_values = dss[dsi].num_values;
+      int64_t num_present = dss[dsi].num_present;
+      bool hasmiss = num_present != num_values;
+      bool hasdict = dss[dsi].dict;
+      if (!hasdict && !hasmiss) {
+        continue;
+      } else if (!hasdict && hasmiss) {
+        // missing values in place
+        SEXP x = VECTOR_ELT(pp->columns, cl);
+        switch (TYPEOF(x)) {
+        case INTSXP: {
+          int *beg = INTEGER(x) + from;
+          int *endm1 = beg + num_values - 1;
+          int *pendm1 = beg + num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          uint32_t num_miss = num_values - num_present;
+          while (num_miss > 0) {
+            if (*presm1 != 0) {
+              *endm1-- = *pendm1--;
+              presm1--;
+            } else {
+              *endm1-- = NA_INTEGER;
+              presm1--;
+              num_miss--;
+            }
           }
+          break;
         }
-        break;
-      }
-      case REALSXP: {
-        double *beg = REAL(x) + from;
-        double *endm1 = beg + num_values - 1;
-        double *dict = (double*) pp->dicts[cl][rg].buffer.data();
-        uint32_t *idxm1 =
-          (uint32_t*) pp->dicts[cl][rg].indices.data() + num_present - 1;
-        uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-        while (endm1 >= beg) {
-          if (*presm1) {
-            *endm1-- = dict[*idxm1--];
-            presm1--;
-          } else {
-            *endm1-- = NA_REAL;
-            presm1--;
+        case REALSXP: {
+          double *beg = REAL(x) + from;
+          double *endm1 = beg + num_values - 1;
+          double *pendm1 = beg + num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          uint32_t num_miss = num_values - num_present;
+          while (num_miss > 0) {
+            if (*presm1) {
+              *endm1-- = *pendm1--;
+              presm1--;
+            } else {
+              *endm1-- = NA_REAL;
+              presm1--;
+              num_miss--;
+            }
           }
+          break;
         }
-        break;
-      }
-      case LGLSXP: {
-        // BOOLEAN dictionaries are not really possible... // # nocov start
-        int *beg = LOGICAL(x) + from;
-        int *endm1 = beg + num_values - 1;
-        int *dict = (int*) pp->dicts[cl][rg].buffer.data();
-        uint32_t *idxm1 =
-          (uint32_t*) pp->dicts[cl][rg].indices.data() + num_present - 1;
-        uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-        while (endm1 >= beg) {
-          if (*presm1) {
-            *endm1-- = dict[*idxm1--];
-            presm1--;
-          } else {
-            *endm1-- = NA_LOGICAL;
-            presm1--;
+        case LGLSXP: {
+          int *beg = LOGICAL(x) + from;
+          int *endm1 = beg + num_values - 1;
+          int *pendm1 = beg + num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          uint32_t num_miss = num_values - num_present;
+          while (num_miss > 0) {
+            if (*presm1) {
+              *endm1-- = *pendm1--;
+              presm1--;
+            } else {
+              *endm1-- = NA_LOGICAL;
+              presm1--;
+              num_miss--;
+            }
           }
+          break;
+        }
+        default:
+          throw std::runtime_error("Unknown type when processing dictionaries"); // # nocov
+        }
+      } else if (hasdict && !hasmiss) {
+        // only dict
+        SEXP x = VECTOR_ELT(pp->columns, cl);
+        switch (TYPEOF(x)) {
+        case INTSXP: {
+          int *beg = INTEGER(x) + from;
+          int *end = beg + num_values;
+          int *dict = (int*) pp->dicts[cl][rg].buffer.data();
+          uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data();
+          while (beg < end) {
+            *beg++ = dict[*idx++];
+          }
+          break;
+        }
+        case REALSXP: {
+          double *beg = REAL(x) + from;
+          double *end = beg + num_values;
+          double *dict = (double*) pp->dicts[cl][rg].buffer.data();
+          uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data();
+          while (beg < end) {
+            *beg++ = dict[*idx++];
+          }
+          break;
+        }
+        case LGLSXP: {                                                   // # nocov start
+          // BOOLEAN dictionaries are not really possible...
+          int *beg = LOGICAL(x) + from;
+          int *end = beg + num_values;
+          int *dict = (int*) pp->dicts[cl][rg].buffer.data();
+          uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data();
+          while (beg < end) {
+            *beg++ = dict[*idx++];
+          }
+          break;                                                         // # nocov end
+        }
+        default:
+          throw std::runtime_error("Unknown type when processing dictionaries"); // # nocov
+        }
+      } else if (hasdict && hasmiss) {
+        // dict + missing values
+        int64_t from = pp->metadata.row_group_offsets[rg];
+        SEXP x = VECTOR_ELT(pp->columns, cl);
+        switch (TYPEOF(x)) {
+        case INTSXP: {
+          int *beg = INTEGER(x) + from;
+          int *endm1 = beg + num_values - 1;
+          int *dict = (int*) pp->dicts[cl][rg].buffer.data();
+          uint32_t *idxm1 =
+            (uint32_t*) pp->dicts[cl][rg].indices.data() + num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          while (endm1 >= beg) {
+            if (*presm1) {
+              *endm1-- = dict[*idxm1--];
+              presm1--;
+            } else {
+              *endm1-- = NA_INTEGER;
+              presm1--;
+            }
+          }
+          break;
+        }
+        case REALSXP: {
+          double *beg = REAL(x) + from;
+          double *endm1 = beg + num_values - 1;
+          double *dict = (double*) pp->dicts[cl][rg].buffer.data();
+          uint32_t *idxm1 =
+            (uint32_t*) pp->dicts[cl][rg].indices.data() + num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          while (endm1 >= beg) {
+            if (*presm1) {
+              *endm1-- = dict[*idxm1--];
+              presm1--;
+            } else {
+              *endm1-- = NA_REAL;
+              presm1--;
+            }
+          }
+          break;
+        }
+        case LGLSXP: {
+          // BOOLEAN dictionaries are not really possible... // # nocov start
+          int *beg = LOGICAL(x) + from;
+          int *endm1 = beg + num_values - 1;
+          int *dict = (int*) pp->dicts[cl][rg].buffer.data();
+          uint32_t *idxm1 =
+            (uint32_t*) pp->dicts[cl][rg].indices.data() + num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          while (endm1 >= beg) {
+            if (*presm1) {
+              *endm1-- = dict[*idxm1--];
+              presm1--;
+            } else {
+              *endm1-- = NA_LOGICAL;
+              presm1--;
+            }
+          }
+          break;                                             // # nocov end
+        }
+        default:
+          throw std::runtime_error("Unknown type when processing dictionaries"); // # nocov
         }
-        break;                                             // # nocov end
-      }
-      default:
-        throw std::runtime_error("Unknown type when processing dictionaries"); // # nocov
       }
     }
   }
@@ -743,30 +755,31 @@ void convert_column_to_r_int64_nodict_nomiss(postprocess *pp, uint32_t cl) {
 void convert_column_to_r_int64_dict_nomiss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    int64_t from = pp->metadata.row_group_offsets[rg];
-    // in theory some row groups might be dict encoded, some not
-    bool hasdict = pp->dicts[cl][rg].dict_len > 0;
-    double *beg = REAL(x) + from;
-    double *end = beg + num_values;
-    if (!hasdict) {
-      int64_t *ibeg = (int64_t*) beg;
-      while (beg < end) {
-        *beg++ = static_cast<double>(*ibeg++);
-      }
-    } else {
-      // first convert tbe dict values
-      double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
-      double *dend = dbeg + pp->dicts[cl][rg].dict_len;
-      int64_t *idbeg = (int64_t *) dbeg;
-      while (dbeg < dend) {
-        *dbeg++ = static_cast<double>(*idbeg++);
-      }
-      double *dict = (double*) pp -> dicts[cl][rg].buffer.data();
-      uint32_t *didx = pp->dicts[cl][rg].indices.data();
-      while (beg < end) {
-        *beg++ = dict[*didx++];
+    std::vector<dict_step> &dss = pp->dict_steps[cl][rg];
+    for (uint32_t dsi = 0; dsi < dss.size(); dsi++) {
+      int64_t from = dss[dsi].start;
+      uint32_t num_values = dss[dsi].num_values;
+      bool hasdict = dss[dsi].dict;
+      double *beg = REAL(x) + from;
+      double *end = beg + num_values;
+      if (!hasdict) {
+        int64_t *ibeg = (int64_t*) beg;
+        while (beg < end) {
+          *beg++ = static_cast<double>(*ibeg++);
+        }
+      } else {
+        // first convert tbe dict values
+        double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
+        double *dend = dbeg + pp->dicts[cl][rg].dict_len;
+        int64_t *idbeg = (int64_t *) dbeg;
+        while (dbeg < dend) {
+          *dbeg++ = static_cast<double>(*idbeg++);
+        }
+        double *dict = (double*) pp -> dicts[cl][rg].buffer.data();
+        uint32_t *didx = pp->dicts[cl][rg].indices.data();
+        while (beg < end) {
+          *beg++ = dict[*didx++];
+        }
       }
     }
   }
@@ -808,64 +821,67 @@ void convert_column_to_r_int64_nodict_miss(postprocess *pp, uint32_t cl) {
 void convert_column_to_r_int64_dict_miss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    double *beg = REAL(x) + pp->metadata.row_group_offsets[rg];
-    // In theory this happen
-    bool hasdict = pp->dicts[cl][rg].dict_len > 0;
-    if (!hasdict) {
-      int64_t *ibeg = (int64_t *)beg;
-      uint32_t num_present = pp->present[cl][rg].num_present;
+    std::vector<dict_step> &dss = pp->dict_steps[cl][rg];
+    bool rg_dict_converted = false;
+    for (uint32_t dsi = 0; dsi < dss.size(); dsi++) {
+      int64_t from = dss[dsi].start;
+      uint32_t num_values = dss[dsi].num_values;
+      uint32_t num_present = dss[dsi].num_present;
+      bool hasdict = dss[dsi].dict;
       bool hasmiss = num_present != num_values;
-      if (!hasmiss) {
-        double *end = beg + num_values;
-        while (beg < end) {
-          *beg++ = static_cast<double>(*ibeg++);
-        }
-      } else {
-        double *endm1 = beg + num_values - 1;
-        int64_t *pendm1 = ibeg + num_present - 1;
-        uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-        while (beg <= endm1) {
-          if (*presm1) {
-            *endm1-- = static_cast<double>(*pendm1--);
-            presm1--;
-          } else {
-            *endm1-- = NA_REAL;
-            presm1--;
+      double *beg = REAL(x) + from;
+      // In theory this happen
+      if (!hasdict) {
+        int64_t *ibeg = (int64_t *)beg;
+        if (!hasmiss) {
+          double *end = beg + num_values;
+          while (beg < end) {
+            *beg++ = static_cast<double>(*ibeg++);
+          }
+        } else {
+          double *endm1 = beg + num_values - 1;
+          int64_t *pendm1 = ibeg + num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          while (beg <= endm1) {
+            if (*presm1) {
+              *endm1-- = static_cast<double>(*pendm1--);
+              presm1--;
+            } else {
+              *endm1-- = NA_REAL;
+              presm1--;
+            }
           }
         }
-      }
 
-    } else {
-      // convert dict values first
-      double *dbeg = (double *)pp->dicts[cl][rg].buffer.data();
-      double *dend = dbeg + pp->dicts[cl][rg].dict_len;
-      int64_t *idbeg = (int64_t *)dbeg;
-      while (dbeg < dend) {
-        *dbeg++ = static_cast<double>(*idbeg++);
-      }
-      double *dict = (double *)pp->dicts[cl][rg].buffer.data();
-
-      uint32_t num_present = pp->present[cl][rg].num_present;
-      bool hasmiss = num_present != num_values;
-      if (!hasmiss) {
-        double *end = beg + num_values;
-        uint32_t *didx = pp->dicts[cl][rg].indices.data();
-        while (beg < end) {
-          *beg++ = dict[*didx++];
-        }
       } else {
-        double *endm1 = beg + num_values - 1;
-        uint32_t *dendm1 = pp->dicts[cl][rg].indices.data() + num_present - 1;
-        uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-        while (beg <= endm1) {
-          if (*presm1) {
-            *endm1-- = dict[*dendm1--];
-            presm1--;
-          } else {
-            *endm1-- = NA_REAL;
-            presm1--;
+        // convert dict values first, if not yet done
+        if (!rg_dict_converted) {
+          double *dbeg = (double *)pp->dicts[cl][rg].buffer.data();
+          double *dend = dbeg + pp->dicts[cl][rg].dict_len;
+          int64_t *idbeg = (int64_t *)dbeg;
+          while (dbeg < dend) {
+            *dbeg++ = static_cast<double>(*idbeg++);
+          }
+        }
+        double *dict = (double *)pp->dicts[cl][rg].buffer.data();
+        if (!hasmiss) {
+          double *end = beg + num_values;
+          uint32_t *didx = pp->dicts[cl][rg].indices.data();
+          while (beg < end) {
+            *beg++ = dict[*didx++];
+          }
+        } else {
+          double *endm1 = beg + num_values - 1;
+          uint32_t *dendm1 = pp->dicts[cl][rg].indices.data() + num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          while (beg <= endm1) {
+            if (*presm1) {
+              *endm1-- = dict[*dendm1--];
+              presm1--;
+            } else {
+              *endm1-- = NA_REAL;
+              presm1--;
+            }
           }
         }
       }
@@ -2028,8 +2044,67 @@ void convert_columns_to_r_(postprocess *pp) {
   }
 }
 
+void RParquetReader::calculate_dict_steps() {
+  if (notdicts.size() == 0) {
+    calculate_dict_steps_simple();
+  } else {
+    calculate_dict_steps_bad();
+  }
+}
+
+void RParquetReader::calculate_dict_steps_simple() {
+  dict_steps.resize(metadata.num_cols_to_read);
+  for (uint32_t cl = 0; cl < metadata.num_cols_to_read; cl++) {
+    dict_steps[cl].resize(metadata.num_row_groups);
+    bool dict0 = dicts[cl].size() != 0;
+    for (uint32_t rg = 0; rg < metadata.num_row_groups; rg++) {
+      int64_t rgo = metadata.row_group_offsets[rg];
+      int64_t num_values = metadata.row_group_num_rows[rg];
+      uint32_t num_present = present[cl].size() == 0 ?
+        num_values : present[cl][rg].num_present;
+      bool dict = dict0 && dicts[cl][rg].dict_len > 0;
+      dict_step ds = { rgo, num_values, num_present, dict };
+      dict_steps[cl][rg].push_back(ds);
+    }
+  }
+}
+
+void RParquetReader::calculate_dict_steps_bad() {
+  // start with assuming no bad pages (bad = not dict encoded in dict col)
+  calculate_dict_steps_simple();
+  // now post-process this
+  for (page_range &bad: notdicts) {
+    int64_t bad_end = bad.start + bad.num_values;
+    std::vector<dict_step> &dss = dict_steps[bad.column][bad.row_group];
+    // find the dict step it applies to
+    for (auto ds = dss.begin(); ds != dss.end(); ++ds) {
+      int64_t ds_end = ds->start + ds->num_values;
+      if (bad.start >= ds->start && bad.start < ds_end) {
+        if (bad_end > ds_end) {
+          Rf_error("Internal error, impossible mix of dict and non-dict pages");
+        }
+        if (bad_end == ds_end) {
+          ds->num_values -= bad.num_values;
+          ds->num_present -= bad.num_present;
+          dss.insert(++ds, { bad.start, bad.num_values, bad.num_present, false });
+        } else {
+          int64_t num_miss = ds->num_values - ds->num_present;
+          dict_step newsteps[2] = {
+            { bad.start, bad_end - bad.start, bad_end - bad.start, false },
+            { bad_end, ds_end - bad_end, ds_end - bad_end - num_miss, ds->dict }
+          };
+          ds->num_values = bad.start - ds->start;
+          ds->num_present = bad.start - ds->start;
+          dss.insert(++ds, newsteps, newsteps + 2);
+        }
+        break;
+      }
+    }
+  }
+}
+
 void RParquetReader::convert_columns_to_r() {
-  std::vector<uint32_t> col_select;
+  calculate_dict_steps();
   postprocess pp = {
     columns,
     facdicts,
@@ -2037,6 +2112,7 @@ void RParquetReader::convert_columns_to_r() {
     metadata,
     tmpdata,
     dicts,
+    dict_steps,
     byte_arrays,
     present
   };
diff --git a/src/RParquetReader.h b/src/RParquetReader.h
index 2a98397..eeecf6d 100644
--- a/src/RParquetReader.h
+++ b/src/RParquetReader.h
@@ -89,6 +89,21 @@ class RParquetFilter {
   std::vector<uint32_t> columns;
 };
 
+struct dict_step {
+  int64_t start;
+  int64_t num_values;
+  int64_t num_present;
+  bool dict;
+};
+
+struct page_range {
+  uint32_t column;
+  uint32_t row_group;
+  int64_t start;
+  int64_t num_values;
+  int64_t num_present;
+};
+
 class RParquetReader : public ParquetReader {
 public:
   RParquetReader(std::string filename, bool readwrite = false);
@@ -116,6 +131,8 @@ class RParquetReader : public ParquetReader {
 
   std::vector<std::vector<uint8_t>> tmpdata;
   std::vector<std::vector<tmpdict>> dicts;
+  std::vector<page_range> notdicts;
+  std::vector<std::vector<std::vector<dict_step>>> dict_steps;
   std::vector<std::vector<std::vector<tmpbytes>>> byte_arrays;
   std::vector<std::vector<presentmap>> present;
   rmetadata metadata;
@@ -124,4 +141,7 @@ class RParquetReader : public ParquetReader {
   RParquetFilter filter;
   void init(RParquetFilter &filter);
   std::vector<uint32_t> colmap;
+  void calculate_dict_steps();
+  void calculate_dict_steps_simple();
+  void calculate_dict_steps_bad();
 };
diff --git a/tests/testthat/_snaps/read-parquet-5.md b/tests/testthat/_snaps/read-parquet-5.md
index 84a3aae..65de50f 100644
--- a/tests/testthat/_snaps/read-parquet-5.md
+++ b/tests/testthat/_snaps/read-parquet-5.md
@@ -54,17 +54,67 @@
 
 # mixing RLE_DICTIONARY and PLAIN
 
+    Code
+      as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
+    Output
+         type repetition_type
+      1  <NA>        REQUIRED
+      2 INT32        REQUIRED
+      3 INT64        REQUIRED
+    Code
+      as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
+    Output
+              page_type num_values       encoding
+      1 DICTIONARY_PAGE        400          PLAIN
+      2       DATA_PAGE       1024 RLE_DICTIONARY
+      3       DATA_PAGE       1024          PLAIN
+      4       DATA_PAGE        352          PLAIN
+      5 DICTIONARY_PAGE        400          PLAIN
+      6       DATA_PAGE       1024 RLE_DICTIONARY
+      7       DATA_PAGE       1024          PLAIN
+      8       DATA_PAGE        352          PLAIN
+
+---
+
+    Code
+      as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
+    Output
+         type repetition_type
+      1  <NA>        REQUIRED
+      2 INT32        REQUIRED
+      3 INT64        REQUIRED
+    Code
+      as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
+    Output
+              page_type num_values       encoding
+      1 DICTIONARY_PAGE        400          PLAIN
+      2       DATA_PAGE       1024 RLE_DICTIONARY
+      3       DATA_PAGE       1024 RLE_DICTIONARY
+      4       DATA_PAGE        352 RLE_DICTIONARY
+      5 DICTIONARY_PAGE        400          PLAIN
+      6       DATA_PAGE       1024 RLE_DICTIONARY
+      7       DATA_PAGE       1024 RLE_DICTIONARY
+      8       DATA_PAGE        352 RLE_DICTIONARY
+
+---
+
     Code
       as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
     Output
          type repetition_type
       1  <NA>        REQUIRED
       2 INT32        OPTIONAL
+      3 INT64        OPTIONAL
     Code
       as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
     Output
               page_type num_values       encoding
       1 DICTIONARY_PAGE       1024          PLAIN
       2       DATA_PAGE       1024 RLE_DICTIONARY
-      3       DATA_PAGE        976          PLAIN
+      3       DATA_PAGE       1024          PLAIN
+      4       DATA_PAGE        352          PLAIN
+      5 DICTIONARY_PAGE       1024          PLAIN
+      6       DATA_PAGE       1024 RLE_DICTIONARY
+      7       DATA_PAGE       1024          PLAIN
+      8       DATA_PAGE        352          PLAIN
 
diff --git a/tests/testthat/data/create-data.py b/tests/testthat/data/create-data.py
new file mode 100644
index 0000000..61149ef
--- /dev/null
+++ b/tests/testthat/data/create-data.py
@@ -0,0 +1,41 @@
+import pyarrow as pa
+import pyarrow.parquet as pq
+schema = pa.schema(fields=[
+    pa.field(name = 'x', type = pa.int32(), nullable = False),
+    pa.field(name = 'y', type = pa.int64(), nullable = False)
+])
+data = [ list(range(400)) * 6, list(range(400)) * 6 ]
+table = pa.table(data = data, schema = schema)
+pq.write_table(
+  table,
+  'tests/testthat/data/mixed.parquet',
+  data_page_size = 400,
+  dictionary_pagesize_limit = 400
+)
+
+import pyarrow as pa
+import pyarrow.parquet as pq
+schema = pa.schema(fields=[
+    pa.field(name = 'x', type = pa.int32(), nullable = False),
+    pa.field(name = 'y', type = pa.int64(), nullable = False)
+])
+data = [ list(range(400)) * 6, list(range(400)) * 6 ]
+table = pa.table(data = data, schema = schema)
+pq.write_table(
+  table,
+  'tests/testthat/data/mixed2.parquet',
+  data_page_size = 400
+)
+
+import pyarrow as pa
+import pyarrow.parquet as pq
+table = pa.table({
+  'x': pa.array(range(2400), type=pa.int32()),
+  'y': pa.array(range(2400), type=pa.int64())
+})
+pq.write_table(
+  table,
+  'tests/testthat/data/mixed-miss.parquet',
+  data_page_size = 400,
+  dictionary_pagesize_limit = 400
+)
diff --git a/tests/testthat/data/mixed-miss.parquet b/tests/testthat/data/mixed-miss.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..315f5044ccf503fa73bac5248b6a3eb736b36183
GIT binary patch
literal 22803
zcmeI)Wpo|Kx*$;7kui4cB$g>oVrEQCNu0#Y%*@Qp%*@Qp%*@QpY?;}XnPw~Z-nsX^
zH*0>)pIIxl);_1Js#V=;slIbg=~EZWULt*9Kw!6Qf&H=-3hWjwFw{4pLUoH5{4sne
zB{X69f&ju2j*!j>L?jYl5}7D`MO32kHO33|Ezt=i1~G|6Y~t`8arvGf_>p+TCjkjb
zL}HSVlw>3)1u02IYSNIFbfo7eekKDM$wX$d@C(248(I0CKlqbuWG4qX$whARke7Vq
zrvL>hL}7|hlwuU81SKg&Y06NRa+Ie66{$pJs!)|`RHp_tsYPw-P?vhtrvVLVL}QxJ
zlx8%i1ubbsYueD3cC@Dh9qB}8y3mzwbf*VB=|yk)(3gJnX8;2k#9)Rnlwk~K1S1*6
zXvQ#>ag1jI6Pd(hrZAOhOlJl&nZ<18Fqe7EX8{XY#A24Plw~Yu1uI#_YSyrpb*yIt
z8`;EWwy>3LY-a~M*~M=5u$O)8=Ku#e#9@wblw%y{1SdJgY0hw#bDZY_7rDe`u5guW
zT;~Qi3E~#Fxx-!Vai0e~<Pnc~!c(5{oEHT1l2^Ru4R3kJdp_`yPkbh1@`ol2Ul2f8
z!V#VbL?jYl5}7D`MO32kHQ(?p(Fr65F^NTN;_w}D`JNy6k$A)>0SQS&Vv>-QWF#jA
zDM>|Y(vX&Pq~|AoCIcDCL}s$^3%~LkS^1qm_>*j8CkHvnMQ-wtmwe=>00k*TVTw?c
zViczYB`HN|%21Yal&1m}sYGR}P?c&_rv^2tMQ!R(mwMEv0S#$HW17&EW;CY-Eont-
z+R&DEw5J0d=|pF`(3Ng<rw2XhMQ{4hmwxnT00SAsV1_W1VGL&kBN@eL#xRy~jAsH9
znZ#tKFqLUcX9hEw#cbv<mwC)*0Sj5gVwSL!Wh`d}D_O;A*07d!tY-ro*~DhHu$66W
zX9qjk#cuYnmwoK#00%k5VUBQ=V;tuMCppDw&Ty7<oaX`;xx{6zaFuIZ=LR<k;ug2L
z!(Hxip9ehT5s!JoQ=ajh7X<T?SG?v8Z+XXiKJbxGd=7o@ZSec>p~IN|d_e$V2}gJ$
z5RpiHNo1n%6;X-C*L=gbL?@6K#3UB6iNklq<$HeMN8%Bm1SBL8iAh3Il98Mgq$Cxo
zNkdxFk)EIUnG9qk6Pd}vFZ{}HWaW4M;7_uVogCyO7rDtpUh<Kj0u-bWg(*T&icy>r
zl%y1;DMMMxQJxA^q!N{>LRG3!of_1n7PYBEUFuPv1~jA*jcGztn$esVw4@cSX+vAu
z(Vh-;q!XR#LRY%cogVb07rp62U;5FX0SsgigBik5hB2HGjARs}8N*n{F`fxbWD=8^
z!c?X)of*tz7PFbdT;?&K1uSF{i&?@_ma&`_tYj6dS;Jb^v7QZVWD}d&!dAAiogM6C
z7rWWRUiPt{103WKhdIJgj&Yn5oa7XzIm21bah?lY<Pw*;!d0$uog3UFh+Ev|4tKf7
zeID?TM?B^UPkF|3UJ%SnUh$eYyyYG5`M^g$@tKhK{GkcM7X%QNaD*oU5sAc?L?#Mf
z5tV3s%{P2YbOMP%Okxq6IDAK3zUK#iBp&feKtd9cm?R`68OcdON>Y)UG^8aR>G_GD
z$v{Rjk(n&~!ms>BR(|IX{v;dO$w5wXk()f^B_H`IKtT#om?9LV7{w_;NlH<gGL)qp
z<*7hLDp8p#RHYi#sX<L@QJXr{r5^QZKtmeQm?ku(8O>=yOIp#IHngQ3?dd>AI?<Uf
zbfp{J=|N9=(VIT>r62tnz(58um>~>h7{eLCNJcT5F^pv#<C(xjCNY^QOl2C=nZZnE
zF`GHeWghccz(N+Wm?bP_8OvG0N>;I&HLPVF>)F6YHnEv4Y-JnU*}+bBv70^YWgq)F
zz(Edim?IqJ7{@umNltN^Go0ld=efW|E^(PFT;&?qxxr0>xW#SmaF=`B=K&9S#ABZD
zlxIBW1;M=J6|Z^2Ti)@W4}9bkp9u^VI3{}FwCJfq76qaOh6@ZAH&#GMN34L54+k+q
zCHs$>hJlfSBZbu+s#~<sk-CNoh_@|NK=f+cLPtn6ZCjYg8Ln;nB3iC^+XJGPs<u6B
ztXk8yhl|_l+V=4Add1rjA<?L6J0d2VHEl<vRI9G-_%hwDcsnC!I8|+Dlq^Bhc7ByL
z_}b2>*#hG4ik2&S^<7`*OEi7gH-$1>-}P;=T=92DFIB4g?!a=jrtgkXsnzw}F{|~8
zzb96$QPuavt~YD?o;ZzGUElLvvt9A`#%*<~`rhx`1x?@kL#N>Ddw=W}kYHcDUeRmp
zi{CHNjC~0PWw@~~;jml@_9q%us>c4r<7&;=pJY<28~c+^>y_X@vRR{Q97sNI){Fxw
z7OlE*Amy@M2@a-Ob*jd})a!y~989w*_{PDs+X50EO1CR|%|q$;C7OBYr$ZTT9{TxM
zu7rm(oGMlGaK>}BW**LTsnyNHnXmOqcqB{EsG3K9xjSp-kzXIKx_RWcr@Im!%^G~F
z=F#8Z1kF79$A{pXNB;~JHqo(c0fDuSWsi_}*0CIsGX@>Y87+6B<GG@ju5~<jtlG1V
z=ZV`o=y=|Ey%U|tmuPgY6Zw<Po^_%?s?|X!3Z~ng=wzV`r)!-ooaNT6lSQ(=3_4jf
zTiC>>iscHdeX4lA#IsM8D3tNmsglKVCq7-ORO#BMOP8xX`*fK~t#6$!TdjBEGv#WH
zu6?F_z1g$RRA{vN)|raUb|*etsnzM)XDhe6HT!IpPA_krt=cVYl5^F11=cxNy<g%v
z=V}bfc>7$<VY!o>uQjT4o%6NF)t+;{&ZO42&)1#SJIRH5vqsmsP=DU+ITso%T7COM
z!)3dZTx_)Jbe)Th*WH?PvB{>Fw=Xu`7B=anX1fCGUTVHC@!U%-4rRP^spYZUNiVlL
zRl4rw*5_)^z1-$f>pPd*UhAFoO1q%Zb+5F)JA3Yx4i8t~xzh3J?xa^c1)r{awR6`u
zx8`2$^5Ny3t6f8dOLnbWK#Y3Vx<^Pd?^=(@neJZe87)t;>%F3vsdv41tUB|q_leu)
z?)AR$`Xsy2FVUEKH~J@=Gw;TLRBP_u7?^HPvYUf4oT+znaF*NiZVt)%>h8^<*}^3c
z8kQ?Y{h;CblFSbpQ7F^BppnJ$B)>JPRGIp>MwhEI|JImFZSLI~Tdhy>+v94DsegNX
zy*cx5PiVB}-tCFa_9VYEsnwbKcP6*HJ^#*>POt9Wnc6K}io4T##b|JMdcPzK?#>vL
z>HgiB!}6rKH)~Xx2KQ!<tFz$VoJno&-<vzFPm25VW{qiZfBw8V3+^viwC4W(h0FG&
zc(7>InFbFQue-hA!IDj{?mt+%EnLcn%XY<R_;C5YBnuy|IF#wZ!<EPKq<pmMRGEg4
zR-dc0@X?w}Z5}*Yd#z8($LoT|G<>}N?wo~>H#}VP;PJ+%ds05x6nv)Plg)2#FMP7)
z!>b2RwuTCy>gl$Cn2nxpkC1fH(;bmBKYY3~THaL8c117S=-KXAbr(I`6SwWdXM5xI
zP4#?VqOpyh?@u;&(eneT);@fGFx}o%FAilm+vvsNEO!>YIFj}C!xu-hg-;!PELY6N
z!N>C@T^xL(Q07O$CyV7x{qj_)vW;J!E?0N)%QKbQK6-h!THn;K&ea;*_|^G(a~Hq5
z&}i+WR~MV@P5t^(tFw(?Uv772@#`y{UO#$$wOjZ!Z?5%<+2qajeo2?SxiKj7<2N^l
z<xTT8XjIuIZ*PsOyX5WdNo^m$y)&(Ens;|+jcxMo-n_X>-rZlc_VK$1%l4*u|8UjW
zChs4uyR+o|<4vz0zkjkVeA*9Bcg1Y_;n}{VOFuk6l=;br7sv9Z{TO_zY}1b~&(&S}
z@ztfaPd>iB);H~^H$h{YetLU%?$S^19<F`z>3!Izd((dY5PY`j=Z|mhEdBiH!|NxX
zKZ~D3vIUOI_E-E2^{@CD{;&8cg8mgh|94H;>>DpQT(p12&ro&<O&Go)fUtxkJQ0XU
zB)%jvQTU3eMB{6|;aj2;NDN{U62fB>hwq5X_x!+*#3MclNJt_QlZ2!sBRMHZNh(s4
zhP0$3JwNd?8OTT`GLwa0_?6$t%J2NapJXFDImk&aa+8O=<Rd=?C`cg+Q-q=vqc|lf
zNhwNGhO(5SJQb)&B`Q;es#K#oHK<7~YEy^0)T2HPXh<U((}bopqd6^TNh?~@hPJe$
zJss#sCpy!Gu5_b2J?Kd<deeu#^rJrm7|0+7GlZcGV>lxi$tXrMhOvxeJQJA6BqlS3
zsZ3)!GnmONW;2Jm%ws+aSjZw4vxKEAV>v5W$tqT}hPA9?Jsa4_CN{H$t!!gEJJ`uC
zcC&}Q>|;L%ILILmbA+QD<2WZc$tg~AhO?aGJQujgB`$M?t6bwcH@Ha<x46w6?sAX&
zJm4XZc+3-?@{H%aAefiD;x%u0%RAolfscIRGoiwo|AgTS0tibu!V`grMB+;#6NRsc
zN;JOa8@?qvfy5vtv4~9^z9TN*^8-H;kN6}YA&E##5|WaP<fI@asYp#4(vpt!{KU^>
zAS0Q`Ocs9OSAHWazw-xwl8x--ASb!VO&;=+kNgy%AcZJQ5sFfb;*_8yr6^4q%2JN<
zRG=c2s7w{AQjO}=peD7bO&#h|kNPyAA&qEE6PnVD=Cq(Ct!Paf+R~2pbf6=h=u8*7
z(v9x)peMcPO&|KwkNyl`AcGjp5QZ|0;f!D;qZrK?#xjoaOkg6Dn9LNWGL7lXU?#Je
z%^c=3kNGTMA&Xed5|*-z<*Z;Ot60q%*0PTEY+xgs*vuBTvW@NRU?;oS%^vo$kNq6r
zAcr{25sq?<<DB3mr#Q_S&T@|PT;L*?xXcx<a*gZU;3h%b;x>1<%RTP%fQLNdF;95P
zGoJH;U|#Zy*Sz5^?|9D#KJtmrgbHW=6NWDcAS~esPXr<oi7$yv6uu%V(fFEg_?GAd
z5`&n;A~tdOj<|f!5Bx|x;*)@cBqA|MNJ=u2lY*3_A~k79OFGi?6F-xIjASA+S@?xt
z`Hign&L8|qHnNk0oa7=mdB{sX@>76<6rwOiC`vJkQ-YF|qBLbFOF7C@fr?b3GF7Nb
zHL6pCn$)5;b*M`{>eGORG@>z0Xi77h(}I??qBU)3OFP=rfsS;dGhOIPH@ee<p7f$O
zedtR+`ZIum3}P@t7|Jk)GlG$fVl-nI%Q(g}fr(6FGE<n!G^R6ynapA~bC}CK=Cgo>
zEMhTBSjsY%vx1eZVl``6%R1JxfsJfpGh5ioHny{ao$O*ad)Ui9_H%%P9O5uXILa}O
zbApqc;xuPC%Q?<-fs0(?GFQ0DHLi1mn*?!-+uY$U_qfjk9`cCCJmD$Nc+LxgdC4nY
z^M<#)<2@hv$R|D%$_Incgy9PU2unD^6M=|C;!7eEg|CQ8G`{8=z9l+=#2_ZIh)o>6
zBQD?b13wav_#_}9iAYQml9G(%q#z}!NKG2jl8*HJ#Lr|PBbmrd7JlJZej_Wt^9O&D
zjqKzgC%MQ?9`cfp{1l)dg(yrBic*Z?l%OP~C`}p4QjYRepdyv1Ockn9jq22(Cbg(d
z9qLk#`ZS;+jc800n$nEsw4f!eXiXd1(vJ3Ypd+2=Oc%P+jqdcIC%x!RANtad{tRFs
zgBZ*ZhBA!dj9?_A7|j^QGLG>~U?P*4%oL_Fjp@u_CbO8$9Og2Q`7B@|i&)GOma>fH
ztY9UpSj`&NvX1p^U?ZE@%oet?jqU7UC%f3q9`>@2{T$#Rhd9g;j&h9SoZuv<IL#T(
za*p#{;3Ai}%oVP3jqBXtCPCcdHg~woJ?`^>hdkmjPk72Rp7VlWUh<09yx}eHc+Uqu
z@`=xctR2J%92X;1;I^=~|FQO3HR4|%+#{IAK7jwb7P5BmWpJOr)?T-T4IPq~6`C-7
zK>%S1M|dI-kw|<=WTNmDQHjRae8aayCy*G#Bo?uW!*|5xdw$?Y;t`(&BqR}uNkUSR
zk(?ByBo(PiLt4_2o}c)c3}hq|naRR0{K{`+<#+zzPqLAn9ONVyxyeIb@{ykc6r>P^
zDMC?-QJfN#q!gtoLs`mEo(fc?5|yb!RjN^)8q}l~wW&j0>QSEtG^7!YX+l$)(VP~v
zq!q1cLtEO>o(^=R6P@WoSGv)i9`vLaz3D?=`q7^O3}g_48NyJ8F`N;MWE7(r!&t^K
zo(W835|f$2RHiYV8O&rBvzfzO<}sfIEMyUjS;A75v78mGWEHDf!&=s{o(*hd6Pww>
zR<^O79qeQmyV=8D_OYJ>9OMv(Il@tnahwyJ<P@hl!&%O8o(o*$5|_EcRjzTJ8{8y_
zTioUjce%%X9`KMyJmv{cdB$^I5X?(n@tQZh<sI+&z(+punUI{!(1hU&0tibu!V`gr
zMB+;#6NRscN;JOa8@?qvfy5vtv4~9^z9TN*^8-H;kN6}YA&E##5|WaP<fI@asYp#4
z(vpt!{KU^>AS0Q`Ocs9OSAHWazw-xwl8x--ASb!VO&;=+kNgy%AcZJQ5sFfb;*_8y
zr6^4q%2JN<RG=c2s7w_?f^tYQZMV>Yqy8hCHk&IPI#lQ=5kiIG3jzpBIKmTwh(zK`
zA`^wLh)OiR<{Q2xI)TI>Cb5W39KIti-}3`M5|8*KAR&oJOcIikjO3&sC8<bF8q$)E
z^!&unWFRA%$V?V~;a7emE5Gvxf0B*t<RB-x$W0#dl8^ippdf`POc9DwjN+7_B&8@#
z8Ol<Q@>HNAm8eV=s#1;W)SxD{s7)Q}QjhvHpdpQDOcR>YjOMhUC9P;p8`{#2_H>{l
zo#;##y3&pA^q?ob=uIE`(vSWOU?77S%n*h$jNy!6B%>J37{)S=@l0SMlbFmDrZSD`
z%wQ(7n9UsKGLQKzU?GcG%o3KejODCgC97D?8rHIo^=x1xo7l`2wz7@w>|iIm*v%gH
zvXA{7;2?)M%n^=qjN_c(B&Rsd8P0N!^IYH}m$=Lou5yj*+~6ib+~PKOxXV56^MHpu
z;xSKn$}^txf?!_qir2j1E$?{G2R`zN&ru>gdm9isbi}X!p8hUJPI8f(Jme)G`6)m_
z3Q?FM6r~u&DM3j}QJON8r5xp{Kt(E1nJQGJ8r7*mO=?k_I@F~e^=Uvu8qt_0G^H8M
zX+cX`(V8~2r5)|*Ku0>!nJ#pt8{O$aPkPatKJ=v@{TaYO1~Hf+3}qO@8No<KF`6-q
zWgO#~z(gi7nJG+V8q=A<OlC2gIm~4q^I5<`7O|KmEM*zXS;0zHv6?lkWgY9;z(zK)
znJsK(8{65zPIj@IJ?v#4`#Hct4sn<x9OW3tIl)Ozahfxn<s9d^z(p=`nJZl78rQkO
zO@g?^ZSHWFd)(&%4|&96p74}sJm&?$yyO+HdBa=Y@tzNS<P)ExMEK!Z)KH=0yp8(z
z{C7Qal8fBrAusvJPXP*2h{6=1D8(pF2})9m(v+br<tR@DDpHBcRG})>s7?)PQj6Nu
zp)U2PPXij#h{iObDa~k33tG~O*0iB5?PyO2I?{>GbfGKV=uQuM(u>~op)dXD&j1E8
zh`|hDD8m@e2u3oB(Trg%;~38bCNhc1Okpb1n9dAlGK<;FVJ`ES&jJ>*h{Y^nDa%;S
z3Rbd;)vRGH>sZeQHnNG$Y+)<g*v<}ivWwm9VK4jG&jAi{h{GJ=D91R?2~Ki~)12Wf
z=Qz&=E^>*>T;VF$xXul362vWTbBDX!<30~~$Ri%}gr_{?IWGw2C9inR8{YDc_k7?Z
zpZIM4--~JfKa2VI{C7Qal8fBrAusvJPXP*2h{6=1D8(pF2})9m(v+br<tR@DDpHBc
zRG})>s7?)PQj6Nup)U2PPXij#h{iObDa~k33tG~O*0iB5?PyO2I?{>GbfGKV=uQuM
z(u>~op)dXD&j1E8h`|hDD8m@e2u3oB(Trg%;~38bCNhc1Okpb1n9dAlGK<;FVJ`ES
z&jJ>*h{Y^nDa%;S3Rbd;)vRGH>sZeQHnNG$Y+)<g*v<}ivWwm9VK4jG&jAi{h{GJ=
zD91R?2~Ki~)12Wf=Qz&=E^>*>T;VF$xXul362vWTbBDX!<30~~$Ri%}gr_{?IWGw2
zC9inR8{YDc_k7@Eln7Zva%n?KNZM>j`9I~<M)+4}tdPZ<zl!zU|3j;;zjJK=&awSF
z$M)|W+rM*c|D9uNt##3VNwSR)@)xv_BA|xk(kXuh)c?_{qi?oE|4zB}x3ka!cNo4P
zfUtxkJQ0XUB)%jvQTU3eMB{6|;aj2;NDN{Ui`c~BJL2*^Kky^*h))6%l8D44At}j7
zP6|?ziqxbbE$K+lPy9><GLnhRWZ@Tn<u|hOJAd#e*~m@~a*~VO<RLHl$WH+ZQi#G7
zp(w>DP6<j<iqe#!EafOq1u9aB%2c5$)u>JlYEp~Z)S)i*s80hL(ul@1p()L1P77Mn
ziq^EDE$wJe2RhP;&UB$G-RMpadeV#D^r0{P=+6KKGKj$pVJO2G&Im>_iqVW=EaMo@
z1ST?x$xLA?)0oZ-W-^P}%waC`n9l+hvWUejVJXX4&I(qtiq))PE$dj%1~#&Z&1_*S
z+t|(ycCw4z>|rna*v|nDa)`qm;V8#A&IwL(iqo9oEay1S1uk-l%Ut0q*SO9NZW6>T
zZgYpb+~YnEc*r9j^Mt27<2f$~<|VIq%^TkGj`w`vBcJ#jB|<=`u(#yihE@y17X%QN
zaD*oU5sAc?L?#Mf5tV3s%{P2YbOMP%Okxq6IDAK3zUK#iBp&feKtd9cm?R`68OcdO
zN>Y)UG^8aR>G_GD$v{Rjk(n&~!ms>BR(|IX{v;dO$w5wXk()f^B_H`IKtT#om?9LV
z7{w_;NlH<gGL)qp<*7hLDp8p#RHYi#sX<L@QJXr{r5^QZKtmeQm?ku(8O>=yOIp#I
zHngQ3?dd>AI?<Ufbfp{J=|N9=(VIT>r62tnz(58um>~>h7{eLCNJcT5F^pv#<C(xj
zCNY^QOl2C=nZZnEF`GHeWghccz(N+Wm?bP_8OvG0N>;I&HLPVF>)F6YHnEv4Y-JnU
z*}+bBv70^YWgq)Fz(Edim?IqJ7{@umNltN^Go0ld=efW|E^(PFT;&?qxxr0>xW#Sm
zaF=`B=K&9S#ABZDlxIBW1;M=J6|Z^2Ti)@W4}9bkpF<)*xHx~!@i6LN5I|VM5uOM{
zBobc|nJ9ckRHE@U-|#Kb2_yzFiA8MU@Evjao*(#;c*G|G2}wj^l8}^SBqs$aNkwYX
zkd}0$=O=z90~yIgX0q@Lzw#Sd`JF%blWb%s2RX?_Zt{?qeB`G91t~;ficpkd6sH6w
zDMe|@P?mC(rveqJL}jW_m1<O{1~sWgZR${$deo-@4QWJUn$VPHG^YhEX+>+=(3W<z
zrvn}7L}$9tm2PyW2R-RUZ~D-ee)MMm0~y3%hA@<23}*x*8O3PEFqUzQX95$M#AK#0
zm1#_81~Zw(Z00bRdCX@43t7Zsmavp%EN2BPS;cDBu$FbKX9FAA#Addzm2GTi2Rqrt
zZuYR3eeCA|2RX!Hj&PJ?9OnclImKztaF%nN=K>eG#AU8<m1|t*1~&=f7Pq;>UG8z8
z2R!5vk9opVp7ER)1oM(tyygvWdB=M`@R3h^4w?Vq|DONZU5gy#Bp12KLtgTcp8^!5
z5QQm1QHoKV5|pGAr71&M%2A#QRHPD>sX|q%QJospq!zWQLtW}op9VCf5shg=Q<~A7
z7PO=lt!YDB+R>g4bfgoV=|We!(VZUjq!+#ELtpyQp8*VH5Q7=QP=+y_5sYLMqZz|k
z#xb4=Ok@(1nZi`2F`XIAWEQiT!(8Sup9L&r5sO*EQkJot6|7_xt69TZ*0G)qY-AIg
z*}_(~v7H_4WEZ>H!(R5Wp937^5QjO!QI2t(6P)A}r#Zt}&T*a#T;vj$xx!Vhah)67
zB#2ww<_>qc$9*2~kVib`2~T;(b6yb4OJ4DsH@xK?@A<&TkY(C`E)D!^;UFaaHdWw~
z|B`+iAtbjeq*zt>=R$4Bs>1(lwM*X^f2}I~BN_MaRfWIbQ}{jmJEr_Ui75f6BJ7?T
z@c%<p`S-huh{>z{y{upg<RB-x$W0#dl8^ippdf`POc9DwjN+7_B&8@#8Ol<Q@>HNA
zm8dMNhh*f2lz+wOz<}6UGy31hmNo0uZd^Su!0qS~hlv%sos`{>=k}puY)c$FZtPS^
zLd6XX6FXz5aM5Dx4Gg0>M)0E0F(xbyon%F}BoW*PCuGQ2e=RQm$Nyr494mHK`M)9e
zx$_Wm%LNb7)TBQfG~i!@w*SYV=XQpPv1&=^Bo`iqPBLS0=(w@|^W`LDH08g&$o!-6
z|8krdhn{}ngp)*wapYo{=yr@7D{}S{C5o2)^&j7MtcRh~hLlWovn$0z9+ZOFv$xHj
zqi*&**|XQpp7XD+>^X8|&t5pBGiUbf`9q%7|MjdEvY8|IKijisFH*{&SyXf9{72(o
zL;tlIvX6FhWDMDASIn+$L$(}F(Nj9)xQ?GM<UEw(AqV?M`PX=Vwg30=GKB2o{G6w+
zZ~Kq)`|ImU{`L5Ks95ouRd3O}b?sKEYc^|^x_XNiP20w6Q@cgW`c0d}OP?i8`ZVcc
Sr;00!-Gz<k=Tyw?kpCA^n}o3d

literal 0
HcmV?d00001

diff --git a/tests/testthat/data/mixed-int32.parquet b/tests/testthat/data/mixed.parquet
similarity index 54%
rename from tests/testthat/data/mixed-int32.parquet
rename to tests/testthat/data/mixed.parquet
index 5d9933685ff3c4a79f00473a7965f723471425c0..a5b90dce0a8bdf43a9d12cdc462bef63ef2eb402 100644
GIT binary patch
literal 11631
zcmeI&2XIx@x&Yt=0wfe^o|r&TY>0|VRYXcoLJ7S~?;=fl@1b{4Q0dZpZ-SjFO{GZ(
z0kHsfLG1Xx12R|d_{z+CbML${YtDDh+H0Mxy|eT0y-IeqV2uKSh(K~|V03Jy!0fbv
zuxw#rn=@W1l{QQYCl#rQAPu34bVL$GdNPoaOx!|dvXB++g=Obf0z`8gF~pLCoWzlf
z+qr|>+{s<s%{|;p9_}MA_wxV`l8=XYm`BJ@0SZ!x!W7|A9-}CaQ;a7lP6<j<ig<z~
zkVt9DP?mBeQJxA^q!N{>LRG3!of_1n7PWbjI@F~e^=Uvu8qt_0G^H8MX~9#p<Y`*b
znl`kh9na974s@gwo#{eXy3w5;^rRQP=|f-o(VqbfB$+`BW(Y$W#&AY3l2MFi3}YF`
zcqZ^H&oPlnJkJZf$YiE4m1#_81~YkyS<Ge*bD76{7O;>-EM^HyS;lf!u##1*W({ju
z$9gvKG8@^%E4<2Uyv`fE$y;n@3tQR7c6RVKJK4o<_OO?Cc$fFs$9@iQkVCxBVUBQ=
zV;tuMCppDwKHv;zImd^b=OaGm6F%hv7rDe|e9jkq$ya>MH+;)wuJ9dK`JNy6k)QaP
zU-*@4{6^^F4<{9=i69MWNk=46q$dLz$;2&WCJR}~Ms{u`Ks2`zLo7MSNgTPjojb_Q
zo!rIU+{3-(;Xd+mKM(LA`FMzjd4&8Fpdf`POc5UCF^cjy#dw0^l%OP~h$lz_iIk=c
zWhqAz<*7hLDp8p#RHYi#sX<L@QJW{JLtW}op9VCf5shg=Q<~A77Cc2uo~9M8X+vAu
z@eJ+hKu0>!nJ#pt8{O$aPkPatKJ=v@{TaYOk{QHchA@<23}*x*8O3PEFqUzQX99t+
zz{qTYFVp1<Bxea^38W3Ajf;s0Rm4PuqANNq?;o}l42`<7Jv?e)SgOdF_}R&WQb%UX
zTX*y9K||7IxhrW({G7qVGQ<>YeQfibAtN&9P8b;zoI7+>_PjL~*WEIA*qGb$H{UfS
zIB)p4oJG4_IJRZphzWPZ4~~pYm_PElyOSp7t+#dls7d!#o0~K>VZrDZ9;~~z_3^C>
z#!P;s>DH04i3`V0E!6tp;(FT_j+_2irw?~cO<Xj7<`ccXy>NWnq6xD~C8vtYQF`&S
za}q~pyTAVS#m~(v_v~Her<GnZaY4l?1>2n1zGTv(s<RVD<tVfC`6V?M*H}`2$I=&;
z)mhzq_p~z0UR=>&Q<sY;b}XB`s>$ZTQ8~*lpR%UKu8H?IczgNOb*=W#EkC{NifJ3#
z9b4Px<l8HzZ|rz>>!_UNR?c{(>xF|$8thy-^R=E|f4F;kxm7Q{(f5aMFP_}FYSvo=
z!&0Y@OIkg9%aF+I4>a7hdd{{HS?;bdBWcat9b;k&wLP_K&Agoxawm?CE5COB?n!xT
zE^WAb?Sj3N^S9VDqx`ys?@lk;_0p-`>lW>s6+a|>t_tfHADEXk>48Rj)-O4<sM@>=
zGb?OZdU#pgb!|`Y*|6;Bs;1jU=c@Sf^5g4TA6nXI@5?JrZtQe^&&-M&SDt>Y*X2v6
z_ikKu=B?z^8E&t%Y4y2nBeOr)_?=B_&hHGnwl(~{t>GC5I;+>Vh5ys*Cna0M4{i;Q
zOtXJ($>FJmNpgH(ZQS)R3H$HEBsuq$Icd*|mvf}t8&mF${~zy-LO0BvFlB7*93)bj
zGL)qpNtCAo6{$pJs!)|`RHp_tsYPv`qz-kdM|~R5kVZ772~BB6b6W5eEqR(&w5APh
zX~#3Prvn}7L}$9tm2PyW2R-RUZ~D-ee)MMm14(8OgBik5hB2HGjARs}8N*n{F`fxL
z%X3U*63_DjFEW`aOl2C=nZZn6VivQR!(8Sup9L&r5sO*EQkJot6|7_xt69TZ*0G)q
zyv#;6@d~f<8n5#PZ}JwK*}_(~v7H^f%}#c)n?3C19p2?V_OYJ>9OMx1bC@F><rv2~
z!AVYWnh!X`S<dkx=lO__`Giloz(p?c8K3h7U-A`S^9|o}nJaw9Rletkuxs&Y|CO&E
z@n-IU<mkZY=zM|AY2^Pn-pcQg{xRMPZAr-)t_(~Q$`_y@g(yrB9_2BL@;JqKg5s2*
zB&CQaNCJtJrVM2%M-t_!Kt(E1nJQGJ8r7*mO=?k_C#geS>QSEtG^7!YX+l$)(VP}M
zMN6Kh6|HGQTiWpq?dd>AI?<Ufbfp{J=|N9=(VIT>r62tnz(A52#9)Rnlwk~K1S1*6
zXvQ#>ag1jI&+;4-nZ)zFz>7>~3R9WJbY?J<mzc$D<}jCe%x3`$S;S(Nu#{yiX9X)+
z#cI~DmUXOW1240YO}xUZyvFOi!JE9rX11`EZER-;Z?ltK>}C&pd53p-kA3Xt00%k5
z`yA#7M>)oEPH>V_oaO`0aF%m?$ay~EV?N<iE^v`ce8%T|!Iyl+*L=gbT;>Yjah31+
zfgkyapZSGfxyEmVdhu{lk(vn7kd|~r5=DA4kdaK>LS|AX$$#@nvZdF8f#?6R^qL%d
zJwU=UMTVs!H4&sCE$N6Piu7b4Bbm5`%w!=e*~reV1c>G~Vu&RNIf)||w{r)%xs$uN
zn|rvIJlscK?&kp>Bp(m)FprR*0u-bWg(<?LJVsF-rx;IAoD!6z6!8Q}Ad%9Pp)BP{
zqC6F-NF^#$g{oAeIyI<CEo$>5b*M`{>eGORG@>z0Xi77h(}JgH$<wr=HEn21JD#CE
z9q33WI@5)&bfY^x=t(bn(}%wFqdx-}NHT*M%n*h$jNy!6B%>J37{)S=@l4=Zo?{}D
zc%Bz{k;zP9D$|(G3}*5YvzW~s<}#1@EMOsvSj-ZZvW(@dU?r<q%^KFSj`eKdWj3;j
zS9q1zc%3(RlegH+7PhjD?d;%fcCw4z>|rnO@GkGMkNq6rAcuIL!yMr#$2iUjPI8LV
ze83sba*hu<&qsXBCw$5UE^>*__?$2JlCSuhZ}^tWT;V&e@;yKBBR}yozwj&9_$^c9
zH$O&%heu^ix%{1uL`qYJvXmo<@>HNAm8eV=s#1;W)SxD{sLhkqp)U2PPXij#h{iOb
zDa~k33!b7SPt%Ilw4p8Sc!u_Lpd+2=Oc%P+jqdcIC%x!RANtad{tRFs$qZsJLm0|1
zhBJbZjAArn7|Xa!k;OynuAvlKVhyFgT7QkaSs4>~<4f1)1%FYhHf25bZ@V6w93D9G
zrv=%+h!FG1zbF+q$?*|qLu1}^QRyQ7UH8z4u<)p;uy9vKDpC_c8q$)ENTNtj1~QU~
zTgXfnvXYJL+)99GZX<?Ra*&faa&bF%kefTXi@Ujpd&$Fn<mG-I;6d{75D)VR`6)m_
z3Q?FMJj!Df<#CGf1jQ*qNlFn<kOUGbO&Q8kjwH%cfr?b3GJo^C=*>Y?*6^&E#ZK0g
z*bx&cvGYIbfp5l6$^cx<9N-{_c%Q=@;V8#A&IwL(iqm|+nM{$_k~98IUZEx1e1RE%
zTC)8^r<(uwG1{NI+MA`Jt~NR%f2gZ15bA1EdWwJPcsu24ceU<gKmUuX{og&^P8lku
z3>E*6CfpIR#fyZ+r0v?Gb<6h60uf<>RQGzytyfqeBJ|liEPC_3v2n5a@`S|&QpFYt
zOPeKDZ6KB6=siQiqp#M^vpzOY<bU;)RBUn2>S{MMxz}vyEsL$tL$Pszh?{NpzR~9L
z%i+;e>f~A9G0(NyaWQ}BSAOqSLjMx{i_)<FbSKeQuZ9jbPh|A?72&sfdM_>}W3Wbz
zs&$Ip_?2Tm4}T<-9&Htrs)ydBiosydU_z^4*<i3$F!6d-Fd-ortQ@LL3<k@GK5gIp
zv=z!Gl=;0p7_3rDqeVlTi8l(bH+?-DDhvig*@PmYT(4@r+B1~1J4sFL(0-+)&~ZrB
zLp%FD{oda7@_%lxaOgXZ&vCX2CiJ{<eAj=j=JodyVKKQoHS5y3d&_PQwdmC8p=MpW
mbnKbCN6Ri<+jQ)ZyFk&03p|`ZHecM02b<&kk*ayr`ab~E0;{e7

literal 9802
zcmYk?cU;YH|G@F0g%CO^LTI6dB7{mMgix}z2Q9ShP|03NcG5y+Wv_N23N3{8UT7iQ
zufE^=_xRn{<MF)q=Q`*7alOxHnHww~FAx#<>kESQ%>@2Z0-=FILjDS^zr}?}!svmX
z5P>Mf&^;)DUg(WJkVIefLw`tN09a3G5Tqf13<g6Mau|Z4kjF3##|S83Bt~I06rluV
zs6Z8CFc#yW26bpa6IvLL3780N=wK2iLl;vp71N-H>6n3;(1!sGF$+d8h6!fF6mu{a
z^I(SgSb&8v$097o5?H_zOJRj&SdJA~iB(vQHCPL4*uWNcu!jR2;RI*6U>(-O6>e~c
z2RyL>8?gyq@P-e3;fKxGg00ww?bv~x@W(Ff#vTM95JA|BVC=(w9Kb;w!eJc2Q5?f@
zoInUpA{3_(hSNBMvp9$IxPXfY$0bDIG9nR$Xv82ES8x^A5Qlgq;5u&LCT`(25^)E2
zaS!+L01xp9kMRUg@eD~wMha4qhIC{g6IpnU7kG(myuxebAQx}&7VnUUd=#J%MR<=7
z_=sYB!e@Lz2})6ha#WxaRj5V{YEg%JG@ubpXhsXZ;v2rB6>Vro2RiWsKk*A)_>DjK
zi|)-Yj2`F-5r{$z;*dZu^hO^@qA&WPKcp}K12G8F5I_clAqzPS!BEI!7=~j66fhE_
zFdB+bf-+Q~iZK|AaZrOgG@uDBjK>5_gf?_A36r6VDVU0B(8F}hz)a}F0EU<aBN)R3
zvtf!kn2UKZ!+b2jLYQL_7Gnu4V2P!$!ZIw!3arE`ti~Fwg*9wo3p?1u0giBjGhDC^
z>){GFxWfaU*no}L1TT2Q2fpybW^BP$Y{Pc!z)tvM7j|P00uYEG>_ss4VLuMwAP(U$
zj^HSc;W$np1Sb)SQwYOpoWWU~!+Bi5MTFxLB5)azh(a`C5Q{6giff2NJQ8pnH*gcT
za2tuZgS)tg`*?tdc!bAzf~R<fBqSpRsYpXQGLVTZJjV;XL^fXGHFA)PH+YM8$U{B~
zP>3SD#|L~wF+SllzMur9C__0aP>Cv3qXxC8Lp>VMh$b|n1z+(E-_eRTw4(!^_<^7J
zg)aQYAN&=r{n7eMT(}3@A3Y%gQHVht66l5A=mSagML+b16b4`*20<DE$Y3yJA%`It
z3V95}aEyQgMq(63LlH_)h6+?M24gV}YEXv;G@*s@n1G4Uh7KlSGITKoQ!x#Cn2s5k
z34IvA5VK$eW0+tzOfd&@F%M>#j|Er=b1cGQEP(|qu@qKVhUHj+l~{$<ScA2&h7D|C
z2YWcc5l(Q13)W#hT;T?Hc)$}Iuo0W!1#kGk7k=1`E!c`}*p40834iRuZtOt-0uhA0
z2*y6_#{nF~AsogL9K|sl#|ebsBtmftVK|L5IE!;Qj|;ena9lzJE+Z0Ah(-)zaRpa#
z4RMG^0<Pl*ZsHbhBN2CS7x!=<5AYC=@EA|<6wi=^WTYS!X-G!~GLePnc!8J5#w)x=
z4s!7ZZ}AR!$VUMRQH1ySfR8A~Cw#^il%N!4C`Sb<QH5&MpcZwgM*|wsgl4qhE56}7
zTG57fbf6PI@Dsn#h2Qvtzvw>a7e){Cga||-260HB7kZ-)B+(cB&>vD5fPokUX$T;L
z!H|U<hF~b<F$}{o0ty(3Q5X$HC_x!2P{kOG#W<)z9U9Pt7RF-&CPEuJn1spD#S~1%
zH0WVEW?&}tVE{wSf)R{ig4r;|9L&W$m|;E^U?I%02#c`<7O=!pSYa8KV+B@X6;@*n
z*1{S#u!SA$;Q&WC!5J=ChxKrU8{FXmPi(+OY=RfO;R9dzVKcU1E4E=fc3>y`u?xGg
z2LT8~5cVP%`>-Dea1e)Z7)Njv$8a1c5Q38k#VLg0G|u2G&fz>R;3C3t2@$xANJJqT
zF^I(#T*WoSAsz|1jvKg%Teyux+`(Pk!+ku!Lp;J`Ji${uLlTmaf>fj-9T~_(7M|k;
zULqT>@ESSD#T&fEJLDlB1t>%j-s1y4q8Oj>8DCI>Qk0<_6{tiNs!@Yl)S(^?Xhaj5
z(Son|hVN)a8`{x<PW-@6{6ZIg;}8BqAS4Kt7KBTyb>9?_5{L=J<Yh&=2V_OMFAijc
zRR5<%$AR9hy+s)o@|P0sy;Dd;AxTI?+B!*CLNPq4hop8%Qco!(g=7(F3+rT2S^My0
zF?p|&WO0Q6g%k<J5bKm)s*&L-z10#+Qu=76DWpnj=UJ!r)vX9m?WfmTlG<NiWMrC@
zk+e<P08_<FX#>r)OVb9K8;wktwy>~C7c8^ClrFQ%t2BMEb->6BS^E&13_0h>OBq94
z6H7COdZvxcl=sTB$sFcaaVc~7w${?j5&j~hvJ?WOZL>xOD@J6EI;dTiHTtO0sOO3y
z7Pilo!t5iSE1&Z!d#(~5FzSVBWQgsHF|m;mFUH0tmc1BvBW=`6wZuHzm+JQ`B3^1d
zZY_JMnItkgTPsc4E_-~I;^piK+1lmV6LXD5ztYaLuzRIbWPkb9q++k~SCdNuM!(jr
z2(f!Tr6%(7>!}Ti<*%o;q>aweYt6IEnci7(IcG*!YkAI0AyLI#eG!3uu7QM7WUis4
zPDSo4DPzSqM$(q{Z;WLfBHx(Edsn=ftq`dA)>QGN{o6UJQIT)ws@<u0J5MWJ@tv7=
zzWuxTx|Nad7U;EAyj!R*s+4DLByh-EWU3UEx7bXlGH;2wu~NQ;g{4Ej<uZq;{H3eB
zEAy?a1C<Jv*`IVMSneDZRj|VKPG!ML&vd22RbKfHg{%E4qYBq-YpX0=>o2NYWE~)I
zEV2n!iY~G}s8dyBchp$<y?uzK<9mlNhv@f?=e(=lJB0@-e{haG>G;7VHY)nVy0|-4
zAJ*SUSN`alnD6+}?S5tSNB75VRUbW)L{*AC(*#b%8?uyQiZ^EKR2Of`HCFlLm1pVn
z$-BrQ=95pccl9UVl0cQueibL3K5wpxiut^y;ZF7Etu5&)U$(X8JAK){v$Hbh%Z{$L
z>MuKm#8gZCMP!^yc1bA5mh6_CR8z7?%0#s^KzgZjX`rlQY-y0ZPfh7wg&@_kV8u}9
zvVE%2v1R+!?$(qY(8^FPKd4>cTz*KmDz^NvUVBaX5q+^S6-SL^Tq=&4DqpEMZZ@g5
z;)J=$n92}~r7o2xmpNXk3|-|@TY1VlXiQa@eW**-Y3JxGRcBo9)>fVM%otOB&a1$s
z`n+G&mFf%I+H0#X`iqUN2@jB2S92*?`D#tX!AW&Bmyeo^t&I#>x~?`V%<*b%^f{lp
z+L-X5v30SLq3i0d#71AOyBc@5uI}26jIs4`i3RKG<L_5ptxtH|URQrTNo-uhjWn6{
z4L7rtuQlAto>bp(JJ)1fV`ARY^^JFm9IrLrE%vEzyjK!5uIYY7==!DyHPP3a9yZ*q
zZ+g^{F|PS>Yr*>FC!JN-nxA&H*Ec^C5?5<U5*h5;k}RPT*ODSRxuGRhYPQ<fG-)f>
zuj#T*abGj!eH*@JD(qGJmZf;g_1kmRn7D5*)b2HWd#RPF_B~s>(DnN(-RijSuk|__
zzUSzRtGDJF4R&jNW2zG0`qpf6W9vKf+3Ib17FKR;`OBQ*+X`0sHntU7?^SOvvOne4
z{@ytzzWsyiy~g&Bo|)<$#a@MO9iRNF<2ycY>uBuw;xDezSrRbVy|Xk}C84wI;N+&x
z@}sjgepG~5x&NpPb4vJ8b<VfxM|JpKjh{7<r`&(m#>OQ4tc$zX^t1j(rpB*^#6tI9
zjrXe)el<PrX!_NhB(B-jk~Y|*>uZ+E^{#K(lbgG~=g!vr-I{0R@w=_a>H6>XV&CT9
z9VL4;|8!QI^7!+kCg%E|pAGk#|NIhd$<+MY)mrHB_jhOY^}m0*I-39fC4L^BE(n{h
zCJ66O{onYRBmPhPB!YIw&;M@`HZzB}n)L6EpW*$5g_t0W9_R@Xh(ZkFkU%f=MjuF`
zFZ!WBq%Z&jF$mHSKn8=+9m3@>1VbT@VHl1PP{2rx!e}T$3Cd7`D#l<e#z770(10ei
zFdh>y5!%qfBus`breG?jK@Zb012dry0~lf!j9?5C%!VoEU@qpt4D+!73t^5$Sd1mG
zfF+i~3d^t@E3gu)uo`Qy7S^zVE$m<q2ROnB&TzpxtcNSy;0_OXVgoi}6TILJANax#
zo3RC3u?^d?13Tf5UD%C12tXi$uouDDhy6H!gE)l4ID(@%hT}Ma5S&CPP9Y4ZaRz5`
z4(D+J7ZHw2h`?n;A_~!nK`gG|Dy|_8@kqdR+`vuT!fhnt4({R}?&AR-;t?L>37+B^
zl8}rPq#_OJ$Ur8t@EkAj64`i#*T_LG-rz0XArJW|Kp~3o9v|=##rTBJ_<|CYq73Dz
zKqabBjT+RV4)th2Bbv~R7JS7wd`BzV(2fpt;s<`>7rO8pfAAMVqU?Y4Ku?H36k-sE
z1bU%2`alwW(GUG0g#j3dL6C+3G8hb5$YBVELLS2~93!BBkr;*1P=pecp#oKm!B~ug
z8q}cyO=w{}CSW48p@T`73|&mYR7`^&reg+XLLUYH%W7$%qvQ_R6!%!3)`V*wVz
z9E-3ROJD&@EQJ-8VL4V{C01cI)?h8HVFO#(!5$89gcF?Mf^}FASGd6)9`M8lY{Vvb
z!5cpCg&#I!3$|h#wqpl&!XLY^8+#CdKm=hgg0T<#aR3K#2#0Y5M{x|taRMPYiBOzE
z7*691&f*--;{q-s9G4J*%ZNl2q7j2wT)|abLmc9ffa|z{o4AGBNW>l7#Xa1|13bhd
zJjN3|#WN%!87W9b8q$%0Ol09XUf?CN@d~ezgIv79Tf9Ra@=<_76yZHS;3JCh37_!=
zB`8H1%29zzRG}I*s6`#>(SSxYp&2dsif{OiR<xlV9q7al{KPMG;Wz%^FNDO{|LB39
z5P>MfAPx!iLT~heB>JKs`a=o>Fc5<v4FO~@7_yMV5DbMphG95HKmj8$3ZtP2B`8A$
zsu+W@7zZ_|Lj#)7!gx%;L})_?lQ0>&n1ZR820cv249tW+3}A>^FoH2mFdL?rgSnUo
zGt9>VEQC20VKJ7#0+v_`D=foutiVdF!fLF+T3Evdwy=Xe9N-8iIKu_&upX{(gF8In
zi4E9@P4I#@eBcW|Y{nLB#Wrlm4(x<Kc40U6AOL{~!d?VpANJz_4&o3F;|Px87>?rv
zLU0nHIE65r#u=Q&Ih@A@Ttql7Ap(~Xi6}%P2C=w;tGI?Z#3KRMaRWDT3%8MoJGhH`
zxQ_>Th(~ygCwPiyNJ27Fkcu><BLkVp!gIX9OJw5}ULyy&c!Rfihdkt?0EH;Rdwjr0
z6yp;<;|oeqiZYa=0+pyjHEK|cI@F^9jc7tMTJRO$@ExsaLpwUqi68ihU+BVb{J~!c
zahV{D9_R@Xh(ZkFkU%f=MjuF`FZ!WBq%Z&jF$mHSKn8;$3potIP{?B#hGPU2FcPCM
z8j4VYGE|_7F&K++P=h)&pb0IE#{^7-Hgqrvlc9?#n2Kr8!*tBROz6V^hL{B-7{dg!
zVTw7Ji+M1^d@R61m}3zZV+kx^iKVc@GAzdmti&p;#u}`JHEduDJJ`bkj&OoAT(A!7
z;R-jn!vmh!fQ{G$FL=WTzVO3lY{6D+!*=YzPWWRNc4H3$5Qre`MKJbZKMvp^4&gA4
z;3$saI8Go0ClQKM2*YWd!C9Qcd0fCngyRw-a2b(^LNsC!iz~Q_YluTU5^x<ia1*z1
z8;Q7sySRt@cz}m^gvWS-r+9`WBqIf>NJBa@kclij#|ykfHeTU1av%_qQ`6yJZj+s}
zgPV<@2M->VddLd<3CV<ykdv2_R~C{N^pMjL5|fgnSI~oQnV=KGG7%?)m2c@QOK_*N
zdl}j8Q}O@3Qtxic>G8T$_mfPr{}xiTnAg2R_y}c*?q#HzC@(8%uz2x8tEvBf4cRzh
z&F(bO$$+$|J0s0AFz_`nbTTk8FmN)M_0N!jp`n4n{O-Y71_pDwOWOZe(lYMuvh2>N
zQ95-WZ`!>MX;Js&f0Oa7e`Xr~)BjKPzx@=3+TC^5=W{sT_uuvZ8DH{GK3zyw!P92r
u25$#1bvsW_b(@VFJ$w~>95!xp@o-ldud6X$LrYFxp5N`p^I~(}BKr?qi98(u

diff --git a/tests/testthat/data/mixed2.parquet b/tests/testthat/data/mixed2.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..f7356833c9c369da4e072ee2bf4fba0f82935030
GIT binary patch
literal 6938
zcmeI%d0b6-AHeZ@E4iVOa&xajwuDd-**iDwQOZ&ZEmGM^p{%W1W#5veMcNQT8H^Mv
z`!aUMHVeiW+st5Q%=0<LYmCS1`Qv&1ndf<YU%l@+zu)ilJE!yd-qZd5uAAU)F4vI9
zDCMb27kQSZT%s$HR5W=pSW`ksp$2tmpaH~zhLAxEjnEiPppDPa6gp@I=9B25Ipoks
z3n-vOOBlcqt<V~6V1%}4hxX`zjxa_in4mMdpesz#4c*ZLW-x~ZdZHIB(HnhWg}&&A
z{uqFP7=*#Fh5!|8Fa)-+gFPJJ2q!qh1w%0mu5iO}xWfY@FcPCM8lLdN7<j`6V=)fn
z;R`?bBLEW+h=~Y7FhVd1lQ9KTF%6*z!*qlr0y8iZvk-|W%*Gtd#XQW%0z@MQv4}%F
z60i`7NJ27Fkcu=cLOK>>36^3RmSY80Vii_n4b~z9>yU}{*no}Lge+tu2f5gcJZwQe
z3Q&k56k{v4VLM8&13R$`rPz%<*o!ihV;?@pejLC-e1Su#z+qIP3P*4h$54$L)Z#c!
z;3Q7rG|u2G&fz>R;7eS@C0xc8T*Wn9#|_-XSGa}SxP!a6hp+JszQuRAj|X^&@9_vf
z;4yy06FkK;JjV<CgrD&XUg8yA<5&EK-|+^2Kz#E{p$2tmpaC?|5He_?5gMZjwDB35
zLI=&D3q3T49QtSh1(awB0~n$eTB8k&&=&2`9v#pT#^?kSbVe6+g(<qBJ9@wj=CD9d
z^nxXNqYtdm7yZy5127PSFc{Vlpn?sCz!r9}hXWkp1ZTKlD2BlmZWs=CcwhuZViZQh
z6J8htZ}?y=#$h~s;Rk;NU;+X$5kUw>2qs}NreG?jArxVlj&MX^24-RwA`ykzn1i{P
zhxu55Xv82Eafn9(79tTzNJa`$k%mP`$6_pjTp~}_l|OE1Dv!~T>&P|bnuZDuaX_IV
zW|zLi<h>Rh30g0XNVTFRYBGg&R!pqAOxMJ-A}cn&p-wx8wbt2j3mYpeg0EC$$0s#4
zQY9;doP-oT6ZZno!#NAnTA2CQtQB$-(+#Y`?_W8bo3x~jb(~D8+MK+sy~A=7ugc9S
zD>}L5IAo~uQdf2L+!cJaGB0gS58ujUrOlQ_89jr~7kE`|Nzd#PcDE+OCV%mU{!!2F
zU#-etvT1OPnpVpp1xvGSl65<eIa07J*M4a`$8|#rm*+XJwFtR(q;N&PYnCddrESs5
zLXQIX!ZAmSRuzxl;a|JXws`e6@AB{m*NzsiDH&f8r)6Nbb?wf8n&q9nk8RB;4LY0S
zm}$3d-JZ!;c7<F&wk@+P^mb*6f&KRN`y%e2FZ8b7zF~jlle@K<_9Yt+&VBjp!S(8r
zO^2c->WvH?c4Qrnm+5u!so9ZTm88?&X}!bFoTF)qo|A6W?98oRVq}wQ=(uZh?Fti*
zBA?n_c_-GG1sq@RSi0p@rd7nl8?~kRXEs^KH)`dyyWm`|!-_6rkMAzLknfi3w83dl
z(ZyoV(n&Xu?<u}q;#-y4%6aeBtEIsgipHMUyX|^e*uCQ$oXfV~+#mJ);ms3eCASX6
zs5fryQoiF(RkB{!aVN`n-m8|psg$0sls1XxuD+>~e(>{}o=WNYN~x^D*_=U%>i=e%
z{EytK|L0_XmnJ0O2RTCXy)-dW)u+jNP5Bm0Q+Y*$51uAwe|egSEn>0yi*%`$*Qe*g
z-{-j?mKhfEm4B8QG0M763{q{GL=EcDKm%x^A!N`(BQ!=6XyY?9g$|lQ7kX$8IrPy2
z3MkPM1~5b`v_=~kp)J~>JvyKxjL``u=!`Dt3R84Lcl3Z6%wd6^=mkskMju$AFZ!WB
z24EltVKA&AKm{8Nfi3J{4+l8H3C?iAPz-}B+%O#O@W2R+#3+o0C%iBQ-tfU#jKg^N
z!Vmrkzyt(hB7zW%5KO{kOu<x4Lny*99pQ+;49vtVL?Q~aF$Z%o5A(4A(TG7T;t-Dn
zEJPxbkc<?hA`Od>j>TAlrC5gLSb>#Th1FPtwaCCaWMVxwU?Vmm3)#p)E;b_%Tab?e
z6ru>l*otk~juPy^PV7P{c4H6rq73EOhtIJe2XGKy;1DWs7?r5P5gf%aRHFv9IF1uI
ziBmX@GdPQLIFAeX5*Kj^mvIGGaShjT12^#%Zs9iW;4bdrYkY%m@g45t0UqLeJi-rn
zj34m?Pw@=T@d7{LXZ(Vfc!k&a6~EzkyulyZvZt>!q*ASBpWgo54jT-CE$m<q2ROnB
z&Tzp{41+7&FdXjizzB@QD2#?Dyf6md@WEJ&!+7|@5B><i1O#Ftf)I=lOu}SL!Bk8`
zD8euu;fTNt%)~52A_}uH2XiqG^RWQYh(Rpk5RU{bL?V)qj1;6I4U3SjEgK-#7-ER!
zgcu+D5Gi{%sF2kkR9AC+q?gf8wa2I0<86uhkp!Vs{YdYhY4fQT`L8d$|KnQZy##q%
zfru*{AL%7+KGi0FyEO~BhH`+VM4=fG5F9wwPp%=6t94|BGD;%X5Vx}>`V}3OhDuXo
ziJ@FgX(`dvQ8Fr5qg(&6t^R3q<K0SQ*}q!gQkqi#Fs=B%iboA;AkL-nZm!w&bDbWq
zUv6Q%$l3UkxuN2{?BVdb_-jtR>y`ZT<oXBlq+Fb_Oh0i#a~4_+6-@+pch}MV>i<H;
zBWVvYdIt%_aPft37KBJa6(raRLXconHzcT3f-qDZv=IbHaZCH%mX^4yvVGex2*XA&
zsg>BYsqd_tx^7qO6a;ZsWhw4Oxp8QuxX0-TMn;O~B^<=-Acl)4dmC@(tLy)8zFy)n
zTp!mNB&Z_mudnX+JnCKtN)$$6e&N$+2F~af5Ej<WFFZUn(r8v-ctl9(G$V7X?&jUi
Sl%|ID-$6B2W9^o2#r^@KGRJcO

literal 0
HcmV?d00001

diff --git a/tests/testthat/test-read-parquet-5.R b/tests/testthat/test-read-parquet-5.R
index 5d9b8bc..6bb4220 100644
--- a/tests/testthat/test-read-parquet-5.R
+++ b/tests/testthat/test-read-parquet-5.R
@@ -121,14 +121,30 @@ test_that("class", {
 
 test_that("mixing RLE_DICTIONARY and PLAIN", {
   # https://github.com/r-lib/nanoparquet/issues/110
-  # import pyarrow as pa
-  # import pyarrow.parquet as pq
-  # table = pa.table({'x': pa.array(range(2000), type=pa.int32())})
-  # pq.write_table(table, 'mixed-int32.parquet', dictionary_pagesize_limit = 400)
-  pf <- test_path("data/mixed-int32.parquet")
+  pf <- test_path("data/mixed.parquet")
   expect_snapshot({
     as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
     as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
   })
-  expect_equal(read_parquet(pf)$x, 0:1999)
+  tab <- read_parquet(pf)
+  expect_equal(tab$x, rep(0:399, 6))
+  expect_equal(tab$y, rep(0:399, 6))
+
+  pf <- test_path("data/mixed2.parquet")
+  expect_snapshot({
+    as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
+    as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
+  })
+  tab <- read_parquet(pf)
+  expect_equal(tab$x, rep(0:399, 6))
+  expect_equal(tab$y, rep(0:399, 6))
+
+  pf <- test_path("data/mixed-miss.parquet")
+  expect_snapshot({
+    as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
+    as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
+  })
+  tab <- read_parquet(pf)
+  expect_equal(tab$x, 0:2399)
+  expect_equal(tab$y, 0:2399)
 })

From 8fb914a694d4af38a7a9b3875c2c7b2d7ece143c Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Fri, 7 Feb 2025 12:17:41 +0100
Subject: [PATCH 03/18] Simplify dict-step recording

I'll also rename dict-step, because it is not always a
dictionary.
---
 src/RParquetReader.cpp | 82 +++++++++++-------------------------------
 src/RParquetReader.h   |  9 -----
 2 files changed, 21 insertions(+), 70 deletions(-)

diff --git a/src/RParquetReader.cpp b/src/RParquetReader.cpp
index 27958d0..491ef47 100644
--- a/src/RParquetReader.cpp
+++ b/src/RParquetReader.cpp
@@ -93,6 +93,7 @@ void RParquetReader::init(RParquetFilter &filter) {
 
   tmpdata.resize(metadata.num_cols_to_read);
   dicts.resize(metadata.num_cols_to_read);
+  dict_steps.resize(metadata.num_cols_to_read);
   byte_arrays.resize(metadata.num_cols_to_read);
   present.resize(metadata.num_cols_to_read);
 
@@ -407,6 +408,15 @@ rtype::rtype(parquet::SchemaElement &sel) {
 
 void RParquetReader::alloc_column_chunk(ColumnChunk &cc)  {
   uint32_t cl = colmap[cc.column] - 1;
+  uint32_t rg = cc.row_group;
+  if (dict_steps[cl].size() == 0) {
+    // first row group of this column
+    dict_steps[cl].resize(metadata.num_row_groups);
+  }
+  dict_steps[cl][rg].push_back(
+    { metadata.row_group_offsets[rg], 0, 0, cc.has_dictionary }
+  );
+
   if (metadata.r_types[cl].byte_array) {
     if (byte_arrays[cl].size() == 0) {
       byte_arrays[cl].resize(metadata.num_row_groups);
@@ -471,8 +481,18 @@ void RParquetReader::alloc_data_page(DataPage &data) {
   // A non-dict-index page in a column chunk that has a
   // dictionary page. Should be rare, but arrow does write
   // these: https://github.com/r-lib/nanoparquet/issues/110
+  std::vector<dict_step> &dss = dict_steps[cl][rg];
+  dict_step &last = dss.back();
   if (has_dict && !is_index) {
-    notdicts.push_back({ cl, rg, page_off, data.num_values, data.num_present });
+    dss.push_back({ page_off, data.num_values, data.num_present, false });
+  } else {
+    // do we need to add a new dict step?
+    if (last.dict) {
+      last.num_values += data.num_values;
+      last.num_present += data.num_present;
+    } else {
+      dss.push_back({ page_off, data.num_values, data.num_present, is_index });
+    }
   }
 
   if (is_index) {
@@ -2044,67 +2064,7 @@ void convert_columns_to_r_(postprocess *pp) {
   }
 }
 
-void RParquetReader::calculate_dict_steps() {
-  if (notdicts.size() == 0) {
-    calculate_dict_steps_simple();
-  } else {
-    calculate_dict_steps_bad();
-  }
-}
-
-void RParquetReader::calculate_dict_steps_simple() {
-  dict_steps.resize(metadata.num_cols_to_read);
-  for (uint32_t cl = 0; cl < metadata.num_cols_to_read; cl++) {
-    dict_steps[cl].resize(metadata.num_row_groups);
-    bool dict0 = dicts[cl].size() != 0;
-    for (uint32_t rg = 0; rg < metadata.num_row_groups; rg++) {
-      int64_t rgo = metadata.row_group_offsets[rg];
-      int64_t num_values = metadata.row_group_num_rows[rg];
-      uint32_t num_present = present[cl].size() == 0 ?
-        num_values : present[cl][rg].num_present;
-      bool dict = dict0 && dicts[cl][rg].dict_len > 0;
-      dict_step ds = { rgo, num_values, num_present, dict };
-      dict_steps[cl][rg].push_back(ds);
-    }
-  }
-}
-
-void RParquetReader::calculate_dict_steps_bad() {
-  // start with assuming no bad pages (bad = not dict encoded in dict col)
-  calculate_dict_steps_simple();
-  // now post-process this
-  for (page_range &bad: notdicts) {
-    int64_t bad_end = bad.start + bad.num_values;
-    std::vector<dict_step> &dss = dict_steps[bad.column][bad.row_group];
-    // find the dict step it applies to
-    for (auto ds = dss.begin(); ds != dss.end(); ++ds) {
-      int64_t ds_end = ds->start + ds->num_values;
-      if (bad.start >= ds->start && bad.start < ds_end) {
-        if (bad_end > ds_end) {
-          Rf_error("Internal error, impossible mix of dict and non-dict pages");
-        }
-        if (bad_end == ds_end) {
-          ds->num_values -= bad.num_values;
-          ds->num_present -= bad.num_present;
-          dss.insert(++ds, { bad.start, bad.num_values, bad.num_present, false });
-        } else {
-          int64_t num_miss = ds->num_values - ds->num_present;
-          dict_step newsteps[2] = {
-            { bad.start, bad_end - bad.start, bad_end - bad.start, false },
-            { bad_end, ds_end - bad_end, ds_end - bad_end - num_miss, ds->dict }
-          };
-          ds->num_values = bad.start - ds->start;
-          ds->num_present = bad.start - ds->start;
-          dss.insert(++ds, newsteps, newsteps + 2);
-        }
-        break;
-      }
-    }
-  }
-}
-
 void RParquetReader::convert_columns_to_r() {
-  calculate_dict_steps();
   postprocess pp = {
     columns,
     facdicts,
diff --git a/src/RParquetReader.h b/src/RParquetReader.h
index eeecf6d..36fac78 100644
--- a/src/RParquetReader.h
+++ b/src/RParquetReader.h
@@ -96,14 +96,6 @@ struct dict_step {
   bool dict;
 };
 
-struct page_range {
-  uint32_t column;
-  uint32_t row_group;
-  int64_t start;
-  int64_t num_values;
-  int64_t num_present;
-};
-
 class RParquetReader : public ParquetReader {
 public:
   RParquetReader(std::string filename, bool readwrite = false);
@@ -131,7 +123,6 @@ class RParquetReader : public ParquetReader {
 
   std::vector<std::vector<uint8_t>> tmpdata;
   std::vector<std::vector<tmpdict>> dicts;
-  std::vector<page_range> notdicts;
   std::vector<std::vector<std::vector<dict_step>>> dict_steps;
   std::vector<std::vector<std::vector<tmpbytes>>> byte_arrays;
   std::vector<std::vector<presentmap>> present;

From 0a91e5bc9c143658941316b28f5662fdbe3eba88 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Fri, 7 Feb 2025 12:21:06 +0100
Subject: [PATCH 04/18] Rename dict_step to chunk_part

---
 src/RParquetReader.cpp | 64 +++++++++++++++++++++---------------------
 src/RParquetReader.h   |  4 +--
 2 files changed, 34 insertions(+), 34 deletions(-)

diff --git a/src/RParquetReader.cpp b/src/RParquetReader.cpp
index 491ef47..4fa7445 100644
--- a/src/RParquetReader.cpp
+++ b/src/RParquetReader.cpp
@@ -93,7 +93,7 @@ void RParquetReader::init(RParquetFilter &filter) {
 
   tmpdata.resize(metadata.num_cols_to_read);
   dicts.resize(metadata.num_cols_to_read);
-  dict_steps.resize(metadata.num_cols_to_read);
+  chunk_parts.resize(metadata.num_cols_to_read);
   byte_arrays.resize(metadata.num_cols_to_read);
   present.resize(metadata.num_cols_to_read);
 
@@ -409,11 +409,11 @@ rtype::rtype(parquet::SchemaElement &sel) {
 void RParquetReader::alloc_column_chunk(ColumnChunk &cc)  {
   uint32_t cl = colmap[cc.column] - 1;
   uint32_t rg = cc.row_group;
-  if (dict_steps[cl].size() == 0) {
+  if (chunk_parts[cl].size() == 0) {
     // first row group of this column
-    dict_steps[cl].resize(metadata.num_row_groups);
+    chunk_parts[cl].resize(metadata.num_row_groups);
   }
-  dict_steps[cl][rg].push_back(
+  chunk_parts[cl][rg].push_back(
     { metadata.row_group_offsets[rg], 0, 0, cc.has_dictionary }
   );
 
@@ -481,17 +481,17 @@ void RParquetReader::alloc_data_page(DataPage &data) {
   // A non-dict-index page in a column chunk that has a
   // dictionary page. Should be rare, but arrow does write
   // these: https://github.com/r-lib/nanoparquet/issues/110
-  std::vector<dict_step> &dss = dict_steps[cl][rg];
-  dict_step &last = dss.back();
+  std::vector<chunk_part> &cps = chunk_parts[cl][rg];
+  chunk_part &last = cps.back();
   if (has_dict && !is_index) {
-    dss.push_back({ page_off, data.num_values, data.num_present, false });
+    cps.push_back({ page_off, data.num_values, data.num_present, false });
   } else {
     // do we need to add a new dict step?
     if (last.dict) {
       last.num_values += data.num_values;
       last.num_present += data.num_present;
     } else {
-      dss.push_back({ page_off, data.num_values, data.num_present, is_index });
+      cps.push_back({ page_off, data.num_values, data.num_present, is_index });
     }
   }
 
@@ -531,7 +531,7 @@ struct postprocess {
   rmetadata &metadata;
   std::vector<std::vector<uint8_t>> &tmpdata;
   std::vector<std::vector<tmpdict>> &dicts;
-  std::vector<std::vector<std::vector<dict_step>>> &dict_steps;
+  std::vector<std::vector<std::vector<chunk_part>>> &chunk_parts;
   std::vector<std::vector<std::vector<tmpbytes>>> &byte_arrays;
   std::vector<std::vector<presentmap>> &present;
 };
@@ -540,11 +540,11 @@ void convert_column_to_r_dicts(postprocess *pp, uint32_t cl) {
   if (pp->dicts[cl].size() == 0) return;
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
     if (pp->dicts[cl][rg].dict_len == 0) continue;
-    std::vector<dict_step> &dss = pp->dict_steps[cl][rg];
-    for (uint32_t dsi = 0; dsi < dss.size(); dsi++) {
-      if (!dss[dsi].dict) continue;
-      int64_t from = dss[dsi].start;
-      int64_t num_values = dss[dsi].num_values;
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
+      if (!cps[cpi].dict) continue;
+      int64_t from = cps[cpi].start;
+      int64_t num_values = cps[cpi].num_values;
       SEXP x = VECTOR_ELT(pp->columns, cl);
       switch (TYPEOF(x)) {
       case INTSXP: {
@@ -584,13 +584,13 @@ void convert_column_to_r_dicts(postprocess *pp, uint32_t cl) {
 
 void convert_column_to_r_dicts_na(postprocess *pp, uint32_t cl) {
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    std::vector<dict_step> &dss = pp->dict_steps[cl][rg];
-    for (uint32_t dsi = 0; dsi < dss.size(); dsi++) {
-      int64_t from = dss[dsi].start;
-      uint32_t num_values = dss[dsi].num_values;
-      int64_t num_present = dss[dsi].num_present;
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
+      int64_t from = cps[cpi].start;
+      uint32_t num_values = cps[cpi].num_values;
+      int64_t num_present = cps[cpi].num_present;
       bool hasmiss = num_present != num_values;
-      bool hasdict = dss[dsi].dict;
+      bool hasdict = cps[cpi].dict;
       if (!hasdict && !hasmiss) {
         continue;
       } else if (!hasdict && hasmiss) {
@@ -775,11 +775,11 @@ void convert_column_to_r_int64_nodict_nomiss(postprocess *pp, uint32_t cl) {
 void convert_column_to_r_int64_dict_nomiss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    std::vector<dict_step> &dss = pp->dict_steps[cl][rg];
-    for (uint32_t dsi = 0; dsi < dss.size(); dsi++) {
-      int64_t from = dss[dsi].start;
-      uint32_t num_values = dss[dsi].num_values;
-      bool hasdict = dss[dsi].dict;
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
+      int64_t from = cps[cpi].start;
+      uint32_t num_values = cps[cpi].num_values;
+      bool hasdict = cps[cpi].dict;
       double *beg = REAL(x) + from;
       double *end = beg + num_values;
       if (!hasdict) {
@@ -841,13 +841,13 @@ void convert_column_to_r_int64_nodict_miss(postprocess *pp, uint32_t cl) {
 void convert_column_to_r_int64_dict_miss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    std::vector<dict_step> &dss = pp->dict_steps[cl][rg];
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
     bool rg_dict_converted = false;
-    for (uint32_t dsi = 0; dsi < dss.size(); dsi++) {
-      int64_t from = dss[dsi].start;
-      uint32_t num_values = dss[dsi].num_values;
-      uint32_t num_present = dss[dsi].num_present;
-      bool hasdict = dss[dsi].dict;
+    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
+      int64_t from = cps[cpi].start;
+      uint32_t num_values = cps[cpi].num_values;
+      uint32_t num_present = cps[cpi].num_present;
+      bool hasdict = cps[cpi].dict;
       bool hasmiss = num_present != num_values;
       double *beg = REAL(x) + from;
       // In theory this happen
@@ -2072,7 +2072,7 @@ void RParquetReader::convert_columns_to_r() {
     metadata,
     tmpdata,
     dicts,
-    dict_steps,
+    chunk_parts,
     byte_arrays,
     present
   };
diff --git a/src/RParquetReader.h b/src/RParquetReader.h
index 36fac78..5220fc4 100644
--- a/src/RParquetReader.h
+++ b/src/RParquetReader.h
@@ -89,7 +89,7 @@ class RParquetFilter {
   std::vector<uint32_t> columns;
 };
 
-struct dict_step {
+struct chunk_part {
   int64_t start;
   int64_t num_values;
   int64_t num_present;
@@ -123,7 +123,7 @@ class RParquetReader : public ParquetReader {
 
   std::vector<std::vector<uint8_t>> tmpdata;
   std::vector<std::vector<tmpdict>> dicts;
-  std::vector<std::vector<std::vector<dict_step>>> dict_steps;
+  std::vector<std::vector<std::vector<chunk_part>>> chunk_parts;
   std::vector<std::vector<std::vector<tmpbytes>>> byte_arrays;
   std::vector<std::vector<presentmap>> present;
   rmetadata metadata;

From 9130c450db16205083978739be4393d320d219bd Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Fri, 7 Feb 2025 12:42:06 +0100
Subject: [PATCH 05/18] Fix chunk part recording

---
 src/RParquetReader.cpp  | 32 +++++++++++++++++---------------
 src/lib/ParquetReader.h |  2 +-
 2 files changed, 18 insertions(+), 16 deletions(-)

diff --git a/src/RParquetReader.cpp b/src/RParquetReader.cpp
index 4fa7445..da84c34 100644
--- a/src/RParquetReader.cpp
+++ b/src/RParquetReader.cpp
@@ -462,17 +462,6 @@ void RParquetReader::alloc_data_page(DataPage &data) {
   auto rg = data.cc.row_group;
   rtype rt = metadata.r_types[cl];
 
-  // If there are missing values, then the page offset is defined by
-  // the number of present values. I.e. within each column chunk we put the
-  // present values at the beginning of the memory allocated for that
-  // column chunk.
-  uint32_t page_off = data.from;
-  if (data.cc.optional) {
-    page_off = present[cl][rg].num_present;
-    present[cl][rg].num_present += data.num_present;
-    data.present = present[cl][rg].map.data() + data.from;
-  }
-
   bool has_dict = data.cc.has_dictionary;
   bool is_index = has_dict &&
     (data.encoding == parquet::Encoding::RLE_DICTIONARY ||
@@ -481,20 +470,33 @@ void RParquetReader::alloc_data_page(DataPage &data) {
   // A non-dict-index page in a column chunk that has a
   // dictionary page. Should be rare, but arrow does write
   // these: https://github.com/r-lib/nanoparquet/issues/110
+  uint32_t page_off = data.from;
   std::vector<chunk_part> &cps = chunk_parts[cl][rg];
   chunk_part &last = cps.back();
   if (has_dict && !is_index) {
-    cps.push_back({ page_off, data.num_values, data.num_present, false });
+    cps.push_back({ data.from, data.num_values, data.num_present, false });
   } else {
-    // do we need to add a new dict step?
-    if (last.dict) {
+    // do we need to add a new dict step? not if no dicts or last is dict
+    if (!has_dict || last.dict) {
+      if (data.cc.optional) {
+        // If there are missing values, then the page offset is defined by
+        // the number of present values. I.e. within each column chunk we put the
+        // present values at the beginning of the memory allocated for that
+        // column chunk.
+        page_off = present[cl][rg].num_present;
+      }
       last.num_values += data.num_values;
       last.num_present += data.num_present;
     } else {
-      cps.push_back({ page_off, data.num_values, data.num_present, is_index });
+      cps.push_back({ data.from, data.num_values, data.num_present, is_index });
     }
   }
 
+  if (data.cc.optional) {
+    present[cl][rg].num_present += data.num_present;
+    data.present = present[cl][rg].map.data() + data.from;
+  }
+
   if (is_index) {
       data.data = (uint8_t*) (dicts[cl][rg].indices.data() + page_off);
 
diff --git a/src/lib/ParquetReader.h b/src/lib/ParquetReader.h
index 35e8eb9..dad1f4a 100644
--- a/src/lib/ParquetReader.h
+++ b/src/lib/ParquetReader.h
@@ -98,7 +98,7 @@ struct DataPage {
   uint8_t *present;
   uint32_t num_values;
   uint32_t num_present;
-  uint64_t from;
+  int64_t from;
   parquet::Encoding::type encoding;
   StringSet strs;
   // these are for DELTA_BYTE_ARRAY pages, these need a bit more

From 8ca10b3f59ff49e5d4d1c8a041dc71e53720d097 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Fri, 7 Feb 2025 13:03:36 +0100
Subject: [PATCH 06/18] More mixed dict column chunks support

---
 src/RParquetReader.cpp | 340 ++++++++++++++++++++++-------------------
 1 file changed, 180 insertions(+), 160 deletions(-)

diff --git a/src/RParquetReader.cpp b/src/RParquetReader.cpp
index da84c34..7edb3ab 100644
--- a/src/RParquetReader.cpp
+++ b/src/RParquetReader.cpp
@@ -878,6 +878,7 @@ void convert_column_to_r_int64_dict_miss(postprocess *pp, uint32_t cl) {
       } else {
         // convert dict values first, if not yet done
         if (!rg_dict_converted) {
+          rg_dict_converted = true;
           double *dbeg = (double *)pp->dicts[cl][rg].buffer.data();
           double *dend = dbeg + pp->dicts[cl][rg].dict_len;
           int64_t *idbeg = (int64_t *)dbeg;
@@ -947,34 +948,40 @@ void convert_column_to_r_float_nodict_nomiss(postprocess *pp, uint32_t cl) {
 void convert_column_to_r_float_dict_nomiss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    int64_t off = pp->metadata.row_group_offsets[rg];
-    double *beg = REAL(x) + off;
-    // In theory we might dictionary encode a subset of the columns only
-    bool hasdict = pp->dicts[cl][rg].dict_len > 0;
-    if (!hasdict) {
-      double *end = beg + num_values - 1;
-      float *fend = ((float*) beg) + num_values - 1;
-      while (beg <= end) {
-        *end-- = static_cast<double>(*fend--);
-      }
-    } else {
-      // Convert the dictionary first
-      uint32_t dict_len = pp->dicts[cl][rg].dict_len;
-      double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
-      double *dend = dbeg + dict_len - 1;
-      float *fdend = ((float*) dbeg) + dict_len - 1;
-      while (dbeg <= dend) {
-        *dend-- = static_cast<double>(*fdend--);
-      }
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    bool rg_dict_converted = false;
+    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
+      int64_t from = cps[cpi].start;
+      uint32_t num_values = cps[cpi].num_values;
+      bool hasdict = cps[cpi].dict;
+      double *beg = REAL(x) + from;
+      // In theory we might dictionary encode a subset of the columns only
+      if (!hasdict) {
+        double *end = beg + num_values - 1;
+        float *fend = ((float*) beg) + num_values - 1;
+        while (beg <= end) {
+          *end-- = static_cast<double>(*fend--);
+        }
+      } else {
+        // Convert the dictionary first
+        if (!rg_dict_converted) {
+        uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+          rg_dict_converted = true;
+          double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
+          double *dend = dbeg + dict_len - 1;
+          float *fdend = ((float*) dbeg) + dict_len - 1;
+          while (dbeg <= dend) {
+            *dend-- = static_cast<double>(*fdend--);
+          }
+        }
 
-      // fill in the dict
-      double *end = beg + num_values;
-      double *dict = (double*) pp->dicts[cl][rg].buffer.data();
-      uint32_t *didx = pp->dicts[cl][rg].indices.data();
-      while (beg < end) {
-        *beg++ = dict[*didx++];
+        // fill in the dict
+        double *end = beg + num_values;
+        double *dict = (double*) pp->dicts[cl][rg].buffer.data();
+        uint32_t *didx = pp->dicts[cl][rg].indices.data();
+        while (beg < end) {
+          *beg++ = dict[*didx++];
+        }
       }
     }
   }
@@ -1014,66 +1021,70 @@ void convert_column_to_r_float_nodict_miss(postprocess *pp, uint32_t cl) {
 void convert_column_to_r_float_dict_miss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    double *beg = REAL(x) + pp->metadata.row_group_offsets[rg];
-    // In theory this happen
-    bool hasdict = pp->dicts[cl][rg].dict_len > 0;
-    if (!hasdict) {
-      uint32_t num_present = pp->present[cl][rg].num_present;
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    bool rg_dict_converted = false;
+    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
+      int64_t from = cps[cpi].start;
+      uint32_t num_values = cps[cpi].num_values;
+      uint32_t num_present = cps[cpi].num_present;
+      bool hasdict = cps[cpi].dict;
       bool hasmiss = num_present != num_values;
-      if (!hasmiss) {
-        double *endm1 = beg + num_values - 1;
-        float *fendm1 = ((float*) beg) + num_values - 1;
-        while (beg <= endm1) {
-          *endm1-- = static_cast<double>(*fendm1--);
-        }
-      } else {
-        // nodict, miss
-        double *endm1 = beg + num_values - 1;
-        float *fendm1 = ((float*) beg) + num_present - 1;
-        uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-        while (beg <= endm1) {
-          if (*presm1) {
+      double *beg = REAL(x) + from;
+      if (!hasdict) {
+        if (!hasmiss) {
+          double *endm1 = beg + num_values - 1;
+          float *fendm1 = ((float*) beg) + num_values - 1;
+          while (beg <= endm1) {
             *endm1-- = static_cast<double>(*fendm1--);
-            presm1--;
-          } else {
-            *endm1-- = NA_REAL;
-            presm1--;
+          }
+        } else {
+          // nodict, miss
+          double *endm1 = beg + num_values - 1;
+          float *fendm1 = ((float*) beg) + num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          while (beg <= endm1) {
+            if (*presm1) {
+              *endm1-- = static_cast<double>(*fendm1--);
+              presm1--;
+            } else {
+              *endm1-- = NA_REAL;
+              presm1--;
+            }
           }
         }
-      }
 
-    } else {
-      // convert dict values first
-      double *dbeg = (double *)pp->dicts[cl][rg].buffer.data();
-      uint32_t dict_len = pp->dicts[cl][rg].dict_len;
-      double *dendm1 = dbeg + dict_len - 1;
-      float *fdendm1 = ((float*) dbeg) + dict_len - 1;
-      while (dbeg <= dendm1) {
-        *dendm1-- = static_cast<double>(*fdendm1--);
-      }
-      // fill in values
-      double *dict = (double *)pp->dicts[cl][rg].buffer.data();
-      uint32_t num_present = pp->present[cl][rg].num_present;
-      bool hasmiss = num_present != num_values;
-      if (!hasmiss) {
-        double *end = beg + num_values;
-        uint32_t *didx = pp->dicts[cl][rg].indices.data();
-        while (beg < end) {
-          *beg++ = dict[*didx++];
-        }
       } else {
-        double *endm1 = beg + num_values - 1;
-        uint32_t *dendm1 = pp->dicts[cl][rg].indices.data() + num_present - 1;
-        uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-        while (beg <= endm1) {
-          if (*presm1) {
-            *endm1-- = dict[*dendm1--];
-            presm1--;
-          } else {
-            *endm1-- = NA_REAL;
-            presm1--;
+        // convert dict values first
+        if (!rg_dict_converted) {
+          rg_dict_converted = true;
+          double *dbeg = (double *)pp->dicts[cl][rg].buffer.data();
+          uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+          double *dendm1 = dbeg + dict_len - 1;
+          float *fdendm1 = ((float*) dbeg) + dict_len - 1;
+          while (dbeg <= dendm1) {
+            *dendm1-- = static_cast<double>(*fdendm1--);
+          }
+        }
+        // fill in values
+        double *dict = (double *)pp->dicts[cl][rg].buffer.data();
+        if (!hasmiss) {
+          double *end = beg + num_values;
+          uint32_t *didx = pp->dicts[cl][rg].indices.data();
+          while (beg < end) {
+            *beg++ = dict[*didx++];
+          }
+        } else {
+          double *endm1 = beg + num_values - 1;
+          uint32_t *dendm1 = pp->dicts[cl][rg].indices.data() + num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          while (beg <= endm1) {
+            if (*presm1) {
+              *endm1-- = dict[*dendm1--];
+              presm1--;
+            } else {
+              *endm1-- = NA_REAL;
+              presm1--;
+            }
           }
         }
       }
@@ -1111,31 +1122,36 @@ void convert_column_to_r_int96_dict_nomiss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   int96_t *src0 = (int96_t*) pp->tmpdata[cl].data();
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    int64_t from = pp->metadata.row_group_offsets[rg];
-    // in theory some row groups might be dict encoded, some not
-    bool hasdict = pp->dicts[cl][rg].dict_len > 0;
-    double *beg = REAL(x) + from;
-    double *end = beg + num_values;
-    if (!hasdict) {
-      int96_t *src = src0 + from;
-      while (beg < end) {
-        *beg++ = impala_timestamp_to_milliseconds(*src++);
-      }
-    } else {
-      // convert dict values in place
-      double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
-      uint32_t dict_len = pp->dicts[cl][rg].dict_len;
-      double *dend = dbeg + dict_len;
-      int96_t *idbeg = (int96_t*) dbeg;
-      while (dbeg < dend) {
-        *dbeg++ = impala_timestamp_to_milliseconds(*idbeg++);
-      }
-      double *dict = (double*) pp->dicts[cl][rg].buffer.data();
-      uint32_t *didx = pp->dicts[cl][rg].indices.data();
-      while (beg < end) {
-        *beg++ = dict[*didx++];
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    bool rg_dict_converted = false;
+    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
+      int64_t from = cps[cpi].start;
+      uint32_t num_values = cps[cpi].num_values;
+      bool hasdict = cps[cpi].dict;
+      double *beg = REAL(x) + from;
+      double *end = beg + num_values;
+      if (!hasdict) {
+        int96_t *src = src0 + from;
+        while (beg < end) {
+          *beg++ = impala_timestamp_to_milliseconds(*src++);
+        }
+      } else {
+        // convert dict values in place
+        if (!rg_dict_converted) {
+          rg_dict_converted = true;
+          double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
+          uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+          double *dend = dbeg + dict_len;
+          int96_t *idbeg = (int96_t*) dbeg;
+          while (dbeg < dend) {
+            *dbeg++ = impala_timestamp_to_milliseconds(*idbeg++);
+          }
+        }
+        double *dict = (double*) pp->dicts[cl][rg].buffer.data();
+        uint32_t *didx = pp->dicts[cl][rg].indices.data();
+        while (beg < end) {
+          *beg++ = dict[*didx++];
+        }
       }
     }
   }
@@ -1181,65 +1197,69 @@ void convert_column_to_r_int96_dict_miss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   int96_t *src0 = (int96_t*) pp->tmpdata[cl].data();
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    int64_t from = pp->metadata.row_group_offsets[rg];
-    double *beg = REAL(x) + from;
-    // In theory this happen
-    bool hasdict = pp->dicts[cl][rg].dict_len > 0;
-    if (!hasdict) {
-      int96_t *ibeg = src0 + from;
-      uint32_t num_present = pp->present[cl][rg].num_present;
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    bool rg_dict_converted = false;
+    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
+      int64_t from = cps[cpi].start;
+      uint32_t num_values = cps[cpi].num_values;
+      uint32_t num_present = cps[cpi].num_present;
+      bool hasdict = cps[cpi].dict;
       bool hasmiss = num_present != num_values;
-      if (!hasmiss) {
-        double *end = beg + num_values;
-        while (beg < end) {
-          *beg++ = impala_timestamp_to_milliseconds(*ibeg++);
-        }
-      } else {
-        double *endm1 = beg + num_values - 1;
-        int96_t *pendm1 = ibeg + num_present - 1;
-        uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-        while (beg <= endm1) {
-          if (*presm1) {
-            *endm1-- = impala_timestamp_to_milliseconds(*pendm1--);
-            presm1--;
-          } else {
-            *endm1-- = NA_REAL;
-            presm1--;
+      double *beg = REAL(x) + from;
+      if (!hasdict) {
+        int96_t *ibeg = src0 + from;
+        uint32_t num_present = pp->present[cl][rg].num_present;
+        bool hasmiss = num_present != num_values;
+        if (!hasmiss) {
+          double *end = beg + num_values;
+          while (beg < end) {
+            *beg++ = impala_timestamp_to_milliseconds(*ibeg++);
+          }
+        } else {
+          double *endm1 = beg + num_values - 1;
+          int96_t *pendm1 = ibeg + num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          while (beg <= endm1) {
+            if (*presm1) {
+              *endm1-- = impala_timestamp_to_milliseconds(*pendm1--);
+              presm1--;
+            } else {
+              *endm1-- = NA_REAL;
+              presm1--;
+            }
           }
         }
-      }
 
-    } else {
-      // convert dict values first
-      double *dbeg = (double *)pp->dicts[cl][rg].buffer.data();
-      double *dend = dbeg + pp->dicts[cl][rg].dict_len;
-      int96_t *idbeg = (int96_t *) dbeg;
-      while (dbeg < dend) {
-        *dbeg++ = impala_timestamp_to_milliseconds(*idbeg++);
-      }
-      double *dict = (double *)pp->dicts[cl][rg].buffer.data();
-
-      uint32_t num_present = pp->present[cl][rg].num_present;
-      bool hasmiss = num_present != num_values;
-      if (!hasmiss) {
-        double *end = beg + num_values;
-        uint32_t *didx = pp->dicts[cl][rg].indices.data();
-        while (beg < end) {
-          *beg++ = dict[*didx++];
-        }
       } else {
-        double *endm1 = beg + num_values - 1;
-        uint32_t *dendm1 = pp->dicts[cl][rg].indices.data() + num_present - 1;
-        uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-        while (beg <= endm1) {
-          if (*presm1) {
-            *endm1-- = dict[*dendm1--];
-            presm1--;
-          } else {
-            *endm1-- = NA_REAL;
-            presm1--;
+        // convert dict values first
+        if (!rg_dict_converted) {
+          rg_dict_converted = true;
+          double *dbeg = (double *)pp->dicts[cl][rg].buffer.data();
+          double *dend = dbeg + pp->dicts[cl][rg].dict_len;
+          int96_t *idbeg = (int96_t *) dbeg;
+          while (dbeg < dend) {
+            *dbeg++ = impala_timestamp_to_milliseconds(*idbeg++);
+          }
+        }
+        double *dict = (double *)pp->dicts[cl][rg].buffer.data();
+        if (!hasmiss) {
+          double *end = beg + num_values;
+          uint32_t *didx = pp->dicts[cl][rg].indices.data();
+          while (beg < end) {
+            *beg++ = dict[*didx++];
+          }
+        } else {
+          double *endm1 = beg + num_values - 1;
+          uint32_t *dendm1 = pp->dicts[cl][rg].indices.data() + num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          while (beg <= endm1) {
+            if (*presm1) {
+              *endm1-- = dict[*dendm1--];
+              presm1--;
+            } else {
+              *endm1-- = NA_REAL;
+              presm1--;
+            }
           }
         }
       }

From d8f6a4d7fe776ccd70bd655aa798ea0f9e105d8d Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Fri, 7 Feb 2025 16:45:07 +0100
Subject: [PATCH 07/18] Rewrite chunk parts in reader

So it actually works.
---
 src/RParquetReader.cpp                        | 299 +++++++++---------
 src/RParquetReader.h                          |   2 +-
 .../testthat/test-write-parquet-statistics.R  |   2 +-
 3 files changed, 153 insertions(+), 150 deletions(-)

diff --git a/src/RParquetReader.cpp b/src/RParquetReader.cpp
index 7edb3ab..836157a 100644
--- a/src/RParquetReader.cpp
+++ b/src/RParquetReader.cpp
@@ -408,14 +408,10 @@ rtype::rtype(parquet::SchemaElement &sel) {
 
 void RParquetReader::alloc_column_chunk(ColumnChunk &cc)  {
   uint32_t cl = colmap[cc.column] - 1;
-  uint32_t rg = cc.row_group;
   if (chunk_parts[cl].size() == 0) {
     // first row group of this column
     chunk_parts[cl].resize(metadata.num_row_groups);
   }
-  chunk_parts[cl][rg].push_back(
-    { metadata.row_group_offsets[rg], 0, 0, cc.has_dictionary }
-  );
 
   if (metadata.r_types[cl].byte_array) {
     if (byte_arrays[cl].size() == 0) {
@@ -472,23 +468,20 @@ void RParquetReader::alloc_data_page(DataPage &data) {
   // these: https://github.com/r-lib/nanoparquet/issues/110
   uint32_t page_off = data.from;
   std::vector<chunk_part> &cps = chunk_parts[cl][rg];
-  chunk_part &last = cps.back();
-  if (has_dict && !is_index) {
-    cps.push_back({ data.from, data.num_values, data.num_present, false });
+  if (cps.size() == 0) {
+    cps.push_back({ data.from, data.num_values, data.num_present, is_index });
   } else {
-    // do we need to add a new dict step? not if no dicts or last is dict
-    if (!has_dict || last.dict) {
+    chunk_part &last = cps.back();
+    if (is_index == last.dict) {
+      // same as last, extend chunk part
       if (data.cc.optional) {
-        // If there are missing values, then the page offset is defined by
-        // the number of present values. I.e. within each column chunk we put the
-        // present values at the beginning of the memory allocated for that
-        // column chunk.
-        page_off = present[cl][rg].num_present;
+        page_off = last.offset + last.num_present;
       }
       last.num_values += data.num_values;
       last.num_present += data.num_present;
     } else {
-      cps.push_back({ data.from, data.num_values, data.num_present, is_index });
+      // new chunk part
+      cps.push_back({ data.from, data.num_values, data.num_present, is_index});
     }
   }
 
@@ -543,37 +536,38 @@ void convert_column_to_r_dicts(postprocess *pp, uint32_t cl) {
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
     if (pp->dicts[cl][rg].dict_len == 0) continue;
     std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
     for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
       if (!cps[cpi].dict) continue;
-      int64_t from = cps[cpi].start;
-      int64_t num_values = cps[cpi].num_values;
+      int64_t cp_offset = cps[cpi].offset;
+      int64_t cp_num_values = cps[cpi].num_values;
       SEXP x = VECTOR_ELT(pp->columns, cl);
       switch (TYPEOF(x)) {
       case INTSXP: {
-        int *beg = INTEGER(x) + from;
-        int *end = beg + num_values;
+        int *beg = INTEGER(x) + rg_offset + cp_offset;
+        int *end = beg + cp_num_values;
         int *dict = (int*) pp->dicts[cl][rg].buffer.data();
-        uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data();
+        uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data() + cp_offset;
         while (beg < end) {
           *beg++ = dict[*idx++];
         }
         break;
       }
       case REALSXP: {
-        double *beg = REAL(x) + from;
-        double *end = beg + num_values;
+        double *beg = REAL(x) + rg_offset + cp_offset;
+        double *end = beg + cp_num_values;
         double *dict = (double*) pp->dicts[cl][rg].buffer.data();
-        uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data();
+        uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data() + cp_offset;
         while (beg < end) {
           *beg++ = dict[*idx++];
         }
         break;
       }
       case LGLSXP: {                                                     // # nocov start
-        int *beg = LOGICAL(x) + from;
-        int *end = beg + num_values;
+        int *beg = LOGICAL(x) + rg_offset + cp_offset;
+        int *end = beg + cp_num_values;
         int *dict = (int*) pp->dicts[cl][rg].buffer.data();
-        uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data();
+        uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data() + cp_offset;
         while (beg < end) {
           *beg++ = dict[*idx++];
         }
@@ -585,26 +579,27 @@ void convert_column_to_r_dicts(postprocess *pp, uint32_t cl) {
 }
 
 void convert_column_to_r_dicts_na(postprocess *pp, uint32_t cl) {
+  SEXP x = VECTOR_ELT(pp->columns, cl);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
     std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
     for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t from = cps[cpi].start;
-      uint32_t num_values = cps[cpi].num_values;
-      int64_t num_present = cps[cpi].num_present;
-      bool hasmiss = num_present != num_values;
+      int64_t cp_offset = cps[cpi].offset;
+      uint32_t cp_num_values = cps[cpi].num_values;
+      int64_t cp_num_present = cps[cpi].num_present;
+      bool hasmiss = cp_num_present != cp_num_values;
       bool hasdict = cps[cpi].dict;
       if (!hasdict && !hasmiss) {
         continue;
       } else if (!hasdict && hasmiss) {
         // missing values in place
-        SEXP x = VECTOR_ELT(pp->columns, cl);
         switch (TYPEOF(x)) {
         case INTSXP: {
-          int *beg = INTEGER(x) + from;
-          int *endm1 = beg + num_values - 1;
-          int *pendm1 = beg + num_present - 1;
-          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-          uint32_t num_miss = num_values - num_present;
+          int *beg = INTEGER(x) + rg_offset + cp_offset;
+          int *endm1 = beg + cp_num_values - 1;
+          int *pendm1 = beg + cp_num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + cp_offset + cp_num_values - 1;
+          uint32_t num_miss = cp_num_values - cp_num_present;
           while (num_miss > 0) {
             if (*presm1 != 0) {
               *endm1-- = *pendm1--;
@@ -618,11 +613,11 @@ void convert_column_to_r_dicts_na(postprocess *pp, uint32_t cl) {
           break;
         }
         case REALSXP: {
-          double *beg = REAL(x) + from;
-          double *endm1 = beg + num_values - 1;
-          double *pendm1 = beg + num_present - 1;
-          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-          uint32_t num_miss = num_values - num_present;
+          double *beg = REAL(x) + rg_offset + cp_offset;
+          double *endm1 = beg + cp_num_values - 1;
+          double *pendm1 = beg + cp_num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + cp_offset + cp_num_values - 1;
+          uint32_t num_miss = cp_num_values - cp_num_present;
           while (num_miss > 0) {
             if (*presm1) {
               *endm1-- = *pendm1--;
@@ -636,11 +631,11 @@ void convert_column_to_r_dicts_na(postprocess *pp, uint32_t cl) {
           break;
         }
         case LGLSXP: {
-          int *beg = LOGICAL(x) + from;
-          int *endm1 = beg + num_values - 1;
-          int *pendm1 = beg + num_present - 1;
-          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-          uint32_t num_miss = num_values - num_present;
+          int *beg = LOGICAL(x) + rg_offset + cp_offset;
+          int *endm1 = beg + cp_num_values - 1;
+          int *pendm1 = beg + cp_num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + cp_offset + cp_num_values - 1;
+          uint32_t num_miss = cp_num_values - cp_num_present;
           while (num_miss > 0) {
             if (*presm1) {
               *endm1-- = *pendm1--;
@@ -661,20 +656,20 @@ void convert_column_to_r_dicts_na(postprocess *pp, uint32_t cl) {
         SEXP x = VECTOR_ELT(pp->columns, cl);
         switch (TYPEOF(x)) {
         case INTSXP: {
-          int *beg = INTEGER(x) + from;
-          int *end = beg + num_values;
+          int *beg = INTEGER(x) + rg_offset + cp_offset;
+          int *end = beg + cp_num_values;
           int *dict = (int*) pp->dicts[cl][rg].buffer.data();
-          uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data();
+          uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data() + cp_offset;
           while (beg < end) {
             *beg++ = dict[*idx++];
           }
           break;
         }
         case REALSXP: {
-          double *beg = REAL(x) + from;
-          double *end = beg + num_values;
+          double *beg = REAL(x) + rg_offset + cp_offset;
+          double *end = beg + cp_num_values;
           double *dict = (double*) pp->dicts[cl][rg].buffer.data();
-          uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data();
+          uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data() + cp_offset;
           while (beg < end) {
             *beg++ = dict[*idx++];
           }
@@ -682,10 +677,10 @@ void convert_column_to_r_dicts_na(postprocess *pp, uint32_t cl) {
         }
         case LGLSXP: {                                                   // # nocov start
           // BOOLEAN dictionaries are not really possible...
-          int *beg = LOGICAL(x) + from;
-          int *end = beg + num_values;
+          int *beg = LOGICAL(x) + rg_offset + cp_offset;
+          int *end = beg + cp_num_values;
           int *dict = (int*) pp->dicts[cl][rg].buffer.data();
-          uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data();
+          uint32_t *idx = (uint32_t*) pp->dicts[cl][rg].indices.data() + cp_offset;
           while (beg < end) {
             *beg++ = dict[*idx++];
           }
@@ -696,16 +691,14 @@ void convert_column_to_r_dicts_na(postprocess *pp, uint32_t cl) {
         }
       } else if (hasdict && hasmiss) {
         // dict + missing values
-        int64_t from = pp->metadata.row_group_offsets[rg];
-        SEXP x = VECTOR_ELT(pp->columns, cl);
         switch (TYPEOF(x)) {
         case INTSXP: {
-          int *beg = INTEGER(x) + from;
-          int *endm1 = beg + num_values - 1;
+          int *beg = INTEGER(x) + rg_offset + cp_offset;
+          int *endm1 = beg + cp_num_values - 1;
           int *dict = (int*) pp->dicts[cl][rg].buffer.data();
           uint32_t *idxm1 =
-            (uint32_t*) pp->dicts[cl][rg].indices.data() + num_present - 1;
-          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+            (uint32_t*) pp->dicts[cl][rg].indices.data() + cp_offset + cp_num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + cp_offset + cp_num_values - 1;
           while (endm1 >= beg) {
             if (*presm1) {
               *endm1-- = dict[*idxm1--];
@@ -718,12 +711,12 @@ void convert_column_to_r_dicts_na(postprocess *pp, uint32_t cl) {
           break;
         }
         case REALSXP: {
-          double *beg = REAL(x) + from;
-          double *endm1 = beg + num_values - 1;
+          double *beg = REAL(x) + rg_offset + cp_offset;
+          double *endm1 = beg + cp_num_values - 1;
           double *dict = (double*) pp->dicts[cl][rg].buffer.data();
           uint32_t *idxm1 =
-            (uint32_t*) pp->dicts[cl][rg].indices.data() + num_present - 1;
-          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+            (uint32_t*) pp->dicts[cl][rg].indices.data() + cp_offset + cp_num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + cp_offset + cp_num_values - 1;
           while (endm1 >= beg) {
             if (*presm1) {
               *endm1-- = dict[*idxm1--];
@@ -737,12 +730,12 @@ void convert_column_to_r_dicts_na(postprocess *pp, uint32_t cl) {
         }
         case LGLSXP: {
           // BOOLEAN dictionaries are not really possible... // # nocov start
-          int *beg = LOGICAL(x) + from;
-          int *endm1 = beg + num_values - 1;
+          int *beg = LOGICAL(x) + rg_offset + cp_offset;
+          int *endm1 = beg + cp_num_values - 1;
           int *dict = (int*) pp->dicts[cl][rg].buffer.data();
           uint32_t *idxm1 =
-            (uint32_t*) pp->dicts[cl][rg].indices.data() + num_present - 1;
-          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+            (uint32_t*) pp->dicts[cl][rg].indices.data() + cp_offset + cp_num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + cp_offset + cp_num_values - 1;
           while (endm1 >= beg) {
             if (*presm1) {
               *endm1-- = dict[*idxm1--];
@@ -778,12 +771,14 @@ void convert_column_to_r_int64_dict_nomiss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
     std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    bool rg_dict_converted = false;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
     for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t from = cps[cpi].start;
-      uint32_t num_values = cps[cpi].num_values;
+      int64_t cp_offset = cps[cpi].offset;
+      uint32_t cp_num_values = cps[cpi].num_values;
       bool hasdict = cps[cpi].dict;
-      double *beg = REAL(x) + from;
-      double *end = beg + num_values;
+      double *beg = REAL(x) + rg_offset + cp_offset;
+      double *end = beg + cp_num_values;
       if (!hasdict) {
         int64_t *ibeg = (int64_t*) beg;
         while (beg < end) {
@@ -791,14 +786,18 @@ void convert_column_to_r_int64_dict_nomiss(postprocess *pp, uint32_t cl) {
         }
       } else {
         // first convert tbe dict values
-        double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
-        double *dend = dbeg + pp->dicts[cl][rg].dict_len;
-        int64_t *idbeg = (int64_t *) dbeg;
-        while (dbeg < dend) {
-          *dbeg++ = static_cast<double>(*idbeg++);
+        uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+        if (!rg_dict_converted && dict_len > 0) {
+          rg_dict_converted = true;
+          double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
+          double *dend = dbeg + dict_len;
+          int64_t *idbeg = (int64_t *) dbeg;
+          while (dbeg < dend) {
+            *dbeg++ = static_cast<double>(*idbeg++);
+          }
         }
         double *dict = (double*) pp -> dicts[cl][rg].buffer.data();
-        uint32_t *didx = pp->dicts[cl][rg].indices.data();
+        uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
         while (beg < end) {
           *beg++ = dict[*didx++];
         }
@@ -845,25 +844,25 @@ void convert_column_to_r_int64_dict_miss(postprocess *pp, uint32_t cl) {
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
     std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
     bool rg_dict_converted = false;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
     for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t from = cps[cpi].start;
-      uint32_t num_values = cps[cpi].num_values;
-      uint32_t num_present = cps[cpi].num_present;
+      int64_t cp_offset = cps[cpi].offset;
+      uint32_t cp_num_values = cps[cpi].num_values;
+      uint32_t cp_num_present = cps[cpi].num_present;
       bool hasdict = cps[cpi].dict;
-      bool hasmiss = num_present != num_values;
-      double *beg = REAL(x) + from;
-      // In theory this happen
+      bool hasmiss = cp_num_present != cp_num_values;
+      double *beg = REAL(x) + rg_offset + cp_offset;
       if (!hasdict) {
         int64_t *ibeg = (int64_t *)beg;
         if (!hasmiss) {
-          double *end = beg + num_values;
+          double *end = beg + cp_num_values;
           while (beg < end) {
             *beg++ = static_cast<double>(*ibeg++);
           }
         } else {
-          double *endm1 = beg + num_values - 1;
-          int64_t *pendm1 = ibeg + num_present - 1;
-          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          double *endm1 = beg + cp_num_values - 1;
+          int64_t *pendm1 = ibeg + cp_num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + cp_offset + cp_num_values - 1;
           while (beg <= endm1) {
             if (*presm1) {
               *endm1-- = static_cast<double>(*pendm1--);
@@ -877,10 +876,11 @@ void convert_column_to_r_int64_dict_miss(postprocess *pp, uint32_t cl) {
 
       } else {
         // convert dict values first, if not yet done
-        if (!rg_dict_converted) {
+        uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+        if (!rg_dict_converted && dict_len > 0) {
           rg_dict_converted = true;
           double *dbeg = (double *)pp->dicts[cl][rg].buffer.data();
-          double *dend = dbeg + pp->dicts[cl][rg].dict_len;
+          double *dend = dbeg + dict_len;
           int64_t *idbeg = (int64_t *)dbeg;
           while (dbeg < dend) {
             *dbeg++ = static_cast<double>(*idbeg++);
@@ -888,15 +888,15 @@ void convert_column_to_r_int64_dict_miss(postprocess *pp, uint32_t cl) {
         }
         double *dict = (double *)pp->dicts[cl][rg].buffer.data();
         if (!hasmiss) {
-          double *end = beg + num_values;
-          uint32_t *didx = pp->dicts[cl][rg].indices.data();
+          double *end = beg + cp_num_values;
+          uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
           while (beg < end) {
             *beg++ = dict[*didx++];
           }
         } else {
-          double *endm1 = beg + num_values - 1;
-          uint32_t *dendm1 = pp->dicts[cl][rg].indices.data() + num_present - 1;
-          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          double *endm1 = beg + cp_num_values - 1;
+          uint32_t *dendm1 = pp->dicts[cl][rg].indices.data() + cp_offset + cp_num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + cp_offset + cp_num_values - 1;
           while (beg <= endm1) {
             if (*presm1) {
               *endm1-- = dict[*dendm1--];
@@ -950,22 +950,23 @@ void convert_column_to_r_float_dict_nomiss(postprocess *pp, uint32_t cl) {
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
     std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
     bool rg_dict_converted = false;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
     for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t from = cps[cpi].start;
-      uint32_t num_values = cps[cpi].num_values;
+      int64_t cp_offset = cps[cpi].offset;
+      uint32_t cp_num_values = cps[cpi].num_values;
       bool hasdict = cps[cpi].dict;
-      double *beg = REAL(x) + from;
+      double *beg = REAL(x) + rg_offset + cp_offset;
       // In theory we might dictionary encode a subset of the columns only
       if (!hasdict) {
-        double *end = beg + num_values - 1;
-        float *fend = ((float*) beg) + num_values - 1;
+        double *end = beg + cp_num_values - 1;
+        float *fend = ((float*) beg) + cp_num_values - 1;
         while (beg <= end) {
           *end-- = static_cast<double>(*fend--);
         }
       } else {
         // Convert the dictionary first
-        if (!rg_dict_converted) {
         uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+        if (!rg_dict_converted && dict_len > 0) {
           rg_dict_converted = true;
           double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
           double *dend = dbeg + dict_len - 1;
@@ -976,9 +977,9 @@ void convert_column_to_r_float_dict_nomiss(postprocess *pp, uint32_t cl) {
         }
 
         // fill in the dict
-        double *end = beg + num_values;
+        double *end = beg + cp_num_values;
         double *dict = (double*) pp->dicts[cl][rg].buffer.data();
-        uint32_t *didx = pp->dicts[cl][rg].indices.data();
+        uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
         while (beg < end) {
           *beg++ = dict[*didx++];
         }
@@ -1023,25 +1024,26 @@ void convert_column_to_r_float_dict_miss(postprocess *pp, uint32_t cl) {
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
     std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
     bool rg_dict_converted = false;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
     for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t from = cps[cpi].start;
-      uint32_t num_values = cps[cpi].num_values;
-      uint32_t num_present = cps[cpi].num_present;
+      int64_t cp_offset = cps[cpi].offset;
+      uint32_t cp_num_values = cps[cpi].num_values;
+      uint32_t cp_num_present = cps[cpi].num_present;
       bool hasdict = cps[cpi].dict;
-      bool hasmiss = num_present != num_values;
-      double *beg = REAL(x) + from;
+      bool hasmiss = cp_num_present != cp_num_values;
+      double *beg = REAL(x) + rg_offset + cp_offset;
       if (!hasdict) {
         if (!hasmiss) {
-          double *endm1 = beg + num_values - 1;
-          float *fendm1 = ((float*) beg) + num_values - 1;
+          double *endm1 = beg + cp_num_values - 1;
+          float *fendm1 = ((float*) beg) + cp_num_values - 1;
           while (beg <= endm1) {
             *endm1-- = static_cast<double>(*fendm1--);
           }
         } else {
           // nodict, miss
-          double *endm1 = beg + num_values - 1;
-          float *fendm1 = ((float*) beg) + num_present - 1;
-          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          double *endm1 = beg + cp_num_values - 1;
+          float *fendm1 = ((float*) beg) + cp_num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + cp_offset + cp_num_values - 1;
           while (beg <= endm1) {
             if (*presm1) {
               *endm1-- = static_cast<double>(*fendm1--);
@@ -1055,10 +1057,10 @@ void convert_column_to_r_float_dict_miss(postprocess *pp, uint32_t cl) {
 
       } else {
         // convert dict values first
-        if (!rg_dict_converted) {
+        uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+        if (!rg_dict_converted && dict_len > 0) {
           rg_dict_converted = true;
           double *dbeg = (double *)pp->dicts[cl][rg].buffer.data();
-          uint32_t dict_len = pp->dicts[cl][rg].dict_len;
           double *dendm1 = dbeg + dict_len - 1;
           float *fdendm1 = ((float*) dbeg) + dict_len - 1;
           while (dbeg <= dendm1) {
@@ -1068,15 +1070,15 @@ void convert_column_to_r_float_dict_miss(postprocess *pp, uint32_t cl) {
         // fill in values
         double *dict = (double *)pp->dicts[cl][rg].buffer.data();
         if (!hasmiss) {
-          double *end = beg + num_values;
-          uint32_t *didx = pp->dicts[cl][rg].indices.data();
+          double *end = beg + cp_num_values;
+          uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
           while (beg < end) {
             *beg++ = dict[*didx++];
           }
         } else {
-          double *endm1 = beg + num_values - 1;
-          uint32_t *dendm1 = pp->dicts[cl][rg].indices.data() + num_present - 1;
-          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          double *endm1 = beg + cp_num_values - 1;
+          uint32_t *dendm1 = pp->dicts[cl][rg].indices.data() + cp_offset + cp_num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + cp_offset + cp_num_values - 1;
           while (beg <= endm1) {
             if (*presm1) {
               *endm1-- = dict[*dendm1--];
@@ -1124,23 +1126,24 @@ void convert_column_to_r_int96_dict_nomiss(postprocess *pp, uint32_t cl) {
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
     std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
     bool rg_dict_converted = false;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
     for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t from = cps[cpi].start;
-      uint32_t num_values = cps[cpi].num_values;
+      int64_t cp_offset = cps[cpi].offset;
+      uint32_t cp_num_values = cps[cpi].num_values;
       bool hasdict = cps[cpi].dict;
-      double *beg = REAL(x) + from;
-      double *end = beg + num_values;
+      double *beg = REAL(x) + rg_offset + cp_offset;
+      double *end = beg + cp_num_values;
       if (!hasdict) {
-        int96_t *src = src0 + from;
+        int96_t *src = src0 + rg_offset + cp_offset;
         while (beg < end) {
           *beg++ = impala_timestamp_to_milliseconds(*src++);
         }
       } else {
         // convert dict values in place
-        if (!rg_dict_converted) {
+        uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+        if (!rg_dict_converted && dict_len > 0) {
           rg_dict_converted = true;
           double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
-          uint32_t dict_len = pp->dicts[cl][rg].dict_len;
           double *dend = dbeg + dict_len;
           int96_t *idbeg = (int96_t*) dbeg;
           while (dbeg < dend) {
@@ -1148,7 +1151,7 @@ void convert_column_to_r_int96_dict_nomiss(postprocess *pp, uint32_t cl) {
           }
         }
         double *dict = (double*) pp->dicts[cl][rg].buffer.data();
-        uint32_t *didx = pp->dicts[cl][rg].indices.data();
+        uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
         while (beg < end) {
           *beg++ = dict[*didx++];
         }
@@ -1199,26 +1202,25 @@ void convert_column_to_r_int96_dict_miss(postprocess *pp, uint32_t cl) {
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
     std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
     bool rg_dict_converted = false;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
     for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t from = cps[cpi].start;
-      uint32_t num_values = cps[cpi].num_values;
-      uint32_t num_present = cps[cpi].num_present;
+      int64_t cp_offset = cps[cpi].offset;
+      uint32_t cp_num_values = cps[cpi].num_values;
+      uint32_t cp_num_present = cps[cpi].num_present;
       bool hasdict = cps[cpi].dict;
-      bool hasmiss = num_present != num_values;
-      double *beg = REAL(x) + from;
+      bool hasmiss = cp_num_present != cp_num_values;
+      double *beg = REAL(x) + rg_offset + cp_offset;
       if (!hasdict) {
-        int96_t *ibeg = src0 + from;
-        uint32_t num_present = pp->present[cl][rg].num_present;
-        bool hasmiss = num_present != num_values;
+        int96_t *ibeg = src0 + rg_offset + cp_offset;
         if (!hasmiss) {
-          double *end = beg + num_values;
+          double *end = beg + cp_num_values;
           while (beg < end) {
             *beg++ = impala_timestamp_to_milliseconds(*ibeg++);
           }
         } else {
-          double *endm1 = beg + num_values - 1;
-          int96_t *pendm1 = ibeg + num_present - 1;
-          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          double *endm1 = beg + cp_num_values - 1;
+          int96_t *pendm1 = ibeg + cp_num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + cp_offset + cp_num_values - 1;
           while (beg <= endm1) {
             if (*presm1) {
               *endm1-- = impala_timestamp_to_milliseconds(*pendm1--);
@@ -1232,10 +1234,11 @@ void convert_column_to_r_int96_dict_miss(postprocess *pp, uint32_t cl) {
 
       } else {
         // convert dict values first
-        if (!rg_dict_converted) {
+        uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+        if (!rg_dict_converted && dict_len > 0) {
           rg_dict_converted = true;
           double *dbeg = (double *)pp->dicts[cl][rg].buffer.data();
-          double *dend = dbeg + pp->dicts[cl][rg].dict_len;
+          double *dend = dbeg + dict_len;
           int96_t *idbeg = (int96_t *) dbeg;
           while (dbeg < dend) {
             *dbeg++ = impala_timestamp_to_milliseconds(*idbeg++);
@@ -1243,15 +1246,15 @@ void convert_column_to_r_int96_dict_miss(postprocess *pp, uint32_t cl) {
         }
         double *dict = (double *)pp->dicts[cl][rg].buffer.data();
         if (!hasmiss) {
-          double *end = beg + num_values;
-          uint32_t *didx = pp->dicts[cl][rg].indices.data();
+          double *end = beg + cp_num_values;
+          uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
           while (beg < end) {
             *beg++ = dict[*didx++];
           }
         } else {
-          double *endm1 = beg + num_values - 1;
-          uint32_t *dendm1 = pp->dicts[cl][rg].indices.data() + num_present - 1;
-          uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
+          double *endm1 = beg + cp_num_values - 1;
+          uint32_t *dendm1 = pp->dicts[cl][rg].indices.data() + cp_offset + cp_num_present - 1;
+          uint8_t *presm1 = pp->present[cl][rg].map.data() + cp_offset + cp_num_values - 1;
           while (beg <= endm1) {
             if (*presm1) {
               *endm1-- = dict[*dendm1--];
diff --git a/src/RParquetReader.h b/src/RParquetReader.h
index 5220fc4..59cbb12 100644
--- a/src/RParquetReader.h
+++ b/src/RParquetReader.h
@@ -90,7 +90,7 @@ class RParquetFilter {
 };
 
 struct chunk_part {
-  int64_t start;
+  int64_t offset;         // within the row group
   int64_t num_values;
   int64_t num_present;
   bool dict;
diff --git a/tests/testthat/test-write-parquet-statistics.R b/tests/testthat/test-write-parquet-statistics.R
index 55719ee..9230654 100644
--- a/tests/testthat/test-write-parquet-statistics.R
+++ b/tests/testthat/test-write-parquet-statistics.R
@@ -260,7 +260,7 @@ test_that("min/max for FLOAT", {
       options = parquet_options(num_rows_per_row_group = 5),
       ...
     )
-    expect_equal(as.data.frame(df), as.data.frame(read_parquet(tmp)))
+    expect_equal(as.data.frame(read_parquet(tmp)), as.data.frame(df))
     mtd <- as.data.frame(read_parquet_metadata(tmp)[["column_chunks"]])
     list(
       as_flt(mtd[["min_value"]]),

From 9608cb577cec12395aa57510b4613ff6acd7c018 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Fri, 7 Feb 2025 18:51:53 +0100
Subject: [PATCH 08/18] Mixed dict + non-dict pages support for strings

---
 src/RParquetReader.cpp                  |  69 ++++++++++--------
 tests/testthat/_snaps/read-parquet-5.md |  93 ++++++++++++++----------
 tests/testthat/data/create-data.py      |  20 +++--
 tests/testthat/data/mixed-miss.parquet  | Bin 22803 -> 34125 bytes
 tests/testthat/data/mixed.parquet       | Bin 11631 -> 17247 bytes
 tests/testthat/data/mixed2.parquet      | Bin 6938 -> 10211 bytes
 tests/testthat/test-read-parquet-5.R    |   3 +
 7 files changed, 105 insertions(+), 80 deletions(-)

diff --git a/src/RParquetReader.cpp b/src/RParquetReader.cpp
index 836157a..5c21b50 100644
--- a/src/RParquetReader.cpp
+++ b/src/RParquetReader.cpp
@@ -1312,49 +1312,58 @@ void convert_column_to_r_ba_string_dict_nomiss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, lcl);
   SET_VECTOR_ELT(pp->facdicts, lcl, Rf_allocVector(VECSXP, pp->metadata.num_row_groups));
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    int64_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    bool hasdict = pp->dicts[cl][rg].dict_len > 0;
-    if (!hasdict) {
-      std::vector<tmpbytes> rgba = pp->byte_arrays[cl][rg];
-      for (auto it = rgba.begin(); it != rgba.end(); ++it) {
-        int64_t from = it->from;
-        for (auto i = 0; i < it->offsets.size(); i++) {
+    // first the non-dict parts, if any
+    std::vector<tmpbytes> rgba = pp->byte_arrays[cl][rg];
+    for (auto it = rgba.begin(); it != rgba.end(); ++it) {
+      int64_t from = it->from;
+      for (auto i = 0; i < it->offsets.size(); i++) {
+        SEXP xi = Rf_mkCharLenCE(
+          (char*) it->buffer.data() + it->offsets[i],
+          it->lengths[i],
+          CE_UTF8
+        );
+        SET_STRING_ELT(x, from, xi);
+        from++;
+      }
+    }
+
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    bool rg_dict_converted = false;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
+    SEXP tmp = R_NilValue;
+    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
+      int64_t cp_offset = cps[cpi].offset;
+      uint32_t cp_num_present = cps[cpi].num_present;
+      bool hasdict = cps[cpi].dict;
+      if (!hasdict) continue;
+      // convert dictionary first
+      uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+      if (!rg_dict_converted && dict_len > 0) {
+        rg_dict_converted = true;
+        tmp = PROTECT(Rf_allocVector(STRSXP, dict_len));
+        tmpbytes &ba = pp->dicts[cl][rg].bytes;
+        for (uint32_t i = 0; i < dict_len; i++) {
           SEXP xi = Rf_mkCharLenCE(
-            (char*) it->buffer.data() + it->offsets[i],
-            it->lengths[i],
+            (char*) ba.buffer.data() + ba.offsets[i],
+            ba.lengths[i],
             CE_UTF8
           );
-          SET_STRING_ELT(x, from, xi);
-          from++;
+          SET_STRING_ELT(tmp, i, xi);
         }
+        SET_VECTOR_ELT(VECTOR_ELT(pp->facdicts, lcl), rg, tmp);
       }
-    } else {
-      // convert dictionary first
-      uint32_t dict_len = pp->dicts[cl][rg].dict_len;
-      SEXP tmp = PROTECT(Rf_allocVector(STRSXP, dict_len));
-      tmpbytes &ba = pp->dicts[cl][rg].bytes;
-      for (uint32_t i = 0; i < dict_len; i++) {
-        SEXP xi = Rf_mkCharLenCE(
-          (char*) ba.buffer.data() + ba.offsets[i],
-          ba.lengths[i],
-          CE_UTF8
-        );
-        SET_STRING_ELT(tmp, i, xi);
-      }
-      SET_VECTOR_ELT(VECTOR_ELT(pp->facdicts, lcl), rg, tmp);
 
       // fill in
-      uint32_t *didx = pp->dicts[cl][rg].indices.data();
-      uint32_t *end = didx + pp->dicts[cl][rg].indices.size();
-      int64_t from = pp->metadata.row_group_offsets[rg];
+      uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
+      uint32_t *end = didx + cp_num_present;
+      int64_t from = rg_offset + cp_offset;
       while (didx < end) {
         SET_STRING_ELT(x, from, STRING_ELT(tmp, *didx));
         from++;
         didx++;
       }
-      UNPROTECT(1);
     }
+    if (!Rf_isNull(tmp)) UNPROTECT(1);
   }
 }
 
diff --git a/tests/testthat/_snaps/read-parquet-5.md b/tests/testthat/_snaps/read-parquet-5.md
index 65de50f..ac8e099 100644
--- a/tests/testthat/_snaps/read-parquet-5.md
+++ b/tests/testthat/_snaps/read-parquet-5.md
@@ -57,64 +57,79 @@
     Code
       as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
     Output
-         type repetition_type
-      1  <NA>        REQUIRED
-      2 INT32        REQUIRED
-      3 INT64        REQUIRED
+              type repetition_type
+      1       <NA>        REQUIRED
+      2      INT32        REQUIRED
+      3      INT64        REQUIRED
+      4 BYTE_ARRAY        REQUIRED
     Code
       as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
     Output
-              page_type num_values       encoding
-      1 DICTIONARY_PAGE        400          PLAIN
-      2       DATA_PAGE       1024 RLE_DICTIONARY
-      3       DATA_PAGE       1024          PLAIN
-      4       DATA_PAGE        352          PLAIN
-      5 DICTIONARY_PAGE        400          PLAIN
-      6       DATA_PAGE       1024 RLE_DICTIONARY
-      7       DATA_PAGE       1024          PLAIN
-      8       DATA_PAGE        352          PLAIN
+               page_type num_values       encoding
+      1  DICTIONARY_PAGE        400          PLAIN
+      2        DATA_PAGE       1024 RLE_DICTIONARY
+      3        DATA_PAGE       1024          PLAIN
+      4        DATA_PAGE        352          PLAIN
+      5  DICTIONARY_PAGE        400          PLAIN
+      6        DATA_PAGE       1024 RLE_DICTIONARY
+      7        DATA_PAGE       1024          PLAIN
+      8        DATA_PAGE        352          PLAIN
+      9  DICTIONARY_PAGE        400          PLAIN
+      10       DATA_PAGE       1024 RLE_DICTIONARY
+      11       DATA_PAGE       1024          PLAIN
+      12       DATA_PAGE        352          PLAIN
 
 ---
 
     Code
       as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
     Output
-         type repetition_type
-      1  <NA>        REQUIRED
-      2 INT32        REQUIRED
-      3 INT64        REQUIRED
+              type repetition_type
+      1       <NA>        REQUIRED
+      2      INT32        REQUIRED
+      3      INT64        REQUIRED
+      4 BYTE_ARRAY        REQUIRED
     Code
       as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
     Output
-              page_type num_values       encoding
-      1 DICTIONARY_PAGE        400          PLAIN
-      2       DATA_PAGE       1024 RLE_DICTIONARY
-      3       DATA_PAGE       1024 RLE_DICTIONARY
-      4       DATA_PAGE        352 RLE_DICTIONARY
-      5 DICTIONARY_PAGE        400          PLAIN
-      6       DATA_PAGE       1024 RLE_DICTIONARY
-      7       DATA_PAGE       1024 RLE_DICTIONARY
-      8       DATA_PAGE        352 RLE_DICTIONARY
+               page_type num_values       encoding
+      1  DICTIONARY_PAGE        400          PLAIN
+      2        DATA_PAGE       1024 RLE_DICTIONARY
+      3        DATA_PAGE       1024 RLE_DICTIONARY
+      4        DATA_PAGE        352 RLE_DICTIONARY
+      5  DICTIONARY_PAGE        400          PLAIN
+      6        DATA_PAGE       1024 RLE_DICTIONARY
+      7        DATA_PAGE       1024 RLE_DICTIONARY
+      8        DATA_PAGE        352 RLE_DICTIONARY
+      9  DICTIONARY_PAGE        400          PLAIN
+      10       DATA_PAGE       1024 RLE_DICTIONARY
+      11       DATA_PAGE       1024 RLE_DICTIONARY
+      12       DATA_PAGE        352 RLE_DICTIONARY
 
 ---
 
     Code
       as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
     Output
-         type repetition_type
-      1  <NA>        REQUIRED
-      2 INT32        OPTIONAL
-      3 INT64        OPTIONAL
+              type repetition_type
+      1       <NA>        REQUIRED
+      2      INT32        OPTIONAL
+      3      INT64        OPTIONAL
+      4 BYTE_ARRAY        OPTIONAL
     Code
       as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
     Output
-              page_type num_values       encoding
-      1 DICTIONARY_PAGE       1024          PLAIN
-      2       DATA_PAGE       1024 RLE_DICTIONARY
-      3       DATA_PAGE       1024          PLAIN
-      4       DATA_PAGE        352          PLAIN
-      5 DICTIONARY_PAGE       1024          PLAIN
-      6       DATA_PAGE       1024 RLE_DICTIONARY
-      7       DATA_PAGE       1024          PLAIN
-      8       DATA_PAGE        352          PLAIN
+               page_type num_values       encoding
+      1  DICTIONARY_PAGE       1024          PLAIN
+      2        DATA_PAGE       1024 RLE_DICTIONARY
+      3        DATA_PAGE       1024          PLAIN
+      4        DATA_PAGE        352          PLAIN
+      5  DICTIONARY_PAGE       1024          PLAIN
+      6        DATA_PAGE       1024 RLE_DICTIONARY
+      7        DATA_PAGE       1024          PLAIN
+      8        DATA_PAGE        352          PLAIN
+      9  DICTIONARY_PAGE       1024          PLAIN
+      10       DATA_PAGE       1024 RLE_DICTIONARY
+      11       DATA_PAGE       1024          PLAIN
+      12       DATA_PAGE        352          PLAIN
 
diff --git a/tests/testthat/data/create-data.py b/tests/testthat/data/create-data.py
index 61149ef..2894adf 100644
--- a/tests/testthat/data/create-data.py
+++ b/tests/testthat/data/create-data.py
@@ -2,9 +2,14 @@
 import pyarrow.parquet as pq
 schema = pa.schema(fields=[
     pa.field(name = 'x', type = pa.int32(), nullable = False),
-    pa.field(name = 'y', type = pa.int64(), nullable = False)
+    pa.field(name = 'y', type = pa.int64(), nullable = False),
+    pa.field(name = "s", type = pa.utf8(), nullable = False),
 ])
-data = [ list(range(400)) * 6, list(range(400)) * 6 ]
+data = [
+  list(range(400)) * 6,
+  list(range(400)) * 6,
+  [ str(x) for x in range(400) ] * 6
+]
 table = pa.table(data = data, schema = schema)
 pq.write_table(
   table,
@@ -13,14 +18,6 @@
   dictionary_pagesize_limit = 400
 )
 
-import pyarrow as pa
-import pyarrow.parquet as pq
-schema = pa.schema(fields=[
-    pa.field(name = 'x', type = pa.int32(), nullable = False),
-    pa.field(name = 'y', type = pa.int64(), nullable = False)
-])
-data = [ list(range(400)) * 6, list(range(400)) * 6 ]
-table = pa.table(data = data, schema = schema)
 pq.write_table(
   table,
   'tests/testthat/data/mixed2.parquet',
@@ -31,7 +28,8 @@
 import pyarrow.parquet as pq
 table = pa.table({
   'x': pa.array(range(2400), type=pa.int32()),
-  'y': pa.array(range(2400), type=pa.int64())
+  'y': pa.array(range(2400), type=pa.int64()),
+  's': pa.array([ str(x) for x in range(2400) ], type=pa.utf8())
 })
 pq.write_table(
   table,
diff --git a/tests/testthat/data/mixed-miss.parquet b/tests/testthat/data/mixed-miss.parquet
index 315f5044ccf503fa73bac5248b6a3eb736b36183..f71948af3b4decaf367e081dd2b60576e1586b04 100644
GIT binary patch
literal 34125
zcmeI*2bdLAx+rYGZfFn`ktT^s&N-u~G&$#-bIv&mC`mF%5>axFB1uKbIp>^n&N=;W
zqu!Y_<9UX;|9I}4bEt>6_O7b6SM6HWwYvAmS8JCDDV07rAh>(Z;J!JF1b2@b941<r
zFx}(bc^V;%DJ<c5jQ|1(Pw2)VA`*$$iA)sU;7y|P7U~Q0Hqi+t1~G|6Y~t_^ae0^b
zc%OL0CjkjbL}HSVlw>3)1u02IYSNIFbfhN(8OcOuvXGT*Wak4uBnKbyF`tl=5OR^5
zJme)G`6)m_3Q?FM6r~u&DM3j}QJON8r5xp{Kt(E1nJQGJ8r7*mO=?k_I@F~e^=Uvu
z8qt_0G^H8MX+cX`(V8~2r5)|*Ku0>!nJ#qYQ@YWe9(=~<^rRQP=|f+>pdbAiz(58u
zm>~>h7+*4+5sYLMqxp(4e9c(C;akQro(W835|f$2RHiYV8O&rBvzfzO<}sh|Situz
zWD$#5!cu<VM}A@%Kl2OAS;0zHv6?lkWgY9;z(zK)nJsK(8{65zPIj@IJ?v#4`#Hct
z4sn<x9OW3tIl)Ozahfxn<s9d^z(p=`nJZl78rQkOO>S|UJKW_S_j$lW9`TqbJmneB
z3BCBk5{}mhAdv7xAc%-W;&mbug*SMUsJulq-X=Q1#2_ZIh)o>cAujLo9`6&6_#_}9
ziAYQml9G(%q#z}!NKG2jl8*FbAS0Q`Oct_|jqH5DhveWRKIRj05<)I=lZU+IBR>Tw
zNFfSSgrXFqI3*}aDN0j@vXrAd6{tuhDpQ53RHHgIs7WnqQ-`|LqdpC2NFy54gr+p3
zIW1^OD_YZrwzQ)?9q33WI@5)&d`dUE(}U0WoSyWeH+|^K7xbe)0~p941~Y`A4C70N
zGlG$fVl-bdhOZgRH+;)D#xsG5Oky%qn94M!GlQATVm5P_%RJ`u9SiuLg)Cw*OIXSe
z{K!u%<7a+hIV)JnDps?GwX9=38`#JuHnWATY-2k+*vT$-vxmLxV?PHt$RQ4Mgrgke
zI43yCDNb{Svz+5R7r4kJE^~#eT;n=7xXCSUbBDX!<30~~$Ri%}gr_{?dDx2&?>vqW
zHk`|!*9ahx@I)Yph(zLbA`^u-c$28SMKs<fI>E#sCb5W39Nr-=@A4k+6OZ^LAR&oJ
zOcIikjO3&sC8<bF8q$)E^kg6-naE5QvXYJLe87j~;3Gcf6LJzlE^?EHyyPQ41t>@%
z3R8rl6r(sLC`l<wQ--pXqdXO;NF^#$g{oAeIyI<CEoxJTy40gS4QNOs8q<WPG^05!
zXh|zt(}uRRqdgtyNGCeeg|2)`H@ee<&-k34^rAO?=*t)Mqdx-}$RGwYgrN-MONKLo
zk&I$AUonQS8Ot|(%Q(g}fr(6FGE<n!G^R6ynapA~bC}CK=JOp3_@0F<Vlhit$`Aa=
zPb}kSeqlK)Sjj3@vxc>-V?7(#$R;+kg{^F3J3H9PE_Snrz3gK@2RO(f4s(Q~9OF1A
zILRqabB42=<2)C*$R#dwg{xfSIybn<EpBs%yWHbG4|vEU9`l5!JmWc`fAfbW9Ip{T
zAmNEX5D|&Q>qI6BZ}28jd5dVgO>}~ZK}=#1n>f5fT;An9-X|XMNkBppk(eYTB^k*{
zK}u4Qnlz*(9qGwHMlz9^EMz4c+4+DE$-zf_%qQd|gk0n%4|&N)ehN^KLKLP5MJYyc
zN>Gwgl%@=2DMxuKP?1VhrV3T5Ms;dXlUmfK4t1$VeHze^Ml_}gO=(7RTF{bKw5APh
zX-9iH(2-7brVCy9lx}pV2cPjdJ?TYn`p}mz=tqABFpxnEW(Y$W#+M9d1S1*6Xue_$
zUo)0(_?B^uX95$M#AK#0m1#_81~Zw(Z00bRdCccK7Vtd_S;S(Nu#_M8k)K$`&-}u2
zR<M#)tY!^sS;u-du#rt{W(!-{#&&kFlU?j)4}00iehzSuLmcJ^M>)oEPH>V_oaPK?
zImdY}aFI(~<_cH2#&vFRlUv;84tKf7eID?TM?B^UPkF|3g2M!lj2=8bdaBT%K-A#y
z!Qtb^3JBd0D<Jg4L5wiT{%XmJ{*mrP3bZ*)_o!hbbqf;^Z$+4Z=rvY^4N5eAMYzbB
zPONw>YMyv21EQCyu`)1Lo$)Kf$8B?BWrTP=<E;uxG`z;Dh{-08Ull3U!V{}rPq!xC
z>d2Y))L0!Q+nMpJ-^g+2#OgP52E<<zHBa=KYu+l5Xu_IkMKYaS^LB|m@z+K#Q>NzH
z;0kpntc_8n&B?VfYxIo2E>@l4HP^*%FnPkdI87FwT=!0kHSyQSZL_E5`gc2=nXvx7
zE_Y6@f4_S`f(`L{Mz6IYe&0kBHzXL4>C}dVL-Hipm}q#JS{oCOt}}6ClCf=0ZA?18
zXM#=1CJ(Q*Df#rt6E~%pz3|kgl=Igl*qmzNo?4qzFFiAHbDCv$PHj%RA|T<GbZes5
z-jaSpqDfmaY{_(bOU4~}5^l}3r%dgwnGe*Nv^C3-HmA2{J<&7awrppH*WQ->!sJQY
zKDe^*^tKOgtVy^%$DKX3w}15D%%trfKe=;y`zK)n6Ya<u5L{<RNKoR*J90(Nd}c@P
zsCg6Z%oDwAot=4O)t$UEU);85cIJ=QE77h3iAL1fRWR9<$-4@rT6AVt;dE;g?JkmO
zZ=Kymvz?v1yI799XLc9Q8JKuai9Eq|_mnJ<c*>qqMKYh=Q@TXn#Cyw>DO-1M*$Q>1
z>@8QN?b*HMYxGLIuR@&>b@x?lFlEZVN=+7>-B-EA+Qj>-wAovCf7K3Wr|hrR<?h-2
z)w>5KIZ&f#aJ>UH`zD@xpw@uQ=MK~!k~hi0I>XD>J6Lyg-Khubjct4GVEysEk{oI<
zc|^TK4X00;dZ^LtMduDRp1(H9;U)|B);rvE>Dj4=n=QM0?r`%Jfk}_FSQA|TNXre0
zryXgvCG+_st#{;2dbG`+vh|O)Jy3Vr(RN4Lo<G|DM6aaBI-D6%|5(QhQ>Gp3bY;=`
zW1VlTO?te`oxSysckTAz?6l*bKDm4Tc(*X&lbz@u5Tn6~9zjW_pZF|tmJ267kD4#p
z$)3^6H8|NTR=w#bd&g~e;bfn9y_22ln`mT%Q(q*TI{j3?REsa1>Yr|1veN@H?Q3v)
zV77D9PY=p*@51T9Im0JEGbB%phG&KrNHXKhup(J5p82vwzT{_zmnqlq?1&2WW}F>a
zrQOA|qiXa{er|M~kqys%)nMw3b7Pt;zIg8I7VDCqAKPYM!}H&CI5*?`w_WaCJU^~`
z_!Jk$_l(i#!i2s_W?q;$Aj_o-lZNC=adGnSa*Zxd8C`GY#i?W4UAj1JeD4&OrcWN(
z=+cboQ)gb9IeYP?OS9&$OL2Mj!hMY{&slnI=H<D|?p?Y(Z$<c&SLUyY(fG=D8<Nbr
zvS3S=%U8bNkuT-dg?q|1zPji@y;)ZmA8B{_>XH+^Q(jwoW@O`QKU|nP>)MZ37GJ*h
z(~Wg0uP?i^ukrPtADo+Y{g)^AE?-|BCPJzkD*|FRxv?@R>FgV;B4@pFV|CR0scx=`
zUcSlAwXy2YzPT=L`ztrs$Lo{o)`mo*n%vr$Y})Kwn^G;ga%*$C^{H-e$+W-8?XB6)
z&%V7a$Nej}x95zI`p%9#F`M4mSs>}0JG+Wxy?SSNiTtVW?kQ8g>D|2*>d(2muS)x?
zclX!mlltC)I-{E2JJ?{_oO_3wEV+8`aEtY+?;mNizv=y>9nR0Wf2_;>tM`w0kC5iU
ziJmc=JviAn>D&jW24ubV;PjCEX&#;#UcTAGv!m<JeRytc`)d!+kMEP_(S^yQnmxKW
zecIedmu4@y_UQ8b^=TeoS-8L1<Eu;0&wYGt+5Kyeudj%Z_Q{PkF`GZRxgqJiC%3j_
zz5e9(j{Iq#-q};W`O~`x>d$+6?@0UWPw$`TllIwzGozY6dw5~myl0QDEV=&dao~;h
zX`es2v%mTCrw`80d;aXn{p-)4>putO3?7~HMgJM*_x>}&i~ds&`lA2*KTEpJKJo5^
zkNR8x8AgGygyS^=2qZia2qGepc%8^Z;SJs-DsK^uw~0<LF^EZM7ap59yhB{x<vrdf
z9`Q*)LK2afBqSvn$w@&<QjwZ8q$M5c$v{Rjk(n%HB^%lKfDg&RM|{jD<RpY#<R%Y!
z$wz()P>@0trU*qTMsZ3|l2VkW3}q=tc`8tmN>ru_RjEdGYEY9})TRz~sYiVp(2zzn
zrU^}HMsr%wl2){)4Q**hdpgjOPIRUVUHO!5bf*WO@i{%|MQ{4hmoMl?e+Dp+K@4UH
zLm9@G3}*x*8O3P6Vhmq1mT&l$ag1jI6Pd(hrZAOhOlJl&nZ<18Fqe7E=Q|egJquaH
zVwSL!ANY}<SjNx%!g5xyl2xo`4QpA)dN#0;O>AZhTiM2TcCeFO>}C&p*~fkkaF9bB
z<_JeQ#&J$?l2e@K3}-pVc`k5~OI+p(SGmS@Zg7)Z+~y8<xyOAT@Q_D5<_S-E#&g01
zy8a2rYXlHTcp?x)L?ZDzk%__^yh&8vA{uWKonT@RlUT$i4(||`cX^NZiAQ`AkdQ<q
zCJ9MNMsiY+l2oK74QWY7dNPoaOk^etS;<CrKHx)g@DU&L2{{QN7rDtpUh<Kj0u-bW
zg(*T&icy>rl%y1;DMMMxQJxA^q!N{>LRG3!of_1n7PYBEUFuPv1~jA*jcGztn$esV
zw4@cSX+vAu(Vh-;q!XR#LRUVe8{O%_XM9dideNIc^yLfs(VqbfWDtWH!cd0sCBqrP
zNJcT5uNcGEjO81?WgO#~z(gi7nJG+V8q=A<OlC2gIm~4q^ZAYie9uA_v6v++<p+M`
zCzkOuzp$JYtYj6dS;Jb^v7QZVWD}d&!dAAiogM6C7rWWRUiPt{103WKhdIJgj&Yn5
zoa7XzIm21bah?lY<Pw*;!d0$uog3Wb7Pq;>UG8z82R!5vk9opVp7ES8;a&fP<23>Z
zBs>uaA|jD^oybJt4c;UwZxM~RiB2#vh)FDB6Nh(*%e%bC`@|zY2}npH5|f0aBqKQ~
zNJ%PElZLdUBRv_&NG39qg{)*FJ0I{NIrxZ=`GlN=kc-^pAusvJPXP*2h{6=1D8(pF
z2})9m(v+br<tR@DDpHBcRG})>s7?)PQj6Nup)U2PPXij#h{iObDa~k33tG~O*0iB5
z?PyO2I?{>GbfGJs(v9x);4?m_C%x!RANukI{pimC1~Q1j3}Gn4_>$p_U?ig$%~y=!
zYsT^o-!hKzOkg6Dn9LNWGL7lXU?#Je%^c=3kNJGZ0={P<i&)GOmhuBX@)OJWnO|7W
z3Rbd;)vRGH>sZeQHnNG$Y+)<g*v<}ivWwm9VK4jG&jAi{h{GJ=D91R?2~Ki~)12Wf
z=Qz&=E^>*>T;VF$xXul3a*NyC;V$>M&jTLvh{rtPDbILL7#|G65{}mhAdv7xAc%-W
z;&mbug*SMUsJulq-X=Q1#2_ZIh)o>cAujLo9`6&6_#_}9iAYQml9G(%q#z}!NKG2j
zl8*FbAS0Q`Oct_|jqH5DhveWRKIRj05<)I=lZU+IBR>TwNFfSSgrXFqI3*}aDN0j@
zvXrAd6{tuhDpQ53RHHgIs7WnqQ-`|LqdpC2NFy54gr+p3IW1^OD_YZrwzQ)?9q33W
zI@5)&d`dUE(}U0WoSyWeH+|^K7xbe)0~p941~Y`A4C70NGlG$fVl-bdhOZgRH+;)D
z#xsG5Oky%qn94M!GlQATVm5P_%RJ`u9SiuLg)Cw*OIXSe{K!u%<7a+hIV)JnDps?G
zwX9=38`#JuHnWATY-2k+*vT$-vxmLxV?PHt$RQ4MgrgkeI43yCDNb{Svz+5R7r4kJ
zE^~#eT;n=7xXCSUbBDX!<30~~$Ri%}gr_{?IiazG7{Q}sqzYaU==ra)*Xj{pd~gqP
z8T$bKm!;6y!RvQ=zlgoA2n-vVmlc+9yhZ?lgeL+)L?jZg6PYNy!J9<oEu!%@(FrC7
zF^NTN;_wb}d6)NipLoP40SQS&Vv>-QWF#jADM>|Y(vX&Pq$dLz$wX$dkd<s?=L0?@
z2Ose<pOBLfa*>-n<Ru^ZDL_FAQJ5kWr5MF2K}kwcnlhB79ObD%MJiF5DpaK!)u};E
zYEhdy)TJKvX+T37(U>MQr5Vj>K}%ZEnl`kh9qs8rM>^4&E_CHny3w5;e8%VWq!+#E
zLtnn2AN?7?Kn5|GAq-_0UoxB#jARs}`HC@o%~-zSTgEY-2~1=XlbOO)rZJrv%w!g`
znZsP>F`w^P!1pX<5sO*EQhwk^eqtFv^9##a!Ae%Knl-Ft9qZY^MmDjTEo@~Q+u6ZR
zcCnj1>}4POIlw^<ahM|<<rv2~!AVYWnlqf`9Ot>fMJ{ofD_rFo*SWz>ZgHDC+~pqk
zdB8&+@t7w(<r&Wj&B+W)I9?-wK*AG&AR-cp*NIFN-r!B5@)pr}o9F}+gP6o3HgR}|
zxV+1IyiYvhlYoRIA~8uwN-~m@f|R5pHEBpoI?|JYjASA+S;$H@vhx8Sl7o-<m`}(_
z2)W2j9`cfp{1l)dg(yrBic*Z?l%OP~C`}p4QjYRepdyv1Ockn9jnGaxG?})0*x=!R
zl}(#d3x^F8HcC*KaJ)tUfrKXlK|~}HuM?Rlyuq79<t?J|Hqi+t1~G|6Y~t_^ae0^b
zc%OL0CjkjbL}HSVlw>3)1u02IYSNIFbfhN(8OcOuvXGT*Wak4uBnKbyF`tl=5OR^5
zJme)G`6)m_3Q?FM6r~u&DM3j}QJON8r5xp{Kt(E1nJQGJ8r7*mO=?k_I@F~e^=Uvu
z8qt_0G^H8MX+cX`(V8~2r5)|*Ku0>!nJ#qYQ@YWe9(=~<^rRQP=|f+>pdbAiz(58u
zm>~>h7+*4+5sYLMqxp(4e9c(C;akQro(W835|f$2RHiYV8O&rBvzfzO<}sh|Situz
zWD$#5!cu<VM}A@%Kl2OAS;0zHv6?lkWgY9;z(zK)nJsK(8{65zPIj@IJ?v#4`#Hct
z4sn<x9OW3tIl)Ozahfxn<s9d^z(p=`nJZl78rQkOO>S|UJKW_S_j$lW9`TqbJmneB
zqXgZ27!WpW#J65u{+c5<dB{sX@>76<6rwOiC`vJkQ-YF|qBLbFOF7C@fr?b3GF7Nb
zHL6pCn$)5;b*M`{>eGORG@>z0Xi77h(}I??qBU)3OFP=rfsS;dGhOJ)r*xw`J@|~z
z=}9ko(}%u%K|lI4fPoBRFhdy1Fur6sBN)jjM)MV8_?oeN!?%oMJQJA6BqlS3sZ3)!
zGnmONW;2Jm%ws;^v4HPc$RZZAgr)qzkNm_ke&!dJvx1eZVl``6%R1JxfsJfpGh5io
zHny{ao$O*ad)Ui9_H%%P9O5uXILa}ObApqc;xuPC%Q?<-fs0(?GFQ0DHLi1mo800y
zceu+v?(=|$JmN7=c*--LM+tiG=9^){#(DVWtLtBT<R%Y!$wz()P>@0trU*qTMsZ3|
zl2VkW3}q=tc`8tmN>ru_RjEdGYEY9})TRz~sYiVp(2zznrU^}HMsr%wl2){)4Q**h
zdpgjOPIRUVUHO!5bf*WO@i{%|MQ{4hmoMl?e+Dp+K@4UHLm9@G3}*x*8O3P6Vhmq1
zmT&l$ag1jI6Pd(hrZAOhOlJl&nZ<18Fqe7E=Q|egJquaHVwSL!ANY}<SjNx%!g5xy
zl2xo`4QpA)dN#0;O>AZhTiM2TcCeFO>}C&p*~fkkaF9bB<_JeQ#&J$?l2e@K3}-pV
zc`k5~OI+p(SGmS@Zg7)Z+~y8<xyOAT@Q_D5<_S-E#&g&I#h9-Dn=xNq|JoxrdB{sX
z@>76<6rwOiC`vJkQ-YF|qBLbFOF7C@fr?b3GF7NbHL6pCn$)5;b*M`{>eGORG@>z0
zXi77h(}I??qBU)3OFP=rfsS;dGhOJ)r*xw`J@|~z=}9ko(}%u%K|lI4fPoBRFhdy1
zFur6sBN)jjM)MV8_?oeN!?%oMJQJA6BqlS3sZ3)!GnmONW;2Jm%ws;^v4HPc$RZZA
zgr)qzkNm_ke&!dJvx1eZVl``6%R1JxfsJfpGh5ioHny{ao$O*ad)Ui9_H%%P9O5uX
zILa}ObApqc;xuPC%Q?<-fs0(?GFQ0DHLi1mo800yceu+v?(=|$JmN7=cp4=rM`$i>
z=oFeZ8#?__PHoWd8)JnAZ(dB|yMM6OrdK((uX1c(<=DQ;v3-?e`<EPBvDVrDA;~r<
z^ncJoCmm{NE}iK`hx&JGZRnFT(O*(-{oh$w9d|fhBY;4{6M-Ni5{cJ|OcdVWO``G^
z(RiEa1QUap#3D9vc!#*W%X_>}JmQmpgd`#{Nk~dEl9Pgzq#`wGNJ~1>lYxw6A~RXY
zN;b0d0UwfskNB8R$Vmvf$W0#dl8^ippdf`POc9DwjN+7_B&8@#8Ol<Q@>HNAm8eV=
zs#1;W)SxD{s7)Q}QjhvHpdpQDOcR>YjOMhUC9P;p8`{#2_H>{lo#;##y7DRA=uQtl
z<8yk_i{A91FJI7){tRFsgBZ*ZhBAyV8O{hsGK$fB#TdS3EZ^`g;~38bCNhc1Okpb1
zn9dAlGK<;FVJ`ES&vz`~dls^Y#VlbdKky?zv5cSjh2^YZC97D?8rHIo^=x1xo7l`2
zwz7@w>|iIm*v%gHvXA{7;2?)M%n^=qjN_c(B&Rsd8P0N!^IYH}m$=Lou5yj*+~6j+
zxXm5za*z8w;31EA%oCpSjOS5;0>T8Im3tf3QaD~CfIz|%fgmChiPwot6yD%XqVg8e
zc$?@16N8w<A~tb&hq%1Ud%RCP;*)@cBqA|MNJ=u2lY*3_A~k79OFGh%fsAA#Gg-(=
zHnQ^pACiNQ_?S<~NeH>fO&;=+kNgy%AcZJQ5sFfb;*_8yr6^4q%2JN<RG=c2s7w{A
zQjO}=peD7bO&#h|kNPyAA&qEE6PnVD=Cq(Ct!Paf+R~2pbf6=h=u8*7@+sZuP7glg
zb9&N?-t?g_U(k>K3}7IG7|alcGK?=7&Im>_iqU+<7`|pK-|#Kt7|#SIGKtAdVJg#@
z&J1QUi`mR!F7uercP!w07P5%NEMX}>@FPF5jGy_1<*Z;Ot60q%*0PTEY+xgs*vuBT
zvW@NRU?;oS%^vo$kNq6rAcr{25sq?<<DB3mr#Q_S&T@|PT;L*?xXcx<a*gZU;3l`Y
z%^mJ?kNZ5}A&+>>6Q1&n=b=47_&6`F@o<)3BY;4{6M-Ni5{cJ|OcdVWO``G^(RiEa
z1QUap#3D9vc!#*W%X_>}JmQmpgd`#{Nk~dEl9Pgzq#`wGNJ~1>lYxw6A~RXYN;b0d
z0UwfskNB8R$Vmvf$W0#dl8^ippdf`POc9DwjN+7_B&8@#8Ol<Q@>HNAm8eV=s#1;W
z)SxD{s7)Q}QjhvHpdpQDOcR>YjOMhUC9P;p8`{#2_H>{lo#;##y7DRA=uQtl<8yk_
zi{A91FJI7){tRFsgBZ*ZhBAyV8O{hsGK$fB#TdS3EZ^`g;~38bCNhc1Okpb1n9dAl
zGK<;FVJ`ES&vz`~dls^Y#VlbdKky?zv5cSjh2^YZC97D?8rHIo^=x1xo7l`2wz7@w
z>|iIm*v%gHvXA{7;2?)M%n^=qjN_c(B&Rsd8P0N!^IYH}m$=Lou5yj*+~6j+xXm5z
za*z8w;31EA%oCpSjOU@(e}q@pe~7loMQ-wtmwe=>00k*TVTw?cViczYB`HN|%21Ya
zl&1m}sYGR}P?c&_rv^2tMQ!R(mwMEv0S#$HW17&EW;CY-Eont-+R&DEw5J0d=|pF`
z(3MZ=Mt6Gf8K2XWUi799efffZ^k)DA8N^_QFqC0@$#6z6l2MH2E5`6OWBG<}8OL}g
zFp)`2W(rf8#&l*dlUdAW4s)5ue7<7=-?NZKEM^Hy`GFt#iDmrEFDz#TD_O;A*07d!
ztY-ro*~DhHu$66WX9qjk#cuYnmwoK#00%k5VUBQ=V;tuMCppDw&Ty7<oaX`;xx{6z
zaFuIZ=LR>q#cl3zmwVjj0S|e^W1jFdG)((jXyEt2L1_AIs^Gc*A^kQeG`A~s5>@yu
zP#YRm`1`er^oj8zs_<(v?yIQ6tG_AyoW1H({v~}%z@DJB;{yIW^eTV(t0H3Z8n40%
zE`eO+CJ%YZM}7)WkU|uu2t_GIaY|5<Qk13)WhqB_Do~M1RHh15b?c!SxuMhVeYDKn
zJ<Wob{v|PYX4a_2x-(E@pn)O-4HOw@pvXW2MFtuuGSEPgfd+~UG*Dz<tn8s9Vx><P
z7~Xx&;oa99-hIvC-Pau6ea+$B*Bst`&EehG96m6ItuH5|axWv3axWvZaxWu`axWvR
zaxWvBaxWvha{oY3_Uy0ajVlK{f*kM&a=;_V0goUDJc1nX2y(z9$N`Ta2RuT=d`i5W
z49dNXjLN-?Ov=5C%*wrtEXuu%tjfKNY|6ci?8^NE1($`%@XEhc8)S4o{zU>Zrms8b
zUsc)v+IliMA+P*h8w6y^dUpE%lZMIcguL>HZ4i(-YqUC%{>xh@i!<^+KtPtvy{`Nj
z2NIAaYqWS#{*0Rc(>k*{CI3SNWDPwnf5O28WX&4w$eVvg&3{;DHmBr&kbrEVr{zyL
zpnz;yqm7RCXVm<6b!K-;{vQa)p3(2lKWWE7*)wN+<DHm)M)g72vt|w)^XIi$)a==_
z2ZVWJX`Fy`>3qmfPX;oQiOggnE7_t1MJb`g%gLY|i85pe%@|9cE<?sYNY%|^%xP~R
zR@ijPyh_D=m5Tc+757yt?yFSX|B#A1J>;*(yVYR^WJs4OYpei0Y9^g#pPbo#OSk>4
zoBe}cTSzJ>AmiV3@4DxVe;|`}FC(*ZFC&X`FC(jRFC&|BFC)8h|4_sdn(?2Ssr8@y
z1sM8EFjUicVbZ_y(ru7ITm2Uc$dI97i~s7K{<qm*MknNzf1ftU<b1sH@6!gEosU=k
zecB+4^YO~RPa9-)KK>U8%9<rzw52irtq(byQ}Vw|K(;I~;>G;8J?iYv$iK0G?3rea
z|1;iTK=v##a>n^HYX1LMXTx|tZT}n2!eoe(^Zozyt-aX#m)VPQFBXG@4yKI%%kp2U
zNo7lx&<H|kaN*Zv-EDuJtotJFkWr-8i!)^ljXT765qFS~``fEThhM}QGXG7S;cvsp
zJ`IP)4gNt)ARtS&h!tKGdYPa=XqlG@3WS#Vhe3hRGXGRe;6-7t`o9be{2n0qyT?BY
z&-~H4e-N(GrTk9{Jp3021%Cg09*`kp!5uGV|6$GV3;)W;fDD=co5dmiFX93crDljg
z`r-T+3&@yp#*M$NG$3Q9hAm#q{&vehvmBIBu7|;Xe|yIP8M8zgua9Em2@9!*{OgbA
z_kH~{kI6D-&-S8I)?Wt)#4eKAmy@)v-JovMn!(|HUv%PdvBGvRrf%qC$1uT>Lmyiw
z4pStqUOmQ&#IfVX&XFWc+~9DrGlvNuHMX+B;jE5vXLi^aW9EcSvLI)YAYWS<ngJXu
zbT5BBbb9Dw>>QGUL%){VEc6@F%%WN{TCqw4ey_CSuazEH9WKVgxnYwWx*9gg#5rN(
z#`^2KKSFCW{mnfgzpnfT`-%Mfep>&!pGWh<#aLxO^T)oHWZ&U%asTT79skq!8)Mys
z@D4mlP>dn{0;1bt+*pxAN|h>J{)1l|GuG^IX+x*%^+QZ0LuaPKAtCKUa@7yX7ZOrG
zB=?I=A-QsegcJ?km^&n-VCbXe-ybc7Zpzg@bp4A$FRIGjI<)H04Y^8%ZV9OvI`g{U
zrx#Cazj#&2(DivkH>5A&MWO3T7JTu3you0-7xVw~v_NA|^W^=l{*aKezir7?GW7lB
z4+*Iqk|%W4@0Er=|E<0Pq0j%Wz844Sc-n`)UXfo9TESc|4)VooLOu!;D_)D5ty;FN
y+a`7G7A;cOY}KlH`*`i@wrbt5d9!%wv!zL&CSB|teg=R2_u_k`ON5k4|NjB7_}fST

delta 281
zcmX@x#WZ;n<A%3kYLYgl3=(X`$r-7+iJ~kFqD-nx5{wlLqAVb~l0oc%s-%ph&g4T)
zdo{(*d|(Fh)i}h?-DVPDV33rN;BgEJ@(;IyXqR}ys1E{WlRq>&)O$KQIy$)m2}dUo
z;THmwu>dk$ogspOAW<+A#DFlJOhK%Q0HD%x5X%ijfE0x~I;J~1r8{~!I)WtvA%=ow
yq2__b5#}j^&2};YDRFjm^aUGG?g(-f1O!hOXw?$Xkzrr}A_fH}28IB~AVUB$_eqZc

diff --git a/tests/testthat/data/mixed.parquet b/tests/testthat/data/mixed.parquet
index a5b90dce0a8bdf43a9d12cdc462bef63ef2eb402..9fbb6eaf2037d0a0b92e098bcd5543d8a88935b5 100644
GIT binary patch
literal 17247
zcmeI)2Urv7y1?-S5(tQjB^VTywIFsvM^OpAsfeN=c0{m(pn{bMB1Ocm*cC)6R<N$R
zBG|jwd)uO}>)O_Jn|uF*%d@WQIpm(R=Xm$ZJo#lNGw*zp3EzB;N&Hm)O1VU?HkPLv
z`^s18$VD|pq9TJAopeM@VrW4d5=bFz(1i?o&_@**pem}NIt)<*q$jF{+K|Htb)bMT
z>Y^S@P#+D@5T^J9jnEiP&=h8926Hq=3$#Qlv_>1Wg$0zbgcYn|16$a^9u8=S_HaZ8
zbVMgOK?P^Hz!h$AhX*|21#kGk7oE`sUEzmr@JDy_KmdB87XlH4-Uvn?^hH1P#{dk(
zAcSBrLNNqk2**$i!*GniNQ^=RA~70Kh{hO<#W=(u7UMAi6EO*sF$Hl@V=Cg2fN4m?
zbR;1eDM-Z(q+uq~F$=RX2XiqG^RWO6u?QJhj3ro#Wmt|CScz3wjZ9==4YIKo>yU$7
z<RKsHu>l*g37fG61t`Q;Y{Pc!z)tMKr`U}>*o)7w4@KCIVwB(j4&o3F;|Px87>?rv
zPT~|!;|$KC6z6ar7jO}ma2Z!{71wYbH*gcTa2t1U7x(ZvzQC9G3it5<5Aih~;Tt^0
zw|Ii5c!uYAf$#7V-{Td2z>oL|KjRm?#;*`AelfJ54GE;sfi7gwgFdRj098>9)nSMl
zsEJyr4LOWZ2MQRYF6zMq_0a$gVTw=C2#wJMO<{&+Fh_H=KufejYqUXISU?F&Siu@L
zu!SA$;ed8%4@Y!BM|6S{RB(n1T;T?Hc)$~0@P-e3(HULP6@KUje{@F=1fVB+ArL|6
zjbQXaU-UzN48TAPLI?&U6hjb(a16yT495tJ#3)1{5~C4?XpF&Fj6)1!F&+~z5tA?(
zQxFF=rXn5*n1)15M-q~ef>g{v8fGFLvmh7AlWWQ!>$Z}s4dsS%9l4H)LLzKXNQB&F
zBr<>N6)UFcy*MD&ixX+d6i%zuQ?+F^%>#>8O-;}>Y~-2Yv^qYqio!Dda?$F9r0S;5
z$qH5Gw3J%r{yBmBGZSaju^4nDLzOjsW<C3;`<M4;CCzH+6fZM&UXwhhvFBX#pyD+t
z^P2f(dM<X(PF>J4ups<OarTTwZ3h%58@sGcTWl3xniEvAcIHyM$h$`tyR1uJ-ahu(
z{VOHwX07a`*3zr%nlpQ~OLEQTy$|Hf$?}-p$ZLsf?%Zsj49lTc59H2U*L9V1N?o_S
z`MKS5{BwIB%v+G(YxAI^OWg7oZV28P_2BBk{6(Ak7scz<b6=maCFIE5=D~;7FD?u_
zlj*h8eZ!J%!!H*My>@8B(j5`Ei&N@(Y+SZ0`hIC{@ZpWicgH-rdvvMCrWJc9zIyiH
z+Tl$r_r-~{^-VlCuiBp=tJR{<k<F`1k_;PrFZ0}zd2oipYS{H7Te1$%GIdEc@hVtz
zbe?(lygo+@vX3va2syUQt8nefrS{PeuOBU3cY38$f_{DPtvP42Jm<COdu(g&xpjV7
z-pjqW<z2`REF5;@*tYyjn+BAm*7w=I{z_r^xxBu|w{N(%Bl6y{<vu$$-q;=c{Nat`
zJ2u_gr`E30z<1~7J0;1rTJ}4!bIZNMqSwXZQ^jI~I6l?aCE|A;KeDD+Tv{xaNzY_<
zoUTnaQ9H>COv<u}sN!s*Hhr;L=QjD}4l2vW%ChnAST>S%MU;e<ZEHRQ7r4R=?(l#o
zyx<KV_@Xnqpey{)4gTnk9tc2B^g<wl&>O+%gTCm8{uqFP7=#cEMkt0L4B;4xVHl1P
z7>QAcKqN*Z3egyYu^5LK#9}-qU?L`AGNvF7YD`5u5-<&kn2sbQBL%6Lfi%oSI%Z)u
z=3p-7VLldMAr>J6i?IYtu?)+x0xPi!tC5K;tU)%`VjXgji#+6GJvLw?HeoZipa6x~
zif!1A9oUIo_!PUb2Yc}u_Mr&-QH&BCz(E|sVI09x9K&&(z)76KX`I1Xl;RxD;{q<?
z5-#HkuHqW5;|6Zx7H;DX?&2Ok#~1h#U*SF;;32-oBYcC$_!dv_6wmM+FYp~+;(NRj
zy>`<1Z$8F3(Q}upjpV6Dt>i^gmfvn~S@4#AZ*K{&nABBX#7Tu^B`jeDYuLaRcCd#7
z+Mzuh(E%ON2~JSK87^>z8{FXmPk6x_KJZ0nbU|16p&R_s9X$|$p6G=@1fe&A(Fc9e
z5B)I!12G687>rO1K^Vd@6vHqaBQO%95P?XHMiink24gV}F^I)@Ou$4;!emTA9MqVK
zcqCvN5-}Y~NJa`$F#~CsiFC}uY|O!2%)@*vz(OoS1{PxpmSP!}V+B@X6;>k?Sy+Q?
zti?LyAQySa$9inQMr^`nY(W7Eu@&2}9XqfSyYMM?V-NP?GweeV_M;djIDmsVgu^(3
zqd11+IDwNmh0{2Lvna(moW})R#3fwD6<ozNT*nRE#4X&$9o)q|e2y>hCBDLaJitSI
zjYs$fkMS*@;3=NrIbPs9yu|l-g&*)Ee!|cA1+Vcdgj!q-EoegmDRiI<8T6o!DlkA*
zR6})Cc9K8xPBKHUmh$<(55205%QA?#s!XH>ZAc)64s;=d9`sQK2B?Z^s18HaKuy#_
zZOCDSI#9qEbx{u{sE-C{2vdB5Mre#CXbLklgE^X`1zMsNTB8lx!U9TI!V1=~fi3J{
z4+peEdpM#4I-(Ptpn@}8;0iam!vmi1f;W8Ni_YkRuJA)Q_@g^|AOJnl3xNniZv>+c
z`l28DV*mzX5JE5*p%{WNgkva%VK_!$Bt{_ukr<6AL}LubVjN-+i}9F%iI{}Rn1VQ{
zF%|Jhz%(RcI+Bo#6r^GX(l8V0n1$JxgSnW8`B;F3ScD8L#u6;WGAzdmti&p;Mkcbb
z2H9APb;v<3@{o`9*no}Lgw5E30u*8^wqZMVU?+CrQ|!hb?8Rr;ha&7pF-mX%2XP38
zaRf(k499T-Cvgg=aRz5migP%R3%H0&xQr{fifg!z8@P#ExQ#owi+lJSU*Jo8h5LAb
zhxi(g@C_d0TRg#2Ji~Lmz;}3w@9_#h;79y~pYaP`<JYRPr$0!<V!axbmp>ne3tZs_
zcX+@PUhswwe9;+Q&=r2@27h!%4+NkmdLa-&=#60XL0|Mke+<At3_=J7BNRgrhHwnU
zFbu~CjKnBJAQGbyg=mbySd2pqVlf^QFcFh58B-7kHKrmS37CdNOh*!uk%CmrKpJLN
zl{pIIuEHb?u?o}s#$RRS8x^uQL1q1d_pD`W<#_BzJ07bR%P;<6K=wU3g#P4v){<}3
zPLkU~oA-{MuH-|Np%Rf;PfsM~%Fu!~B#=S}x{yH+`ltc}R7EvZhaqa9CTgKJ<S;@V
zC}51bs0S0&M*}p3DLz3XG)5CNg&CT`9L>=JEzt_C(FSc{0VOP91#8&A7Iv_Q1KOcI
z9MJ(C(Fsma!5J=ag&W-A0Z(|r8$R$wXME(PXn7;5hPXy`@=lG)yhEO-%sU#@z~y<T
zvH?z>Ig3)9!+Bi5MO?yVT)|ab!*$%iP28#~d#yJ3NFKtFZ7cb*KMdKvRjFG1)<*kd
zRa?GRsA`QQ7D8346sp?Fn&Q9O-mbjbxmr)-4E~L){X=)RE1QayO~t>c!!40dYw`A2
zZoFI=-seU%DL0}?xe-mujc8JCM3ZtOnv@&Sq}+%m<wi8A!a<8brG->Sq=Y4`U=17C
z!VdOQ9jPN*HDg7bCaj6mgbi_;uq93tcEoAIo;Xc75LW@2gM+r4iO51vSEw^Zmau{~
zY+wsJ*z4))xf7uoOX4(PMVuzAiPMA)ahk9tP7`*-X~Ld3O*jx&0k1tG%Ss>WGmuz1
zxc&JLV8tKgFCwv0hNk~jiG3{TNUR*PV}+A#V&!13O|@X<;P9TYTw9U3mV<*rEOZAd
zhiX68q1yAq<vZUVseL<FJhV{=*~ilIJ=Gf(rLM&4oqCY+`hE42CUubzqe)#P#As3%
z2{D?~MM8`wb&(KLL0$A_yVRYJ<$v`=%Ku_Z;jb%b|G$@wCX|7dP3eE!tk$F%EyQTj
zj22=lXhsX$bM-|^%}A8W!~=hR%GPIHwnnK)lx6MfY(JUO((cZ(@&ikhR(fd^S!F7I
zFB0XOlB|^0wIHor#k-atQJ71VwtA%!Tcz|dC0W|LDo#tHq|mB3?CnEpzWkqWOuvrT
z|GPiZ<MnA!U2ZDRczfjax2jWHX(2SJ9@VTZbjhvha`P=Q9f?f^eRD1vp>M27zgLL)
z02iz&eP7Oq)1!x5+53IB74iXE8~^!>^+WY6{|?8k?EU^<Y&E{O_bV~>wGk<FqC>(%
zM-G(hh~!#L`TB6ING=iP<3(}<VIJL7<ZD6+XH?YG*u>b;Ok^V0GPV)v7#b5R*J8EN
zu>`Tv%K)>j#%8jA_GMIKM}884qX_p<aS-9jkXOQQ517a$<!O$8lji#8Vxx>+W?Li7
zUI&;c-um|)@nzE=|9w}!R`gE~Vo-jN=r;$+I4w3R2rxTwNNl!ngV^NvZr(pk#VGxd
zgi|(?85PBA)#j_#CJF<Uzkk<W?cRKhiuGD;g~=gI#nerBV)9X`VpPsyDtDDCOyyFx
zN#*RUQgs$Kx~NoM!kpLTb6yFXoMVLbWkF?0xkL*|3+tTyg=bZe@Wg)QQ`urj*<Rg*
z^=`rjr5`($t@A2-KfDR1^0)TeqUUfHT;0mkR|N<$1UYvT-XBwl%2k+^Cn_wf-lXSQ
zw)}2-Whcq`#0dKn^5&!obuK%}vVBw?L<-Z$fl;H!hK^|+5*gWgU{q8@jOn=0sOX^)
aqfC|dZIo>+j2+2+ZyusTa*H27t?@ta{sf@_

delta 280
zcmccL#`r#JgRi!lq>U+q1Y2=(Mrv-NC<}uqlPZG*V+DgK3y7{{5IdkMDI=*f`If^@
zO|fs^n1FmW4za$qj3NvSk}?uJjzK~G;Z_js5^oswLBMP>laoWer=z2zlPi#LbOI56
zAwU@m5X%`N7zkp6nIHy)>0}CGRRjQ)mV;PsAOfT))X^~=#Po1<1WN=$3<U|n%ma%f
t%u@uL?PLO0;ppfKGQg?a5#%Ze2%fCutR<i$!@vMU3^Gg%3;~Woh5!_`M$iBN

diff --git a/tests/testthat/data/mixed2.parquet b/tests/testthat/data/mixed2.parquet
index f7356833c9c369da4e072ee2bf4fba0f82935030..2e1e4ddef70acb58debfa145e671f805a7003cc0 100644
GIT binary patch
delta 2107
zcmb`I&1(}u7{=e-B-<>eP^=So%N|XTB6L5pn;pr)Nt=>Dq)kA@V~IgQJV*|$2U!%s
zTM^SsJ$dmUhzPy*;K8GRgy8?+MGrnRF{MP(t}#n~@4g?;JUcr%?3?KO)+f_W*o#$m
zV7J*@gV9Bz=WIzMB3H|i2Ye8K3J5_2svy>K7S|#4+?+uk@Ie47AOsPpf;ea7YM4$T
znHU79(@=pf4Iy-Ak&K5CglVWkmxdU+6ePqUJcm5znTA8Ixj-K9K>#Ws1QDo$*jz9-
zp-6`hoo^;GoK1jv8Y<AGA%yOP<a9BSN2t?Kg)R*-bdw~L4O#Q^X&sY450ZJ9{D(&}
zm$#UG1Iet%nDu$%@BbjcPW}mb{!<oY1Fye7Z8)!fGB2YUefm>he@4UOY{1{`$;DR!
z9%t~02sj@;%P*S|UDY|aH23JGv8bOaKjs(p3xB2=&vlO;Up~}=c1V^n=soB^+F=GU
zy+oF_M=UGvPly%deNdvdgGUrUmu$zb4cF}V{W3YMV25NZ*$^-tv*N4U#UF0@%hU4y
zJ?CT_WM5-h24_N8!ZYCW^`{1XIbZyBpj{%e9jhR^-K{&<M;oy|=xg%guUBp)H-!-O
zT?8RBAv$1vAjh(*cV!fJWvI(Ax>VXzt2(mZkZo@pi&U>AO~j@Q%1<SuwD}OlMq}(R
zc5bO5TsmT1r9H7B?_*ch8yPlLuDn&IyqouB-V$P0u7^a`vR6kF*YMlQ>T(U|JNnTf
KKKR?B>-`4p`NW|B

delta 278
zcmaFtKg(<br=*&sjVXf!TXAwmYHp$^3xg<=DuV=L1%oIHh^}N1JD@5lBdIgFLUpBv
z*q)_~K)xD>SX+t+1B0ZD1dn4-kbk%pM7P8nMtu-4o7|@6Q19vJ=;-7MBpjVUgkK0y
z#sb80h6o0N*kC4z0bx3sf>;#+K&9m%mK%rwDGGITOb0PN938<Dfe=GMLNN2d;t2B;
r!Dc&|fK@m;`hpB_Dt83A3Ic*BFH_eN(2-$a03rr%CI*H8#~?!h{+>l3

diff --git a/tests/testthat/test-read-parquet-5.R b/tests/testthat/test-read-parquet-5.R
index 6bb4220..d81026b 100644
--- a/tests/testthat/test-read-parquet-5.R
+++ b/tests/testthat/test-read-parquet-5.R
@@ -129,6 +129,7 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   tab <- read_parquet(pf)
   expect_equal(tab$x, rep(0:399, 6))
   expect_equal(tab$y, rep(0:399, 6))
+  expect_equal(tab$s, as.character(rep(0:399, 6)))
 
   pf <- test_path("data/mixed2.parquet")
   expect_snapshot({
@@ -138,6 +139,7 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   tab <- read_parquet(pf)
   expect_equal(tab$x, rep(0:399, 6))
   expect_equal(tab$y, rep(0:399, 6))
+  expect_equal(tab$s, as.character(rep(0:399, 6)))
 
   pf <- test_path("data/mixed-miss.parquet")
   expect_snapshot({
@@ -147,4 +149,5 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   tab <- read_parquet(pf)
   expect_equal(tab$x, 0:2399)
   expect_equal(tab$y, 0:2399)
+  expect_equal(tab$s, as.character(0:2399))
 })

From 38b9cebc1e315835da882675900593a8ce4d5b0b Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Fri, 7 Feb 2025 22:24:22 +0100
Subject: [PATCH 09/18] Support all mixed dict + non-dict types

Still needs testing, plus working around an rchk issue.
---
 src/RParquetReader.cpp | 309 ++++++++++++++++++++++++-----------------
 1 file changed, 184 insertions(+), 125 deletions(-)

diff --git a/src/RParquetReader.cpp b/src/RParquetReader.cpp
index 5c21b50..dcc3b2d 100644
--- a/src/RParquetReader.cpp
+++ b/src/RParquetReader.cpp
@@ -1312,18 +1312,20 @@ void convert_column_to_r_ba_string_dict_nomiss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, lcl);
   SET_VECTOR_ELT(pp->facdicts, lcl, Rf_allocVector(VECSXP, pp->metadata.num_row_groups));
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    // first the non-dict parts, if any
-    std::vector<tmpbytes> rgba = pp->byte_arrays[cl][rg];
-    for (auto it = rgba.begin(); it != rgba.end(); ++it) {
-      int64_t from = it->from;
-      for (auto i = 0; i < it->offsets.size(); i++) {
-        SEXP xi = Rf_mkCharLenCE(
-          (char*) it->buffer.data() + it->offsets[i],
-          it->lengths[i],
-          CE_UTF8
-        );
-        SET_STRING_ELT(x, from, xi);
-        from++;
+    if (pp->byte_arrays[cl].size() > 0) {
+      // first the non-dict parts, if any
+      std::vector<tmpbytes> rgba = pp->byte_arrays[cl][rg];
+      for (auto it = rgba.begin(); it != rgba.end(); ++it) {
+        int64_t from = it->from;
+        for (auto i = 0; i < it->offsets.size(); i++) {
+          SEXP xi = Rf_mkCharLenCE(
+            (char*) it->buffer.data() + it->offsets[i],
+            it->lengths[i],
+            CE_UTF8
+          );
+          SET_STRING_ELT(x, from, xi);
+          from++;
+        }
       }
     }
 
@@ -1487,10 +1489,8 @@ void convert_column_to_r_ba_decimal_dict_nomiss(postprocess *pp, uint32_t cl) {
   int32_t scale = pp->metadata.r_types[cl].scale;
   double fct = std::pow(10.0, scale);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    bool hasdict = pp->dicts[cl][rg].dict_len > 0;
-    if (!hasdict) {
+    if (pp->byte_arrays[cl].size() > 0) {
+      // first the non-dict parts, if any
       std::vector<tmpbytes> rgba = pp->byte_arrays[cl][rg];
       for (auto it = rgba.begin(); it != rgba.end(); ++it) {
         int64_t from = it->from;
@@ -1499,24 +1499,37 @@ void convert_column_to_r_ba_decimal_dict_nomiss(postprocess *pp, uint32_t cl) {
           beg[i] = parse_decimal(it->buffer.data() + it->offsets[i], it->lengths[i]) / fct;
         }
       }
-    } else {
+    }
+
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    bool rg_dict_converted = false;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
+    SEXP tmp = R_NilValue;
+    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
+      int64_t cp_offset = cps[cpi].offset;
+      uint32_t cp_num_present = cps[cpi].num_present;
+      bool hasdict = cps[cpi].dict;
+      if (!hasdict) continue;
       // convert dictionary first
       uint32_t dict_len = pp->dicts[cl][rg].dict_len;
-      SEXP tmp = PROTECT(Rf_allocVector(REALSXP, dict_len));
-      tmpbytes &ba = pp->dicts[cl][rg].bytes;
-      for (uint32_t i = 0; i < dict_len; i++) {
-        REAL(tmp)[i] = parse_decimal(ba.buffer.data() + ba.offsets[i], ba.lengths[i]) / fct;
+      if (!rg_dict_converted && dict_len > 0) {
+        rg_dict_converted = true;
+        tmp = PROTECT(Rf_allocVector(REALSXP, dict_len));
+        tmpbytes &ba = pp->dicts[cl][rg].bytes;
+        for (uint32_t i = 0; i < dict_len; i++) {
+          REAL(tmp)[i] = parse_decimal(ba.buffer.data() + ba.offsets[i], ba.lengths[i]) / fct;
+        }
       }
 
       // fill in
-      uint32_t *didx = pp->dicts[cl][rg].indices.data();
-      uint32_t *end = didx + pp->dicts[cl][rg].indices.size();
-      int64_t from = pp->metadata.row_group_offsets[rg];
+      uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
+      uint32_t *end = didx + cp_num_present;
+      int64_t from = rg_offset + cp_offset;
       while (didx < end) {
         REAL(x)[from++] = REAL(tmp)[*didx++];
       }
-      UNPROTECT(1);
     }
+    if (!Rf_isNull(tmp)) UNPROTECT(1);
   }
 }
 
@@ -1567,10 +1580,8 @@ void convert_column_to_r_ba_raw_nodict_nomiss(postprocess *pp, uint32_t cl) {
 void convert_column_to_r_ba_raw_dict_nomiss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    bool hasdict = pp->dicts[cl][rg].dict_len > 0;
-    if (!hasdict) {
+    if (pp->byte_arrays[cl].size() > 0) {
+      // first the non-dict parts, if any
       std::vector<tmpbytes> rgba = pp->byte_arrays[cl][rg];
       for (auto it = rgba.begin(); it != rgba.end(); ++it) {
         int64_t from = it->from;
@@ -1581,28 +1592,41 @@ void convert_column_to_r_ba_raw_dict_nomiss(postprocess *pp, uint32_t cl) {
           from++;
         }
       }
-    } else {
+    }
+
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    bool rg_dict_converted = false;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
+    SEXP tmp = R_NilValue;
+    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
+      int64_t cp_offset = cps[cpi].offset;
+      uint32_t cp_num_present = cps[cpi].num_present;
+      bool hasdict = cps[cpi].dict;
+      if (!hasdict) continue;
       // convert dictionary first
       uint32_t dict_len = pp->dicts[cl][rg].dict_len;
-      SEXP tmp = PROTECT(Rf_allocVector(VECSXP, dict_len));
-      tmpbytes &ba = pp->dicts[cl][rg].bytes;
-      for (uint32_t i = 0; i < dict_len; i++) {
-        SEXP xi = Rf_allocVector(RAWSXP, ba.lengths[i]);
-        memcpy(RAW(xi), ba.buffer.data() + ba.offsets[i], ba.lengths[i]);
-        SET_VECTOR_ELT(tmp, i, xi);
+      if (!rg_dict_converted && dict_len > 0) {
+        rg_dict_converted = true;
+        tmp = PROTECT(Rf_allocVector(VECSXP, dict_len));
+        tmpbytes &ba = pp->dicts[cl][rg].bytes;
+        for (uint32_t i = 0; i < dict_len; i++) {
+          SEXP xi = Rf_allocVector(RAWSXP, ba.lengths[i]);
+          memcpy(RAW(xi), ba.buffer.data() + ba.offsets[i], ba.lengths[i]);
+          SET_VECTOR_ELT(tmp, i, xi);
+        }
       }
 
       // fill in
-      uint32_t *didx = pp->dicts[cl][rg].indices.data();
-      uint32_t *end = didx + pp->dicts[cl][rg].indices.size();
-      int64_t from = pp->metadata.row_group_offsets[rg];
+      uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
+      uint32_t *end = didx + cp_num_present;
+      int64_t from = rg_offset + cp_offset;
       while (didx < end) {
         SET_VECTOR_ELT(x, from, VECTOR_ELT(tmp, *didx));
         from++;
         didx++;
       }
-      UNPROTECT(1);
     }
+    if (!Rf_isNull(tmp)) UNPROTECT(1);
   }
 }
 
@@ -1686,10 +1710,8 @@ void convert_column_to_r_ba_uuid_dict_nomiss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   char uuid[37];
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    bool hasdict = pp->dicts[cl][rg].dict_len > 0;
-    if (!hasdict) {
+    if (pp->byte_arrays[cl].size() > 0) {
+      // first the non-dict parts, if any
       std::vector<tmpbytes> rgba = pp->byte_arrays[cl][rg];
       for (auto it = rgba.begin(); it != rgba.end(); ++it) {
         int64_t from = it->from;
@@ -1705,33 +1727,46 @@ void convert_column_to_r_ba_uuid_dict_nomiss(postprocess *pp, uint32_t cl) {
           from++;
         }
       }
-    } else {
+    }
+
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    bool rg_dict_converted = false;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
+    SEXP tmp = R_NilValue;
+    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
+      int64_t cp_offset = cps[cpi].offset;
+      uint32_t cp_num_present = cps[cpi].num_present;
+      bool hasdict = cps[cpi].dict;
+      if (!hasdict) continue;
       // convert dictionary first
       uint32_t dict_len = pp->dicts[cl][rg].dict_len;
-      SEXP tmp = PROTECT(Rf_allocVector(STRSXP, dict_len));
-      tmpbytes &ba = pp->dicts[cl][rg].bytes;
-      for (uint32_t i = 0; i < dict_len; i++) {
-        unsigned char *s = (unsigned char*) ba.buffer.data() + ba.offsets[i];
-        snprintf(
-          uuid, 37,
-          "%02x%02x%02x%02x-%02x%02x-%02x%02x-%02x%02x-%02x%02x%02x%02x%02x%02x",
-          s[0], s[1], s[2], s[3], s[4], s[5], s[6], s[7], s[8], s[9],
-          s[10], s[11], s[12], s[13], s[14], s[15]
-        );
-        SET_STRING_ELT(tmp, i, Rf_mkCharLenCE(uuid, 36, CE_UTF8));
+      if (!rg_dict_converted && dict_len > 0) {
+        rg_dict_converted = true;
+        tmp = PROTECT(Rf_allocVector(STRSXP, dict_len));
+        tmpbytes &ba = pp->dicts[cl][rg].bytes;
+        for (uint32_t i = 0; i < dict_len; i++) {
+          unsigned char *s = (unsigned char*) ba.buffer.data() + ba.offsets[i];
+          snprintf(
+            uuid, 37,
+            "%02x%02x%02x%02x-%02x%02x-%02x%02x-%02x%02x-%02x%02x%02x%02x%02x%02x",
+            s[0], s[1], s[2], s[3], s[4], s[5], s[6], s[7], s[8], s[9],
+            s[10], s[11], s[12], s[13], s[14], s[15]
+          );
+          SET_STRING_ELT(tmp, i, Rf_mkCharLenCE(uuid, 36, CE_UTF8));
+        }
       }
 
       // fill in
-      uint32_t *didx = pp->dicts[cl][rg].indices.data();
-      uint32_t *end = didx + pp->dicts[cl][rg].indices.size();
-      int64_t from = pp->metadata.row_group_offsets[rg];
+      uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
+      uint32_t *end = didx + cp_num_present;
+      int64_t from = rg_offset + cp_offset;
       while (didx < end) {
         SET_STRING_ELT(x, from, STRING_ELT(tmp, *didx));
         from++;
         didx++;
       }
-      UNPROTECT(1);
     }
+    if (!Rf_isNull(tmp)) UNPROTECT(1);
   }
 }
 
@@ -1781,10 +1816,8 @@ void convert_column_to_r_ba_float16_nodict_nomiss(postprocess *pp, uint32_t cl)
 void convert_column_to_r_ba_float16_dict_nomiss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    bool hasdict = pp->dicts[cl][rg].dict_len > 0;
-    if (!hasdict) {
+    if (pp->byte_arrays[cl].size() > 0) {
+      // first the non-dict parts, if any
       std::vector<tmpbytes> rgba = pp->byte_arrays[cl][rg];
       for (auto it = rgba.begin(); it != rgba.end(); ++it) {
         int64_t from = it->from;
@@ -1794,27 +1827,40 @@ void convert_column_to_r_ba_float16_dict_nomiss(postprocess *pp, uint32_t cl) {
           from++;
         }
       }
-    } else {
+    }
+
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    bool rg_dict_converted = false;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
+    SEXP tmp = R_NilValue;
+    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
+      int64_t cp_offset = cps[cpi].offset;
+      uint32_t cp_num_present = cps[cpi].num_present;
+      bool hasdict = cps[cpi].dict;
+      if (!hasdict) continue;
       // convert dictionary first
       uint32_t dict_len = pp->dicts[cl][rg].dict_len;
-      SEXP tmp = PROTECT(Rf_allocVector(REALSXP, dict_len));
-      tmpbytes &ba = pp->dicts[cl][rg].bytes;
-      for (uint32_t i = 0; i < dict_len; i++) {
-        uint16_t *f = (uint16_t*) (ba.buffer.data() + ba.offsets[i]);
-        REAL(tmp)[i] = float16_to_double(*f);
+      if (!rg_dict_converted && dict_len > 0) {
+        rg_dict_converted = true;
+        tmp = PROTECT(Rf_allocVector(REALSXP, dict_len));
+        tmpbytes &ba = pp->dicts[cl][rg].bytes;
+        for (uint32_t i = 0; i < dict_len; i++) {
+          uint16_t *f = (uint16_t*) (ba.buffer.data() + ba.offsets[i]);
+          REAL(tmp)[i] = float16_to_double(*f);
+        }
       }
 
       // fill in
-      uint32_t *didx = pp->dicts[cl][rg].indices.data();
-      uint32_t *end = didx + pp->dicts[cl][rg].indices.size();
-      int64_t from = pp->metadata.row_group_offsets[rg];
+      uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
+      uint32_t *end = didx + cp_num_present;
+      int64_t from = rg_offset + cp_offset;
       while (didx < end) {
         REAL(x)[from] = REAL(tmp)[*didx];
         from++;
         didx++;
       }
-      UNPROTECT(1);
     }
+    if (!Rf_isNull(tmp)) UNPROTECT(1);
   }
 }
 
@@ -1868,34 +1914,40 @@ void convert_column_to_r_int32_decimal_dict_nomiss(postprocess *pp, uint32_t cl)
   int32_t scale = pp->metadata.r_types[cl].scale;
   double fct = std::pow(10.0, scale);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    int64_t off = pp->metadata.row_group_offsets[rg];
-    double *beg = REAL(x) + off;
-    // In theory we might dictionary encode a subset of the columns only
-    bool hasdict = pp->dicts[cl][rg].dict_len > 0;
-    if (!hasdict) {
-      double *end = beg + num_values - 1;
-      int32_t *fend = ((int32_t*) beg) + num_values - 1;
-      while (beg <= end) {
-        *end-- = static_cast<double>(*fend--) / fct;
-      }
-    } else {
-      // Convert the dictionary first
-      uint32_t dict_len = pp->dicts[cl][rg].dict_len;
-      double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
-      double *dend = dbeg + dict_len - 1;
-      int32_t *fdend = ((int32_t*) dbeg) + dict_len - 1;
-      while (dbeg <= dend) {
-        *dend-- = static_cast<double>(*fdend--) / fct;
-      }
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    bool rg_dict_converted = false;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
+    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
+      int64_t cp_offset = cps[cpi].offset;
+      uint32_t cp_num_values = cps[cpi].num_values;
+      bool hasdict = cps[cpi].dict;
+      double *beg = REAL(x) + rg_offset + cp_offset;
+      if (!hasdict) {
+        double *end = beg + cp_num_values - 1;
+        int32_t *fend = ((int32_t*) beg) + cp_num_values - 1;
+        while (beg <= end) {
+          *end-- = static_cast<double>(*fend--) / fct;
+        }
+      } else {
+        // Convert the dictionary first
+        uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+        if (!rg_dict_converted && dict_len > 0) {
+          rg_dict_converted = true;
+          double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
+          double *dend = dbeg + dict_len - 1;
+          int32_t *fdend = ((int32_t*) dbeg) + dict_len - 1;
+          while (dbeg <= dend) {
+            *dend-- = static_cast<double>(*fdend--) / fct;
+          }
+        }
 
-      // fill in the dict
-      double *end = beg + num_values;
-      double *dict = (double*) pp->dicts[cl][rg].buffer.data();
-      uint32_t *didx = pp->dicts[cl][rg].indices.data();
-      while (beg < end) {
-        *beg++ = dict[*didx++];
+        // fill in the dict
+        double *end = beg + cp_num_values;
+        double *dict = (double*) pp->dicts[cl][rg].buffer.data();
+        uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
+        while (beg < end) {
+          *beg++ = dict[*didx++];
+        }
       }
     }
   }
@@ -1944,30 +1996,37 @@ void convert_column_to_r_int64_decimal_dict_nomiss(postprocess *pp, uint32_t cl)
   int32_t scale = pp->metadata.r_types[cl].scale;
   double fct = std::pow(10.0, scale);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    int64_t from = pp->metadata.row_group_offsets[rg];
-    // in theory some row groups might be dict encoded, some not
-    bool hasdict = pp->dicts[cl][rg].dict_len > 0;
-    double *beg = REAL(x) + from;
-    double *end = beg + num_values;
-    if (!hasdict) {
-      int64_t *ibeg = (int64_t*) beg;
-      while (beg < end) {
-        *beg++ = static_cast<double>(*ibeg++) / fct;
-      }
-    } else {
-      // convert dictionary first
-      double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
-      double *dend = dbeg + pp->dicts[cl][rg].dict_len;
-      int64_t *idbeg = (int64_t *) dbeg;
-      while (dbeg < dend) {
-        *dbeg++ = static_cast<double>(*idbeg++) / fct;
-      }
-      double *dict = (double*) pp -> dicts[cl][rg].buffer.data();
-      uint32_t *didx = pp->dicts[cl][rg].indices.data();
-      while (beg < end) {
-        *beg++ = dict[*didx++];
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    bool rg_dict_converted = false;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
+    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
+      int64_t cp_offset = cps[cpi].offset;
+      uint32_t cp_num_values = cps[cpi].num_values;
+      bool hasdict = cps[cpi].dict;
+      double *beg = REAL(x) + rg_offset + cp_offset;
+      double *end = beg + cp_num_values;
+      if (!hasdict) {
+        int64_t *ibeg = (int64_t*) beg;
+        while (beg < end) {
+          *beg++ = static_cast<double>(*ibeg++) / fct;
+        }
+      } else {
+        // convert dictionary first
+        uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+        if (!rg_dict_converted && dict_len > 0) {
+          rg_dict_converted = true;
+          double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
+          double *dend = dbeg + dict_len;
+          int64_t *idbeg = (int64_t *) dbeg;
+          while (dbeg < dend) {
+            *dbeg++ = static_cast<double>(*idbeg++) / fct;
+          }
+        }
+        double *dict = (double*) pp -> dicts[cl][rg].buffer.data();
+        uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
+        while (beg < end) {
+          *beg++ = dict[*didx++];
+        }
       }
     }
   }

From f2469d87c0c3b1b5be4b8839f9619801b391c3de Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Sat, 8 Feb 2025 01:31:14 +0100
Subject: [PATCH 10/18] Fix reading FLOAT from mixed dict + non-dict col chunks

---
 src/RParquetReader.cpp                  |  39 +++++++++++-------------
 tests/testthat/_snaps/read-parquet-5.md |  15 +++++++++
 tests/testthat/data/create-data.py      |  24 +++++++++++++--
 tests/testthat/data/mixed-miss.parquet  | Bin 34125 -> 45372 bytes
 tests/testthat/data/mixed.parquet       | Bin 17247 -> 22906 bytes
 tests/testthat/data/mixed2.parquet      | Bin 10211 -> 13538 bytes
 tests/testthat/test-read-parquet-5.R    |   3 ++
 7 files changed, 58 insertions(+), 23 deletions(-)

diff --git a/src/RParquetReader.cpp b/src/RParquetReader.cpp
index 0ed71ab..4d965fe 100644
--- a/src/RParquetReader.cpp
+++ b/src/RParquetReader.cpp
@@ -957,15 +957,12 @@ void convert_column_to_r_float_dict_nomiss(postprocess *pp, uint32_t cl) {
     std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
     bool rg_dict_converted = false;
     int64_t rg_offset = pp->metadata.row_group_offsets[rg];
-    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t cp_offset = cps[cpi].offset;
-      uint32_t cp_num_values = cps[cpi].num_values;
-      bool hasdict = cps[cpi].dict;
-      double *beg = REAL(x) + rg_offset + cp_offset;
+    for (auto cp = cps.rbegin(); cp != cps.rend(); ++cp) {
+      double *beg = REAL(x) + rg_offset + cp->offset;
       // In theory we might dictionary encode a subset of the columns only
-      if (!hasdict) {
-        double *end = beg + cp_num_values - 1;
-        float *fend = ((float*) beg) + cp_num_values - 1;
+      if (!cp->dict) {
+        double *end = beg + cp->num_values - 1;
+        float *fend = ((float*) (REAL(x) + rg_offset)) + cp->offset + cp->num_values - 1;
         while (beg <= end) {
           *end-- = static_cast<double>(*fend--);
         }
@@ -983,9 +980,9 @@ void convert_column_to_r_float_dict_nomiss(postprocess *pp, uint32_t cl) {
         }
 
         // fill in the dict
-        double *end = beg + cp_num_values;
+        double *end = beg + cp->num_values;
         double *dict = (double*) pp->dicts[cl][rg].buffer.data();
-        uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
+        uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp->offset;
         while (beg < end) {
           *beg++ = dict[*didx++];
         }
@@ -1031,24 +1028,24 @@ void convert_column_to_r_float_dict_miss(postprocess *pp, uint32_t cl) {
     std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
     bool rg_dict_converted = false;
     int64_t rg_offset = pp->metadata.row_group_offsets[rg];
-    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t cp_offset = cps[cpi].offset;
-      uint32_t cp_num_values = cps[cpi].num_values;
-      uint32_t cp_num_present = cps[cpi].num_present;
-      bool hasdict = cps[cpi].dict;
+    for (auto cp = cps.rbegin(); cp != cps.rend(); ++cp) {
+      int64_t cp_offset = cp->offset;
+      uint32_t cp_num_values = cp->num_values;
+      uint32_t cp_num_present = cp->num_present;
+      bool hasdict = cp->dict;
       bool hasmiss = cp_num_present != cp_num_values;
       double *beg = REAL(x) + rg_offset + cp_offset;
       if (!hasdict) {
         if (!hasmiss) {
           double *endm1 = beg + cp_num_values - 1;
-          float *fendm1 = ((float*) beg) + cp_num_values - 1;
+          float *fendm1 = ((float*) (REAL(x) + rg_offset)) + cp_offset + cp_num_values - 1;
           while (beg <= endm1) {
             *endm1-- = static_cast<double>(*fendm1--);
           }
         } else {
           // nodict, miss
           double *endm1 = beg + cp_num_values - 1;
-          float *fendm1 = ((float*) beg) + cp_num_present - 1;
+          float *fendm1 = ((float*) (REAL(x) + rg_offset)) + cp_offset + cp_num_present - 1;
           uint8_t *presm1 = pp->present[cl][rg].map.data() + cp_offset + cp_num_values - 1;
           while (beg <= endm1) {
             if (*presm1) {
@@ -2005,10 +2002,10 @@ void convert_column_to_r_int64_decimal_dict_nomiss(postprocess *pp, uint32_t cl)
     std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
     bool rg_dict_converted = false;
     int64_t rg_offset = pp->metadata.row_group_offsets[rg];
-    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t cp_offset = cps[cpi].offset;
-      uint32_t cp_num_values = cps[cpi].num_values;
-      bool hasdict = cps[cpi].dict;
+    for (auto cp = cps.begin(); cp != cps.end(); ++cp) {
+      int64_t cp_offset = cp->offset;
+      uint32_t cp_num_values = cp->num_values;
+      bool hasdict = cp->dict;
       double *beg = REAL(x) + rg_offset + cp_offset;
       double *end = beg + cp_num_values;
       if (!hasdict) {
diff --git a/tests/testthat/_snaps/read-parquet-5.md b/tests/testthat/_snaps/read-parquet-5.md
index ac8e099..4502c0a 100644
--- a/tests/testthat/_snaps/read-parquet-5.md
+++ b/tests/testthat/_snaps/read-parquet-5.md
@@ -62,6 +62,7 @@
       2      INT32        REQUIRED
       3      INT64        REQUIRED
       4 BYTE_ARRAY        REQUIRED
+      5      FLOAT        REQUIRED
     Code
       as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
     Output
@@ -78,6 +79,10 @@
       10       DATA_PAGE       1024 RLE_DICTIONARY
       11       DATA_PAGE       1024          PLAIN
       12       DATA_PAGE        352          PLAIN
+      13 DICTIONARY_PAGE        400          PLAIN
+      14       DATA_PAGE       1024 RLE_DICTIONARY
+      15       DATA_PAGE       1024          PLAIN
+      16       DATA_PAGE        352          PLAIN
 
 ---
 
@@ -89,6 +94,7 @@
       2      INT32        REQUIRED
       3      INT64        REQUIRED
       4 BYTE_ARRAY        REQUIRED
+      5      FLOAT        REQUIRED
     Code
       as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
     Output
@@ -105,6 +111,10 @@
       10       DATA_PAGE       1024 RLE_DICTIONARY
       11       DATA_PAGE       1024 RLE_DICTIONARY
       12       DATA_PAGE        352 RLE_DICTIONARY
+      13 DICTIONARY_PAGE        400          PLAIN
+      14       DATA_PAGE       1024 RLE_DICTIONARY
+      15       DATA_PAGE       1024 RLE_DICTIONARY
+      16       DATA_PAGE        352 RLE_DICTIONARY
 
 ---
 
@@ -116,6 +126,7 @@
       2      INT32        OPTIONAL
       3      INT64        OPTIONAL
       4 BYTE_ARRAY        OPTIONAL
+      5      FLOAT        OPTIONAL
     Code
       as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
     Output
@@ -132,4 +143,8 @@
       10       DATA_PAGE       1024 RLE_DICTIONARY
       11       DATA_PAGE       1024          PLAIN
       12       DATA_PAGE        352          PLAIN
+      13 DICTIONARY_PAGE       1024          PLAIN
+      14       DATA_PAGE       1024 RLE_DICTIONARY
+      15       DATA_PAGE       1024          PLAIN
+      16       DATA_PAGE        352          PLAIN
 
diff --git a/tests/testthat/data/create-data.py b/tests/testthat/data/create-data.py
index 2894adf..669286f 100644
--- a/tests/testthat/data/create-data.py
+++ b/tests/testthat/data/create-data.py
@@ -1,14 +1,33 @@
+import pyarrow as pa
+import pyarrow.parquet as pq
+schema = pa.schema(fields=[
+    pa.field(name = "f", type = pa.float32(), nullable = False),
+])
+data = [
+  list(range(400)) * 10,
+]
+table = pa.table(data = data, schema = schema)
+pq.write_table(
+  table,
+  'float.parquet',
+  row_group_size = 1500,
+  data_page_size = 400,
+  use_dictionary = False
+)
+
 import pyarrow as pa
 import pyarrow.parquet as pq
 schema = pa.schema(fields=[
     pa.field(name = 'x', type = pa.int32(), nullable = False),
     pa.field(name = 'y', type = pa.int64(), nullable = False),
     pa.field(name = "s", type = pa.utf8(), nullable = False),
+    pa.field(name = 'f', type = pa.float32(), nullable = False),
 ])
 data = [
   list(range(400)) * 6,
   list(range(400)) * 6,
-  [ str(x) for x in range(400) ] * 6
+  [ str(x) for x in range(400) ] * 6,
+  list(range(400)) * 6,
 ]
 table = pa.table(data = data, schema = schema)
 pq.write_table(
@@ -29,7 +48,8 @@
 table = pa.table({
   'x': pa.array(range(2400), type=pa.int32()),
   'y': pa.array(range(2400), type=pa.int64()),
-  's': pa.array([ str(x) for x in range(2400) ], type=pa.utf8())
+  's': pa.array([ str(x) for x in range(2400) ], type=pa.utf8()),
+  'f': pa.array(range(2400), type=pa.float32()),
 })
 pq.write_table(
   table,
diff --git a/tests/testthat/data/mixed-miss.parquet b/tests/testthat/data/mixed-miss.parquet
index f71948af3b4decaf367e081dd2b60576e1586b04..d97fa2ac0e9cdd961fdf45198bf316bb427ce4e0 100644
GIT binary patch
delta 10125
zcmYk>3$&)!cn9!jVkQYfCgh9>X?=AGCF&?aQT8MgaS4vpwT;@Y(U$hKw6s;<(;zg}
z^fV!YV7oRY^wj-UeZ-}zF2|*+sBZUbIS56O{!Xe^XU%W__y2wN`_8O+*O{~CoA;f4
z$Xh;h$mTg`E?2UxoYhWU$-OIawTN6q?Adkc_m9jwL`3tGWKc}vK*U}atkPJcvrh6<
zHn@PnMQrj0ig&YhAeQklo5`2h=6l465xY5@BiPH)?B`e(T#p-aJgeM-TXQ=a2e}ic
zvc|o*AE(oKD33UC8SzM)bsodxcs$9OJc+Y-DrfUF&S8Udc{=BF0ng?_p2y&YyqK4A
z5ijFnUdbk};x$Xl>v#ii;w`+D;u7A$yLdP6;k~?{Ek49Y_$VLa<9w1&G5HLi;|qL=
zukba#&Nkm-d8y^Qe2*XSLw-!06tRm#xB|P`!=W6;;arg`ab=F+DqNK#*~?K}jjMAs
zE9~PM?B|%1y#H(3T#IA*8Ge>)v*72r4%g*+T%Y5(0XO95xe+(!cy7Wka8p*f8NbNQ
zxdkV1OK!!j`K6P*|J&HymfP{m+@3qoIKYXV#6eExj-0}sxHEU*uAIu<xI6b?jeBw$
zzrww^H}~Pb+>iS&Ex*dIaXJs+*LfhF2k~GY!b5o&59bUX!Ef-J{1%VoQT#T)!#cmq
z@9}6J!|(G4JeJ3?{6oth@y9%#Kj8`N{KoR6Na9Z=ai%1mD2XRY;>nUYOA=3!#8V~l
zXOcKu5`Qj<r+NQriNA1xI7bqHDTxh9{FNlmmBe|Hc)BE>A&K)P@k~ivAc<#5;@OgT
zjwCMh{_{ec=ej^VPZH0U#E`@bB=JH?yhsu+mc&aW@lr|rwInW*#NSBbWs-QgBrf*H
zoEO`?LK3f(#NSF{QxbnCiC0PD)slFPBwj0t*Gb~_l6Zq8-YAJTN#f0tSiZ%E_<Kpb
zRTBRoiIT+IByou(-Y$uENaCH6c$XypQ4;T##6L;mJ(Bom$uiz+L%dHC@0Y{}B(Wul
z4@%-glK8MBJ|c;Kk;F$O@voBjm?Zv95+9euC*&t~zWzUHL;SlWJ|&6&ki?Y4rzP<j
zNqklkpOeJrCGiDGd{Gi#lEjxK@fAsYRep78^EDgdKPB;XNqj>R+miUEB)%nyZ%g7*
zNqk2V-<8CFN#c8w_`W25Ac_B$OH2IFhWL>rek_U0B>w7)MpDEsour6Ebdn;jppz7_
zTPG=Ek4~~IOC0I~NfC$XBt;yqlN519our5>=_Ey5Stlvt2%V&etLWra4lbi?;;Jr?
z6mg_ZQp8@Jq==(*k|M6AlN51vour7Pb&?`hbaG|sf=%pmfux9Q=p;q#*GY;vMkgua
znmS1l*V0LfI94Yq;%9VnX({4oT_7pq+B!)Q3!S8hpVLW-xQ<Rz#C3I&BCe;C6mfl>
zWm<|j&IOVpZlIGCaYLP?h@aO<inx(ZQpAmQk|K`RNs73MeiQFMZHo8>7f6b@sZLVF
zs!meG&2*9?eo-eW;^sO@5x3Auia0?(Vd;WR5w~=Kq=;MTBt_g>Cn@5Wbdn-&qmvYI
zTb-nc+vy}l{Ib5ZBt_ib1(G7}ppz8Qbdn+t=p;p)sFM_Nl1@^@L7k+ClfD0DNs73m
z10+S9qLUPHC!M5-JL@Dx+(joT;;uSL5vS@TMcmE%Z+CNnBJS=0NfGzZNs3t0Ns73q
zPEy2aI!O_~qLUPHFP)@_doNwMw+j?;ADyI#`|2b`+)pPd;{G~G5x=UF6!B|1NfD>(
zBt<MA-~vezzpj%M@j#uVh^~_q@gSX~hzIK=MLa|&DdM3zNwJKFxj<6H!*!A(&d^DU
zc!W+;#Bb;%Mf|2tQp9iRBt<+@C#gqz|M4gnNQ(Gvour80(MgI}*GY=_U7e(e-_uEo
zc(hJZ#A9@ldd$*=-*<teh(FLtig>I}QpDqQk|O?4Cn@5Obdn<eSSKms@j6L8&=P;*
z0!a~1&`FB$n`|VtJh&1o=O4W?jy`_pGlRV=hprrY?Ec+518evW7B~EV?bR>4?KSqC
z_kfk7mN758{6rqS{KQY2d!Dkm^w7Om*tvP{F3Z7K(C8$CViJF9PNS0yib<SlPNS2I
zGk3nx+f3q#4$$Z%gJKd-GN;i=2E`<vY)+$-42nsdWlp1$jI(zB>})3S6bEQ@l0h+v
zr<&8~B!glSe`ZdjlMISUoNZ2{lZ>UMn8cquK%<ikib*`poJJ=Z6qEQ1a~hpwP)y<+
za~hpwIV{B_{?Y*&on%l<V#Az9Cm9rz_$zZ7on%l<;#_kYojlk3A2!7#&U1i9Cm9rz
zc)B@_PBJJa@eFeson%l<;(T)&ojl+BA2!7#p6LLMPBJJaae+CFPBJJa@ho#1on%l<
z;@RdjI=QqAib*`j0UDiTP)y=Na~hpwP)y>v<}^CVpqRw-%xQF%X&Drgc)kNPI?14z
z#4xAPNe0CvUSLk6lMISUywIFRf1&rEHiKdkFLHoJCm9rzc(FN+PBJJa@e*?yon%l<
z;-%&^`b(D%*bItE{Ivr#I?14z#6{*bI?14z#NU|H=p=(;5-&5S(U+EFP)y?G4$$Z%
zgJKdFo73ndgJKe|FsIQ;2E`;^X-;F=Ey<vm#NRqVqmvAZNo<<a=p=(;5`Sk-qmvAZ
zNxaIO_A2kc+a!Zx60dfEMkg5*lX#6ejZQKsCh=Nx8l7ZNOyYIswAXq6-6k0nlX$%Y
zG&;$kn8X{*X>^i7F^M;t)956FViIpMr!6g=WKc}v%?{A$B!glSZ!xFQNe0Cv{@$EM
zCm9rzc&j<fX6Yn@ViN!00F6#EC?@`?5DOZeWKc}vZRRvO$)K3TCFYlS|IMb842ns-
z-2ob%WKc}v9p*GT$)K3TJI!fyl0h+vcbUIy>3~fq85EQFM+azhl0h+vcbn7bB!glS
z|71?1lMISUyvKZLX>^i7F^PY6fJP@76q9(bIgL&-C?@efa~hpwP)y?e-v7eV=p=(;
z5+CpY8l7ZNOk&HNMkg5*llY)HjZQKsCh;NffAJv)=p=(;5+C*e8l7ZNOyVQvG&;$k
zn8d%B)956FViF(q{udv0fKD<fCh@Q4G&;$kn8e4-X>^i7F^PXOr_o6U#Uz#=cYsDG
z85EQFggK2)GAJhTNpl*VWKc}v-_2=sl0h+9#-|*h(MblyB>uykMkg5*lbGf-I?14z
z#HY<^bdo_aKkfa;XB?o>Ne0CvK5I^+lMISUe9oLkCm9rz_`ErdPBJLw=a&wA!2ueb
zWKc}vi{>;s$)K3Tm&|E&l0h+vFPqcoB!gluE%6lxXmpZ6F^R95)956FViI37r_o6U
z#U%dIoJJ=Z6w7IeuRB1alMISUe8ZeZCm9rz*fyupNe0CvzG+UQlML#c-v6|TZ#h7t
zlMISUeA}ExCm9rzxYV3RCm9rz_>MV^PBN(Pc>mKTzUu&uPBJJa@n7aNI?14z#P`f;
zbdo_aiSL`!=p=($S|;%W2WWJXK{1K{HmA`^2E`<PXilS(42nto$ecze87#{(i61*a
zqmvAZNnB=5qmvAZdD+gV59jP#xnSS%E49b|C!aoSubjMpw+|3bzWlR=pSGRP7Os5h
zS$ll8;NSmye7F!N$6gk!(paOjPO`yZlVXd>HnGe7ELf$nMrWO5gTW@n7IW9q18m|D
z4`9J6jWs&!BpVDiDYlqw6IXCQ3sz~Y(OD<iV6aKC#avppiQOK+f>j!8bk<2W7;I8(
zG1(^exSs{9G}h>>lWZ{9q}XCPE!)JQ9>9WC8f$dcNj4a4Qfx8VCJu8y3sz~Y(OD<i
zV6aKCb=b+i{%y92!##int2EZ=tdndo*reEEvQ1pk{VZ6eu|{W|WP`yb#nu(Q|7o*L
zT*(7iuu5Z%&N|5kgH4JpCfmf7-Oqwm8f$dcNj4a4Qfw_PlWpP%4`9J6jWs&!BpVDi
zDYlqw6IXFR3sz~Y(OD<iV6aKC+_FrziK}`53sz~Y(OD<iV6aKC#blc}()}!0rLjh5
zon(W-CUvCuzhyJoCiZ#&3sz~Y(OD<iV6aKC#blc}%Ka=@rLjh5on(W-CUunezhyJo
zCa&fIELf$nMrWO5gTW@n7L#q_>h5R3DvdQd>m(ZtHmRj$i^(=|v<I+YmBt#Kb&?GR
zn-p72wuu$@vtX6R8l82L4F;QByDVEwwpUJG*?r9EC&d0kAN`O=JnT^qS~>i@3(vgv
zkt>H^|B(H=9v=JZ`o|o5%&D)w<jg(0Zhu@HyK?w3C&Zz9k1<<0#BkrG7w_74!7Fwh
zSMS+<+y!Uv-uVF9GcW%Z@V_5G|FoU=iYH#{MsIrmVeUHa@O>A(e$UbV^YqyLM;tiq
zw0qq5Hvjvp@Bi8%H{JR1*fUN%?^{p2{k`sa;J|^C&afP~|ITu7ryn?ZXE|eS=a|hs
z?{@jcQ+6&MxO{v0?(*#^_djsr83*pXbGQ7-_45us>AU+*J=Xuk{@>3y-M6K+1E<~W
Fe*hs9Bq;y@

delta 119
zcmdn<i0Nz>(}un#K1m-_1_`#}<c!qZL{YZMFV@Pliycsvl##UAEVho7kyq^4LN=g)
z8i&|~E|$p+>qWTMFzJJUWxC_!dF$;&d>tJfoyviPBZ%eb7zo6Z4K{oewvl0AfFOpQ
LObiSGjzNY1(3K)1

diff --git a/tests/testthat/data/mixed.parquet b/tests/testthat/data/mixed.parquet
index 9fbb6eaf2037d0a0b92e098bcd5543d8a88935b5..7a8ef5a08451ac9db2cb65428862433b97d7a0f8 100644
GIT binary patch
literal 22906
zcmeI)2YglK-8k@*kc5OG^I{@Vae#=ZBw<BS5@uMkW$(TBQk1aw5FAWp?+prW1Z24o
z7j7K2XsvZnYi?+wyYOH2O$w{Ly>n)A8e{LVe+xzD-x+;g6lb5Eo6CP|^FP-a4C
zT0;HM(wI<CI0*LSJ5@C%FhvkaE~1DgydpQT#F2-*<Rd>9QGkLJLViIJiV~t27ZXnc
zmr$HUF6A;Vrvz7UC0B7ZB`L)<l;&E>a2;j2o*TH4awL&V3gxLlMJiF5RBqyCs&EUp
zQk68)sYZ2bP?K8JCWAWEr5^QZz-=_75shg=Q<~A7+i5{dTG5&|w51*G=|D$1(U~rE
zr5oMpK~H+on?CfVAN?7?Kn5|GAq-_0!x_OyMsWvsGMc-%n=xcEmT`<{0u!0UWTr5c
zX-sDZGnvI~=5P;lna91{$NfCOd={{fMJ#3s5AqO8S;lf!u##1*W({ju$9gufkxgu7
z3tQR7c6P9nhk1lu?B-D(<8hwgNuJ_q_V5gQ*~fmK<p2jc#9@x`9MAItFY*#cd6{Fp
z!mGT->%75n-sCOb<{jSUJ>KU8AMha`@iD*P6Mo4_KIJoh#pnE*FZc~#@)ck64X5}m
z-|{=Y<M({eANV7G;xvCIeDX&SNiL#@CWhR^5=S2Ll8^jcL;(s?h{6=1C?Se*G4UjD
z3B^g|QZD0iN^k{Nauruol2TklX|AOV*HM=1xq%xgM-s`TP@W1@q!N`$<tA>X3b$}8
zRY@bAYE-8NHK|2yGN?mc>QSEt+(tth(U>MQr5Vk+offpD6|HGQTiVf{4s@gwo#{eX
zy3w5;^rRQP=|f-o(VqbfWDtWH!cc}WoDqy<6nAhZqq&Q_8AB#x8OL}gFp)`2W(rf8
z#&l*dlUd9r6ojS}4t<fkY$&r}s9-226q6Vq6<!e^6+XI(1*Ok<X2FEGQ~M+0#srbE
z@o7sl$L5MHT)O3+rDMnEE_h|e{Iq4`CgzP#?s<IAvhkA(l&Cf(K7ILwsYOaRS=;iN
z<rAl0T(0w>`ROYr%`9Gd@X6!Pte8Ce^0aZW3Ds6kx#y~kxusj}T{(5$HI0^MEU30>
z+I`ox+}`uey{o1_aAU{4QxdALp0OaM=drb|_N|_|sM5d>4=t#^X4aCMM}B?s&3$WT
zKU6g{GVYQZYv(MhKBe%rt@p3JXGQHfSJqirW8K_U_2wt{dTal>d21Rjtv2<Nn(Oaf
z*K}=@b*-OWf8T}{TRR_KSaZYuo7(Ii{OMcIZg^lzhdtxsir3mWe_NMBbFXc4VB>-v
zJ&rD~v#8dlg%9^RzP;Dm2R1F*HQ>bFsl{t=Ui|2glgHMzIk<Vr<0HQO@bIGATONG!
z&hNhd^zDON9(sCAkSkAO#@40JjE^l+rtP7v%l1t!cvaoS8QYdWJ3T(7_dAEStvEQl
zMD=Njb+)fOJg;=q^=%JtU-jGr<+>bMTxZAX7Zz0>^4U9wcdU8op|tUNF0H$B?aM1N
z=9Ou8Waqk9)-+mCcS+rc*T1%*<&NI(9(j1f8(TW=n|5ivM>f8>qvtE@+dcQlrnh$u
z{OHJ%db>8i`}oLjK704MU0dFNIx|<^%j)mm`oX>_MXqcA{O)ZZ9SlzIjd*cyM7}Zh
z>gjzEKYDy`$=--#dn00_k1oG;QZ9!{W?E=_V%A|2T=+1_EOBaC%n8TK2jrBEIc4L2
zV%g}>4U~jAZEO3WIyI<CEozfN9qLk#`ZVA+8q$cyG@&WYXwL1lpe3znO&i+Mj`nn*
zBc13>7rN4o?)0E1z35FJ`qGd73}7IG7|alcGK}GjU?iisgF6|`UEIwWG8xM_#xsG5
zOky%qn94M!GlQATVm5QQhq=t-Uhd<59$-ETSjZw4vxEnEh@~uJIV)JnDps?GwX9=3
z8`#JuHnWATY-2k+*vZ2@!Y+36D39?tPw*s9@icpQhP~`#KhJW2gB;>8M|h6sd4U&s
ziKD#CF<#+SUgLG%;5cvc7H{(o@A4k+bAk`}kdOG7U+@XP<RqW+8NcFle$5yBhA;Vw
zula^k{FZO|9p43~(_;RekKt*0?xD<Lp=rg+hW138KexSA&RhCxdn^3Rl$rO`nCS3)
z63L`co(fc?5|v5iCT^w*w{R;}Nh6(VRHp_tsYPuvs6$=qQJ)6fMnf9Wm?ku(8O^z!
z7PO=lt!YDB+R>g4bfgoV=|We!(VZUjq!+#ELtpyQp8*VH5Q7=QP=+y_5sYLMcW@`8
zxr@6QLndPx$9N_%kx5Ku3R9WJbY?J<S<Ge*_b``v+{=C3&jZY70Sj5gVwUhA53!VG
zEN2BPS;cDBu$FbKX9FAA#Addzm2GTi2RnI~N7%(~9_29}=Lw$VDV}Bz&#;$$?B`hy
zaF9bB<_OR6JTLGfFL9KYImRoz%4@vN8yx3N-r{ZE;a%S2eNONJAMz0&^9w%Vmz?BN
zKI2z>&ae4`-|!`0@ipIYir?}rzvDZ8&-eU+Kk_F|^Jl`fcm$E;B8q5Y$W1J9<RLHl
z$j?O-Ag7c3Gw&oDdQA@9``4k@%!I51BqD!o5J@hgh$e>I#1cmy@{*7ITtop1Qi#G7
zp(r7WaWU~Ea0$gp<Wer<a!POoS8^3sQ<73#Lusz14A)VX>$!m&DMu2?q)?s;RHPD>
zN#!PPrV6)kD^*D&ooZC41~sWgZ8E4sUFuPv2HZwN8qt_0G^H8Mxt$iYq!q1cLtEO>
zo(^=R6P@WoSGv)i9`vLaz3D?=`q7^O3}g_48NyJ8F`N;MWE6LBC!@KGyBR|!V;RSI
zCNPmnOlAsGnZ|TxFq2u#W)Al-mwDXFecaCj%x3`$S;S(N@E{Mdlw~Yu1uI#_YSyrp
zb*yIt8`;EWwy>3LY-a~Md6-Ao#cm$uF&^g$p5!T>W)IJ>mwoK#Sq^ZJLmcJ^&+$Aj
z@FFj9l$SZiE4<2Uyv`dO=S|+?ZQkKs-s62v@Btt45g+plKH-;~<WoN5SA5Q|`GVi@
zC13G1-*AfG@-4sPJATji{DD96Cr<O{{IOsCJ}M$2u29bDZ+BFu1~sWgZ8E4sUFuPv
z2HZwN8qt_0G^H8Mxt$iYq!q1cLtEO>o(^=R6P@WoSGv)i9`vLaz3D?=`q7^O3}g_4
z8NyJ8F`N;MWE6LBC!@KGyBR|!V;RSICNPmnOlAsGnZ|TxFf)H_mGHQ0cnS}(hNtt5
zzs8<j86SHlQC7d;JWH+38IS$hj>l$3gkJxf0on5$A^MZ&S?ajSOp7`ZZu5Q+mpkgG
zDnp}!h`6{Q!kH0CE~1DghTOywM;`K$kNjLj0SZ!x!W5w>A&PM^@g#5w#YyB+F5_}a
za0OR#6<1S|Qd~o6uB8muQI_kufg34D63L`co(fc?5|v5iCT^w*w{R;}Nh6(VRHp_t
zsYPuvs6$=qQJ)6<%uCU;ji^Eqg$g)!3gsL-j)|OOCtEe}*<&ZC0q&T2nPa@dtGveR
zyuoqa<SpLj9p2?V-p?O<Iy2wT<PjdSEgM?=H$%4PRI25EXrujYReN@6xT-A{RW4lB
zCWWiooSNd_+TPAN+nud1ag_hY+5S^^w{x0`IZefXQHMJ!G@;D7W4Yr(;o*H3qD8w9
zE!u@>(Jn-bb|G4{3(=xoh!*Wav}hNiMaQQ`N|;nGIwnXWnH0)Xfr?b3a&$~|6>GC6
zMY`-LFI{$2kS;qaN|zm#q|1)V(q%`gbQchtnwqO-Vo)wFceu_Bl1ZUF6{tuhD#zuH
zt0hJDBukeaDbi&}dFisFf^^wYQM&A?Bwcn?mM%L|rMrMSPXx(1eyV*Cm7H4h@4tW)
zU&y~mR7z5}S^uicelGb$rKGMJ8UC<Wr=(WSrCLZyO+C+8ZpEN<WNK=BM7TSUGgSL?
z9jbk`PiXhKBemxq6`xgz4<A0s$>*uwRFt`+QhrnqDzDF1KV_#b3a80VT@+4}ow_KT
zCOdUeI8AoyqHvlE)J133N7u4j{-6HH`Tw(}@UJUq|F4&giORs7ru08<R%fRf9Zr*-
zW^_2s1)9;}_3QEkN!b&Xlr(Yw-~U;a$Ffz~$|Wi(t9`wyQEXCjr4JUL-EdS=O56-Z
zR+bCDm#CyOCD}2p>#!MTUHGMEw-}C5NfqOcMO93S{z6GM<Hs(XS5%Th>%z&--DLLX
z|K}Uir^n^_Pk+oBmq&x@c*)TGb4Ol(s5)~cl?ykiJ}+D}+$Ars%k5WUF;NvR&^LF|
zg!{(X>Gy`y`~)X#34LFm$j8&e&FTIAxE1mfv^M_dPu8ERXZfG7-JIU<|HfA1d3(Pu
zl1&Ir`s+oqd-8>^vObj>lUY@XmgYewOWDH-!oN!>ND0c3Mk6{hkW8j9hxsgJEnC^m
z9u9Go<DB3mU-BK{-#kPSOFjxxlz0*;!PS(eEafOqWvY-y4Kk=tBbw2YwsfQ`J?YCp
zhBA`TWHOEkOkxVtn87UOFqeC|pZP3gF%Pno<*Z~iYgx}mHnWxO?Bo%4^B7O?6nogq
zehzSmBRtQG9OW3V@;b+Pi+6aB6MV?We8NdS<8!{?OTOk5-|`*b^G8k-{=G>Ak>nzZ
zXky4sEOF!^FZsyNMHHYQg(yrBiV~t27ZXncmr$HUF6A;Vrvz7UC0B7ZB`L)<l;&E>
za2;j2o*TH4awL&V3gxLlMJiF5RBqyCs&EUpQk68)sYZ2bP?K8JCWAWEr5^QZz-=_7
z5shg=Q<~A7+i5{dTG5&|w51*G=|D$1(U~rEr5oMpK~H+on?CfVAN?7?Kn5|GAq-_0
z!x_OyMsWvsGMc-%n=xco4>AeHiUi|Cg7G531d(8(NH9qxm@E=Z5ecS>1k*%<=_0`l
zkzl4sFiRwuEfUNT3GNXI=86RKM1p%og8M{*`$d8WM1uJu!2*$Bp-8YuBv>pGED;GF
z6bT*@36_ck%S3|ZBEbrgV5LZ~N+eh<608vk)`|q{M1u7q!3L3Fqe!qxB-ktxY!L~z
ziUiw4g6$%~4v}D|Nbs;o@Q6sTOC;DW5<DsrJSGx6E)qN;5<DpqJS7r5EfVYz37!!N
z_KF1iM1uVy!LuU40g>RKc(D3;MpWIGz>2K96J)yN;+$s+o17umpX(6o-`}0!pByGx
zcP9vP%0}l{PTBaMS~e=~OgU}qoVInO`Z5<$L=!`9Vu>RUdC5n9E}{ShDMVq4P?QkG
zxR`hnxP;;)aw(T_IVHG)E4hlRDM=}=p)}W0hU+NH_1wUXlp~2`QYcRaDpHBcq;eBC
zQ-xc&m8ztXPBp4igPPQ$HW}2RF7>ES18$=sjc800n$nEs+)fKx(u&r!p)KubPX{{E
ziOzJPE8XZ$4|>vz-t?g_{pimC1~Q1j3}Gn47|sa(owp{it$%cPg0mHATD5cATWR6W
zUDn+Rd=chrkU@PK(TtX~r6XPGNnZvsl#z@klW|NSr<0s>BL81Ikw-e2M{x&tGMc-%
zn=xc+h>_DtwjY++56eYzI?49KKKo(6$Uo{NM<uka5X8p}>C&@XzfK{)fQu~YzKtV;
zP*gaM3PSn9aY)Iaexfov6dQilJt(%PWI|#>{Zc_<C^Df!5K}P0YeJD07dtXOqS&|1
zOYKZ375mTb2AELAJ!x$%{3BKy3;!wTS@`C!iJ_>od5$`h=f-a$ip_6PYUhAbr<*6n
zpY!_(>9Z!4%XyXt|8yhy&TeGLnT^bUDWcf+=B1uL5K-#>O%aJd{Ik&2SN}AZ*t5BG
z|Le#9x_PND7e$sjG%nH}I9mhyDaYTAIQ+wGiyc24ZBLepEw=r5WKqqi#Q1#aO`0@p
zanqS^DgN`w8^hCx9@Wy*(;E|>>ZPZTNUzo-y;gd9kM!z2vX)hoph0-9dU|@DaP<6a
z^ep_+GbvkzSJueNs%Ch$N2755;kgD`3u}jG|FWqcW^1<!Z%=+%F)KxS<LX1gZ!P?!
zT9d3rSy_kQ=nqrYY?rLO8;9Rd*7lPAvb{Q4+w&nzS+i$e7M{)M<4=v6XY)^Qp0!FQ
zjl-YM)Fr(}IGoKiJfD6hzl^N;ALo~~lf3^C;nz!YW~WJ7Eo&!by(ayZAil)FPJ;&x
x>o)ZIE&~T%-)ZpR0V7Hb?>2ZyuL1o_Bvrm4>4tI%;gjPpkDz%j%@}uG{x5yYTWkOT

delta 133
zcmeyhiSd3L<A!Ape3Cw<3=(X`$r-7+iK1+ib;IP@#SW-S%1GKwjt={;E!KC81;|(9
z5IfMsB*MTTDI>w-7!>3mZUxaIv4%+>1T51XC*KLT6Y+I)baW~Q5{@92qhlZtPtJ?@
UCTt_azyLuEo0%9G0vv-30b~^<mjD0&

diff --git a/tests/testthat/data/mixed2.parquet b/tests/testthat/data/mixed2.parquet
index 2e1e4ddef70acb58debfa145e671f805a7003cc0..687c721bbb2bd10725c8c504bae43abe9b655c33 100644
GIT binary patch
delta 2009
zcmZ|QeQXnT9LMobOQ}_hOxTqcs|=-OI+RVA0#4|)8v`xwK@_GFhdgvB=x``QksdJT
zM8HV_Cr+G*IC0Lw5a&cJh=UMgh%tr`V-|b}F@z992r<U^K1tAjX!`oSzjxP5uf3%G
zx#Z-6&caaAumVOyAa1m}4GoggUa7z1+<3P&Nm7I-EVLqxKFE|ZkcC`CP>L$lz(OOM
z(2Q2Jp%dLm;|PwKO6oX6A5P&cE<jPq1rNN)KqmYMA`2ssjZw(OSd2pfA}GWZ#8Har
zn2AbMVJ@npNogTN4VIt|%VA*^>d}Bktif8WM-w(+BQ~QMThM~7XvH>c#}2e%C)&}0
zPVB~>B+FiOqX+x2A88!KA@t%1j^Z19i(~i>-{S`y#|iw1pU{Vs_yxb=6n@8PoWWWA
zf#f-s^SFRN@fZGvVv+++^n(li;l>s4;7VMDtKr1}T!Vqgz_l2J!N`OGABMn>K#co8
zl;JuAaXoIpFl1pkZp2L(fe^wNiEP}ATabfMxD~fyG;)!L+c5@Xk&ioYC&poXjQc-<
z;Vu;5ZcM}^L|`I{7z$B@$tcDYOvOF87jaC(eJDXG%21B`F&z)!LCnBRR3up*!o#S<
zBbbFpQH9xf40A9S^DrL?RAT`i#}inHMR*cVp$3cbG-|N~&)``sMIDmMSf0c4SdJI4
z0``SjF<H<`3az5hY6{g;=tT-OQ0OHJHB#th3az2gD->GG{kK@Ojvdf?3cX69CJMbq
zp$!yDQD`HDHc@CZg<hvnGlkxu&=v~4Nud_*ztzI<7CWG=6ndLNtrU8PLfa_xE`_#J
z=sgPUpwRmiYNOBx6xvCl4=L2n*KD;jd_<uR3VlqWP73X!&~6HKQD_f^KB3TF3VlkU
zZVG)yp&kl-PN7-*7@#jGw4Xv>QYcNK0~9()p|2=(h(cdesFy;A>ET#vrN{8wgWttZ
zise(b>%Xn86~hKNhjQd{$2&X&otMszME`$wB-*ujNVB6LP?;~kyLL|XyhXDOj|^u>
zen*`Qm)&JDymo6tiU)ar!((sFmoFU(1OxF@UFg?>u!4pskS}*efJ26pW4<#*zN2~J
z_6|q5ev>13`3p?#3JuQj^&GHI3VVFLy^c(N)PjDmSzcZ;W5UI&@}G8&wjWCq(Ntr2
zVosT9nz00nSz#}Q_O@AMFNsq7W%e}f-<`#&;UhDR;tDgGFsIrtrxzb(sT1MzKKnCW
NdTLBR`%kz$?;pW*u&4k4

delta 131
zcmaEq`PhGhiz=U_k12x$TXAwmYHp$^+vM$r^6X*<R3&93Z6-f8e5x&W<~Jjduf`$v
zX9}YT1B0ZD1dn4-kbk%pM2o~4CVddFOn02@Vr(bk>*(m{R1PE@K`ckdKp>uc&G?(J
TjSK?=1ToBHVqgex3^D`&KgA?o

diff --git a/tests/testthat/test-read-parquet-5.R b/tests/testthat/test-read-parquet-5.R
index d81026b..9f3c8d0 100644
--- a/tests/testthat/test-read-parquet-5.R
+++ b/tests/testthat/test-read-parquet-5.R
@@ -130,6 +130,7 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   expect_equal(tab$x, rep(0:399, 6))
   expect_equal(tab$y, rep(0:399, 6))
   expect_equal(tab$s, as.character(rep(0:399, 6)))
+  expect_equal(tab$f, rep(0:399, 6))
 
   pf <- test_path("data/mixed2.parquet")
   expect_snapshot({
@@ -140,6 +141,7 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   expect_equal(tab$x, rep(0:399, 6))
   expect_equal(tab$y, rep(0:399, 6))
   expect_equal(tab$s, as.character(rep(0:399, 6)))
+  expect_equal(tab$f, rep(0:399, 6))
 
   pf <- test_path("data/mixed-miss.parquet")
   expect_snapshot({
@@ -150,4 +152,5 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   expect_equal(tab$x, 0:2399)
   expect_equal(tab$y, 0:2399)
   expect_equal(tab$s, as.character(0:2399))
+  expect_equal(tab$f, 0:2399)
 })

From 4c5d6d36bd1c6844e49e3b88ff9df88bf14dde3d Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Sat, 8 Feb 2025 10:13:08 +0100
Subject: [PATCH 11/18] Work around rchk false positive

Plus also simplify logic.
---
 src/RParquetReader.cpp | 44 ++++++++++++++++++------------------------
 1 file changed, 19 insertions(+), 25 deletions(-)

diff --git a/src/RParquetReader.cpp b/src/RParquetReader.cpp
index 4d965fe..bfe9b57 100644
--- a/src/RParquetReader.cpp
+++ b/src/RParquetReader.cpp
@@ -1492,8 +1492,8 @@ void convert_column_to_r_ba_decimal_dict_nomiss(postprocess *pp, uint32_t cl) {
   int32_t scale = pp->metadata.r_types[cl].scale;
   double fct = std::pow(10.0, scale);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
+    // first the non-dict parts, if any
     if (pp->byte_arrays[cl].size() > 0) {
-      // first the non-dict parts, if any
       std::vector<tmpbytes> rgba = pp->byte_arrays[cl][rg];
       for (auto it = rgba.begin(); it != rgba.end(); ++it) {
         int64_t from = it->from;
@@ -1504,35 +1504,29 @@ void convert_column_to_r_ba_decimal_dict_nomiss(postprocess *pp, uint32_t cl) {
       }
     }
 
-    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
-    bool rg_dict_converted = false;
-    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
-    SEXP tmp = R_NilValue;
-    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t cp_offset = cps[cpi].offset;
-      uint32_t cp_num_present = cps[cpi].num_present;
-      bool hasdict = cps[cpi].dict;
-      if (!hasdict) continue;
-      // convert dictionary first
-      uint32_t dict_len = pp->dicts[cl][rg].dict_len;
-      if (!rg_dict_converted && dict_len > 0) {
-        rg_dict_converted = true;
-        tmp = PROTECT(Rf_allocVector(REALSXP, dict_len));
-        tmpbytes &ba = pp->dicts[cl][rg].bytes;
-        for (uint32_t i = 0; i < dict_len; i++) {
-          REAL(tmp)[i] = parse_decimal(ba.buffer.data() + ba.offsets[i], ba.lengths[i]) / fct;
-        }
-      }
+    // convert dict, if any
+    if (pp->dicts[cl].size() == 0) continue;
+    uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+    if (dict_len == 0) continue;
+    SEXP tmp = PROTECT(Rf_allocVector(REALSXP, dict_len));
+    tmpbytes &ba = pp->dicts[cl][rg].bytes;
+    for (uint32_t i = 0; i < dict_len; i++) {
+      REAL(tmp)[i] = parse_decimal(ba.buffer.data() + ba.offsets[i], ba.lengths[i]) / fct;
+    }
 
-      // fill in
-      uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
-      uint32_t *end = didx + cp_num_present;
-      int64_t from = rg_offset + cp_offset;
+    // fill in dicts
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    for (auto &cp : cps) {
+      if (!cp.dict) continue;
+      uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp.offset;
+      uint32_t *end = didx + cp.num_present;
+      int64_t from = rg_offset + cp.offset;
       while (didx < end) {
         REAL(x)[from++] = REAL(tmp)[*didx++];
       }
     }
-    if (!Rf_isNull(tmp)) UNPROTECT(1);
+    UNPROTECT(1);
   }
 }
 

From dabb06297c8d767f947237cc587eb33374e9847a Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Sat, 8 Feb 2025 10:30:39 +0100
Subject: [PATCH 12/18] Simplify conversion to R types w/ mixed dict & non-dict
 chunks

---
 src/RParquetReader.cpp | 207 ++++++++++++++++++-----------------------
 1 file changed, 91 insertions(+), 116 deletions(-)

diff --git a/src/RParquetReader.cpp b/src/RParquetReader.cpp
index bfe9b57..1a54aed 100644
--- a/src/RParquetReader.cpp
+++ b/src/RParquetReader.cpp
@@ -1315,8 +1315,8 @@ void convert_column_to_r_ba_string_dict_nomiss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, lcl);
   SET_VECTOR_ELT(pp->facdicts, lcl, Rf_allocVector(VECSXP, pp->metadata.num_row_groups));
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
+    // first the non-dict parts, if any
     if (pp->byte_arrays[cl].size() > 0) {
-      // first the non-dict parts, if any
       std::vector<tmpbytes> rgba = pp->byte_arrays[cl][rg];
       for (auto it = rgba.begin(); it != rgba.end(); ++it) {
         int64_t from = it->from;
@@ -1332,43 +1332,37 @@ void convert_column_to_r_ba_string_dict_nomiss(postprocess *pp, uint32_t cl) {
       }
     }
 
-    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
-    bool rg_dict_converted = false;
-    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
-    SEXP tmp = R_NilValue;
-    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t cp_offset = cps[cpi].offset;
-      uint32_t cp_num_present = cps[cpi].num_present;
-      bool hasdict = cps[cpi].dict;
-      if (!hasdict) continue;
-      // convert dictionary first
-      uint32_t dict_len = pp->dicts[cl][rg].dict_len;
-      if (!rg_dict_converted && dict_len > 0) {
-        rg_dict_converted = true;
-        tmp = PROTECT(Rf_allocVector(STRSXP, dict_len));
-        tmpbytes &ba = pp->dicts[cl][rg].bytes;
-        for (uint32_t i = 0; i < dict_len; i++) {
-          SEXP xi = Rf_mkCharLenCE(
-            (char*) ba.buffer.data() + ba.offsets[i],
-            ba.lengths[i],
-            CE_UTF8
-          );
-          SET_STRING_ELT(tmp, i, xi);
-        }
-        SET_VECTOR_ELT(VECTOR_ELT(pp->facdicts, lcl), rg, tmp);
-      }
+    // convert dict, if any
+    if (pp->dicts[cl].size() == 0) continue;
+    uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+    if (dict_len == 0) continue;
+    SEXP tmp = PROTECT(Rf_allocVector(STRSXP, dict_len));
+    tmpbytes &ba = pp->dicts[cl][rg].bytes;
+    for (uint32_t i = 0; i < dict_len; i++) {
+      SEXP xi = Rf_mkCharLenCE(
+        (char*) ba.buffer.data() + ba.offsets[i],
+        ba.lengths[i],
+        CE_UTF8
+      );
+      SET_STRING_ELT(tmp, i, xi);
+    }
+    SET_VECTOR_ELT(VECTOR_ELT(pp->facdicts, lcl), rg, tmp);
 
-      // fill in
-      uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
-      uint32_t *end = didx + cp_num_present;
-      int64_t from = rg_offset + cp_offset;
+    // fill in dicts
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    for (auto &cp : cps) {
+      if (!cp.dict) continue;
+      uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp.offset;
+      uint32_t *end = didx + cp.num_present;
+      int64_t from = rg_offset + cp.offset;
       while (didx < end) {
         SET_STRING_ELT(x, from, STRING_ELT(tmp, *didx));
         from++;
         didx++;
       }
     }
-    if (!Rf_isNull(tmp)) UNPROTECT(1);
+    UNPROTECT(1);
   }
 }
 
@@ -1577,8 +1571,8 @@ void convert_column_to_r_ba_raw_nodict_nomiss(postprocess *pp, uint32_t cl) {
 void convert_column_to_r_ba_raw_dict_nomiss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
+    // first the non-dict parts, if any
     if (pp->byte_arrays[cl].size() > 0) {
-      // first the non-dict parts, if any
       std::vector<tmpbytes> rgba = pp->byte_arrays[cl][rg];
       for (auto it = rgba.begin(); it != rgba.end(); ++it) {
         int64_t from = it->from;
@@ -1591,39 +1585,33 @@ void convert_column_to_r_ba_raw_dict_nomiss(postprocess *pp, uint32_t cl) {
       }
     }
 
-    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
-    bool rg_dict_converted = false;
-    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
-    SEXP tmp = R_NilValue;
-    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t cp_offset = cps[cpi].offset;
-      uint32_t cp_num_present = cps[cpi].num_present;
-      bool hasdict = cps[cpi].dict;
-      if (!hasdict) continue;
-      // convert dictionary first
-      uint32_t dict_len = pp->dicts[cl][rg].dict_len;
-      if (!rg_dict_converted && dict_len > 0) {
-        rg_dict_converted = true;
-        tmp = PROTECT(Rf_allocVector(VECSXP, dict_len));
-        tmpbytes &ba = pp->dicts[cl][rg].bytes;
-        for (uint32_t i = 0; i < dict_len; i++) {
-          SEXP xi = Rf_allocVector(RAWSXP, ba.lengths[i]);
-          memcpy(RAW(xi), ba.buffer.data() + ba.offsets[i], ba.lengths[i]);
-          SET_VECTOR_ELT(tmp, i, xi);
-        }
-      }
+    // convert dict, if any
+    if (pp->dicts[cl].size() == 0) continue;
+    uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+    if (dict_len == 0) continue;
+    SEXP tmp = PROTECT(Rf_allocVector(VECSXP, dict_len));
+    tmpbytes &ba = pp->dicts[cl][rg].bytes;
+    for (uint32_t i = 0; i < dict_len; i++) {
+      SEXP xi = Rf_allocVector(RAWSXP, ba.lengths[i]);
+      memcpy(RAW(xi), ba.buffer.data() + ba.offsets[i], ba.lengths[i]);
+      SET_VECTOR_ELT(tmp, i, xi);
+    }
 
-      // fill in
-      uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
-      uint32_t *end = didx + cp_num_present;
-      int64_t from = rg_offset + cp_offset;
+    // fill in
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    for (auto &cp : cps) {
+      if (!cp.dict) continue;
+      uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp.offset;
+      uint32_t *end = didx + cp.num_present;
+      int64_t from = rg_offset + cp.offset;
       while (didx < end) {
         SET_VECTOR_ELT(x, from, VECTOR_ELT(tmp, *didx));
         from++;
         didx++;
       }
     }
-    if (!Rf_isNull(tmp)) UNPROTECT(1);
+    UNPROTECT(1);
   }
 }
 
@@ -1707,8 +1695,8 @@ void convert_column_to_r_ba_uuid_dict_nomiss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   char uuid[37];
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
+    // first the non-dict parts, if any
     if (pp->byte_arrays[cl].size() > 0) {
-      // first the non-dict parts, if any
       std::vector<tmpbytes> rgba = pp->byte_arrays[cl][rg];
       for (auto it = rgba.begin(); it != rgba.end(); ++it) {
         int64_t from = it->from;
@@ -1726,44 +1714,37 @@ void convert_column_to_r_ba_uuid_dict_nomiss(postprocess *pp, uint32_t cl) {
       }
     }
 
-    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
-    bool rg_dict_converted = false;
-    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
-    SEXP tmp = R_NilValue;
-    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t cp_offset = cps[cpi].offset;
-      uint32_t cp_num_present = cps[cpi].num_present;
-      bool hasdict = cps[cpi].dict;
-      if (!hasdict) continue;
-      // convert dictionary first
-      uint32_t dict_len = pp->dicts[cl][rg].dict_len;
-      if (!rg_dict_converted && dict_len > 0) {
-        rg_dict_converted = true;
-        tmp = PROTECT(Rf_allocVector(STRSXP, dict_len));
-        tmpbytes &ba = pp->dicts[cl][rg].bytes;
-        for (uint32_t i = 0; i < dict_len; i++) {
-          unsigned char *s = (unsigned char*) ba.buffer.data() + ba.offsets[i];
-          snprintf(
-            uuid, 37,
-            "%02x%02x%02x%02x-%02x%02x-%02x%02x-%02x%02x-%02x%02x%02x%02x%02x%02x",
-            s[0], s[1], s[2], s[3], s[4], s[5], s[6], s[7], s[8], s[9],
-            s[10], s[11], s[12], s[13], s[14], s[15]
-          );
-          SET_STRING_ELT(tmp, i, Rf_mkCharLenCE(uuid, 36, CE_UTF8));
-        }
-      }
+    // convert dict, if any
+    if (pp->dicts[cl].size() == 0) continue;
+    uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+    if (dict_len == 0) continue;
+    SEXP tmp = PROTECT(Rf_allocVector(STRSXP, dict_len));
+    tmpbytes &ba = pp->dicts[cl][rg].bytes;
+    for (uint32_t i = 0; i < dict_len; i++) {
+      unsigned char *s = (unsigned char*) ba.buffer.data() + ba.offsets[i];
+      snprintf(
+        uuid, 37,
+        "%02x%02x%02x%02x-%02x%02x-%02x%02x-%02x%02x-%02x%02x%02x%02x%02x%02x",
+        s[0], s[1], s[2], s[3], s[4], s[5], s[6], s[7], s[8], s[9],
+        s[10], s[11], s[12], s[13], s[14], s[15]
+      );
+      SET_STRING_ELT(tmp, i, Rf_mkCharLenCE(uuid, 36, CE_UTF8));
+    }
 
-      // fill in
-      uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
-      uint32_t *end = didx + cp_num_present;
-      int64_t from = rg_offset + cp_offset;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    for (auto &cp : cps) {
+      if (!cp.dict) continue;
+      uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp.offset;
+      uint32_t *end = didx + cp.num_present;
+      int64_t from = rg_offset + cp.offset;
       while (didx < end) {
         SET_STRING_ELT(x, from, STRING_ELT(tmp, *didx));
         from++;
         didx++;
       }
     }
-    if (!Rf_isNull(tmp)) UNPROTECT(1);
+    UNPROTECT(1);
   }
 }
 
@@ -1813,8 +1794,8 @@ void convert_column_to_r_ba_float16_nodict_nomiss(postprocess *pp, uint32_t cl)
 void convert_column_to_r_ba_float16_dict_nomiss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
+    // first the non-dict parts, if any
     if (pp->byte_arrays[cl].size() > 0) {
-      // first the non-dict parts, if any
       std::vector<tmpbytes> rgba = pp->byte_arrays[cl][rg];
       for (auto it = rgba.begin(); it != rgba.end(); ++it) {
         int64_t from = it->from;
@@ -1826,38 +1807,32 @@ void convert_column_to_r_ba_float16_dict_nomiss(postprocess *pp, uint32_t cl) {
       }
     }
 
-    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
-    bool rg_dict_converted = false;
-    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
-    SEXP tmp = R_NilValue;
-    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t cp_offset = cps[cpi].offset;
-      uint32_t cp_num_present = cps[cpi].num_present;
-      bool hasdict = cps[cpi].dict;
-      if (!hasdict) continue;
-      // convert dictionary first
-      uint32_t dict_len = pp->dicts[cl][rg].dict_len;
-      if (!rg_dict_converted && dict_len > 0) {
-        rg_dict_converted = true;
-        tmp = PROTECT(Rf_allocVector(REALSXP, dict_len));
-        tmpbytes &ba = pp->dicts[cl][rg].bytes;
-        for (uint32_t i = 0; i < dict_len; i++) {
-          uint16_t *f = (uint16_t*) (ba.buffer.data() + ba.offsets[i]);
-          REAL(tmp)[i] = float16_to_double(*f);
-        }
-      }
+    // convert dict, if any
+    if (pp->dicts[cl].size() == 0) continue;
+    uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+    if (dict_len == 0) continue;
+    SEXP tmp = PROTECT(Rf_allocVector(REALSXP, dict_len));
+    tmpbytes &ba = pp->dicts[cl][rg].bytes;
+    for (uint32_t i = 0; i < dict_len; i++) {
+      uint16_t *f = (uint16_t*) (ba.buffer.data() + ba.offsets[i]);
+      REAL(tmp)[i] = float16_to_double(*f);
+    }
 
-      // fill in
-      uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
-      uint32_t *end = didx + cp_num_present;
-      int64_t from = rg_offset + cp_offset;
+    // fill in
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    for (auto &cp : cps) {
+      if (!cp.dict) continue;
+      uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp.offset;
+      uint32_t *end = didx + cp.num_present;
+      int64_t from = rg_offset + cp.offset;
       while (didx < end) {
         REAL(x)[from] = REAL(tmp)[*didx];
         from++;
         didx++;
       }
     }
-    if (!Rf_isNull(tmp)) UNPROTECT(1);
+    UNPROTECT(1);
   }
 }
 

From 46dd21adb5da37ddd9f235a79b2125dc9d60b614 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Sat, 8 Feb 2025 10:40:13 +0100
Subject: [PATCH 13/18] Dict + non-dict mix tests for DOUBLE

---
 tests/testthat/_snaps/read-parquet-5.md |  15 +++++++++++++++
 tests/testthat/data/create-data.py      |   5 ++++-
 tests/testthat/data/mixed-miss.parquet  | Bin 45372 -> 56602 bytes
 tests/testthat/data/mixed.parquet       | Bin 22906 -> 28510 bytes
 tests/testthat/data/mixed2.parquet      | Bin 13538 -> 16872 bytes
 tests/testthat/test-read-parquet-5.R    |   3 +++
 6 files changed, 22 insertions(+), 1 deletion(-)

diff --git a/tests/testthat/_snaps/read-parquet-5.md b/tests/testthat/_snaps/read-parquet-5.md
index 4502c0a..79876d0 100644
--- a/tests/testthat/_snaps/read-parquet-5.md
+++ b/tests/testthat/_snaps/read-parquet-5.md
@@ -63,6 +63,7 @@
       3      INT64        REQUIRED
       4 BYTE_ARRAY        REQUIRED
       5      FLOAT        REQUIRED
+      6     DOUBLE        REQUIRED
     Code
       as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
     Output
@@ -83,6 +84,10 @@
       14       DATA_PAGE       1024 RLE_DICTIONARY
       15       DATA_PAGE       1024          PLAIN
       16       DATA_PAGE        352          PLAIN
+      17 DICTIONARY_PAGE        400          PLAIN
+      18       DATA_PAGE       1024 RLE_DICTIONARY
+      19       DATA_PAGE       1024          PLAIN
+      20       DATA_PAGE        352          PLAIN
 
 ---
 
@@ -95,6 +100,7 @@
       3      INT64        REQUIRED
       4 BYTE_ARRAY        REQUIRED
       5      FLOAT        REQUIRED
+      6     DOUBLE        REQUIRED
     Code
       as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
     Output
@@ -115,6 +121,10 @@
       14       DATA_PAGE       1024 RLE_DICTIONARY
       15       DATA_PAGE       1024 RLE_DICTIONARY
       16       DATA_PAGE        352 RLE_DICTIONARY
+      17 DICTIONARY_PAGE        400          PLAIN
+      18       DATA_PAGE       1024 RLE_DICTIONARY
+      19       DATA_PAGE       1024 RLE_DICTIONARY
+      20       DATA_PAGE        352 RLE_DICTIONARY
 
 ---
 
@@ -127,6 +137,7 @@
       3      INT64        OPTIONAL
       4 BYTE_ARRAY        OPTIONAL
       5      FLOAT        OPTIONAL
+      6     DOUBLE        OPTIONAL
     Code
       as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
     Output
@@ -147,4 +158,8 @@
       14       DATA_PAGE       1024 RLE_DICTIONARY
       15       DATA_PAGE       1024          PLAIN
       16       DATA_PAGE        352          PLAIN
+      17 DICTIONARY_PAGE       1024          PLAIN
+      18       DATA_PAGE       1024 RLE_DICTIONARY
+      19       DATA_PAGE       1024          PLAIN
+      20       DATA_PAGE        352          PLAIN
 
diff --git a/tests/testthat/data/create-data.py b/tests/testthat/data/create-data.py
index 669286f..c24e20e 100644
--- a/tests/testthat/data/create-data.py
+++ b/tests/testthat/data/create-data.py
@@ -9,7 +9,7 @@
 table = pa.table(data = data, schema = schema)
 pq.write_table(
   table,
-  'float.parquet',
+  'tests/testthat/data/float.parquet',
   row_group_size = 1500,
   data_page_size = 400,
   use_dictionary = False
@@ -22,12 +22,14 @@
     pa.field(name = 'y', type = pa.int64(), nullable = False),
     pa.field(name = "s", type = pa.utf8(), nullable = False),
     pa.field(name = 'f', type = pa.float32(), nullable = False),
+    pa.field(name = 'd', type = pa.float64(), nullable = False),
 ])
 data = [
   list(range(400)) * 6,
   list(range(400)) * 6,
   [ str(x) for x in range(400) ] * 6,
   list(range(400)) * 6,
+  list(range(400)) * 6,
 ]
 table = pa.table(data = data, schema = schema)
 pq.write_table(
@@ -50,6 +52,7 @@
   'y': pa.array(range(2400), type=pa.int64()),
   's': pa.array([ str(x) for x in range(2400) ], type=pa.utf8()),
   'f': pa.array(range(2400), type=pa.float32()),
+  'd': pa.array(range(2400), type=pa.float64()),
 })
 pq.write_table(
   table,
diff --git a/tests/testthat/data/mixed-miss.parquet b/tests/testthat/data/mixed-miss.parquet
index d97fa2ac0e9cdd961fdf45198bf316bb427ce4e0..2d0504be7f0928de85d4bbc749b542ef8659ca95 100644
GIT binary patch
delta 10309
zcmc)Q0gPJp9l-I|_S#*Wo?cAva_uhWVrq9Wr^5yfF+?9Ht*F>xhaGn4sHGMwR;<{v
zjtT2nWezLrv5s}9tRaRNtW1d`h8W_AVTKrDh#`g;Vu&Gz7-EPahM0Z-aMu;nyV6X<
zrJwiz|KI=p-Vc87J$Sq{^V#aN@2p9F^7`%xuXokNi97TY-th_P8cFiXlC*u5G}63d
z>}p9~KPrumjY{L#gegp82G?OLwqX`GU=BAe%<R#62=tDPj!2p@Vn?L;UUO%!(e|1h
zy=G^xxvSUcdd=Ov=AK@2Z?Dn!n)`aqu3q!AUSn84F3F@PtCSt{kn{dA@iKd3hP(TR
zKkpwJ`-czo5BKyBf6+fQ^$#Cp=(#BI-u~%d_7Bbd!-x8Z5BCp$)jzbXpXnY7@xCpK
z?=`yk{-vs@`@S(TCs_LCM|;zctUSGc<!S5k(;kuh!1D8A`q7oA53W3ITXEVWJ+|V!
zbZF)2$5)=VuRQ(4m}kYZA6_~9$(5%a>*ekRIl~cEEFN9M;t_T%9%WCEP83OGQA8C@
zQTeCFymV)vfD8jHa6rrj5k(SN6j4P}gde$lILCka_@^%)zf!n!fN-wAWnca?1H`Wo
zesqv<&+_Sy4HCb6xND$r&$93S*8{~b8-9GSaB=)EdG7pXu=wS|-2;Ym{4bgQw*$s6
z6aMU=;hsyU_Y4|;>2U9Q?}e{p@l`wn@ztw<3Nmysi0>a09Sdx5zy&Y-2qKIq;t;h;
zBa1wWD5HuxnrMql|93Y^bjLA;8O%Zf6=dk}!{t9Q<ov%Ma(>^C^Z#MU`A-fx|8qmm
z?;mphKMpzn^Fz-6ry=JL3_1S`L(YF{$oXF!F#m(!>-X<$^F@A@^Vfb+UWlIFbp7bk
zXsXxaXZxfy`<=CK{pa+L*LwJMe^Q?7{<@!7H?eMdF{1N|yc8RhFU0n(CC78}^couP
z_$q1bs*#|)_D9kP-|wT?2yq|q-Nyprk$|`-5RU@5FYri8I^yO)4RM2@g}6!3!vG^p
zFv9{XY_P)tCtPsD3m^OlAczpch#-m>;z%GVZiG^F(#Rl-9P%ijh!V=Epo$vmXrPG}
z+USTIpg-Ry(H+G`jAIj~FpU{(#VqEa5c!pKR8T{P7CPu*fDtB`VSyDk*x`T^F1X=^
z4}Js?L<nI-5Je1eB#;z0;whw&K^8gWQ9uzTlu<zyHPq2S6D_pS5d}DXWd#uVl~6$q
z8CvL|hXF>IV1@-&*kFePPPpKP7e4qAKoB8>5kV9&#F2m}$s&a`GRPu_JPIhHgfc3q
zqJ}yeXrhHSI-&pzS5yFxf;c5qP(y|mI_P155hj>nffY8`;eZn^xZ#BlegqIi2w_AJ
zMGSEy#Pye?lR_F9WRXK21r$+285LAfLmdq?(Lx&?QGn2u6u{H{aiAnt1vO-7p@SX<
z7-51L7Fc0}9S%6*f*W4=;70&Kgb+pqQN$2OLR^1IIw_=)K^8gWQ9uzTlu<zyHPq2S
z6D_pS5e4|m6%>H{3gVPdK@AyN=%9xIMwnoR1y<N#hXYQy;D#4I_z^%5A%qb@6fwk+
zSo$HJVvt4#S>%vM0Y#KhMg>*WP)7qzw9rOJ6yVI@1rYfaP(lSYWN4v-9tId;f*BTA
zVS^nGIN^dDUijcg06~NhMg&pB5QithB8e2z$RLXx@+hE)63VEciW=%@potdR=!gRR
zb>ISc=7>>12^G|kp@j~57+{16W>{c_4R$!-gbQwX;e#Im1Q9|Q5kwI~TwMPNI!UCE
zMh02rkVgSUlu$+mRn$;N15LEhMn@DNJZJ$tOE&^TDgf8t4^n`?4Ojs3&rvi5lu$tp
z8CvL|hXF>IV1@-&*kFePPPpKP7e4qAKoB8>5kV9&#KrZOKoTjWkwF$Y<WWEoC6rM?
z6*bh+Koc#r(Gh3B*})1R^3Op5B~(yDh88;LVSo`Pm|=kxHrU~S6E3*ng%5rN5JU)J
zL=Z&`o;ZsHl1L$q46?`}j{=G)p^OTusG*JqnrNYojwrz22P%MPmhI=DfD$UGAwvrt
z^f15(6U?x{3LETjzzG-J@WKZ_0th06Fd~Q|Ca(WDodl9dA&m^O$RUpciYTFs3aY4~
zjs}`&p^c6xKxB{tcrLmZ9!3GU{(i6myfi=o$UjTL=AeKQDySht3mx<@zz7q}u)qo%
z>~O#d7u@i|2R{M`B7`s^h$1Ggzc>;|B84<E$RdY43Mit4GAgK|hB_K(qJ=g(;tY8C
z@&yq2XE6r_lu$tp8CvL|hXF>IV1@-&*kFePPPpKP7e4qAKoB8>5kVB57>hU(NFs$a
zGRPu_JPIhHgfc3qqJ}yeXrhHSI-&rtT($t7t!z7sIVhln3TnvELI*tzFv0{gEU>}`
zI~;Jr1vk9#!H)of2qBCJqT>3G(TO90BvMEtgDi5$qktkxD5HWZYN(@uCR$^ov+Y;p
z?h^=}7feVKr{*T2lXDZ<we&A~#PIGp9x-^j+ey*?J!9yuURq20++_C|Lw0TV8ADV&
zV^~d^5v;=~Hee&J!Z@zMCQM=qTQH4lF@uZ#YeMhy=feL@U{ZnYP~ujoa2wRP9Wv&j
z#ZKsO5A@gt19roRJuqP}%y<|UJOV2o6~8}hbPmCe!*JjToHz;>j>C;-;l&B~a1wqz
zj{r^~h|>t+48k~z2wp}M=MclIOV|Hv3=%kxB;G^{ZzGL&kiomi;yvW>KJxeg1$>Ai
zK0*l}ql`~b!KbL=Gt}VuoJAd9pn)&Z#8+tHYqaqVI`~#xSO0iHqC0|h7{vx`#8nu_
zHQ0nnOkoSAaV=(W9k#-=jm0c(z#MLZ0^6a)tx(}MsBt@F%tMQv(BU5Fu?q(5h7o&U
z!d{s1Ff4ckR&o73O2>vnu;VZsI07e*!iD2-<5_rd0zRCCAI~FzQwZWTLO6pk&LV=B
z5yd&g#QFCsoj6`Y0_Ty$n@Hhpr11_ico$i`haBEV9v`594^hNNDB)w2@d+yU6jgkN
znmGSHM;%|FfiKa-S7_mDwDAo(_*R?(=f0m)K;++sS=@j*+yn)-Ly23V!fjCFcF35=
z|9c8}I0uG#3g~+u1H6a<Pl4IYIl24k%;)sP$Y%R3($u=A_uCFUv2S9-LjCohTs^Vj
z`qfjbtkPum`pwgu&2LSfe`wXNZPN6_hRwG~>&7=TH?f+@$@0HfPkxzLwe91t*KSMx
zYwgmL=Zil7FM4X-w|3$F^IOIyPoLhvZnlk1o~f-{@V>EWeRR!F#ouww!b@-5VR=BK
z(P-~up*bWLcZr4Om{`n<#m+-)s-m+)yF-lU?-$E%S9E&a`Nu_X`%yL(kq7V8hy?WJ
zHLeA9a*Jp0L9ye5n)z-kHfHMH<4e2V+1vF&vHrWeKHl3{tQV=Z4_w%_P0VP->+ii(
z(OK*s5S!j-T-?9L(|gstp`9Ad-5Sk<n)zdz?t5O`YcH_3!~GZbB05Vu>~;@owB7jq
znmfB=vDndl)zZ|AW8aado;l#WalgZH<Gv$Do;)^l^uUp)AA9of%*_ik|6I4(JS|BV
P|C82?NRmOb`{w@wKgu_~

delta 412
zcmbQWi+Rr@rVY2&@=3;+GDxr$CugMQCW>-QmcOaaE_OgwQby8ebLh=jMlG>j=Rg8#
z9AYcBvx+b<NXkg?I0gmzhg(7PNW5Xv2Z8eR$u76;>jNDf9i7vGgkvO#Z~^fhT|q>8
z07w;(5$FpRbO#AKf|+0znCTwr=#=j03DOOuq2kWPAPayTC#N8=5ZGuZs5D3%#7qX6
zT@N$`$OBtw2)ED^Y>OL66}p8U*+4NDSEvP!j-gORPJxcjj*dV#COf)-gkXk(*ntr9
zJV0zT^E4biz|IExpd4fXPz}r*j!r;97_gmu_l}B~j|>9?95KW&GcW`=1{neX%o=bP

diff --git a/tests/testthat/data/mixed.parquet b/tests/testthat/data/mixed.parquet
index 7a8ef5a08451ac9db2cb65428862433b97d7a0f8..f185ca7f9c908b5d5c159d5a2700972a36135b2d 100644
GIT binary patch
delta 5113
zcmeHK%}*0S6n|SvY0-_1VVYK(SPfP}P?3bh7!!6%`BKn=P(IZnU=cy_6T)To;K3uN
z|3Lo$G(>MECXIgq-b_qPuX->TZ_2^<b{4}zcWo2ec(Cbj-n{wkn>V{NZ|2R<*UIP5
z%KEWnKhs;-TCkU8Jq!*5=pld>1>Bo$>LJj4Uht}3@FVIFK|~l4L7YI;Bcg}~L?faJ
zaVGQOcwC^Nu6o_TRkU?OOp10X;!<=-(J4ij6x~wvNO4Ju%Tn}8(I>?fDXvP9@cBVQ
z_vjUJsz9IpDh*TWs18`wYgTp8st#Gzq*WcZsv}l)6jiaq@tBn!x2h9X^}1EPVO4Kh
z)s!z{Oa;An%6!+X`Tmfn?>?y#M@U(CucU7|(^Jm$v^_1z`HVeJ^lfK4?M%-)(gN-{
z@-XL2-*u+vo#_QtIDYnf&gS=>=|!Jr1Y`tfwAq~9ggL{D<}8a<tYi`Eh#X=Akw<LO
zmw%w@SdAc>5gH<aNFf#x#H}K-h;>8`v4O}VHp%?q-_3FU?d>1^-QLOkaS`Sif40Ma
zQiQ#O`O{*|g}wWwV(jhBmy0qV-1YVi`DG30x4En_V9yV;Z#7L!_cK59Fi$w>-6qW%
zo&y1B*wy;xc$dp1bcJmlHEf{-TkKyaXaLoUdtR%qvDvxIooT@?287(X${#{DAs{Lh
zLN*~Fj1a6q2-$>yv9nhqgls~9PWFm~(5?vD-u^B!g>s_<zE$`C)ClL|e`<t*s++-@
zLz$-|@*hr(#>$r(WnR>O5nuI#c*5vS>^*B@xoWHzK4H4Gy(bJnHy#jl_RuNOO{WBY
zS~rw%8xV!A1K35SZUX`eTnFR|!PVi0a^D6p^U-h>rV6dfO56r0^DF4QLbm}?(0S!<
z17h!HV4KU7Bb7039tm?27R^;)lgpGNm7)1B$^Aa3GPwRra=+iHj3~|hzNa#6MZCS`
zHsB7;w?feKXliz5VUpEmPA5+tVznnBs7ym3cQO<XO}rUTCY8P@gjsE<6+HeBa?FKf
zVC{zz*cyyJ|L%&u{pc$49zi>NMjJlT7<l%s278Hm1Fv3I)d7UU!GnBY;Og)NIhtU$
z>MZ?Mc;?e^TWW}N9`D0~&r#7u1z(~fMn&fwK6;*N@eV3u{ZtxNs>o{WF4bC|;-h4l
zZs+8H+W2y2W#q`jSeiOc^OzwGBE~PTY<Jx$yG|3ayXzHd#Gzn2xsDJ0>3WtJK9tc%
z>MqU@*EhJ`p&TVzb#mTAPsNtF@s4IM)Wo^$V2V13%or_c9ybi8c)Ouf(P0cLqm9;w
RCc*$a|M05{Ai)RD{RSHO9ZvuN

delta 412
zcmcb2kMY+g#trgee3CJy3=(X`$r-7+iJ}~nv$NIN#SW-S%1HWbUYH%ms3mseBr8xr
zjYDkH4JHu=21ywS9><^{|8Oga9*H+h`XErAKDi^;zCO^=(a|{_NH|7<2p16F(G^6b
z2Y^(8SiWFEcM#JN%mlN*O!r7fr*ub8kZvFi6?ZNMSpecV1%ZXYMms@d!NMRS8Dw@n
z&=jBq*g`|Ng`Qwr+(4?(E%e9+in+MLEN~2kDsl>RbOtk%9bG^)%uuix#5@l$8`T3E
sjvioV1AR~qG61Ls<_$+Dpdbv`PFBoU5%ZB@V1OfrP-X^(0LLIh07U?8+W-In

diff --git a/tests/testthat/data/mixed2.parquet b/tests/testthat/data/mixed2.parquet
index 687c721bbb2bd10725c8c504bae43abe9b655c33..6dcb2031b18d01258da9ccdde1f2c44b4508e1cf 100644
GIT binary patch
delta 2232
zcma)6&rcIU6n+a$vu#|dgl%?X4~>C}N|Yib#+b0vmI4A&Du`f}VyWe)q9`<6w#JJ`
zk|ri59_mdKV@P`NXipvu{slHBCLVkA=zBY@VGA9)>Gytp^Ua&LlkKmSKd+?ykHIN5
z*Qb8c#?^vTg?50P4$vooqcW(pf#H%tR%GxXIuIJdhwvlLAvzHOL^t9hq6cv~e?y6w
zD9kCc1DJwZ2ZXo_a~I)mh`T6v!`zK<H_F{j?#8$q=Wc?#Tii`@7jt>Q!1mY`N{Wd+
zrxZFS&oPbL)7$oR+MdqX(>wNb)}G$Ar*oK^hZ@h@>3jAxVNdVd(+Bo+!JZ~ve(Ne|
z?qqe=LUn#9(|cc3h$AFzyv*r`Vmc+Jmm1S1HBUF@iGC!eGh%vKNSm-C<Y84zuZih(
zF}<Of!q@&-EPo=VH(iGHLHhAVd#kq_tKRTt^_I;&3<`*SL<w<#C?hKL=ASA#4E=~+
zgn@`5l88+NaeIgYVjodL93aYw3dx_HEXVtAtlv6WFOolRLXO{G!{fhbLNAbSHzPM2
zx8G?--&me)N`AI(`tEYp0D3A}BmYwF=#p!h#v}aW_d<7FwfOZ?d&`BoA_|XLO4Z_L
z`SdZ%M~tI81B@8OGreymWqklN=T>Sty|Jje^IwAJ+f;WKXwnjROI^B8PZWO#`z12~
zKGm%cfYYNRr?w#J{l4Hm2nOE$lmg$sNxteJIG|`GIw$BoszU{}1<-g@C)T{L-?!qH
z0onWJuhapc`?OOm9-o}O&X4BS3awY@*=70g)j@NHF&3FX!&b=*lVLk#LS&+=xbzxD
zks-37DY8~b0S`lK6!mT6Qc`BZj2cjlWi2~L*4ocXc{rcJZYImH5Ct`2Y`4}h${S{g
zsc*PTMcfeUbfC!0|Ax!NFq-N}!!#|On6B+_jgp{MQN~6s!49+DM0HmxF~&DcQCL4g
jnu<6;#L}l&*viQaS*Ol_=<n1MK7hkN_|XawWAWfW*Rgp}

delta 389
zcmaFS%=jpC!%9Ow$rw`x3AW<ojMUsjQI5&-cIxb62UI0xBz-oA+L<tFiS0Vb1Qbx?
z5Ic5^QG|g(QbvNuF(}AC+zO&c;ti8N2$ZK!7ILsp2y}FGbWR5nj*%e31;lrB1rg~1
zAXOliFIdnW#B>BR!7MP-J<`!B-O&@I8%RUNor^&hfH+P;lQ%j@)hC0E33POV8f^$S
z+7oP^8(1Tn(H_}AQ5RR3QI4TdMNWZ^&R}M;qYH?J844DInCAgz!_Cu$INJm4K%iU8
lK?VTTz#Q!81Qdh;+sUgPRm6N`7#QG)!I+tWA;2-n5CBOQX1D+V

diff --git a/tests/testthat/test-read-parquet-5.R b/tests/testthat/test-read-parquet-5.R
index 9f3c8d0..6f70022 100644
--- a/tests/testthat/test-read-parquet-5.R
+++ b/tests/testthat/test-read-parquet-5.R
@@ -131,6 +131,7 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   expect_equal(tab$y, rep(0:399, 6))
   expect_equal(tab$s, as.character(rep(0:399, 6)))
   expect_equal(tab$f, rep(0:399, 6))
+  expect_equal(tab$d, rep(0:399, 6))
 
   pf <- test_path("data/mixed2.parquet")
   expect_snapshot({
@@ -142,6 +143,7 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   expect_equal(tab$y, rep(0:399, 6))
   expect_equal(tab$s, as.character(rep(0:399, 6)))
   expect_equal(tab$f, rep(0:399, 6))
+  expect_equal(tab$d, rep(0:399, 6))
 
   pf <- test_path("data/mixed-miss.parquet")
   expect_snapshot({
@@ -153,4 +155,5 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   expect_equal(tab$y, 0:2399)
   expect_equal(tab$s, as.character(0:2399))
   expect_equal(tab$f, 0:2399)
+  expect_equal(tab$d, 0:2399)
 })

From fadc7c980f0248323b217eb175bd311514f2d938 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Sat, 8 Feb 2025 12:18:16 +0100
Subject: [PATCH 14/18] Fix reading INT96, and add tests

Also test mixed dict + non-dict pages.
---
 src/RParquetReader.cpp                  |  17 +++++++----------
 tests/testthat/_snaps/read-parquet-5.md |  15 +++++++++++++++
 tests/testthat/data/create-data.py      |  13 +++++++++++++
 tests/testthat/data/mixed-miss.parquet  | Bin 56602 -> 70231 bytes
 tests/testthat/data/mixed.parquet       | Bin 28510 -> 35420 bytes
 tests/testthat/data/mixed2.parquet      | Bin 16872 -> 20537 bytes
 tests/testthat/test-read-parquet-5.R    |   3 +++
 7 files changed, 38 insertions(+), 10 deletions(-)

diff --git a/src/RParquetReader.cpp b/src/RParquetReader.cpp
index 1a54aed..e43a222 100644
--- a/src/RParquetReader.cpp
+++ b/src/RParquetReader.cpp
@@ -349,7 +349,7 @@ rtype::rtype(parquet::SchemaElement &sel) {
     tmptype = INTSXP;
     type_conversion = INT96_DOUBLE;
     elsize = sizeof(int) * 3;
-    psize = 8 * 3;
+    psize = 4 * 3;
     rsize = 3;
     classes.push_back("POSIXct");
     classes.push_back("POSIXt");
@@ -1130,14 +1130,11 @@ void convert_column_to_r_int96_dict_nomiss(postprocess *pp, uint32_t cl) {
     std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
     bool rg_dict_converted = false;
     int64_t rg_offset = pp->metadata.row_group_offsets[rg];
-    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t cp_offset = cps[cpi].offset;
-      uint32_t cp_num_values = cps[cpi].num_values;
-      bool hasdict = cps[cpi].dict;
-      double *beg = REAL(x) + rg_offset + cp_offset;
-      double *end = beg + cp_num_values;
-      if (!hasdict) {
-        int96_t *src = src0 + rg_offset + cp_offset;
+    for (auto &cp : cps) {
+      double *beg = REAL(x) + rg_offset + cp.offset;
+      double *end = beg + cp.num_values;
+      if (!cp.dict) {
+        int96_t *src = src0 + rg_offset + cp.offset;
         while (beg < end) {
           *beg++ = impala_timestamp_to_milliseconds(*src++);
         }
@@ -1154,7 +1151,7 @@ void convert_column_to_r_int96_dict_nomiss(postprocess *pp, uint32_t cl) {
           }
         }
         double *dict = (double*) pp->dicts[cl][rg].buffer.data();
-        uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
+        uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp.offset;
         while (beg < end) {
           *beg++ = dict[*didx++];
         }
diff --git a/tests/testthat/_snaps/read-parquet-5.md b/tests/testthat/_snaps/read-parquet-5.md
index 79876d0..00de204 100644
--- a/tests/testthat/_snaps/read-parquet-5.md
+++ b/tests/testthat/_snaps/read-parquet-5.md
@@ -64,6 +64,7 @@
       4 BYTE_ARRAY        REQUIRED
       5      FLOAT        REQUIRED
       6     DOUBLE        REQUIRED
+      7      INT96        REQUIRED
     Code
       as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
     Output
@@ -88,6 +89,10 @@
       18       DATA_PAGE       1024 RLE_DICTIONARY
       19       DATA_PAGE       1024          PLAIN
       20       DATA_PAGE        352          PLAIN
+      21 DICTIONARY_PAGE        400          PLAIN
+      22       DATA_PAGE       1024 RLE_DICTIONARY
+      23       DATA_PAGE       1024          PLAIN
+      24       DATA_PAGE        352          PLAIN
 
 ---
 
@@ -101,6 +106,7 @@
       4 BYTE_ARRAY        REQUIRED
       5      FLOAT        REQUIRED
       6     DOUBLE        REQUIRED
+      7      INT96        REQUIRED
     Code
       as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
     Output
@@ -125,6 +131,10 @@
       18       DATA_PAGE       1024 RLE_DICTIONARY
       19       DATA_PAGE       1024 RLE_DICTIONARY
       20       DATA_PAGE        352 RLE_DICTIONARY
+      21 DICTIONARY_PAGE        400          PLAIN
+      22       DATA_PAGE       1024 RLE_DICTIONARY
+      23       DATA_PAGE       1024 RLE_DICTIONARY
+      24       DATA_PAGE        352 RLE_DICTIONARY
 
 ---
 
@@ -138,6 +148,7 @@
       4 BYTE_ARRAY        OPTIONAL
       5      FLOAT        OPTIONAL
       6     DOUBLE        OPTIONAL
+      7      INT96        OPTIONAL
     Code
       as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
     Output
@@ -162,4 +173,8 @@
       18       DATA_PAGE       1024 RLE_DICTIONARY
       19       DATA_PAGE       1024          PLAIN
       20       DATA_PAGE        352          PLAIN
+      21 DICTIONARY_PAGE       1024          PLAIN
+      22       DATA_PAGE       1024 RLE_DICTIONARY
+      23       DATA_PAGE       1024          PLAIN
+      24       DATA_PAGE        352          PLAIN
 
diff --git a/tests/testthat/data/create-data.py b/tests/testthat/data/create-data.py
index c24e20e..dfb3322 100644
--- a/tests/testthat/data/create-data.py
+++ b/tests/testthat/data/create-data.py
@@ -17,12 +17,14 @@
 
 import pyarrow as pa
 import pyarrow.parquet as pq
+from datetime import datetime
 schema = pa.schema(fields=[
     pa.field(name = 'x', type = pa.int32(), nullable = False),
     pa.field(name = 'y', type = pa.int64(), nullable = False),
     pa.field(name = "s", type = pa.utf8(), nullable = False),
     pa.field(name = 'f', type = pa.float32(), nullable = False),
     pa.field(name = 'd', type = pa.float64(), nullable = False),
+    pa.field(name = "i96", type = pa.timestamp('ms', tz='UTC'), nullable = False),
 ])
 data = [
   list(range(400)) * 6,
@@ -30,11 +32,14 @@
   [ str(x) for x in range(400) ] * 6,
   list(range(400)) * 6,
   list(range(400)) * 6,
+  [ pa.scalar(datetime(x, 1, 1), type=pa.timestamp('ms', tz='UTC'))
+    for x in range(1800, 2200) ] * 6,
 ]
 table = pa.table(data = data, schema = schema)
 pq.write_table(
   table,
   'tests/testthat/data/mixed.parquet',
+  use_deprecated_int96_timestamps = True,
   data_page_size = 400,
   dictionary_pagesize_limit = 400
 )
@@ -42,21 +47,29 @@
 pq.write_table(
   table,
   'tests/testthat/data/mixed2.parquet',
+  use_deprecated_int96_timestamps = True,
   data_page_size = 400
 )
 
 import pyarrow as pa
 import pyarrow.parquet as pq
+from datetime import datetime
 table = pa.table({
   'x': pa.array(range(2400), type=pa.int32()),
   'y': pa.array(range(2400), type=pa.int64()),
   's': pa.array([ str(x) for x in range(2400) ], type=pa.utf8()),
   'f': pa.array(range(2400), type=pa.float32()),
   'd': pa.array(range(2400), type=pa.float64()),
+  'i96': pa.array(
+    [ pa.scalar(datetime(x, 1, 1), type=pa.timestamp('ms', tz='UTC'))
+      for x in range(1, 2401) ],
+    type = pa.timestamp('ms', tz='UTC')
+  ),
 })
 pq.write_table(
   table,
   'tests/testthat/data/mixed-miss.parquet',
+  use_deprecated_int96_timestamps = True,
   data_page_size = 400,
   dictionary_pagesize_limit = 400
 )
diff --git a/tests/testthat/data/mixed-miss.parquet b/tests/testthat/data/mixed-miss.parquet
index 2d0504be7f0928de85d4bbc749b542ef8659ca95..7d25585b975bb024b0476e21a75c608b59801128 100644
GIT binary patch
delta 12918
zcmZA72~<sO`^WK<2BD}lNGX~T6=g`_lm^YEBpFI6NrplwP6$PYqEHmcJgZ1#CNc|^
z$}GwdB2)N(chCF0>%ZQ;_?+Lq_i5i}-(A<*$6hjvr7QAejwn}2)Dq4~sU7ojQ%g`%
z6RC(q2|*%}qLjSPh^~t56-1)54w?!wrcSWg8QQwQY*%>Z1|A-8+7o(uLxvAX`@$?g
zcsv?h$3Rg47zM)maUhxiQ4^tB5`@l^pfCjVCd0Zg_#F;YBcNg`I81|MQJ^~mQf9)>
zSr8rr_h*B6E*y>p?fH<r0Gi_<bRpbb1Va;G|6<Tw3d<8UB?>Z4%ZNcM;8qe0SqXbq
zf!b<Vx&}V3h4HCSmIi}1z|M3~*$9$N@P0Fl&4SV`V3`fMInZf4#OFf&4)EUzmv({0
z9*|`3MTPw^{{Yk-gi(j#{1NDT46^b;z7XafhZiTn>m-yEL+{hDsRU%tLi9O!dLG;_
zLh&Uqz5?l`(B>M<D1(~o;Br%fCvJhk9Z0<kf9^r#eW-i@4i%7J3EdyT>T38|15+Nu
zgC}733=ThsZZBcwEBICip>N<`Jq&vb2i}3^2UyVvUp{IoNMwRP6K^$v%~#ml4C>!u
z=@0ny6DG94_1`e)ucm_hE|Jy)bD7R<*iVp#_c9PD2UpvIRXfOS4@wHKP!SqBg1-`6
zR)&6^Ax9M?3hKB(173Fl->z_83(UH~79D8U9p?6cmwMoB0A~!Lw=rxs0l8if(;J?e
zf=6FCWd<e|klqiZEn%h=)D8fbK~OYUSbxJIkY)paZ6RtHJQ@y8c2HmsdJeGG5n7xe
zVkA_!zz8=u>JB=dkm3bDydi89l>35sG#v5=tpG?G3(bKLGG18!I}?buL9j0vG(sRT
z6h2LciQ#Z#3JjhKyCOj~3Kma?4>KTe7F>&l0kdJp98ijdMf2e8d>9i4m*b)TBG@Ke
zwc=t}AX$QMmV)0hxUd||l3;5xv|k0WDe!VN_^gGq>%cS(Hm`@a=`cG3o^1q=&2Tys
zdTxP?tstEPv$nzG?clltit@l{m(c&~cN0Z>A!;8~?+53DP<RORj=;L3@cS4{Er5zb
za5w?Sia@s*Qcl6o(-3|J?w<wmc{qFlv@b#OWoW(vp;zJVHINLwj{9$b<}Fx$8=CGw
z&^@?S4nrQmo`;}T2}`Ts<0BYf17)=^=n3q63M$V*@&ew!gt2u{`Wh_jA-4fKy@UAo
zQ2#;rO^p5s7e9e{6Kwqg9hza@H+c0Oe15{YU(n|_Wd5NI+lsXHLgi)VNHOrd4S34H
zX<6vi7B<R*OnaEs0iGy;TSqwA35=9sgNiV}lqyVDgKBjc*#(Ykg1#24(}q9YAW|19
zyMu!s<m*FsLs)GDKaF8ZPk7J^>`dWsALwQVE6w4X1%&p8dzLV4fKdMj1`;&~!wPHo
zG6aHc;nq;F84i2Jpl%OKN5CfsnBWB0onep*>~e+9?vUUC?>!;V8?O3*l`rJ_fs#Kg
z90Lsj;4cZp%j2Nm1jv~P3c;{o61)xp-^p-349up$mI!DU33I2x%P8=k0cU1H?`YT@
z19Ed9W-dI91&{e~Y5|zUL;6CHmI(DfGl5vU7+jV@Q6d;FhqM*&HwmIv!lPB-v>FQ5
zfZjS-n+h#y5U~L&(qY6#IJyaRG9e`ker$oTY$(qG@pd?r3lgn7Oxg*}yC7r_+}R7Z
z`(gh9=yC{_9fr?GAm|v}%m?d2*nJ$-ieSk}Xe@?tr=hF_2A+kybD(?yBp2b`B?!0z
zS4t&lc@4IgLB|^qcN6Mw!RR}1@h+H`L-u{>@DS!zz^h6a^$5;YL!Vm6d<^nWVa_vn
z{v14CLdh%W^%^$50htDfek;`9lXpb74{)*(j6cDK&mi>$rhkQ+W*GS$j{gAtUy#}Y
ze||&cUz)K})J<=uyo_TT2J)q$yDY4hgI{f7N;`Pa9_$q0up(%866Q}<A~q{SXlJ;q
z3PaUlzXoV(!t$=rqy<6U;Fb;y=?;5(fSNumHGq$XFy0u-Okhwi*x4IY`hcV_yf=ff
z7Esy`EG3qhYXzMKLi`}89}NCO;F1kk42A4rpdg0%c2H*zqa5J8BlLBKtdSt^3Ul4y
zg*$k8LWvjj_JK{KK-LeUN5fNpq5j<ih{a>UcpRjUhc**oMiA5lgG&gU2nB;MNDYU-
zQ()RusEP!~C@7c?J!Zn1S@0_wB4)$GIba_PN9KXf0$3FXlJD_2c@dNgwK#k+99#lj
z6Cr6Cd|eKclHhhS*sg+oDWI_i64%1#bucjvZmfsF>99KkR5!um&F~=;0=K}`tzeY{
zxvh6%rCj2|9ng>m{=4AvZs@lca`u730a$PlULOMABXIsGnB~Kk0%&&}=AM9;Mc`cw
zXHG%y64-nO<b*zqIS)@SfX5}F{!U#cnv_ENRgf-&nb)EA2DsdUqT6727t-#*-*Sk0
z0FNGmQzaBsfnGJNt$~(Wh<E}OLNktd4o6>r&MQc%gCDOUOj3{K4Iq98hu(u$BP4x<
z=1&mP1b4oGZ8Plu23>x@vY+tz7X<x=n}6s-Ymts{Q`{}ZfSNQck%2~87}plc<Y8cY
z$m;;g5=E4Bgm;}FKpC#6fTb#ISA&ik5Z49jHDR<CT+{}09mv*&4n1I=9=y_rQHF5N
z2>O^nW>09_8)lorvp(Qq2B*!1`tR9~n9(1ktzgywcsvkX2SbrH7}>yjTM!L{sNqm8
z24{OH907Wcu+9m7JHu2LsBi@bcR1z&x?Ygt4L^M#+!rMG{ZQ-=hsS{SSV#_p=5Y`@
z0q#zOp~0|!5@?3P^2yK?20>HcRs;-*ggw(hZ8|KS0Uu|=_-H7LfkAU%=Uh;k2a@>`
ze7^w3#zW~suoT8}6QI))h+hiziQvB+F0BBIWXN6#3MnvuHPo$vQS0D*D)e0sSsOq;
z1Lkgo7n{H<6H2n6_g10)H)RuLw?XuFc$y3Dc~HC)jCVu&9%!=<X6%QW1K@H9P8<e<
zqmX(G{^rB9LZ~_pjzv&#5_+71HK*ZM2}GQQhv&dvasiKA1f9#U>I!@>g~`{TybOll
zfP*)o>upH717GjLq;j}@A8a4Oz6#K&g2YGgxf&+c!i~o;_$lmu2C6S$@k{vdN~pha
zuZh>*z<>tW@fMWd!=exHwh_jBf-9e){}<Ty6%@Zg+;@2M1N?r$g%&XX16%*njP0d#
zg_~k*8wOrUgO4nnl><|G$ZRLf-?jsBwgNm;1kX-zS_yipKt^YfQG;3P@K^&}HQ{7e
zFw%zg-9V%Z)4M};4{+9pLIcn@f_295+XSZeg38|D&<7;P`l7BmthRuk{UF>D?puM~
zKsY=Iw5=g|2z;}F(4la57z`D|0Xxtf0m~hr$q|B_;pRxNc7@$;pymNfJfYDG#`#FF
zY!nRigS^q8JO(5I@NO&wjDsuV!Ez#O4}y-9AT9*zLt%6nTnq<up%1gCLWgNEFA82w
zhfy=(+$`u51DUfyey&jeb7G0l=Yi(}D2an!3t{6TkV$~(#qeYaxFy2LWnjDlHY9=6
zN|?S1YEoe28aTcd^iv@<4gRc$$aJX80LM*`zZtqqvT*el__Y<L<iLY%V3!L=c0jkC
zuyPlC+YOWV!o7Vk>;N1%2we}uiX-slC<N!j?E<hl4tr04`bkJEhEJzpLJ3?yBh=sE
zbHrWeq4PyZxC9?ALtrUfy$V)ku;V%?-Gqg=py4)*xeJ%?LBIQu^8geoV16akRl%rg
zI9~&Og+9!B0`kvb?sEuz@dCYGK}j9-egm88LG~>~zk{dm!MzcRKZ5aRNN<8RUo{nM
zW;E-H{@rT6>59}uY8k3(+f+@3CyGjHa%ytg`8U%vWF<UjyyVq7Drz0&hgJk>OY@ST
zBqcm^bors%`pogfPtI-70;#{@Fa0b(P1Ie@My5)NeMf01kbxd@u%<2il81=)@UR2e
zE5ebEprZt<ltJ=c1t+UQxf%@DfP-D2Ygb6pg0I>zNe6E0f^84jrw1AakZ1^>jbNe)
z+~^5|d&6#1Q0)tg&ESJMjOz#2`ojP#*fBtY%7b9hV0dc{V{G7xE%YA-+lGUp9mLtg
zn-SpW2p62dd?ajjf%a|?>kh9xz{d;DdV}dG$n=G_LL<-ihi7BJbF9#5rvr&S$3w;h
zkO_iW!SHwzxQ0T}WH1bev?=g60-_?}(KK+H4h1tnZx*bLhL#wJm;)8Gv&@KjaCAQC
z#6e0t{8$KK5@7+#6F|HK4lM<(WstNSnpZ$bGTd1SwkfcGHFQ}E%hti?R0vuRH#dN_
z(8;?ug4$+Sk_nAjFm5Z9Wy8R2khdL_cL<#($s@ko2?4v|${w)X2ix~U$Ab`e2<i{R
z=%aA)7?>A8b|G{)0rQIB)kzq23eKH|K4&2FEXbdSITzshMew`~C09Vw>nd)%1~S(n
z`UX6?32wLH<Q*`+2OG*k>H$oD2sITjvI>qr0{t3Dt%X02A@V6yJ_E-WkpB|8*TL%7
z@aqjsX@CcBh2^(<4@W*gw~w&$6MXv&lfS^duQ2Qz9QY1hf5M7i@TCQU|G@3P^rDSa
z58<}Dw+#d8GLR?>pX6YIJX~)FgFC=31?b!n5;_U<e^7!z6}Z|NtkhtKIw*C4g__XN
z6~<`8<!;bV7jn9Tq8=>Jht~$+YXldJ!K^22=>_dfA+`^^><ixJaK-{m`wR8I*^($X
z0AdEhvq9it4X1{Hi7jLd1?k~1Qw+6s;5q_|9Kg^C(wsr$0#UB;$PJu4pwJWaykV^m
zw2XqOeo!$QMo7ls(E!j5gp_gcV?2aSg!@4to&<+NKx;B2he2~VghardsW5aJ?2m#j
zGho?FXqp8<F>rG>SkHw$v7j~|mMnnAIHCT>FC>;Nf`JK;w-}U{!lFcYy9~yxfGbJR
ze<f^N1&XU7ZVkLy3x26^Aq~toz}9qVzY$_L!K=;SlLcqDfN3^l=76N_cAT9H&vt<4
zPB^^_dhUUYy&$t6W*vaX2f_6)oIC<X$6$Rvhzeo)ai~54&L^R;81zrWx)S((2Bw~a
z%JblG5sqCF>QDCytS*J0S0TI%?q3JHn{fCRXy1Y4yYTHEgx-g{4`65o9H<1%N3gsa
znra~UG2D6rL!QB&=b-))mcD|Ibuj*oP=D9!iG$w4&Uc{l0TLSF{YM!48A_YL>MP_n
zL#OW${{tF+f`1EK`VAI;>BAh6p73u?g*FV#mxekS@Rft}ZJ}>F$Z8Mm6omQbDiU9G
z1TQ5hQHEZfVWTR@s6(^{Jm~^%UE!n_7<YpWIv~{@ruTpvJs4>K#|=T>7*b8(Pfv*K
z4V9+g*cbB6pu5BZSNDTo{b7m~JQx6WgW$+u=r#ma+Q2tkm^=*b4ToWNaKIkAI=~7?
z_~Hb?BjL6S*to%7cTo3)L@)T{4HHJeb>G%+TBC`({GoFIB#ea*fe<(zu1)}}AlMNM
zN+GZ?6dESOm~gl}1^P{eoJdfNf(6sz^$hTx1s9^hOz6WcbD&);#LffB%lYUX2WR5J
zbP;S8s#0z-#4LelOTl9qoLUYhNsy5Y(yL%*3e>I!*R@cz4h+*EZ9Rz6Au0nNZ3L&y
zP?!mNTVU;0VWyUBh}Z@Xw}br-IFbiCyI|FB_`U}w?}PIFF#I4KJOo{jK+;k8dJHBN
z!0ke?JpucQK%*EEPr>KYF!2oBI17W%3-!1A0#Wr6EWQjMuE4mfaP1llxDGpRfbuO^
zbQ|8@fid^sN;&j@0NWmdVkN{?!J9|mR|6Mn!TbqqeG2WLL+lH9^%8s}b$IqQnASsP
z1GIeyv){wB58(L`PJe=)O_1>gWSU{tH+cLVTz|sJUtshb*8iaoMIwEn52s5pP~8Tc
zWuQ<N^xMKZdH5}9hf_O1r2;r~gkzmRR~c5Tz|YPQt_Jtj!LAD&)&y-WNY;jL-5^vK
z?skWvdT>A=G!0?75i}V?a8J0^3x=4&o<2hTtD6y*n!`s67~dbRTf(3LuyY`&42A@2
zcs~Tj+Cu42uo@1zV(4TK@gtzY0sNidk~3JiK#nUYxWjx8sPhD0Z;+h#!M?tb<p=Hj
zVeS}s5ddC+aAq9zo&cLBf^0CvOoFE&;653O!@y(;q(?xTNSHAVYNNnq2Ar4)2GNif
z1Ak}3w7C+jiUp_nP_O`c#KW3}(6R_365!!tuwM#C6G3M=tXcuzlOSv*l&^x}tKr}p
z&{_vcsqi%oCT)N_>0rAN_H6=<OridlWf4Dbfr;60BL}Rv!|q&A&4a}|p>Y?C+XL73
z!hrpdcL0<R!J@<P_6P(VgDd&azYw+^hmJ)McM{$dgWqYmPy%L>v$*9Pw7USY7vbe4
z@V)|PO2PCRY%T-28xV67p4|eEJ8<eQn3O}teUN?#Gb^CB5?miaQ8gIWLfT^xJ%y-e
z@aVZve@-ung|9&GHLQIDE%h+<EmXXN5g*`aBj|pDl+W;^3Bta@{bmq<heJO=>lY-q
zK=W@1`Aak25g7<yPKUN(V81kUk%eV)!u(Bbi9zk)W_z$!fIW(!)(Ms<L8CH^?+j(C
zFi;)xG(bfYBwgX176f#IQXR1D4%>S`M}3GlfO<n1Z44Jpz@isOvU_8PJ}|E@)S1C3
z3pm#g`dC7i703^SIfLN&VDK6OB{tA&C~O=CvSNs~gD3Xj<^aWxVC)PVMuL<pOm~B7
zcX0NUV4)Z2`@p(U@Y@%rj)qEqa0q~7V?lQutR4?PCqQ@*+z$r35I7tP+F_6!4&SCg
z=v25H2}7gcz;w`@3Cm|eQ?yY3!Ly0C=D?6x*fS5*7r@du_!tl47r}MmqYhdOJC}e;
zA|xz>_sd~y5|k!`)hftMflg~6el0Yt1OGI*v>q(dAtwVATK|{M{LRF=Oz_<T=eI)N
z9LU-R?Q&u64tS9VUc2DTZs@%iHthr10}yi%o*n}CBT#%4O!6VU0NNaf87H8&2waNc
z#3`Zv3`&S;XW;Kyn06kjE`ZY|D7XwgN@2}aXt@Rv*Wuv}u)hUIZ-dTVSalD+mqXYC
zD1QjUE8$=jbghOJHSnbtf}eoow$P0>&tdNiP=5u9b@1smOsI$J4KVl}?0OHK8zJE%
zeE0-`O>p%KST)0rZ=m!87XE~WUohr3T>e8J_7fQjH^m$&1{9@1vOor3%YtuPxF8Q^
z?O{s?Xr~CV9pPms@K%O1DqyM#o7F&017f<sGfnW&f>YXHq5~PaAl(CI>OrkOxEex{
z5g3|CFs&zudP9^cJn92ZW>9Djdi`K+e`v9UsRN*5AdDCcN3B8E22yO{$503x4)?_%
zwueI_K+6%5ouJtnLR{dEt5E+#-HH1>po<qQ^M)oL2=axSeqiknd&Yp;SXdGWjpJba
z1Sp#b1A`%N5~zfNWHP)9gMcYe8UdD(uzebIoDT6bpk6W)M@PfO7_gWF*>j=8JeW5h
z>K4GLcsREZ`Up#wl>qWfV9ru_o(Nvcp=1U0N`{RqK{f@VSHqJv;I<BmQ^9yWY}g>w
zzf=Zs#zv^w1S2!ycorCJh16{LlLL|4p(+;~^B{jGbl(kY_Q0>bJawG1-|*juj-m$#
z427qTYwXm%Xql>=lO+pJ9fjwMJzAeHo|EPIqC`sG{*Yno1I8nVIZd~tu<{su&xgr{
zaPK$_D}sY3q3bDFaT>mqz@)Qq`yAL@fV~$%<1!>(fls9{;Tqg1gTXgo*G=er8y4RY
z7W2bh2rP%I_hG<8*iivWRj}|8ysd^YwQ%_{^b?wP+cQvn0SjKj>sR3S8ZNv6vj*7m
z7TUju*bnfs5xhUa+0S75MX0~cUx{+xAm%$f{Q>U3ptuE0{y_R)TDOgqkzbL_j5h4o
zN`s3moR9+pc}Qyqf7`<}1*lR4r%q6y1U*z>O=oCPg$Q+cr~wjtO+4BabhKerH~6jt
zVcns;2MpJTg9e~w1WCs5)dVK>f;&Rv+V+8ceL=$<mRZ2(elXDzZdif!K-fJ9RIOq0
z5NNa!)_>ekxHb$1h#}7olt;iK2YBlU0nTt`B=o0gWwyCNM-Pbegg0K`=K~i<fw>=S
z9S!Zrz`Ou>H5Pov!P)W9XCh<<3G3f>5^;72JP!rWFgP6!JtJV_RFIhlv!dYfba0yq
zCuf0C46L6GQgdN?EL6_}=LK*)4)hnox<&9?xYo$UP`Lyg65*I+8S1WplqC3(3}LI_
zehP@!z@fFEl?use(7YZ((&0`94BZ6#H$#^!ShfY4wn9)2+}sA%xv*yksO^L$yP$D5
zjNdEtf7w3bzypwX5L6C><OsYw3IX|0S^$>EVfzW_coO1^q5c$%E`f_@z~UTapN9??
zVcsREy9}dB;oMc|QwCYrLH;I4=G?;Px54W!l-z?}_hI7$kgb5|N_bKQZq-m+1ICYG
z!xNBt1~Z;R%?lX$3Xa!-!5c`ehd&Jv`3|bygJUD)e}wLzh2P1VCiwLQrZmHYZ(#oe
zj{JmfEwJ)8eE&lmP8JypchGxM3=ETogEG)n4py{<FY+*{J>2d9Hj1#fBWNf=qB49^
zfeET`T}_yOkOu7R0xDf0K?~k%!&n_C)di~_kgErs3?SYR8jQf-1TOUii{6l93JQH;
zz8Tb+gKs}L-yix4eV8=>+6{uagN6EkVNLY1fit$ydl+mQ4zhL-V-HV9fV(3UJAuha
zNOyrYZZN|gYCXWk3r={0!6-=cg}*{GPV<MVG2k>73Id_WcvvHufGratA{ZV{0{c)n
zIvI4rVbv7)9syyIP(BTYPltmuKx-BxMZ?z^m^26O%mv$dux~zS#KE$7_`DD%3Tu8N
z0j!q@^}l;5QFR$CUJi{bU|cd>TL}YFAa6A&uZ2bH;B6`dtcNQbpnnEz+Xx*uLtG}j
z$pXKva4{Rq=|h{X+l~KwcWl4ISfnPS8Lwa^>LM2tGG%g9u$sbp-6}I>H95mJU8Exh
z4-l!JGt|`9oR;rbby-ScB+^!s)3g%FDQUJIRcpgx^_mK4^@4j+Mqdir8fCwf>uIAV
z!+o}maO36l0!r+OMCu>v6?wmryn5Mjc~y}}Q@e|T*vH4y-};}qyL^{66Sn?hJF!^o
z&0k@26^moVcHv@2v3Px8wTUD^7<3m7FZj=4vDhwFh&}@U{9K4|9(L^Pr?d`+2nuKY
z&o)AM4fc)fCl-f`*>MtH?f*UMEp}*)!dV?h`+3LO1^jzHv1DHBAwR+Ycf!^<Rv7e%
z=DmXmBgNrfMByaf?yXnDEW%E!|BX%o!qtrwi(6m+Ip%F2^Y4Uq|6En;RST0y{`1qV
z6Na>2x3};?T0gPHe<vK-Ity#Y_CFIkM>00T;Xf0I#jTgZo9w)W72q?52rJThb^k1b
zaEgD<=PVXm346lfe>NdHhYOi2h!sx2ds_E}F*^p?Y;D)q));6{<9pZt{1NSv5sAFS
HJ{JE6X^zQ0

delta 470
zcmcb<gk{z)<_&^3`6P2p86?<>lQU9t6GgeE@8o6FXBRu5Dk&owv;8M8<55OUu}PD-
zfFf!fV$+_mi7+ro%1H1y1_k+tTS0V5EMV3LfvV}M0*nszp^lD@F1|p*F$+Yvg9yiR
z5a9$O+_Hd5Er1MH7grG9DG)@0nIHy)>68s(8I=K*f^?=kJAy0#vYZ?%Kr)VzAOdV2
zhyi6rr2}oNcT9J50x=-K$<ezCW}zFz!gP=fx`kCBL7;&^agc*tLg5x>fMgs&zQV9D
z6{OTR1ZqCSD={EdZjO$gAV)ftJAy+3YAVDGh=Ivi4Fm}SJ>UY?pX}%i=7R`Vu&bww
X3o)ul#>g-*AR`8576yg@#~?!hBw%^E

diff --git a/tests/testthat/data/mixed.parquet b/tests/testthat/data/mixed.parquet
index f185ca7f9c908b5d5c159d5a2700972a36135b2d..552e460b109e49cba9b0f98ca7dd4bb027293528 100644
GIT binary patch
literal 35420
zcmeI*2V7I<!hrDu1Ox=d5d=lWg}51l;7r(40YO1gQIH`h2r9TEqT<Gl8~0Y+TM_r(
zd*P_7)?I5`Yrp3t(n@QQulBaL*YNZIyo7T|NC;;&C-svDSW6{Rg{gFusgE>EM=F#S
zgdBrcEp!AvG@uDBNT3aILNVw<5Bew$0~n$NO2P=G!1W1bP!>`cqZ~|Nit?xcGgL$+
zRE9aKpem}NI%>cIHDQTbsEs<Pi+ZS!2C#xPY+#Fqu!B7s!2ynFj3#J`W@wHUkU<V7
zIKu_5aDzKM;0Z5y!w0@-iB|A~KLXGife1nyv_&vN&<^bpiVo<AP6$J1bU`>G&=rx0
zLNsE~4Y7zrcl1C!63`QgNJ204Mjs?21%1&E{V@OoF$ja9z!0QjDAF(t!!ZKs7>Q9B
zjWHODaTt#bOu$4;!emUrR7^uAreg+XVism&4(1{Y^DrL^un>!|7)!7e%di|PuoA1V
z8f%b^wOEJs*no}Lgw5E3t=NX`*nyqch26-(9^_&#_F+E`;2;j+Fpl6Tj^Q{?;3Q7r
zG|u2G&fz>R;36*JGOpk%uHiav;3o2L3%79xckvbO;XWSVAs*ptJjOS8f~R<f=Xima
zc!h8A8sFg!zQ+&v5pVGm-r;A6fBYKIgcc;wh7O8B7kbb~aTvf5B~TJZD237}gR+pq
z80BCBQ<O&qn4uynp)$--1yxZE)lmZ$s0mBdLT%JRUDQK;G=LSXVFOz<gdObB2o7*W
zV>CfiG(&T=fDCdt!5J=ag&W-A0Z(|r8$R$wOSFO?{1JfG2t*Ltpe=$Cf_7++P;@{?
zbV3+9qYJ_jfv$)|6rvG>Ziq!3x}yi;k$|2^L=t+TH~JtMDd>xS=#K#yh(Q<(1%@CM
zLy?AI7>*H0$4HFAXpF&FjKg?H1!;O|>62o0r3xddkyJ;jV`d@|CzwdYXP2>H`N1W=
zkf!%)pN8IGK~vX6mZcb?rCZuEI45h!&|*eaJu+qUQil~cv5CHvGjHgKlIBk7Ci3}d
zBg<F@EDhc>f7s}9R$UHd$`=eDTfrgm!KFP5MvSj4OVu@XT9`hen#V-TklckMC)M<u
z?=jtJ(WohPg4ab~&RsNmT7$6MbW`WWW2W0ipII8Rck$SnjS_Ajn(n-0-0UVPFCJXp
zyJY;_779(h@-9m=<~gUAuGMbe(g_RPGpc&da9K8Sk$0v|%$0r1CM{`|<utOq>+;FV
zS}zS))^7juDJ$A$cR4)6b;Z<G?YAU8yt04Av^AY_QuQjht;}2-erRH?_6Jr@Umta9
zzUNH0RWmlmURoD(^}wo`o8$9xM^<oOJ!@;ygEPz8A6z|qd-Ai}hiAI4nX|M1n->qS
z9$Yhb_h3Ow-^?RBYtK;KGPOewWzX9?!l;_pERVJG_m4KQ?RM?Z+64#4n>&v(^IW&^
z@FdID%R>*ZTXb}qRrrxvp6eGMpXreF=-T1+OHR&}4b`vcwPES$1s;=XcQ~?P+1Vw2
z3%q7~ZCrkSMezD=*N<#madA!9-cc33H?6$9KKktP4o5ewy1F^x&XL*Pn^#}op7Qe1
z^`o2D+}y3uDqhKFOZKh3>1FD4Jho-+orA)=T#XaC8U}-TRNw8@_|3l`_)4zEnOqHB
z?Njrc57**pqL4|~nJJ$p!l$1m3iDU<bn<w<+=6=9s9rYy8<&kdbp@7$>TPQt182Cv
z6>e~c2Rz{gZ}`9$Ezt^o@J9ezBM?DogSH4p2-=}NLeT*o(FtMbj4lXA1iB&;QHVwi
zx*-;E=#CzUM*?~x5lQHU-spp5q@XYQp+5#-AO>MD6c~b33`H7-VK_!09V0OcqcH|!
zF%ILAfeDz1Ntlc&n2Kr0#B|KSOw7V;%)wk_VIJmV0TyBr7GnvPVi}fW1y*7eR$~pa
zu@>vF9viR`o3I&Muoc^|9XqfSyRaKM*n?c`#XjuE0UX339L5nG#W5Vm37o_!oW>cP
z#W|eE1zf}>T*eh##Wh^V4ctT?Zs9iW;4Z$xJ>16wJj5e>jmP)~Pw*7a@EkAj60h(r
zUgJBw5#Gsk{?31WWbC<16~@w0#&xAR+I;@u_Ldbt(y!ZF;w3&5#a|897C*O!4Q$a6
zcCbeyIKUB&(F9G=49(F3GRWZsXSl!>Zg7VOJmCdz_`nw}(F%U>M*vzQ5J6~zwg^TD
z+Mzu{(E%ON31R4rE(k{ix*`%$h(-*$Ar^7yjvk0d0(v45N$7>%=!0aWpfCENKL%hR
z24OH17=ly`MH+@-I7T2HBQXl2F$QBX4&#x537CjUn2afyifPEibj-j^%))HU!CYiv
z9_C{K7Ge<=V+odG8J1%OR$>)aV-2#g7VEGc8?X_Zuo+vh72B{KJFpYGup2qpgIw&z
zKJ3Q<9K<0U#t|IFF&xJUoWv=d#u=Q&Ih@A@T*M_@#uZ$}HC)FH+(aI3;WqBzF22G&
z+{Xhv#3Ou-$M^<M@D$JR953(^ukbBi<2$^;_xJ%n;w^r{JNyiBEv^AgXh8yP=%5&M
zp$B~whXD*x0wtl|N&dojk~#EhBc1%~p;v{e@(H40s4Hkf3leBU2gRTZJ?Nu23}A>7
zC<!B!LTQviSx8}waxj4@%A*3zP!W|-8Rn>hs;GwQr~wPqge7XBHtL`*>Y+XwzzWu|
zfh`)s4)$mS2RNcJnxH9~p*dPW205JI3>Ub<4es!OC%oVdANZmrTEP$g2taEDA_#5J
z7QqNXJG4hAI-nyuAq<_-1>uN5S41KT(TG7e#3Bye(F5^FKu;th3BAx8eUOY4^hH1P
z#{dk(APj~ALy(H0NW(A;#|WfjBt~I0#$YVQVLUQ00TVF^lQ9KTF%6lRjv1JVS(uGE
zn2RjT!+b2jLM*~!EWuJN!*Z;^O02?atU)%`Vjb3F12$q4He(C6VjH$&2X<l?b|VLS
zkc++8hy6H!gE)l4ID(@%hT}MalQ@ObID@k|hx53Ai@1c#xPq&=hU>V2o5;g0+{PW;
z#aFn8`*?tdc!aO<7~kLtp5hsv;{{&g6~4u5e1|vq9zWnmyv0v=ho22~pMNjW(9kQT
z{`2SIaE1$9;Rbhjz!P5Zh7Wwv60P6|e*~a40uh8ZXp3NkpdH#H6dlkJoe+l3=z?%W
zperH~g=oZ}8)6ZM?&yJdB%mh}k%V68jXp?53i_fS`eOhFVh{#Hfgwo6P^4iPhGPWM
zF%qLN8e=flP`9ag+*SM#53!0LA3Of4n?KP+S2dGzzu+TZWvcpk>=%1HR-qxiP~d><
zN1h?<Pk!X9JZ}^-NuIdPdrPmF<eyrGN(2o(Jwb!N3{7Z30&VD^7<8creH4cQ3{e6l
zVT4jBjWQ?;DU4ALCNM>LRDc;Oq7o{@992*i)leNZV1b&jL@m@t9n?iV)JFqY!5TKO
zMMK!Z9*y7tM>IwgG(|HsM+?XxhZCIP0#~@f9Ukz67rfyEUwq+9(fp05QW~X7^4uw<
ze(vy`P(OEyv<A+9?x;7wdCr{18JxvAoW})R#3fwD6<ozNT*nREG}L{kF!)0LiHB_K
zN@o=~Wc$HN)$08=TESIq{#V6St+B*PT-92Ot6KG%;&0vFR{yp0*Lo7C@EL#Y|Mc#*
zdQ(xosrVP|a7(0VwLd(Tn<^C#@AE=5ZC;3`%?r`Ac_ErMFGSPkg=pHm5KWsGqG|I&
zG;I?{O=h&V($*2IVFOz<gdObB2oBmh+D(~SG`7rF6b+fLDD0T8DD0W9C>k+eQ8+MP
zQ8+T+C+IplYPp&TR(i$6b*5kgTQr0n?9m7gdd2kIn4@THn6D^onXf1sGG9^HF<(*G
zGhb0OV!onqV7{VoWWG=E+#%Sg{Zo&D#KzI}_rCyJej$GmiLG_laevj7eJR%?v2|RO
zBHr2RwvG;3tQKq?9Y1m`*IuyHbaXV)5O)XEhibpnL$&8(rCUBcQv2bv;*p(+`1G-{
z`N-;x6=gAr?QhnDEU!Pdek#hkNSvoA>mqTUqO6O=d5W?w66Yz(x=5Vo6YC<?bZs{t
zmj73{=0CZm@YgM9|JRp|W-J5Mo6>*0SzVOPXmOsRY(|Uod}1?NoW4w7ur3;jwe_%l
zzt19lzP6}H*CMf2ZeK6*)3vr~bZb`r4NI(T^~SKsQu_4IBC%F2$<DBKEgF;W)8CqZ
zi{dD;w%0o&vA5QK!jf#vZ+-f@B-SjnK0VuqH(B)0|MMHu?^5;u?f=H5>a#(0sfIN3
z!y~WnSDjkcR^ler<I-itUGj$Pa&wlLj>PU0`{w-7i2KGx+3ywS`3L@B&Dr<m9&z{B
z!&UG7{&p+mAK2RX&;POhQ+t;GhTB!|{r)#@HGXvOmlw&JN{9dYBH0`R@m1EZ9CZ{e
zSfa`J2L-Z_gFJ}mB^bdRR*=CDVMu@i>BvAPval4{*n%7!!YN!r9v<Ks-atI(K>}SE
zzzAhw0yCJSIxJBaR%i$ZG=&T<@PH5e5Qt!eA`B6TMjR5*3n>@?1yYfQ;Yi0QjKMf$
zU?L`CDl#zxvoHr)n2&{6jHOtPl~|2ztiuLu!WL}94(vh>a<LBwa0o|m3@303XK)S|
za0yp%4L6X7+qjE+cz{QEj3;=87kGu&c!MAC7VjXQZ=wNBXh8yP=%5&Mp$B~whXD*x
z0wrODQYeiwC<`f!Q4S_BMR`<!87iU@D#ILAP!-is9W`Kqny^GI)J7fDMLpC<16aWt
zHn2rQ*ufr+-~dN7MiVqeGc-pF$RLLkoZ$jjxWOGB@Prq<;R9c^L@W5g9|35MKm?%;
z+9DVsXovO)MF(_5CxoFhx*!}8=!!^0AsR90hFHX*J9;1<3FwJLB%v32qYsjig1+d7
z{uqFP7=*!4I1360Ll_~XGC~;22qBFT!Z1b%!x<rrV1$s)2w@~6gi(wTMl(Vf!w6w4
zBZP5`5XLh?$Y6vpff2$)MhKG_Axvh3FohAqR7MEX7$IabLYU47VFn|FnT!x-F+!Nl
z2w@H*gt?3mvKS%EV}vlD5yApS2n!h@EMkPPm=VGfMhHt8AuMBru$&RX3PuPk86m7<
zgs_?s!Wu>h*^Cg@GD29#2w^=Vgbj=kHZnrk#0X(CBZMuC5VkTx*v1H9J0pZ0j1YD*
zLfFL!VK*a$97YIx7$M{`LfFd)VIL!e{frO}FhV%Uc+mMHM^t%V0wyTmoj}1$E<U)#
z!bW|F^-Dd(`ule$DCB9Pe0Ksty=>%fOucOUw=Nr5-0`8_wpMRjYqGx7f&|*oK{4n;
z5Bew$0~n$NO2P=GP#R@W7E&0a986$}@~8kaR753IhB>OBDypG6YQO?DVToF(jXJ1{
zdZ>>Eu!1#gV2g&ZgFPC-0gh;lCTNOgXpR<;K@KN4!v(HzgF8In2`_lV2fk>DR`7#A
z0?-<P2tpgQMKD6p4($<&4(NzZ2t#LdK{z7N6_JQSG-A*Vv4}%=^guik&=ZMBLND}2
zA0*@Nd}{)3>yO@@Ab&+FbNX<5OD68zDc_xdUj(1Kzym(;Lm+|?iZDbV8gWQKFQi}q
z6i7uH)H})QKji<lKjaktnERq1`eOhFVh{#H!G;*rJIOo_^LQNQGeW(S%;T_^$6+5M
z{%9vz`R)WOO@4V}Sn=HnY%~PPvlfOW1(}}eG&=EAIq~#3@sv36G&u3pH}SML@sv05
zbT{!-H}Nz#@f0`l^tR7FwT;_V80tzmzm1!gaEhC9a8?a2s=-w?xTywr)!?BTJXM32
zYVcMKKB~c2HMCR>tyF`bo{{o|I&M`wJ6*#0#p0d(<zhg=i>(V@3@mstsNlsm1uwQO
zcrm!(#gKv*+ZDXnzTm~sf)_g!yx6he#ZCn;hUu9re~&WmX4w0?nx(q;;tTdAoFOev
z5`}$ia+ks<hZjCMqVUOG3!fZW_~fX<Cr1}PIi~Q*-3p%^TlnO-!Y6kxd~%P%C&w2)
zIYCdRJn7Y(U#IvND*kHyApUw2pg;z)kc}LiLLQ!p&xoFe;w<K{f((8LLjuHU8OTC5
za&QWHcqV>(;^%#P(&v49uh0AT-k<mFeLnBolRxj<Q~u1iTjr(6#G?elvlQ9Kj-{&J
zUx10fywiYqO!XsQ<to(2R=?O|tGv^|+X^4P_3KBTA%FP1QOLyq3@nM0X%{PeWu;zl
z{_%2Gz2G!w6=Ve&{1Ao&D3F0HWFrTskcVgDD(g=zIP<?<sv&Mg7uU;>DBp|1h$~fZ
zM5`Wj9%u<~-DA!}qJZ+EdLvqVD6&)!hxi<l@a9A^E{ejSKo)Y4Cr<t{H=@6gcMf=@
zFkq{THxI~_e)xW`zgv5H$Ue6A^kBuwn+GV@o*v@blP8aaw}W9JB;g%ll!JP=SbQ+l
zyT$L9ChFbdKe>^h-Yqs~jbsHG{1Ao&u+S-d`|97mTg=f@Z|Q-`zZ^ZysUg0%tFDH3
zbwhn#!P>*e)If68mw2=y8~sSN0Fu#~{1iyKwIP?<64wy2t{tfyO2&2|KXfEfVdPwA
z;uKESL=dw`GBS#M7fm9%k<+oHd3Un12Qf_`!+VmKiKKHca-uhBl1!GS5aWJiXn*o-
z0O>G@934y?hLA<6q;wil3?ttRC+*V7!I8vnG?_n!lpIF}j3<vWNZW~I-y~u^h0L8w
z3^GaI>EzxF5;%+OnN8}?B{Q>#-h9$$0lBk~_$?;8mXJEjNak{)y^<uYB6+KcZ#LPs
zmRPPQQ#KIIO(cFZxxR&XZ6lkvlj=Lk#9id)-6U=gxtvSf_mK_zNtJ_S+#&MzFo`)z
zE*vAyC&=29q|#|J`V4t<mPDQ>XD<-hC9>)=DSwrWxJF)GC!KGSlX;}+ZL;hRG5(6A
z-6PNMla3F`(MQDbF<JZ#Df5&lo{=ZdN&A=N&?{p1nk@K^7=2F${y-l6NP>SN``?)w
z=-LQ1HolU~)!?$B7U?G;_q9o2F_NoG8t9W*#fhFFNiIR|mL&eA$ga|)Zdo#2N_5JR
zBolJWl(eiswwn>lN@QwfqE&??R3+D|5$_sgiv_7+Nha1JLLJh*F1b>VxHljhtw>cH
zGTxTFZAiM=lZ%ariz8Xvm{e{`#xx_}Hz$!Ya!yX<&SbR<so+LNx|7!)B;1Rf@+QrF
z$%>Z5#E%T~Cocm?SRgqbL>jjxOM{8D9Z79Zo`#YR9m$bSq)}(GunQ?2K?Zjvk0VJ)
zG&vYU8pe`&ail~KG9aEjOdxF%$=)Pl-J8tmLyD)6l)mI%Khk;t$r(uM4JI=cL^qZ6
z9!hSf5x?PN=Lk}JB$+mfXpbR@W68~N#3zGnn?Pz#B9kW*jj1Gl8o8E9JZF$iGfDN?
zWWpTsZZ3(PM=sANZVSo!MZ|mw8Ml=DxQs-vAm>*S=hY;84XL=6j9N$DtS4PJk~5n~
zi!Ef;R#JXD8L@-B+DW?XCMR=9(_FG_FDbX5q#Yp750Z|D$+08E@fcZroRm39hMXc#
zPLuX$$)R(^{sLKWkr-Vj1Fw*;uae;FWd99fBmVtm-6Do}NWZ(}{#PXEKFNJR8ayJi
zz9#zLkmM)i?o;Cboa}x<>b@e=za=`~k)$^y?|b6=BiZ(rSiU1ue&&x*Q^TTag03W9
zlP_G?B3{~Lvks}QOD5`(pY=(c0l92Q+)I)TMx;t<GOi4HTb9HalMCgDvng3yo>Vd;
zqbrg(l}MyHIa`Ius*zRINd*g%UXy%lNxIY~r|OVq^~m!2q?{EQW=&q$kWLNBF+0+@
z5n19u$~GoLnvkbWNoaF&xCOD7lZ8&ClnWW;O1^d@As*y_C$aS=Sw5shOVYm;dEiHa
z0?6Lh#43o)ZbS5gNlFO$svQXkCA&M2dY#COFjA}w=@m|HN03&LWJeUK6+@<VBa%4M
zvpc!bgZLzntv!iF5}DMCX!IdHlF8K+;?a+6>QAZ-BpHLqPlHM95L1Jumr^a*l~R4U
zrdfRKO?R27KEVCO9^lT=kiM?|!2xcb4T>=3X5h3@HI$oy>ZSC5@lv|?UG+kmW!=Ae
zAuYL-%3W|xW4+6+*OX9+ddEw><8_m##NWE(C9x4KLiN=<UOevq!#iH@a!RZJ{f8cb
z8#$%L|K{N&y~isCe))ggi5pZ^lp9n7#;cC2sgE=LmmFv6y+OUW``=#NsgE=9`&A!j
zQXgmf+mACzOb6HrCOS#s(OtWDmKq3B%^HG<Mv5Snh+|(tY9NkDH3T0s){s(N@lvE9
z)fdMI{_n7iS}~6Hf^kj_Q!~>z3&BjPX=*3v7@2Y{Qcb>Wd}OGG@#`Rq4W<^lW+oEx
z{~V<}H(n6W)%x|4VA@nFVZE#=9{b|v#Tapkll8bxN&a>ARbA)Gmm0>IZ7nv$Tf7T0
zGx^~Eb-?_}5Ao#+zyF_96@DWI`8SfJx{=J28pi8_ERG$}u$a0^!_5AdcS<evN7c>0
zmdIc4{)-@sXEQY|4y9`H2;`rwCcbjQ@`Fo-|8V;GR~zx`Bk(rRBK^6h#kNaa?eAW)
zp}hK!e6{eK(RqI};xAQoL)m$n##>@6<{a0u*tANk)*t<rj5o~I=eKR4YkY62q%5ap
znwc2L0|HvLZLE53nY__zAb!}&o#b-4Kg17jxjb3!6eV|)%cJDZQOd75F@vx8nX_E(
zDUMvuAGs7Fe#uw7hJNB_Tmy3?iwzK?y6SN8ro>Cm(PHJ{V#FJM|KTEzodaWS#M|Y9
zyYlw)r~1oXm7j{&>eeR6KiMfH|N7)9$|*r&Ke#^Sr|rZqwoGJJ2R`wXNBQxo@+b3E
z-d}EnkNms-{!{l5@&0rFl%sMExxaH#{_Q!b?v(OQ|MvF6mDlYr{v67m*ZP;+^Hkml
z59<3HQC+R_rafZ0;NqHp{c`0!VTzN#_;~XXE<PU0JEwXO#0#qH^AJD%?a%L_{H5{p
zCyU?DEUI53Gdd}MY4T>x1QYXw&WSyHckNX#JRzZ8=fuSLWb-~<6O&@%dzf20)VHp0
UWg5rg<v0I?*%D6Flm}S<ALJjy!2kdN

delta 412
zcmcaJh3Vcs#tpIAe3Ch)3=(X`$r-7+iK1MSkGJZxiycsvl#z_t%-*(_QB$mCFGxU*
zLu}nzW)TJkNf`+q$Dknpa4U!&i3QC1AW$_~tHU8J)X~w=#TQ68W`PKI5aC!3BAh^k
zTNY5I1&HP13L>2XK_r+7VnCQq*&vot8Bi%mXS%Z^$b68PV+ELuocy6fG&CJ#db*<%
zm<EeGIeJ&Y%y)yBpAM2hH@^xb2y_on9Av*sDBS#v$*(%3Y*Im@z9BH9AdUp8cXM>~
z1ZypK1bY#xA0*`Hm;ok}fld=qNCmUg9bLd0k{zAFd=TLZcF<&*E)~fb83qPq#PFM$
Kfg!*#$PfVGVsMQB

diff --git a/tests/testthat/data/mixed2.parquet b/tests/testthat/data/mixed2.parquet
index 6dcb2031b18d01258da9ccdde1f2c44b4508e1cf..bfccad38cf6e4cea86445388855a75802794e6e5 100644
GIT binary patch
delta 2630
zcmZA0dt8iJ7{Kv&rZGF(iHez;v=TM4*c62%z0;M78Wn{|l$1m$i4nQeTC>Q#b+@i<
z?$%{lw{^d)6`T9rV$rUw+y35>{bSE(KHu}4bDsA(=Y2nO9!!+&DwS=q3ovQMM`(_?
zL~2Tv8o^!=4!8?~jZ7traI>*i3qn?;POZ2a1>xObTQoE=!tCzwE*1vI!{r_jk^ny>
zf=h3h)d&7bg0y~cF&PXguz3JDr^2)}6TTV*0|vvn3<wwk8?r!`4U>n#%i)kb0#1*F
z4!N*4548C(aSZ%f0DZ>638`qiLRd8c?2BOhBzQ6z5~sq^Y2Y(Mr#2~;&m^o{3<Y1q
zquJ174*YBeueq>n9;i!T^a8lI5Mmd@PfOsdWw59eYA=UTE8zA@h+Yl*)<E-hQ1U(0
z+5kBl;l?J2GHt=#W#CZ`bGL$gI}F_cl{=x!ZrHI0-1fqpeehvFWc~yd2O;cd*m@XT
zk3#V=czYbuPr#*<5Of;K&OpO+FylN_U(lJ<iqu~TFI<Aa%doKmoUX!@-=V4!lCQ&=
z8{mHn*4+l}T`0N-&+kLhLpbpW+W!HopFq85F#b<?`W$+_gkx3U^Ea$`1t#0qIQAcS
z^agsqgTwE2YL&O(zO72JOvc#83i1_jzZS%P1_xE(X$^}%huSufTL<pcg%~^7XAdpv
z!vYN`9U#XMZt9?G1K4A7MvsOt&jqYpA-geDHh~Ct*r^A1517*ogyt}$1zc$fVV<z9
z6*TsSuUo_0HZa&1erpTC?V-#MT>N2XM|d3ose#h>zbF!lL9i(p8ic~MF!(zhQo6v|
z2ndLR^<BX+8YacSOC$7)g;R0h*8|q}1Wh7L=mpPuL!Tu0r7yHihL!!negK$E1M!bk
zNEif1)1gfUe3uDzvY=onJj{mp;czGiyhg&(QSf;l<c)@V`Ov)p4vdACCRj8cR1;w2
zM7UK1(UW2C6!>zQlrw)i)S3yyXTkMih@1_(zk#M^`1V_n&4Z!y;r9~gyb!i80=Fgb
z%~E*33^KlhiscZx63SOWqcu>x7T&CbLF?hy4buG&+C;czGkj47(|>^Kau~P`&TofK
zJ7ME4aM}Y?euS#M(0@OiIRO3#Vcj8cI1EKc;Q3KVIu0j)f%Ye1^(m-#1`5x@Q`0%@
zbpeiD1m8=r;y19ZfU#HL@m1(q35TzNw{#6lZ-UKj$iD;k??T*tIQRfOAHm|sVEqJg
zpTeDI5c3@Nzkn81u;4H0|EGLKm{ScmUPIIy*!>nf-oxAv+(o%e-#A;P7%FF?(h9oN
zf*ne5Q^B0t@WC1~)lgvrVRd1vEx6i4aXoljAJVmO$pM0N(*9*mgbkfx#urfC5K<e#
z1y=}c0vp|+fgYwdg}*$Y|CeyKIdp6Z-+u)TtzeQDyzqv;ZQ!I2__c*K?V!FN6n21T
z{$T1IfX6$5uLvs*U>6MILf~;IB!t6}&d@pnN+Y38R~XX`9z;W&5e{{SR?<CO5)alr
zAuj>$CW5gy?C%3D`@+J0@L7Koj!1!91E5<f{FnyK(qaB!P-MceA#g1VBC}!FFwp0K
zc?8HtK~^qY&4ciK*ggiDjD^|b;GMKlMxjpae|dsl_|!s*<a)tesH#^!&c#MvzDWhc
z97<$$bOk<wqcSID(7++d8nxLaz|&5nbQc`0(%btA+5_%7XI*A_T!2}Yq!*kuN}Z3O
zwAEQwHFB1<=SOLu`syc_$n{IBWzAY>6dFMz7r<7dWOMD6`3lnXDs9nbd3{09IXkLF
zqp@2LzmHowR$F;Wt+m-MFwiqWq(zA_qL?p55fX-6Nuz|cAc`qcz7zzRvqf!(U@1(F
z&F~h*G?77=)CWnEQi~BoEWK1DG(IjS*O2h(aWT*ADmuj{O6y&RGuw`!vzQi5XxTH$
zvK{qkme3Me!mtF<kVdj->1*bLaz2$d7|msYPNoz~nHbR^emsTOf2BKH>V;Y!{9ozt
z3}%BvK9v&VYLW~wHE)$7y(QnJrl@84W4-X2R7)p{%|0GGJWU#N)?BFoIhL_BXJC@n
Zv7>pt=;oa1EC~Pm2^k7Oh!%}r{{jiXY*+vQ

delta 466
zcmdnFfbm5$;|4)HKFJ(Y1_`#}<c!qZL{YBE*Sz)F#SW-S%1Fj+7W0|Rs43R5kQpeT
z#vwNC2crlBgQScEk7H1ff4CJykHi9IeGsUc%<kt<AL{7n=;8|`9J4@#JBV;B2N6yn
z!YvD^(gMVCaRrf1fglph1Ti2?r)&_*s0^qSq%+;w5oA6{%&`JYMuJGNd0;Mt8I=yS
zt==)+(Fw$WNqASmEOdidm=2Obx3CH%2s98V4swu7DBQvfkc=b9R~Qzif|UA(z|04G
zB?hF*&C$^ltfAZy91>7dK|+p>5CfAzOmrWlf&_scZ~^O2c60{wL4+&V)suhvt4PMk
RFfbq^hKtM$3;~Woh5)^HdUgN+

diff --git a/tests/testthat/test-read-parquet-5.R b/tests/testthat/test-read-parquet-5.R
index 6f70022..1e58a88 100644
--- a/tests/testthat/test-read-parquet-5.R
+++ b/tests/testthat/test-read-parquet-5.R
@@ -132,6 +132,7 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   expect_equal(tab$s, as.character(rep(0:399, 6)))
   expect_equal(tab$f, rep(0:399, 6))
   expect_equal(tab$d, rep(0:399, 6))
+  expect_equal(tab$i96, rep(as.POSIXct(as.Date(sprintf('%d-01-01', 1800:2199))), 6))
 
   pf <- test_path("data/mixed2.parquet")
   expect_snapshot({
@@ -144,6 +145,7 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   expect_equal(tab$s, as.character(rep(0:399, 6)))
   expect_equal(tab$f, rep(0:399, 6))
   expect_equal(tab$d, rep(0:399, 6))
+  expect_equal(tab$i96, rep(as.POSIXct(as.Date(sprintf('%d-01-01', 1800:2199))), 6))
 
   pf <- test_path("data/mixed-miss.parquet")
   expect_snapshot({
@@ -156,4 +158,5 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   expect_equal(tab$s, as.character(0:2399))
   expect_equal(tab$f, 0:2399)
   expect_equal(tab$d, 0:2399)
+  expect_equal(tab$i96, as.POSIXct(as.Date(sprintf('%d-01-01', 1:2400))))
 })

From 11da9d4598eef5386d531b683abdff3d836a2fe4 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Sat, 8 Feb 2025 18:49:27 +0100
Subject: [PATCH 15/18] Fix reading INT32 DECIMALs, add tests

In mixed dict + non-dict column chunks.
---
 src/RParquetReader.cpp                  | 153 +++++++++--------
 tests/testthat/_snaps/read-parquet-5.md |  60 ++++++-
 tests/testthat/data/create-data.py      | 209 ++++++++++++++++--------
 tests/testthat/data/decimal.parquet     | Bin 0 -> 7141 bytes
 tests/testthat/data/decimal2.parquet    | Bin 0 -> 14188 bytes
 tests/testthat/data/mixed-miss.parquet  | Bin 70231 -> 70188 bytes
 tests/testthat/test-read-parquet-5.R    |  43 ++++-
 7 files changed, 302 insertions(+), 163 deletions(-)
 create mode 100644 tests/testthat/data/decimal.parquet
 create mode 100644 tests/testthat/data/decimal2.parquet

diff --git a/src/RParquetReader.cpp b/src/RParquetReader.cpp
index e43a222..74fbc08 100644
--- a/src/RParquetReader.cpp
+++ b/src/RParquetReader.cpp
@@ -272,6 +272,7 @@ rtype::rtype(parquet::SchemaElement &sel) {
       type = tmptype = REALSXP;
       elsize = sizeof(double);
       type_conversion = INT32_DECIMAL;
+      psize = 4;
       scale = sel.scale;
       if (sel.__isset.logicalType) {
         scale = sel.logicalType.DECIMAL.scale;
@@ -1308,9 +1309,8 @@ void convert_column_to_r_ba_string_nodict_nomiss(postprocess *pp, uint32_t cl) {
 }
 
 void convert_column_to_r_ba_string_dict_nomiss(postprocess *pp, uint32_t cl) {
-  uint32_t lcl = cl;
-  SEXP x = VECTOR_ELT(pp->columns, lcl);
-  SET_VECTOR_ELT(pp->facdicts, lcl, Rf_allocVector(VECSXP, pp->metadata.num_row_groups));
+  SEXP x = VECTOR_ELT(pp->columns, cl);
+  SET_VECTOR_ELT(pp->facdicts, cl, Rf_allocVector(VECSXP, pp->metadata.num_row_groups));
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
     // first the non-dict parts, if any
     if (pp->byte_arrays[cl].size() > 0) {
@@ -1343,7 +1343,7 @@ void convert_column_to_r_ba_string_dict_nomiss(postprocess *pp, uint32_t cl) {
       );
       SET_STRING_ELT(tmp, i, xi);
     }
-    SET_VECTOR_ELT(VECTOR_ELT(pp->facdicts, lcl), rg, tmp);
+    SET_VECTOR_ELT(VECTOR_ELT(pp->facdicts, cl), rg, tmp);
 
     // fill in dicts
     int64_t rg_offset = pp->metadata.row_group_offsets[rg];
@@ -1366,23 +1366,23 @@ void convert_column_to_r_ba_string_dict_nomiss(postprocess *pp, uint32_t cl) {
 void convert_column_to_r_ba_string_miss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    uint32_t num_present = pp->present[cl][rg].num_present;
-    bool hasmiss = num_present != num_values;
-    if (hasmiss) {
-      // need to rewrite
-      int64_t beg = pp->metadata.row_group_offsets[rg];
-      int64_t endm1 = beg + num_values - 1;
-      int64_t pendm1 = beg + num_present -1;
-      uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-      while (beg <= endm1) {
-        if (*presm1) {
-          SET_STRING_ELT(x, endm1--, STRING_ELT(x, pendm1--));
-          presm1--;
-        } else {
-          SET_STRING_ELT(x, endm1--, NA_STRING);
-          presm1--;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    for (auto &cp : cps) {
+      if (cp.num_present != cp.num_values) {
+        // need to rewrite
+        int64_t beg = rg_offset + cp.offset;
+        int64_t endm1 = beg + cp.num_values - 1;
+        int64_t pendm1 = beg + cp.num_present -1;
+        uint8_t *presm1 = pp->present[cl][rg].map.data() + cp.offset + cp.num_values - 1;
+        while (beg <= endm1) {
+          if (*presm1) {
+            SET_STRING_ELT(x, endm1--, STRING_ELT(x, pendm1--));
+            presm1--;
+          } else {
+            SET_STRING_ELT(x, endm1--, NA_STRING);
+            presm1--;
+          }
         }
       }
     }
@@ -1455,23 +1455,23 @@ void convert_column_to_r_ba_decimal_nodict_nomiss(postprocess *pp, uint32_t cl)
 void convert_column_to_r_ba_decimal_miss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    uint32_t num_present = pp->present[cl][rg].num_present;
-    bool hasmiss = num_present != num_values;
-    if (hasmiss) {
-      // need to rewrite
-      double *beg = REAL(x) + pp->metadata.row_group_offsets[rg];
-      double *endm1 = beg + num_values - 1;
-      double *pendm1 = beg + num_present -1;
-      uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-      while (beg <= endm1) {
-        if (*presm1) {
-          *endm1-- = *pendm1--;
-          presm1--;
-        } else {
-          *endm1-- = NA_REAL;
-          presm1--;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    for (auto &cp : cps) {
+      if (cp.num_present != cp.num_values) {
+        // need to rewrite
+        double *beg = REAL(x) + rg_offset + cp.offset;
+        double *endm1 = beg + cp.num_values - 1;
+        double *pendm1 = beg + cp.num_present -1;
+        uint8_t *presm1 = pp->present[cl][rg].map.data() + cp.offset + cp.num_values - 1;
+        while (beg <= endm1) {
+          if (*presm1) {
+            *endm1-- = *pendm1--;
+            presm1--;
+          } else {
+            *endm1-- = NA_REAL;
+            presm1--;
+          }
         }
       }
     }
@@ -1615,23 +1615,23 @@ void convert_column_to_r_ba_raw_dict_nomiss(postprocess *pp, uint32_t cl) {
 void convert_column_to_r_ba_raw_miss(postprocess *pp, uint32_t cl) {
   SEXP x = VECTOR_ELT(pp->columns, cl);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    uint32_t num_values = pp->metadata.row_group_num_rows[rg];
-    if (num_values == 0) continue;
-    uint32_t num_present = pp->present[cl][rg].num_present;
-    bool hasmiss = num_present != num_values;
-    if (hasmiss) {
-      // need to rewrite
-      int64_t beg = pp->metadata.row_group_offsets[rg];
-      int64_t endm1 = beg + num_values - 1;
-      int64_t pendm1 = beg + num_present -1;
-      uint8_t *presm1 = pp->present[cl][rg].map.data() + num_values - 1;
-      while (beg <= endm1) {
-        if (*presm1) {
-          SET_VECTOR_ELT(x, endm1--, VECTOR_ELT(x, pendm1--));
-          presm1--;
-        } else {
-          SET_VECTOR_ELT(x, endm1--, R_NilValue);
-          presm1--;
+    int64_t rg_offset = pp->metadata.row_group_offsets[rg];
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    for (auto &cp : cps) {
+      if (cp.num_present != cp.num_values) {
+        // need to rewrite
+        int64_t beg = rg_offset + cp.offset;
+        int64_t endm1 = beg + cp.num_values - 1;
+        int64_t pendm1 = beg + cp.num_present -1;
+        uint8_t *presm1 = pp->present[cl][rg].map.data() + cp.offset + cp.num_values - 1;
+        while (beg <= endm1) {
+          if (*presm1) {
+            SET_VECTOR_ELT(x, endm1--, VECTOR_ELT(x, pendm1--));
+            presm1--;
+          } else {
+            SET_VECTOR_ELT(x, endm1--, R_NilValue);
+            presm1--;
+          }
         }
       }
     }
@@ -1883,37 +1883,32 @@ void convert_column_to_r_int32_decimal_dict_nomiss(postprocess *pp, uint32_t cl)
   int32_t scale = pp->metadata.r_types[cl].scale;
   double fct = std::pow(10.0, scale);
   for (auto rg = 0; rg < pp->metadata.num_row_groups; rg++) {
-    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
-    bool rg_dict_converted = false;
+    if (pp->dicts[cl].size() > 0){
+      uint32_t dict_len = pp->dicts[cl][rg].dict_len;
+      if (dict_len > 0) {
+        double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
+        double *dend = dbeg + dict_len - 1;
+        int32_t *fdend = ((int32_t*) dbeg) + dict_len - 1;
+        while (dbeg <= dend) {
+          *dend-- = static_cast<double>(*fdend--) / fct;
+        }
+      }
+    }
     int64_t rg_offset = pp->metadata.row_group_offsets[rg];
-    for (uint32_t cpi = 0; cpi < cps.size(); cpi++) {
-      int64_t cp_offset = cps[cpi].offset;
-      uint32_t cp_num_values = cps[cpi].num_values;
-      bool hasdict = cps[cpi].dict;
-      double *beg = REAL(x) + rg_offset + cp_offset;
-      if (!hasdict) {
-        double *end = beg + cp_num_values - 1;
-        int32_t *fend = ((int32_t*) beg) + cp_num_values - 1;
+    std::vector<chunk_part> &cps = pp->chunk_parts[cl][rg];
+    for (auto cp = cps.rbegin(); cp != cps.rend(); ++cp) {
+      double *beg = REAL(x) + rg_offset + cp->offset;
+      if (!cp->dict) {
+        double *end = beg + cp->num_values - 1;
+        int32_t *fend = ((int32_t*) (REAL(x) + rg_offset)) + cp->offset + cp->num_values - 1;
         while (beg <= end) {
           *end-- = static_cast<double>(*fend--) / fct;
         }
       } else {
-        // Convert the dictionary first
-        uint32_t dict_len = pp->dicts[cl][rg].dict_len;
-        if (!rg_dict_converted && dict_len > 0) {
-          rg_dict_converted = true;
-          double *dbeg = (double*) pp->dicts[cl][rg].buffer.data();
-          double *dend = dbeg + dict_len - 1;
-          int32_t *fdend = ((int32_t*) dbeg) + dict_len - 1;
-          while (dbeg <= dend) {
-            *dend-- = static_cast<double>(*fdend--) / fct;
-          }
-        }
-
         // fill in the dict
-        double *end = beg + cp_num_values;
+        double *end = beg + cp->num_values;
         double *dict = (double*) pp->dicts[cl][rg].buffer.data();
-        uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp_offset;
+        uint32_t *didx = pp->dicts[cl][rg].indices.data() + cp->offset;
         while (beg < end) {
           *beg++ = dict[*didx++];
         }
diff --git a/tests/testthat/_snaps/read-parquet-5.md b/tests/testthat/_snaps/read-parquet-5.md
index 00de204..c6e84dd 100644
--- a/tests/testthat/_snaps/read-parquet-5.md
+++ b/tests/testthat/_snaps/read-parquet-5.md
@@ -153,28 +153,76 @@
       as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
     Output
                page_type num_values       encoding
-      1  DICTIONARY_PAGE       1024          PLAIN
+      1  DICTIONARY_PAGE       1009          PLAIN
       2        DATA_PAGE       1024 RLE_DICTIONARY
       3        DATA_PAGE       1024          PLAIN
       4        DATA_PAGE        352          PLAIN
-      5  DICTIONARY_PAGE       1024          PLAIN
+      5  DICTIONARY_PAGE       1018          PLAIN
       6        DATA_PAGE       1024 RLE_DICTIONARY
       7        DATA_PAGE       1024          PLAIN
       8        DATA_PAGE        352          PLAIN
-      9  DICTIONARY_PAGE       1024          PLAIN
+      9  DICTIONARY_PAGE       1014          PLAIN
       10       DATA_PAGE       1024 RLE_DICTIONARY
       11       DATA_PAGE       1024          PLAIN
       12       DATA_PAGE        352          PLAIN
-      13 DICTIONARY_PAGE       1024          PLAIN
+      13 DICTIONARY_PAGE       1013          PLAIN
       14       DATA_PAGE       1024 RLE_DICTIONARY
       15       DATA_PAGE       1024          PLAIN
       16       DATA_PAGE        352          PLAIN
-      17 DICTIONARY_PAGE       1024          PLAIN
+      17 DICTIONARY_PAGE       1018          PLAIN
       18       DATA_PAGE       1024 RLE_DICTIONARY
       19       DATA_PAGE       1024          PLAIN
       20       DATA_PAGE        352          PLAIN
-      21 DICTIONARY_PAGE       1024          PLAIN
+      21 DICTIONARY_PAGE       1016          PLAIN
       22       DATA_PAGE       1024 RLE_DICTIONARY
       23       DATA_PAGE       1024          PLAIN
       24       DATA_PAGE        352          PLAIN
 
+# mixing RLE_DICTIONARY and PLAIN, DECIMAL
+
+    Code
+      as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
+    Output
+                        type repetition_type
+      1                 <NA>        REQUIRED
+      2 FIXED_LEN_BYTE_ARRAY        REQUIRED
+      3 FIXED_LEN_BYTE_ARRAY        OPTIONAL
+    Code
+      as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
+    Output
+              page_type num_values       encoding
+      1 DICTIONARY_PAGE        400          PLAIN
+      2       DATA_PAGE       1024 RLE_DICTIONARY
+      3       DATA_PAGE        176          PLAIN
+      4 DICTIONARY_PAGE        400          PLAIN
+      5       DATA_PAGE       1024 RLE_DICTIONARY
+      6       DATA_PAGE        176          PLAIN
+
+---
+
+    Code
+      as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
+    Output
+         type repetition_type
+      1  <NA>        REQUIRED
+      2 INT32        REQUIRED
+      3 INT32        OPTIONAL
+      4 INT64        REQUIRED
+      5 INT64        OPTIONAL
+    Code
+      as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
+    Output
+               page_type num_values       encoding
+      1  DICTIONARY_PAGE        400          PLAIN
+      2        DATA_PAGE       1024 RLE_DICTIONARY
+      3        DATA_PAGE        176          PLAIN
+      4  DICTIONARY_PAGE        400          PLAIN
+      5        DATA_PAGE       1024 RLE_DICTIONARY
+      6        DATA_PAGE        176          PLAIN
+      7  DICTIONARY_PAGE        400          PLAIN
+      8        DATA_PAGE       1024 RLE_DICTIONARY
+      9        DATA_PAGE        176          PLAIN
+      10 DICTIONARY_PAGE        400          PLAIN
+      11       DATA_PAGE       1024 RLE_DICTIONARY
+      12       DATA_PAGE        176          PLAIN
+
diff --git a/tests/testthat/data/create-data.py b/tests/testthat/data/create-data.py
index dfb3322..9fa4fe5 100644
--- a/tests/testthat/data/create-data.py
+++ b/tests/testthat/data/create-data.py
@@ -1,75 +1,142 @@
-import pyarrow as pa
-import pyarrow.parquet as pq
-schema = pa.schema(fields=[
-    pa.field(name = "f", type = pa.float32(), nullable = False),
-])
-data = [
-  list(range(400)) * 10,
-]
-table = pa.table(data = data, schema = schema)
-pq.write_table(
-  table,
-  'tests/testthat/data/float.parquet',
-  row_group_size = 1500,
-  data_page_size = 400,
-  use_dictionary = False
-)
 
-import pyarrow as pa
-import pyarrow.parquet as pq
-from datetime import datetime
-schema = pa.schema(fields=[
-    pa.field(name = 'x', type = pa.int32(), nullable = False),
-    pa.field(name = 'y', type = pa.int64(), nullable = False),
-    pa.field(name = "s", type = pa.utf8(), nullable = False),
-    pa.field(name = 'f', type = pa.float32(), nullable = False),
-    pa.field(name = 'd', type = pa.float64(), nullable = False),
-    pa.field(name = "i96", type = pa.timestamp('ms', tz='UTC'), nullable = False),
-])
-data = [
-  list(range(400)) * 6,
-  list(range(400)) * 6,
-  [ str(x) for x in range(400) ] * 6,
-  list(range(400)) * 6,
-  list(range(400)) * 6,
-  [ pa.scalar(datetime(x, 1, 1), type=pa.timestamp('ms', tz='UTC'))
-    for x in range(1800, 2200) ] * 6,
-]
-table = pa.table(data = data, schema = schema)
-pq.write_table(
-  table,
-  'tests/testthat/data/mixed.parquet',
-  use_deprecated_int96_timestamps = True,
-  data_page_size = 400,
-  dictionary_pagesize_limit = 400
-)
+def do_float():
+  import pyarrow as pa
+  import pyarrow.parquet as pq
+  schema = pa.schema(fields=[
+      pa.field(name = "f", type = pa.float32(), nullable = False),
+  ])
+  data = [
+    list(range(400)) * 10,
+  ]
+  table = pa.table(data = data, schema = schema)
+  pq.write_table(
+    table,
+    'tests/testthat/data/float.parquet',
+    row_group_size = 1500,
+    data_page_size = 400,
+    use_dictionary = False
+  )
 
-pq.write_table(
-  table,
-  'tests/testthat/data/mixed2.parquet',
-  use_deprecated_int96_timestamps = True,
-  data_page_size = 400
-)
+def do_mixed():
+  import pyarrow as pa
+  import pyarrow.parquet as pq
+  from datetime import datetime
+  schema = pa.schema(fields=[
+      pa.field(name = 'x', type = pa.int32(), nullable = False),
+      pa.field(name = 'y', type = pa.int64(), nullable = False),
+      pa.field(name = "s", type = pa.utf8(), nullable = False),
+      pa.field(name = 'f', type = pa.float32(), nullable = False),
+      pa.field(name = 'd', type = pa.float64(), nullable = False),
+      pa.field(name = "i96", type = pa.timestamp('ms', tz='UTC'), nullable = False),
+  ])
+  data = [
+    list(range(400)) * 6,
+    list(range(400)) * 6,
+    [ str(x) for x in range(400) ] * 6,
+    list(range(400)) * 6,
+    list(range(400)) * 6,
+    [ pa.scalar(datetime(x, 1, 1), type=pa.timestamp('ms', tz='UTC'))
+      for x in range(1800, 2200) ] * 6,
+  ]
+  table = pa.table(data = data, schema = schema)
+  pq.write_table(
+    table,
+    'tests/testthat/data/mixed.parquet',
+    use_deprecated_int96_timestamps = True,
+    data_page_size = 400,
+    dictionary_pagesize_limit = 400
+  )
+
+  pq.write_table(
+    table,
+    'tests/testthat/data/mixed2.parquet',
+    use_deprecated_int96_timestamps = True,
+    data_page_size = 400
+  )
 
-import pyarrow as pa
-import pyarrow.parquet as pq
-from datetime import datetime
-table = pa.table({
-  'x': pa.array(range(2400), type=pa.int32()),
-  'y': pa.array(range(2400), type=pa.int64()),
-  's': pa.array([ str(x) for x in range(2400) ], type=pa.utf8()),
-  'f': pa.array(range(2400), type=pa.float32()),
-  'd': pa.array(range(2400), type=pa.float64()),
-  'i96': pa.array(
+  import pyarrow as pa
+  import pyarrow.parquet as pq
+  from datetime import datetime
+  import random
+  schema = pa.schema(fields=[
+      pa.field(name = 'x', type = pa.int32()),
+      pa.field(name = 'y', type = pa.int64()),
+      pa.field(name = "s", type = pa.utf8()),
+      pa.field(name = 'f', type = pa.float32()),
+      pa.field(name = 'd', type = pa.float64()),
+      pa.field(name = "i96", type = pa.timestamp('ms', tz='UTC')),
+  ])
+  data = [
+    list(range(2400)),
+    list(range(2400)),
+    [ str(x) for x in range(2400) ],
+    list(range(2400)),
+    list(range(2400)),
     [ pa.scalar(datetime(x, 1, 1), type=pa.timestamp('ms', tz='UTC'))
-      for x in range(1, 2401) ],
-    type = pa.timestamp('ms', tz='UTC')
-  ),
-})
-pq.write_table(
-  table,
-  'tests/testthat/data/mixed-miss.parquet',
-  use_deprecated_int96_timestamps = True,
-  data_page_size = 400,
-  dictionary_pagesize_limit = 400
-)
+        for x in range(1, 2401) ],
+  ]
+
+  for col in range(len(data)):
+    for i in range(20):
+      data[col][random.randint(0, 2400-1)] = None
+
+  table = pa.table(data = data, schema = schema)
+  pq.write_table(
+    table,
+    'tests/testthat/data/mixed-miss.parquet',
+    use_deprecated_int96_timestamps = True,
+    data_page_size = 400,
+    dictionary_pagesize_limit = 400
+  )
+
+def do_decimal():
+  import pyarrow as pa
+  import pyarrow.parquet as pq
+  import random
+  random.seed(10)
+  fields = [
+      pa.field(name = 'dba', type = pa.decimal128(7), nullable = False),
+      pa.field(name = 'dbam', type = pa.decimal128(7)),
+  ]
+  schema = pa.schema(fields = fields)
+  data = [
+    list(range(400)) * 3,
+    list(range(400)) * 3,
+  ]
+  for i in range(10):
+    data[1][random.randint(0, 1200-1)] = None
+
+  table = pa.table(data = data, schema = schema)
+  pq.write_table(
+    table,
+    'tests/testthat/data/decimal.parquet',
+    data_page_size = 400,
+    dictionary_pagesize_limit = 400
+  )
+
+  fields2 = fields + [
+      pa.field(name = 'di64', type = pa.decimal128(11), nullable = False),
+      pa.field(name = 'di64m', type = pa.decimal128(11)),
+  ]
+  schema2 = pa.schema(fields = fields2)
+  data2 = data + data
+  table2 = pa.table(data = data2, schema = schema2)
+  pq.write_table(
+    table2,
+    'tests/testthat/data/decimal2.parquet',
+    store_decimal_as_integer = True,
+    data_page_size = 400,
+    dictionary_pagesize_limit = 400
+  )
+
+if __name__ == "__main__":
+  import sys
+  if len(sys.argv) == 1:
+    do_float()
+    do_mixed()
+  elif sys.argv[1] == 'float':
+    do_float()
+  elif sys.argv[1] == 'mixed':
+    do_mixed()
+  elif sys.argv[1] == 'decimal':
+    do_decimal()
diff --git a/tests/testthat/data/decimal.parquet b/tests/testthat/data/decimal.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..146bf267970c834329d0c0acfa7d2c276293adfe
GIT binary patch
literal 7141
zcmeI%cT^PD9>DS4Wq}3JAhNhiQHml}0W}geiMt?8jED_v5l|_LQj9f;E1)7`L+ly_
zQ4vr9QHd!kq7*wCdjV_+7C<a9iFx0}mlNYVdFSQ4_s7dQ%;9tI%)K)|hT-nq-_H0c
z{GFv@sY)(Qko!uvXh{VI0>NQDfj~#t<f<hU2m~T%KnzW2K^qe2Ko_mRF@n};gZH41
zwjiFM9Sk9b5!yorIgDWfQ<$LxI>H<lu!I#lp);(}1vapS9qi!%M|4FuIKde%=#C!f
ziTBY9uJ{1G(Fc9;AwI&#=m!OqaDzMg!vmi1f;W6H0KOQAPcR667z}?5!B7mtaEw3z
z0x=S!FdAbp7N24qf)I=ljK>5_L@2@#jtES`WJF>LrXmW_h(Ro-;WJFf49vtV%*Gsi
zjxX>f=0b&eh(kOQFdqxB5Q$iXBrHZUmS8ECVL4VH1uKz?RalKRSc`R7j}6#}P526%
zu?1;J$5v!u8@6KyGO-g`$VLu!VK??57kS9XUKC&-_TvBw@ih+O8+?oJ@I4OUFpi)I
zM^TJpIF1sOq73CYfs;6e(>Q~(IEM<H#|8X=i@1c#xPq&=hU>V2o4AEaRG}KTaR+yC
z5BE`n2dG6I9^w%m;|c1~fJQt;6Q1EYUf?Bu#4G%SpYaP`<5z(|NF}5Yil6~8G@%7;
zNT35<w1OU5qYd7JKH9<n?O+HgjL;r3$YBf<n8FMl&=KaafF-QZ37uh$F0g?u>|hTE
zIHD`M!3oZAL3i{(PrQ#_aK#7cjXvm$5AhK`Mn5Q^gd5z^A0F_87rfzv0r15@e1bvn
z!(jMh2!>)9hGPT*5Qvc&h0z#;vG^3@5QJcaU_2&ZB0>>{a717dCL<D4FcndVMhs#x
z4WD5;W?&{}VK(OAb9{j>F&8S#Lmc9ffcaQ}g-FCABw;a<u>?!8Oe&Bj8b}{&J4jXf
zQhlkGRLfK*R(GgN^&DXH))oy3I!(nwow)*$MAmPMYMzF~z$W1EmU;2o`j%d6`=!Or
zZzXdHyL>n;e&KuO%0!tWJz-Hh8~@CJBkA)Ow|5FIU8~r-V2O!qOwHvZTNf_t*e^~Z
zS7s!xu<}Z=2`tK3w6cp|y4O18wxm_|0r_E9inc9Y(`{T)qTFqJ^1AL}6`6rYw=dby
zE2_G5o!gG3oBGUbthsV@$Fj{It3*1+?wQNe+!76JM;2$U*y_35(tEx8&XjEf*1CjW
zE#A3u$Dl3BMaKQJQg;r?^xrx1Sk|iS5xK!->-%S~-ZiQ)=E2ot*=zQEdN@wU#3N^I
zUPx(*?Wp59>-L78P50j5v1|RlNtg4(uN~jD;lR|&qD3a2yElFvTT`)fRLSm5-^{45
zF5BR_=d17Lyli}Mtz^&ULvsZhx~5*aTaLs_+S!dR%}qPHP~XaDqgP(~vBk3P5!Xxe
zww5e2cS|z$&d(@YX)`2ibXoqk6KkA8$~SuN-F|9=Yi#ZHvb{UbZ0;AYYvxmsd2XxM
zO1m-T1v}60@Z0LM$!A~I57_~GBW{%M%f7T{+|eYn0sC{V><v4gHRi<rUDpmo-7eoW
z;K1%1-^_ekd*j4`J+}_2G+K4=EzGStn%K^M?8(Bs+a-e6MZ(iXLcO_M)z?Rb@BF-?
zrASy&B$Q~LP5)?t2E#<vN}ANlL0Tzd{heV_`G;Xr$uK#r*>p%mtzNG}HE!b$?&2Qq
zqXrL9i#j~SBRs|v)T057c#0-G!*jgAOZ<pe_z6Gb7re%=3}dR6dn4CCiI#igU%fZ}
zU!~g}8O!FdfF-QZ37uh$F0g?u>|hTEIHD_<YX4`cHbbc;&E^^~&9<c3T!Rvnq73CY
zfs;6e(>Q~(IEM<H#|8X=i@1c#xPq&=hU>V2o4AEav`i%}X?8GESqR2s0{#|hHe<H~
zl;lpO2GX+zf0l0Rzmslf=qy*?-}?$RUb~`DlOk0_aa~L?8%h`oh2o~!;+C}hZ=RMr
zs{|q~eVcKWf;h3RkyBV@r7%HaVC|O~C3MqjZQ?pD>S2{eqQ0faa+{!Pagw3k@Z7Mf
zYRzPs%fz#pLASM*n)aSvUsH8kdwGc>LC?a!xU_92?^K7NisG_%HiI*K)BKN>OC16W
zCRbG)JJH@Ls5seT$nlf%9&^Jl<OH2Re#*o(`p(I;Atk5H`p#;4SarVSOvirn#H}rd
zmY%h6Uu5VQe4+H5mDh?+1Jj3=Rdn`U*CVp}LfQE)erfJYEQi$^W)006o)>YqR+<x#
zKk;1FggT?$qYqARsJ&a)K6hNvg0}V(AIkE_m#=o7bnl_OAgp5h;OvQyjQ3Bzx<9(^
z-XoL3sOsY@>_Z=$9-LNtF>liS$7bKoY`k|aJM>A1?>~R_yrJ&?la7Z~B5ebQuzK^N
z1l{&7lWXcNiW3dG_~(Q*SRPL{?iKT}ropOoxus`{LwIAS@>IJK`I8?sc0Re*CA1<Z
z{HgWnjlE|yK78=B%h@f;g$9lhO*R!7K5JYeYnyB@Wcu&$-xcx9?qbf!12K<kpV?o|
z4K7J>ob=q`YC*)M{K&fJj@Jug?pN%Z^rGv{Z)d+~d{p<MTjk+6?RH%!zjUfDPHNwM
zik`VjB^2w*Tvg`t;xzS)U1tg`;u3TW?E(r_7V!&OoA!2nUN3Z)w6*d|b&3}C*Ol4_
z6ht+MJoMz<!!G1TYk0OX>oc>dzCok(wz+bFzHRUwNlGW5)jgsc#Xg3%Lo$cv#b^#N
zavW7St)WrVSLPg2n(7>@HPE={q{{`-PqjWV{UEmHLSC%)pbj6-dD+zPRNK#75igOt
zOp^?@?7vvnGp0$BlHr|d7kDticIEbg8+*@sCALe=9Gu~^uJ?SqRawJwMt(h8(|&bM
zU_r!{gY)e#bshWN=f8-Id@nl%A4@iKTkU%#f8yz{6pO7RjrT=pT-+UWVtb^?fhp?8
z2(6?kfBOAU{MLP~k{epFX46rTgp~}DQ1kUIQ}q`$b$iPM-!j4fw-fwdeTJqYiI|5t
z#3KPD_W$AYGqJpHPk~G;HY999WRO%WkhYOZqym}7_~4+<x_m6!IE+@8jP2$gkxWca
z<U3tPl?HNCxr4R9RN6+~Q=p|UZw??8(P32E%jl+~^=`Sf<ljA-llSHAkU%Qp)y;2}
zK3nSVhQ9}G{@rh)=DQk|x>_fDTHka0V_3ttKB~O<`LnP_8>2WmYl+eJiH7WED$`T=
z`wtq?`^|-rsYKn>ORrD`%V2fEGC-l2p-_e@JQRvhg<Er%La9_J2C6&V6bf&3&Gv6K
zTk2KiFm*czHFr|e7^qOrcynC;-{UKlGu1oM$wHjp7Isl6Mtb^$1vj6GyQlipIR348
zto~~}#XsYPsE>aup1XQm9k01PRDC{!)qfXD^RDU@g+OK=6%-Tw*@S71AyH9|K`}8?
iXP8f)5EC0db&9#OYggy4PI3p+H?Pw?_(%Eig6|*MVZnv~

literal 0
HcmV?d00001

diff --git a/tests/testthat/data/decimal2.parquet b/tests/testthat/data/decimal2.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..12b024aed2f33b93b205d3c3ec2cdcb3b6742a05
GIT binary patch
literal 14188
zcmeI(2UHZ-{=o5FSgNRqEG|VwRHQ0kL#zu(R{<L!7C`AJO~I0gfQr}=yT*o!hzf`$
zrl^PlYAk5%M!<$xB1qJj#Jul7{Kw><<h}gg|DBVZ$31>#XYQT3bKP_2?r-J}o^o$%
zsYIHjD^1t+kZx9%inK(cV;c1Xl|>{m6rczRlpqwSKox3GM>A-kIa;74G|>vwCu$9C
zNTGu^kU<xE(1!uqq8-}95FKEIj_8EWFh&=cz!YXMhXpLr72RM3YuKPWdY~tIp*L*N
z2X^R-e&~+@7>GfT!yXQB#9%nV87^>z8{FZ6AsC8b@Prq<F&rZ>5~DC0KJbMf#=swA
zF%IJ~0Rad^5GG<0f)RpHgdrReh(r`7V+x`XgIL5N9#b(52}s0r%)m^{!Uy;evyp^3
zNJa`$F&FbNA8A;CbS%UoEXEQn#WE~M238;wE3pczu?B0g4(qW28}Sh~VKcU1E4CpE
z+pz;Xk&Ru*!EWSY5B6do@{o@L>_;IE;2;j+Fh0f+e1cE$89v8R9K&%G;RK3t5~omt
zQk3B|&fqM*z&V`91zbcqF5xo1#1&k{HC)FH+{7*1##gw53RI#BcX1E*@c<7|jYp`#
zV?4oAJj2&`j#|{=1?uq)Ug8yA<6FGJclaJZ;4OZHaPf<w07Xck1ZAi|6>3mNGiabW
zTA(E~(F$5<4Q)uFgEo*s7kbc#0otM++QSeXV1$n7gw8NV7nr~lW-x~ZEYTI+U<GT~
zpgVe?CwiebY|#gH=!<^nj{z8nL6E~94sgU^IKde%aD^M(;ejC-ied1C7rZeXBQO%9
zFd9Dag&)SiA7e2N<1qmN2t*JjViJN8f>4AZ91(~_6eeQ|q7j2w#33G2F%1bw#B|KS
zOw7Uu_z<&^ggHn?3Q{o_^DrN2Sb%ga#3C%l5-f#OBu&$jK2x!fCTU7FrOHxe1DQl9
zkV%Bzr6V$VZ;OmnwfbVQ+H8@6s%+5aq&bSJS|&cnHqS{>(KK>dGiXcl+-5SH&}+xG
zq|9$=XrCsNZ%tj$+Qd8C=lIsS3)@%)madU+o3~isHn#fO@on>$wjY$Ns%xK>w!EWD
zhKX-c)`AsXJh!^6wcnn;(%h#Y^m@_ug{!+wC`!|H*s*AB_t5fe-xE6)ukRgQRl3$;
z=aP+m6YHw4pV+x{)4(JJH9g1dWm_E5v`qbqvzKpkUS{OF&T&`9cK0<lVK<6*t=Kti
zv;6|S!8w_`hG%>4@;jNca`))Gz_N9Ncdyzr=5Xwz8z*<K-Z%bOvYNhA?wb6d(hSov
zr*hZs54o__b-mM`bq6A@6@=Y9wP*dIDHTNv^qu!^_&Bb*eAk$gy&FGCcwSYu-g)0g
zpUr$-_vmKHzD-AGixkxjT=F&_Pf=}c=3kn(<-~l=j&2)V^0%H`DC-`6t2BRG$x=gy
zbOYCdtg;m*!*l%03bvnFZ54ESgX{hsU#z!{tGQLSf9Ls4gHqJnx)o+$+~%^vZ0za6
zU6*!xZgbn{b|B}=-9G!nZ=XJ}`|7?4C(_%xAI!bJKlD=0*fR(B+&mP0_w+{hLwj$3
zlK7(L_L)Qb?i@{0Y}U@>a9-t!wASY1&K}OcTOxW}BtBOp)|kz=`u2qQSO4CSQzR}g
z600g**g9aIBHbjZnKZqbg|tF}_4m6;#V@*vuthqiRDV>Vf|W`%jg3uX<KJ>@{7XgL
z?YWW+(Eh)(DXV|0NDOkoCdSillp(G6Cxh7G!-2YR9xdczidV28fwhyECVffxii
z9N>t-aDp>j;0iam!vjMw6vN;NFL+}(MqngHVKjW;3qOp3KgMDl#$y5k5Qrd5#3TeG
z1fd8+I3f^<C``r_L?Z^Vh(kQ4Vj2>Vi0PPtnV5wS@F8X+33HH)6r^G<=3ze4umI^;
zh(%b8C0L4OSdI*=KqgjV6;@*n)?yvjV*@tgBW%KEY{6D+Ll(AU2X-PGyO4w3$i*J)
z#XjUA9|hQtLL9(B9KvCIj3f92pW-uoj-xn+<0!%j6yqdLp#-HU!)ctsS$u(WIFAds
zh;m%QWqgS%xQc7IjvKg%Teyv{a0eBrL>2Dh9`54-9-<nLP=m*Kf~R<fukjqUsKX1?
z;~TuhE4;?Hc!TfoJ$}Gj{0Nb_Dbj9=wEypsc00O|JqVvlwWJrcelOzI{8hxArM9dy
zhxHRHzO}_+B^H?qEN)3y%z!<##bQbQ3`tXD{x^@zt&>Cw%9<t<Dn!W=bsekFiVAV6
zs+O^5cC^?*xw*b=eDsq_#WYPLr)4GqRg!dVvr&1Wl~qcMWH!MUvIFiaFEOy2_Po0C
zuFA3!d8$SS@8Z%{om?|50?LcaTAO%fd2I1Md0J}WTNqhce)3EktAOG~9fqGetJ`CC
z*yY@SOQ*ijw~e`XcFXXRb8Y)guYXc`spNe7L31R{jYgDS=-{|O+cNNS>BWvN%R3F(
zI-;z+v&Y&VQB{}AE_LzT;<(soWQ}&th@4UR;rDB#xjqHK7jq^(*4gWSWLj;_{l{(c
zCKSzUWgh%QRxt7OD(i>`Pjm}I%XfI~4t}b4F!IL1n8y#E>K~4-I<?$9<e9;d_?j#E
z5f7iW{WP)e!NuJnU$^^w)|;2Lj~{;B{#cTNik3y_bHk!k^)@z<)z3Q=r)hQZ&JC?K
zI<-izckGku+K#2mjGQwp!s<Gm&NLfc5c#OC^Vu~vA?3MYFO1J^uuG_W^5{jE3!Cld
zYgvZZo0Mm{t+t7(sW-ix?Y+}`Pxv=xS91Lh#Xhb1#{61dU`d8$#7m1Ch2d8Vq8`7r
zymdJCVfmhjS6#pQbjGW?r;lHCt2mad(z<KpYpbf_^fuimYZxXai6!bX+a$v|$x0e}
zwuzz+$*F4EW<H0LI;6~NZeVBo^10YiwN*!#Osg1$!Rk_TpTg)`1t$&N?xC0SVicWQ
zwC$T%|GZYQ^sb@(JWbQUd#V|o+*b97sgt;An-0$&ksqt%u46goaC~i@l84MXs5H|$
zPI-u4&xmV<F)x&d8uW>)zMLPYGOS(ynXl_>U#NH*%2QOOHu0)nMuQj1ddAkPW@Nc$
zn)x0{HC?e|$OgOVZzN`!*<M+0YwhNmt;`vj>-X^tCG%CezJ=k}kIXf{+I8G#vwl#}
z@wjFccydu&hgBZe3xdymBwuJ8rFS4)@ygzSGdrU64^0-HBs7y|{O&EH<lVSd!DvP*
zR;oXtpvp>?f>`P89RqO%>rFrKO^?$4-A8GE_A%PO{RoZQL>p=5&l59Ax(&}*#m!Yk
z3Q&XuN>GLhRG|iSG=m13qXk+*6Rn_y*3gC&I%oqKbfE`*7@#fMp*;-I0Y>PEPUs9{
zbb$#>VFq(pz!F{24OXy*4Z5QTdZHJ4!xnvDhrZ~C{uqFP7z8=&;Q&Vrh7+9O0#~@f
z9Ud5hp%?~Fc)=UPF#;no3ZvlzU-)4R{4o~eFdh>SfItLcA|@diAqYhn!V!T;L}4<f
zAQ~}<MI7QW71NM_L`=sF%)~5wfDbVnNtlCVq#zY@F%R>Rh6PB+LM*~!EWuJN!*XO`
z1v0S`tFRhtuommE9viR`A7K+VV+*!o8?vw+JFpYk*o7SIMlSYXFZLl1`6$4C6yg95
z;t&qwV;sRJ_!OVva~#Dn97hpOpcp4{3MD8-8BXI2&f*K4!+Bi5MU>+bF5^pF!Bt$t
zb=<&B+`?^qg*&J~C8}^2_i!H%@DSB_gc>}?6FkK;e2wR*MIBzC9^c?4Ug0&q#T$Hw
z@9_iP;>YHywckp_VzpLHmp@;J0~|3JPH=_`T;T?Hcwh*IVi-K(1#b+;2#mxijD`<<
z;fFEs$5@QRcuYV50uh9Xn1o=2AQWK;M+71fg~^zLXv82EafruMOhW<^F&#576SMFE
zKE!M!VGfd!f>g}KJj_QL79br9u?UNstM(ISWrQS5zz9i*seU~>qx!B;CIn9niCLQ8
z$fc-hw&uTfwnj&~`4^%1dmW^rvDXNbd%uxOVNx?mg)nPesiq?Ny&+UmE$s0~*yBGm
zh)P6aH8qi#OG5#QkU$B_P=PAcppItHKy$P}OK74Mw9p#bkU|G-AcHRSpbrDIMLV>I
zAv(Ya9nlG$VT>*?fho*j4hvYKE4sl7*04c$^gvJaLT}ij5A4tv{m>r+Fc5<vhdmtN
zh{14zGhE;bH@L$CL(nvgHums$Bc<@_)L$h+|10&YratvA|1>v6=8P-naRC=mj!U?V
zFL4D|aShjT12=ICxA7J3paPYs!d=|MeLTQJRO1o;Lq96DkD4O$rk|8Q9htwo{QC*B
zI6@L;a)k6-vpMetRgF9G9+l?%q1L-xKAUED{+r&rYMR|?n%()^&hEUHO0)mzEv4lB
zajxR$f$n?t9>1LHX}Y~^y1gXK3qT-(FcFgwj1Yt(4B?1CB%<)^r*wbz3EltO(>aN*
ze@~H2IW8!4QdEGHXA26QMKZ;SfdQS>i3?g-_zO#}0rC}O67r*dT_E8A$;7Z;JsJvh
z8jjErj*xJKl2Fii$j>D@6<WFmx*o<N1F3>;Pm!{wZo?U+3KZzn^wzm&X<Vpltolc9
zaqITuhL}bP!OKq{nrsQL5&m3hLvtHzEwI%&XKTF1+4za&FRRslH>KNfo&RCAlAqez
z@Skn0HpgG5xU2E=*~UkL4P?I+GyUT6RKqER#lLi##;>mNJXQWWd;1s{?iCxq%@qIk
znY7;@wf^~;bh38|U$?QUPS!cGHcc{+X~@03hmE#t><Y3Z#co1M46&EX<z5hyyIh_i
zw-1p!$>kw(hmeLmdv+KitU1W#uEHnV?>^ZQ4t1~+@+S%l$A+o~3#&1n)StkLS5QNy
zvyk~er=lJq*V#LIXt;O0P~tO9*guXn2VbFSLY{r1u$21>3!$MurH1<boFi<8He@)s
z3;R0==VB)sPy2l3_6d#cX6J_U3#ETtpIc~P!=8@LLVX<nUVW_o@A}@gFGy&{d+l=+
zw*8#lLL2f!g!Xs|-z%wMS7Ajik{Lz^#KugW6mJ<69c>v98#^VzaN4BUxUeac4Xtgv
ZT6eY5^)P7od$z`<=$s<&sPcDq{{RXMrIG*u

literal 0
HcmV?d00001

diff --git a/tests/testthat/data/mixed-miss.parquet b/tests/testthat/data/mixed-miss.parquet
index 7d25585b975bb024b0476e21a75c608b59801128..2d1a51d49e079197fbbf1ec48c0e7303466e6c2f 100644
GIT binary patch
delta 7599
zcmc&(3v^RO8oqPy+%!!e2_-i~=t96!1GJc?d5Y3h3zoG?t5wV4d3b3Bw6L)53hQl=
zVl61NKW-6GI4nZTDJ(LJMVDnOA|MKum-2A2R#4=i2JC9(x&NdOLR+9K1#-?e^Upss
z|Nqb9-uq?d^X0UBIqjUD{BVLom4YOtI4Mo3(JMlfAZ+PY`+>fw>w%&(qu2<NLtu{>
z2ck5W6-yIE5H&H-TT{g@XgU*(APAx$u-|DX5_mbZnoZVuL|7f3$>fLv0!5Ko?EA<&
z2|a35PJqQ=e4JnhQ&%g!C<%g@@)G{m>89R|nRH<UkuLN=tRh6d@S_i<QW2%I#2m9h
z#L{TQD<rg*$k8ahLon%zC?M=`v7hQhzoZCCu}@hHqm<ivQgjo--3T<`<|Rw5))0YW
z4dr%ZO#CuipnOQ#@Xj8Yz1HobOy<LDJ)`f?Sn0^nKv!*`YeAU9fPx*n)N!vTh+I2O
zo&i-o$1!hgxX1=s{e<1qyAv@kRh6SSm9_O#S(PLR5rpXn{8@sUOf}@xDN0Ca2i75Z
zHDOx@E+#NGb)~lJLA^jaf2Buto(QMo>tI3Zv)ZojcS7w)oltv_u#`t85Ez=i3P$vc
zqE$xaGnm@1yBKbTynY>fVQi(kGz(^%Bn)pZpR7tAXd%%Xp2qx5(y>+}=ZZK{=c!(g
z4fzjet5Q|g!iT=@X-2D-&ldlgwGA`I3)M+W<1n+Jkp<j#3gR@k{}{rBc!m41^JUsa
zbjB|vB2XBW;bY4)!Xy})>V?yN{~%LAKK3I-4(R*01sM{gq;97~^PL|$B<I6VkA4gP
ziOT?cd@ihgB!<m;ppb~)9RU4+o~*df#}Y^xM*2-3Wd(G}=uWh7Pev!@Cnb}QVHS72
zk&uuJU;a`lvf&wFgiVQCK!9f2;OPBENY5N2suV`1u3=*yokI-UCn+a!aZc7R&QTY;
z@YtuMXOfT*dO7S^z8v}RbJm^MG7)Py99Kj>JT&BqJCX!9wrC9=)Yl_l@Icj&E^u~8
zjJi^=5Bg1@_5^t@c3yK`P+KuT?TJ0jXm$NffXba*bqLh%9?+{HlB+hnmZ4VbTZ}&u
zqiHA5#DsCV*D$8Go40E?x`Lnn&4*hy1`Vxm8_J#nGHe`-8Ic3ej2Mf!Po@s{u|<$P
zd>ZT>F&h`xiMDPT)RxYv(;YQfcauU28ovuexr8++-vp?^PRgDN3LrR`Hp|rI%s=w~
z7*X5Wn7Z6ihjndj-R5?EF3ot$LAr58nt(gGYIGV@kG>n>kg405e+)JE;|eykp>B87
zyZXjbJLPN8PD^-D*8sIqxJ5a>o`Ryeio6o*ZUEFqqxf2C76|p=p6SqB``gO_59_gi
zFmV03!h35#z5No8!Ef_kHU_$nvxI29&cw+5CX_Sb!SPSfDV?beEDzrfhsXOe_8FBU
z#yBO{pcoX5qKS4Ht&-R4H4__htW~<&UNUEZM>*NzyxW6V!5R85=Qtspf!N3iA*YC(
z6dvF#(@#~&zwOS8=W0JkriMgwi>mBN4mc6&okUrw-R5wcX@bq}K>IaG+hZ~Fb2lbL
z6=&&a^ZA9`OB{j|*^}JUM8X+8??*$m)QO4UiqHyfga_e8WulEOocKI}sHgj@G{F(E
zR0zT(vyjj(Frb}lLTyW<c4=eBU|K?LP1$ZbYPV;PLaI2ZGLW?5zty0E{O`13CnTEf
zft@yZ|Cu8AEN2No-as(S42R=+;hHL%==!J%zRD?r@l&?xsKYs^Dv-eBDM_kXaG>u7
zAalunGLSTCn&;Hvi8y|#L-XopWdoL5gH~`(s)yPr+@f4<isS|dpmn-zQRxQibY*7+
z`BX1Wg>$DBD-1UR)ai}z3jt)WMF-|4gf$g*T3Oz-Xre<NGAK8YK+&{JnYz5Vd5Wgp
zrn)Ct1O#>4vU5-{-(=uUb>r;Z1W>nYP-P28IR5MMPTijDQ7x=CGfLgKNUi$Os@NA_
z^9au+P>&6_lLvd;aH!3l;CA)kF1Sh1svcKDRC?&m@)zufdT>>unvZp-75Y9Gt)X6<
z$zq1&>4hQqaCjXrm7<)9YL`i?MR6o<Trc)*GqTOd4O&mMcAG7#pvx8OTdh#9WUbZK
z*U?z8cdqLiFnUSC;?Qg}#_h;2ZCRCVj>8%kCp4T6AyX=dQ>sjHN~Mf)fR2gCloFAT
zVP}U2+s!hi@ngxgoC@Vi?1vdsM4aGu`F`Rewb2g$+HVgeyobt@rczsNw6z_zJF}m>
zYGbvHQD4=_b=WYrFr2v4gM7m#<LOUXDoXenNlYv|4lm>lB?5ezr)Ul!DT$vCw!DXs
zr+6TDrruPVq^!a7$rJVGll!^}f=p_6vbSb-5ZQaP@aQ;|ZOcC*va*7u1RgAmfoX+V
zu)A;=B+Qx0%H|YE%sFqV2nUOHj6_m@D45jaF?gk#f~g?nnoQQ95^7fI9Gv18@*Opm
zNN0|c&|#Z7#Xs8vHJsRU{{0Ro;+siy?OFO*fZ~TWP<%Yh7ofVtLLz}IH1@!-g~hyW
zCIXLVrA=>gE+5#hoWpMrS(k-(NigK~Ev)<E1*AiDd5R#cP7y2!A7T{S^~QaaDa&Sv
z@apn9R`k{@V)A^GvMBhmz@hk+0f7MxFyUGMr4qU?2&;Wj4oBf`^tXt|vV*|mrO&bb
zrRfsuRlbfG@Swh?f6zfaJGuIzNG;i+J~*|u3k~%M7I=GYH0%BL$`HtWcewOoL>(mj
zbAsV`gjVn)>LRpMC<rKLFxz`t0x1=frMUscbgF&1mjDSHr_<0nL5uxnK<|G|R;|b9
z`7kQ{n={XckN0+?vgfizs=sc)N<4$F|K*y(t*vOWa=EVdb~ze_`Fwo-5KOWVoA@87
zrx0rh5e1zpP)nsijiV}wHin%j{^7FY{{yNr7o-om4>mM7Ik%+A^?V=NKADtd#f+c&
z<Ay+^e2WZ2Y$cH~shF?hOIu1hg%=QlyOqxO$su?Hki6#w*td0>RD_oq$$L(NZ>tU-
z_^>xj-LYGOAl;yCE1-7kqtdGZ-E`Qp>o3w@gX#zF;C;#==Hnh>yuZ;DOZjA|1j~25
zA-xgQHfi@RFn$^@Es3vV$$JQ)NBSrWVc_2G&c-R+w5(}#OZn)2RD4}9i@_oAy~?jM
ztP$bSfhqhG6zqKn4(;6n%k~vO-~FRCllaP0czy3S7<*s|$omVWWt03+^!WrP?vsec
zx^WpdikC3Ue0Zr=xrrz>gVPj${nNa3B;0;*Kb$|f9d;c0m6+L<!<$8zb7TX_f|M^0
zvL4kdMKTt4)V$4dzurb5?brp91`m9*4`RN}X2sw37fBY|{oO>#_lZ%d3f?v7afL3h
zOb_D#?nU_dDi!nf+D>#rDWV*2tc1X|**Y3{cGDaGo<DQ(JnqC<|0c@1^q~LeXms<)
z)ZRSf#&&UIe16^}p~5=S(Ril*q0(EdsQe?5B3a()cnR2lpCw~ipP$zfsQzUYn^zZ2
za1`ag0!uk_97h20=e=yg`THd@c0D7zNX2ZCtR^I@#6d|;Nf{+CRybwydr~q>L(JBi
zWaWo0L7zg5=9DF-17?BK2)u?9W)fNJtJt6+_lfU>lJTOPrKNjFMNSx*Kq{)kNj!<E
zDkrAX<s^1vQmi)G+;FoOxQVnj-t&=?gh-MQxnZ+tTDOM8=6+9N&y<(sM3PR#T2c^6
z?u|P1chPhNtKNHEiY-4ZM!T#fUqljD*DuicIW&IgBN|&+NYQ@NizwG*EwSmzUHVEi
zdj{JS{w&ANu8<*PZ%2x6VQa~JJxPgJyk9b%+f8C;|05(ex8y55i4I%zb%d$1XROv#
MyS_qeAcMvK0nT*hmH+?%

delta 5666
zcmc&24OEm>_PcN13?IbL!14_Uh)n8)${t~WnL*8lP)lQRG)+nT+eDAQi<wqx&4jDC
zkSKdMhhrLOwqb#y&%$=y<D_})=!O>NPyS?Ux$ALPaThI2W#9Yw8*yB0Pe<N4_sw_j
zyYK#f-`w|Z<z{+(GmUkmk4{pk;<76%?U{;8uSj8%<ce#!<tOn`5_JNsC0CvU2O9|s
z0IF~g=?@>_C9)dMuopGIA@DMu*FFNv&`(zfyV!AEchFvJZ1~ZS-SC?Okb}?ppNBVC
zM!-M<y>Ln3I2gbV2NnTrz;VG7U?<xaYzEufaHTvvL8#X&Iz<-~Nt-m16iI~*1}WYP
z<AkDsh5#*JmRx$4G^3v4$-O}t+nR3Q{QgQ)lOid_cBRy=3X@ueac8(NE>0EJhH)7M
zaSb|si?Ef-ehNu!MASenxLAG<qO%nnlu|>2;?Z)s&4x|(S7ph~vf42r>!F4fs$m{2
ze%d=1y0N~d5CR*RCH_AEQOwjg3PN2jQ2yW*YCCiEdqsmD^D=U^k!AJY0a$NKV5hPo
z2nG+8<=Cqs5=1qIVBF9?I5J(&ipN@k)sF51crNu@bUGF^vt5kfY*!=h$+plSyyQbf
zRt)Zu2s=J8(AZOoms`n^+_SdfE7YUCL(QG3yd&0flltQD7|9~uV(^&zpz?(Rd#~om
zV@!I6Prm|56J?{uzHpbr0aO<y$!y9f4Y2OR5(xHp?Bj6=pne_6$7ykbvK0eH8GCU%
zM83q}*0uXtU{LMwXhD*(N4otEQ?}{oQF(tE#Zj4CS=QJh&>x+r>}pTodscSwnZwX$
zn3UvyH<&rC1K^qQ{ePbw*nOCk!WZuWn3O#udYEM896kZ}WJhCdb|4<hj(6^s%)`47
zoL#A$>vndj_rrIG-5q}XI44U>laq3baZk=fJd%?sfE~%10Z@VVNpmrAqKs9OR^XmV
zFK{sGXsR`AS^!p0n(wr5pSlp7KbLZ9NnQTWpDs+iPMx?<E!MEOpw77d&-GvUP><!m
zPRIJGtF+Y0eZp_1j?q!8HSBZ<f1K&Gaf`bUoIkg6Y7>dOZ;wR6?vt6?tYM{L_se~s
zd^}-ysmG1E2Hch_{}k|-(uVJ*Y02MJU|DWtCp&{kbVR3Y!P95cT~Ra<Llb&p`E+}H
z$8(NFir1v2rA0y_uSvd&?cff@wj$l@V8eG)b7G1$k|rgZQ@DfzyREsPf+)S5h{gnk
zy*XzY;KTC<pnYCUC!pZdc?-1EY@V5iS$V(1$$2kvh{WT0Ww>U(tpkMO?B@@lV?jS0
zxgfy{qMWI7<D@PGXICocx}9C>y_Bl&7=E^9VKAU)(V!Lxa#}e{7lQLaE0?X7#IRk4
zR<#dYf2-n_U;c*pioT6!<$-|nK`FY29;cU=)MhcnMLZb4Tg{1Yedz2L)0d3G`o)jp
zl*Qp%nwGMq9KTtd$uU_+(<}yiR0}%HIWvy`8F$^}yr*`_9A)qEzgJb3c0Tn<=B4GG
za&=#a<pjQB5fw%hA93MMP-+dmy>7{BVM^w8jqgseiNa)13zJ97E-ihY;Mlx{5!9SK
z{D?Y9W}XBND#FXo7+!!<+X_%GUVM_pS$c~DA)l`$CvU08rLRpOvOjv}hr>C%{MtGL
zZ(yuwzm&P+BuNVmjqI)bPy$+3`CC8me<DMYp5!o`?OcAA@EiW>m2U%)u3=)KiAXna
zOyRTO!S@R%^VzTHMX<9aMMWCI`RVFS1nl^B$!9(~6_Up}MD0|#_(hktW87_D6<uzv
z=y=c_7cF+2Yf|^ShKN9UwIhtB12o)}@oyd=QaS6sel2jUdP4-a{F4nC6v`Rh<Rnmz
zuFXGk+Dq@05Gwi=7*x?s6<n_jRSg>|1bg)+MpP_@bL``ar!|nsLMuOLZc5}omf6<-
zv9n`UO@v4@v1EHJ%n~yT-~O&2+CQ8M1!$~!6;_Iwh5bne>|3)CURQ~$)VWy9DF0<X
z>UYs`@%5|i+yF`XVYR)b=Ws`>r}-Yv7uz}yB9K0)T!gQH>RSUU-bCJySb^8}8jY<I
zZkDylU1R4G3hXg0J%?xa6{F|y%TR*ppWVis{e97OU@4wEoDHZ_o;mPG6?;QquvVo#
zb+DbQR8Uy@Ungj={Ln_;&k|y6pVwmCr%6!8u?CE<3lZIiavWG^1PLeBMfevORQ<d|
zR8p6PwO_uDGmZ|zRVQX(<FP``##IuougmB_FCur57lpb!pzLt8r)&y_pZt=1{wiKL
zd5AbZ!mVH3<k@}y)LudcAHrE@{|wX6^z}(nJDA=4`aJ@9`0n4flav%T_WVI0i)vWR
zcL1Cx_QFwukK&aJbIA1^HvaGFoRzJ+I7buP@$h<&eDv|o2RHH)hu4u+WME2527s;j
z_b)Z%_F1gHwwNpFcfA_O#8>dd_f_PnZ7lzX9>ShYjYwwqW9A!|h_LQf8tD<r#@rgA
zfxHjOpcaU0dCe>W)tuKIO(BnHjP8{b3d!{+YeKZ}D<H)c?ra@I#}q%VG(>y-O9@+y
zE!n79uY(Li{^6)OEyGL_FioakK(|2pn5JgLLogf2^w~8#0wEE4HdKOPT@{#i*iAC;
zQ?@h!xh(PZH)HO(!SJyAkzml9PV6Iwom;{5)xW^BsS08uy*p5RlNbicJuw&_54%xK
z40}0m^?Hrz*eMcYk=)yZ!4fMpmU4}rgVa=7NV!s}^~>g8id!231A>H}%avd{c3o?#
zc4vk_BuMVu5Eznj`nblh^9wLF?DR9e^{uYYAl~hj6e8Mxl0wC#=NPx*^2H#7r?*Kq
N9Q?56ObCo5{{@osFIfNp

diff --git a/tests/testthat/test-read-parquet-5.R b/tests/testthat/test-read-parquet-5.R
index 1e58a88..6cb76ad 100644
--- a/tests/testthat/test-read-parquet-5.R
+++ b/tests/testthat/test-read-parquet-5.R
@@ -147,16 +147,45 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   expect_equal(tab$d, rep(0:399, 6))
   expect_equal(tab$i96, rep(as.POSIXct(as.Date(sprintf('%d-01-01', 1800:2199))), 6))
 
+  skip_on_cran()
   pf <- test_path("data/mixed-miss.parquet")
   expect_snapshot({
     as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
     as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
   })
-  tab <- read_parquet(pf)
-  expect_equal(tab$x, 0:2399)
-  expect_equal(tab$y, 0:2399)
-  expect_equal(tab$s, as.character(0:2399))
-  expect_equal(tab$f, 0:2399)
-  expect_equal(tab$d, 0:2399)
-  expect_equal(tab$i96, as.POSIXct(as.Date(sprintf('%d-01-01', 1:2400))))
+  d1 <- as.data.frame(read_parquet(pf))
+  d2 <- as.data.frame(arrow::read_parquet(pf))
+  expect_equal(d1[,1:5], d2[,1:5])
+  # arrow does not read INT86 into a time stamp, so compare manually
+  expect_equal(is.na(d1[,6]), is.na(d2[,6]))
+  bs6 <- as.POSIXct(as.Date(sprintf('%d-01-01', 1:2400)))
+  bs6[is.na(d1[,6])] <- NA
+  expect_equal(d1[,6], bs6)
 })
+
+test_that("mixing RLE_DICTIONARY and PLAIN, DECIMAL", {
+  skip_on_cran()
+  pf <- test_path("data/decimal.parquet")
+  expect_snapshot({
+    as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
+    as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
+  })
+  t1 <- read_parquet(pf)
+  t2 <- arrow::read_parquet(pf)
+  expect_equal(
+    as.data.frame(t1),
+    as.data.frame(t2)
+  )
+
+  pf <- test_path("data/decimal2.parquet")
+  expect_snapshot({
+    as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
+    as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
+  })
+  t1 <- as.data.frame(read_parquet(pf))
+  t2 <- as.data.frame(arrow::read_parquet(pf))
+  expect_equal(t1[,1], t2[,1])
+  expect_equal(t1[,2], t2[,2])
+  expect_equal(t1[,3], t2[,3])
+  expect_equal(t1[,4], t2[,4])
+})
\ No newline at end of file

From cfe713f480df12a7e54a83e13f91ba1bf49f50e4 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Sat, 8 Feb 2025 19:56:15 +0100
Subject: [PATCH 16/18] More mixed dict + non-dict column chunks tests

---
 tests/testthat/_snaps/read-parquet-5.md |  40 +++++++++++
 tests/testthat/data/binary.parquet      | Bin 0 -> 7031 bytes
 tests/testthat/data/create-data.py      |  90 ++++++++++++++++++++++++
 tests/testthat/data/float16.parquet     | Bin 0 -> 4140 bytes
 tests/testthat/test-read-parquet-5.R    |  35 ++++++++-
 5 files changed, 164 insertions(+), 1 deletion(-)
 create mode 100644 tests/testthat/data/binary.parquet
 create mode 100644 tests/testthat/data/float16.parquet

diff --git a/tests/testthat/_snaps/read-parquet-5.md b/tests/testthat/_snaps/read-parquet-5.md
index c6e84dd..5a2a196 100644
--- a/tests/testthat/_snaps/read-parquet-5.md
+++ b/tests/testthat/_snaps/read-parquet-5.md
@@ -226,3 +226,43 @@
       11       DATA_PAGE       1024 RLE_DICTIONARY
       12       DATA_PAGE        176          PLAIN
 
+# mixing RLE_DICTIONARY and PLAIN, BYTE_ARRAY
+
+    Code
+      as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
+    Output
+              type repetition_type
+      1       <NA>        REQUIRED
+      2 BYTE_ARRAY        REQUIRED
+      3 BYTE_ARRAY        OPTIONAL
+    Code
+      as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
+    Output
+              page_type num_values       encoding
+      1 DICTIONARY_PAGE        400          PLAIN
+      2       DATA_PAGE       1024 RLE_DICTIONARY
+      3       DATA_PAGE        176          PLAIN
+      4 DICTIONARY_PAGE        400          PLAIN
+      5       DATA_PAGE       1024 RLE_DICTIONARY
+      6       DATA_PAGE        176          PLAIN
+
+# mixing RLE_DICTIONARY and PLAIN, FLOAT16
+
+    Code
+      as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
+    Output
+                        type repetition_type
+      1                 <NA>        REQUIRED
+      2 FIXED_LEN_BYTE_ARRAY        REQUIRED
+      3 FIXED_LEN_BYTE_ARRAY        OPTIONAL
+    Code
+      as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
+    Output
+              page_type num_values       encoding
+      1 DICTIONARY_PAGE        400          PLAIN
+      2       DATA_PAGE       1024 RLE_DICTIONARY
+      3       DATA_PAGE        176          PLAIN
+      4 DICTIONARY_PAGE        401          PLAIN
+      5       DATA_PAGE       1024 RLE_DICTIONARY
+      6       DATA_PAGE        176          PLAIN
+
diff --git a/tests/testthat/data/binary.parquet b/tests/testthat/data/binary.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..400aaa38c8f965ae18d07ae39759403ee537da10
GIT binary patch
literal 7031
zcmeI13se(V8pmhyB0=27z+eJF0Tp>_9uN|0cb)J?SOK+y+OB~`0*FFjh1#AY0wO9Z
zBBBUZUP5>Zh(fJxm1jU}5n0987O+(Ww7jYw&#q^`0d28$*XdbL?e20<es|{1{pXv>
z<evNe?~FI@E5vA6q9vBj^Tcu(7{Wo2c#MrA2qHk~h!79~V!#%#10;YwAVuk183lww
z0iA&e0TCbuYymq!0@wpmI)lClddVRM9T{vvM+Q64kwF4FGT4KT3{udMK?b^4z?8|T
z&U{3`(n5rQ2oM9dfE^$K>;WlDi{%0ea)>}j1~KT!U<*1j*ny4=63~&s9&}`of{qL_
z(7gipGl*!4H+2taBAN5g{{S)kA+HIVSQxbDbp`u>i9-|1j>Qr`cCJ_^r9xT|%VZdW
zC3CO`TGm(`8)IV(jKP;6<`kKXiwZ!I$Qo-zSz8bale;)4ZY!0^G50&0vo%4BZR&Pt
zac=y!X<U)A>uheq_P31X$y_`yafhzCuiEci-nLyc1p%5vcz)7uL#e8->s<c!y|Wj`
zGkNlY<b8A8(#-wq3wG?E@15tCDL=OJfR$gh@>>0|T?ZGgtxx7T7N%s1l^tsThQi%h
z_7T0BOvj=<N8XMd>ATiYwD;&A;wUTwCv|GBV=~8LRik=ezH6$f`(dZzv|~#Si9)V7
z7Vj@wnj_y~;9QbkyiDy|ysD|>K<UcLfY!s#r5WX`>s0ryH<cbd{-?9?EJK&FLsfyA
zG>g^EWtk^}+w<JBT*?oh4C|^6xzSvnRlBjfeutrJMfN9AeI3QCTPlux8Z*?}n&o=@
z<Ig^PJaX?w%kiUMY(c2ne7DM+a|ujc%Qc$H+=lJ!IUd<=Re4RjxZ=>8nyUPky~d6^
z`R>&Pt^3WFm8@y4K6d_~Ah0dl{Y2rHS<<Nfo2@5`zB;-%LEFfqMtv#YZNKGvZ8gQ0
zi@ftaj(D6b`D>})iO^eZCrhs$U)!+LXvwLvYbTVKOWr$ws{BT6#O<~tOKK}_eHuI3
zf9rhh@vpy#qfVRUSy$Q9kgRL<{)M`#+bzh`dh}vFs<Q>|>eB}FC!Z&9q#o_4N162Y
zyx%8LVN~SkVtLc7v2F_NKN}TP7%yC^NMs8Gqn*ViMi4Z9p5Y)@YSF|$Nrf<Fzbr+O
zNk@c+OgbVoWYQ6#A(M^>4ViRAXkL+yCi>|va9e&+1(E*)v+(-n+yAvG5~f0T!HW~&
zxW~@;4S8${c<g_VEnW31`D+RI?g{K+`*Kt-cy2Pjn$Wz$R}=l?-kLq-tzSC1y@82r
z%2&TBUrn5M%3J>ylhF^}nz%SA7$xGdi&#L^5(!u+4F_xIOg7o<A5C@vD|H^|7NOLq
zQlO3wRXPQ#n>46419CtQMQLN3X;WtWzub%q;}8miZN9b}iKl7n3zXg6Xd;ti=B<uE
z9U0RNrO^?CJ=A2jsY|N4qL;Q)&+^?$Wlt|Xg)3Uuu2$S;?BP3X8tUu0t(Dq>C+e8^
zHfm<fbx*febTqc=n)?)Z=K40ZVb=aN>w7wy&d(Gm8dFS`HDBP_ZVBluQ(SKT(oh=t
z&4t`$Ef<XzeK0oIbGhZK*^9T*rkgI;w3|5X(6b5X)Lfe5wr{Ri-tyLtd7hcJ;k})$
zm*;!uI_)-H(XUssyyV@g&~N*(GQa9|mr8;L^efh!-Zb3*?ZC{+we?9etkw;3tN+}V
zAq=}S$g5Fy6#A5|yKiu6{q<9k19$El)<yI-@3RViz&{<`f2Aty?gOJUu_Jdbl?Hz|
z>+_GEJRBal``zrbaTG0%wQ|U~K2dw7Xno(1Nn<i+zHgaw*t9vtz+N@jH#|p^YU-M1
z9WpYvE!}cu_4<1w^DZ0`1$UH%jGA4{c8D1nyf-?(Jx9KsV-q@N-cjIjP!!%jX3?qk
zE%Gf7{oe9Q*{WLA{r>N*x+()&(rm&WT3@dTy;>bU@X+RFo$78!dDx=`e>=1J(a8OQ
zM+>{p#%t*=SpQhi+qiS4c!Q2{TpUW%=1Sv?x5m?T45YD$Nqizp&(g0h&LkmeI^RM1
za0qo`&Y0ttE{LQ!YhzY^H4(!U7ag8h*;yG$b^V>u+p%Lq!&J>}V|fzWBH$Zl+FXwe
z+sF}`hn~eU_3|neeTlx!>bmIR5xOT=7^q1XMlrk$?83TgB1aj2<jbP^I;*0zmd<+T
z!^dO8qgvj^cmfj>MKgU&op*8VRAbDv0{3)F|I>*U`wP9Y9X@zMvrJd}6nJDhY_mL2
zvZ8F&C!6V38D;)8q1R4tv%0$A{m(x72SwkrOAyeMV&s_Nd98Zg#gFk_X5j`WL#bCP
z6z2=W4Qn^RG?uN4mAtSjq?u1%6<%byF<~YvprG`pU-Qwa72>27<kSlBbv^w%2|4zc
zPyu?<5GzAd_ln7n$Y{Jpb_kad6{rjfS70;*)0u~GDFF&%hr*=>D8do_ZVr#nvo=Hc
zm=4blVX%3G0HeTh{dRACjg8soJTvB`M{B%A@KOiCC<s)~Hf(4i$m9@2=!qC9KKeCM
zvt(DZb{oD#@40pOmqGMz=Av+FGp7FEgY*!D$LH$czP?LWI!ycq?jX95D3V|tiVsmi
zS%Tv+xI7ql!SP_+al8wc%W>R`=yb$!cVY|e=UZqIyYlgV_|kYMY~i3kE{~b`p7W3K
z<wP(jD~M`hm)OIdh{`|QB^vkI3>PK!!R0>0`Je<&bb=V-JS#rq*XugodVcB9Ag<Td
zLkacxDJR8$2jLn=C{&Su35vD}jEJyNs8kzcj5h_TqCz%qFcwM|2p0%=)_eqk4{{&g
Kt9ipKw|@eNCx@~C

literal 0
HcmV?d00001

diff --git a/tests/testthat/data/create-data.py b/tests/testthat/data/create-data.py
index 9fa4fe5..ccc30b3 100644
--- a/tests/testthat/data/create-data.py
+++ b/tests/testthat/data/create-data.py
@@ -129,14 +129,104 @@ def do_decimal():
     dictionary_pagesize_limit = 400
   )
 
+def do_binary():
+  import pyarrow as pa
+  import pyarrow.parquet as pq
+  import random
+  random.seed(10)
+  fields = [
+      pa.field(name = 'ba', type = pa.binary(), nullable = False),
+      pa.field(name = 'bam', type = pa.binary()),
+  ]
+  schema = pa.schema(fields = fields)
+  data = [
+    [ str(x) for x in range(400) ] * 3,
+    [ str(x) for x in range(400) ] * 3,
+  ]
+  for i in range(10):
+    data[1][random.randint(0, 1200-1)] = None
+
+  table = pa.table(data = data, schema = schema)
+  pq.write_table(
+    table,
+    'tests/testthat/data/binary.parquet',
+    data_page_size = 400,
+    dictionary_pagesize_limit = 400
+  )
+
+def do_uuid():
+  import pyarrow as pa
+  import pyarrow.parquet as pq
+  import random
+  import uuid
+  random.seed(10)
+  fields = [
+      pa.field(name = 'ba', type = pa.uuid(), nullable = False),
+      pa.field(name = 'bam', type = pa.uuid()),
+  ]
+  schema = pa.schema(fields = fields)
+  data = [
+    [ uuid.uuid4().bytes for x in range(400) ] * 3,
+    [ uuid.uuid4().bytes for x in range(400) ] * 3,
+  ]
+  for i in range(10):
+    data[1][random.randint(0, 1200-1)] = None
+
+  table = pa.table(data = data, schema = schema)
+  pq.write_table(
+    table,
+    'tests/testthat/data/uuid.parquet',
+    version='2.6',
+    data_page_size = 400,
+    dictionary_pagesize_limit = 400
+  )
+
+def do_float16():
+  import pyarrow as pa
+  import pyarrow.parquet as pq
+  import random
+  import numpy as np
+  random.seed(10)
+  fields = [
+      pa.field(name = 'dba', type = pa.float16(), nullable = False),
+      pa.field(name = 'dbam', type = pa.float16()),
+  ]
+  schema = pa.schema(fields = fields)
+  data = [
+    np.array(list(range(400)) * 3, dtype=np.float16),
+    np.array(list(range(400)) * 3, dtype=np.float16)
+  ]
+  for i in range(10):
+    p = random.randint(0, 1200-1)
+    print(p)
+    data[1][p] = None
+
+  table = pa.table(data = data, schema = schema)
+  pq.write_table(
+    table,
+    'tests/testthat/data/float16.parquet',
+    data_page_size = 400,
+    dictionary_pagesize_limit = 400
+  )
+
 if __name__ == "__main__":
   import sys
   if len(sys.argv) == 1:
     do_float()
     do_mixed()
+    do_decimal()
+    do_binary()
+    do_uuid()
+    do_float16()
   elif sys.argv[1] == 'float':
     do_float()
   elif sys.argv[1] == 'mixed':
     do_mixed()
   elif sys.argv[1] == 'decimal':
     do_decimal()
+  elif sys.argv[1] == 'binary':
+    do_binary()
+  elif sys.argv[1] == 'uuid':
+    do_uuid()
+  elif sys.argv[1] == 'float16':
+    do_float16()
diff --git a/tests/testthat/data/float16.parquet b/tests/testthat/data/float16.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..2d3a1b0b2464b3345886c8e68fdbf6fb2f7ab5ab
GIT binary patch
literal 4140
zcmeHLdr(tn7XQM_*fJWCi=kqTRWVl7_(rAmCcMJSymMdQ7lNq7SBZ~Zm}y6@6(opC
zcu9QK$U|N#5m2zY;}uX5T^nChtU67rw$yQUvo15s>^Sb;VB2-}G49TGXZ8=z+_~rR
zedpxl%Q^X-d)0F794r9ig0a5fRLmKKfe-+kL4y<h0RS-o2MQ1e;z0sP1WHy3lGr4W
z%qD{rHU*^Oscb5j3exa2HjPUI%kkyxa&9?L;VM?eseoFd#?@vut9Gh6wMPv!5)G~~
zYgmm_!)ZJkpp|HGty#-zomx)o(E^=BhwIEbR_D}lI*$(MMS6)|rpNVay;*P7vwFMU
zsdwo)y<6|md-cE|GDr+E18z_o%m%B0HP{VKgUi4f+y;-qYXC-(QDT%CaiiL3Hd>9W
z(Qb4aT}IC6HhPR+BOpYCgpd(9p(f0Pm0$@w;UruHN4N<O;UxemBt@i{l#o(VMn;o3
zsU+1TNt#IuX(e+>mb8&}(m^`O2GT`#k{sDfy2*ahLk^H$a)<<!kP=a1N<v8~85K?8
zl#)_YBxR;7l$FY*SjtA(DF@}G8YmalNpVy!<)->64>dq}sUZr`LRv(NX$dW*Wpp%+
z(@I)RleC$(&{jH^W@#I3ryaDDZlGOsC(Y5lw43gyJ@f$WrH5$12pJJ0W+aT1kulK>
z&L|l*Lo#N@!dRJHhGlGwopCTurh#!WoeanHGH#}y@h}67ml<LJ41huy3`H;$ieUtl
zz$s7)qo54VhtV(w;xG;>VJcKZJtQH7X1Ees;Cg6<TVO8y1hOz6+Tbo|hZWEP4?-ub
zg$?i+bisDm3C}?e_P}0v4Z7iN*bnbR4}1g%;8W;@gK!8whX4g2Aqqw!6pF+s0!h#m
zBt=n3hUTMa6oYUShm<H4sgWL$2qH6Di7aS6vZ5_07kz?Ql#gs^7qX)Y<Uj|J6V;*y
zbPTyrJL*K|5QlnDFS>@@=r-y{_mKxZLIdb2@}faBgq|Z{3NQ&x!6uO@)Fd`Vm?Wkt
zCaEdPBs0x7MVn$w7{F{H*zZO}VXO!fVL@0>gxD{}B=!Sr7?A!b@lBLJa<E4*G7tC(
z#kiB*<}VD9lALqf_7S4@ln(sJrv-0|=UV!?Bijo{OB6P-ygI*VtW?`TUZ^f89w%GT
z>yX#%*gZaa(?I`)n!=Ka_@}~fMXjxLva(D{b=4M?Pg7Sb_bKXjR?Z+>EqA->imPUu
zyKLdHM|bU;XSvxxbsyb*V3GCP-hHw4dk!tleKv5nyT0V`GS+Y8J8=#6BeAxS>2yy+
zX-%U2y`=qdjb(Kyj=5{T>S-*mS2-0$@5DD%H0m0(jr7H)%4Wi~;>!N`=Do+6&P_jj
zb+NgsC7t_p<oJYRj+2?aWz(5U$M&^lxvP^7Bply=YF&TpntPXyALz*TbQO(HJaO>M
z=7F1y%;gh@&gOW(y>cM2<+I;>JoM~`dzV`dpU(sSZ$&6w&I{XxW8a6pt|Q%rqRGhz
zl_#q&7K`Vtz2AGX=5mQ7c4tIVYweYCsjdlLX|20jCCltPnACRkw+Es(Ke>OUt^SL{
z`1ZFZB)2!*s8N=`kNVmhZ`G@7k`E=HYP!=*wyk~8cdGfz7IXK`2`Q(K-EFhnYC=~}
zAHUaOeb{#>rQ^hdv$=nK^5AMm%h%^w|F_>w?R0(9Z5unobglE`!^_}Bm*9GrAUKad
z)fe4@zq|g-Te<`{y9B~OclC!m{Q2_W0<pfpD9q!>%deCN^K*GHe0g~M2Ga#^di8(Y
zs{vR~Fm|0sxayY(R~<As>Aylau=STgxHtIr2H*Za@r_kU^!y*!-Vkg^_&SU$9yxeR
z;Oi$=^ov4Wu4rz)a?IpJ`xH%Ue$v=!Dra2j+=66m2H{$HqqQJq-0XBNf6Tlcsp0do
z+_jpv9ckkiWqW!`=M^rWur$Z}=tf(iYT~jy5EwGwrk)gAD4MEmw`nFPmPq2u<`-$F
zrc}vR-E1$?O;a7l3qls`)KAydtLwC<b{b|7E#`}53yO_1nGWmYo2QD2+3Dxmz_AN=
zk#jOH+o$SI@1o{qec_BRU$~oIu<lFOs#~XbGmEmn<_g9x+5;DF{@z`u>)3;q=KS7s
zv3ya9>4T5|<b8arqa=M<-d{jaXtdod-#%hYq`uRh5nDKVQbI*^>5BN`adTGR?kvqr
zESV_Z5xTf+Wm5Sx%~AcCvQ;TnvokJLEG}Q2c3{!Q?{1$d&r%&;wk-%-Qen~5B$h@R
zKCf7#t5+RKs9aLH*3e9xTz%*B%5_9b`h^|X(!J}cwyYaR4QKamU^=qDxm3Bd>LYYE
z=MUfAIa`&Tem+kyA}q#X&FC&1GtGF;u`%=V&%?@xT>?-zvrE|haP(dt+VHTspYfJF
z9{c8W2fxc7)vGADx?2DWo^=ZXiblLB@Sj!SFMK8|YU0`BZG@u0U%zieR^UIL7++)8
z1F`<s0_FF9gR6&Y%;Wb4FaM3%7Hs`jvn|;A+SxWBJZ1q92W`%@tlE%)1psUm|Bwj8
z{wr5xtbfk;`LOOM4&e0-!-g<VNO(keR3wPNMujf`L89>C&6pp*5Y{&}tY>`WU~r`H
zpN+`jF}~QCAK-64G7+x<@M^H(PkI^c$<#1UMC3VX<hAktQMj=76h4_qVOVW+C;;IR
z;$XQ}t0I=X{F36Qg4sS=m?h^)<Gb;cBA4gL6<P8GxjaiAJG>-UDCF`q-(sv>p5)`a
z{uAdlpQsr2=beTZdCnUtxgzJKU;N+VE9AMpP5dHHe4L+%-y)aOiOH4~!;#|Be5vt9
zgD(%Bl)k)p(!AmnH|)eG%hRyv6JDmOSVwJ$_ig3v!vQ}4Vu>|l)5c$|+A=fKYMq&}
mX;XHN<kzb<ZC;c8kz~%|S+ZHO@Tdp?_zR5Ue+)JMp5U)oNh(<Y

literal 0
HcmV?d00001

diff --git a/tests/testthat/test-read-parquet-5.R b/tests/testthat/test-read-parquet-5.R
index 6cb76ad..b6e0bcf 100644
--- a/tests/testthat/test-read-parquet-5.R
+++ b/tests/testthat/test-read-parquet-5.R
@@ -188,4 +188,37 @@ test_that("mixing RLE_DICTIONARY and PLAIN, DECIMAL", {
   expect_equal(t1[,2], t2[,2])
   expect_equal(t1[,3], t2[,3])
   expect_equal(t1[,4], t2[,4])
-})
\ No newline at end of file
+})
+
+test_that("mixing RLE_DICTIONARY and PLAIN, BYTE_ARRAY", {
+  skip_on_cran()
+  pf <- test_path("data/binary.parquet")
+  expect_snapshot({
+    as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
+    as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
+  })
+  t1 <- as.data.frame(read_parquet(pf))
+  t2 <- as.data.frame(arrow::read_parquet(pf))
+  expect_equal(t1[,1], unclass(t2[,1]))
+  expect_equal(t1[,2], unclass(t2[,2]))
+})
+
+test_that("mixing RLE_DICTIONARY and PLAIN, FLOAT16", {
+  skip_on_cran()
+  pf <- test_path("data/float16.parquet")
+  expect_snapshot({
+    as.data.frame(read_parquet_schema(pf)[, c("type", "repetition_type")])
+    as.data.frame(read_parquet_pages(pf)[, c("page_type", "num_values", "encoding")])
+  })
+  t1 <- as.data.frame(read_parquet(pf))
+  t2 <- as.data.frame(arrow::read_parquet(pf))
+  # arrow is buggy, even the missingness pattern is wrong :(
+  expect_equal(t1[,1], rep(0:399, 3))
+  expect_equal(
+    which(is.na(t1[,2])),
+    c(30, 66, 422, 568, 878, 947, 988, 1006, 1170, 1183) + 1
+  )
+  bs2 <- rep(0:399, 3)
+  bs2[is.na(t1[,2])] <- NA
+  expect_equal(t1[,2], bs2)
+})

From 303da40c5787b544519c577288e54426c2db2f3f Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Sat, 8 Feb 2025 20:28:46 +0100
Subject: [PATCH 17/18] Fix tests on older R

`as.POSIXct()` behaves pretty interestingly...
Trick is from parsedate.
---
 tests/testthat/helper.R              | 4 ++++
 tests/testthat/test-read-parquet-5.R | 6 +++---
 2 files changed, 7 insertions(+), 3 deletions(-)

diff --git a/tests/testthat/helper.R b/tests/testthat/helper.R
index 03c6ee9..d1147c9 100644
--- a/tests/testthat/helper.R
+++ b/tests/testthat/helper.R
@@ -43,3 +43,7 @@ test_write <- function(d, schema = NULL, encoding = NULL) {
 redact_maxint64 <- function(x) {
   gsub("922337203685477[0-9][0-9][0-9][0-9]", "922337203685477xxxx", x)
 }
+
+utcts <- function(x) {
+  as.POSIXct(as.POSIXlt(as.Date(x), tz = "UTC"))
+}
diff --git a/tests/testthat/test-read-parquet-5.R b/tests/testthat/test-read-parquet-5.R
index b6e0bcf..d6293ae 100644
--- a/tests/testthat/test-read-parquet-5.R
+++ b/tests/testthat/test-read-parquet-5.R
@@ -132,7 +132,7 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   expect_equal(tab$s, as.character(rep(0:399, 6)))
   expect_equal(tab$f, rep(0:399, 6))
   expect_equal(tab$d, rep(0:399, 6))
-  expect_equal(tab$i96, rep(as.POSIXct(as.Date(sprintf('%d-01-01', 1800:2199))), 6))
+  expect_equal(tab$i96, rep(utcts(sprintf('%d-01-01', 1800:2199)), 6))
 
   pf <- test_path("data/mixed2.parquet")
   expect_snapshot({
@@ -145,7 +145,7 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   expect_equal(tab$s, as.character(rep(0:399, 6)))
   expect_equal(tab$f, rep(0:399, 6))
   expect_equal(tab$d, rep(0:399, 6))
-  expect_equal(tab$i96, rep(as.POSIXct(as.Date(sprintf('%d-01-01', 1800:2199))), 6))
+  expect_equal(tab$i96, rep(utcts(sprintf('%d-01-01', 1800:2199)), 6))
 
   skip_on_cran()
   pf <- test_path("data/mixed-miss.parquet")
@@ -158,7 +158,7 @@ test_that("mixing RLE_DICTIONARY and PLAIN", {
   expect_equal(d1[,1:5], d2[,1:5])
   # arrow does not read INT86 into a time stamp, so compare manually
   expect_equal(is.na(d1[,6]), is.na(d2[,6]))
-  bs6 <- as.POSIXct(as.Date(sprintf('%d-01-01', 1:2400)))
+  bs6 <- utcts(sprintf('%d-01-01', 1:2400))
   bs6[is.na(d1[,6])] <- NA
   expect_equal(d1[,6], bs6)
 })

From f7bfb2fbcd2ad084649d11f2fb47fbeb01ab7bd0 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?G=C3=A1bor=20Cs=C3=A1rdi?= <csardi.gabor@gmail.com>
Date: Sat, 8 Feb 2025 20:36:39 +0100
Subject: [PATCH 18/18] Add NEWS for #110

[ci skip]
---
 NEWS.md | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/NEWS.md b/NEWS.md
index 70ef11f..c820812 100644
--- a/NEWS.md
+++ b/NEWS.md
@@ -6,6 +6,10 @@
 * `read_parquet()` now correctly reads `FLOAT` columns from files with
   multiple row groups.
 
+* `read_parquet()` now correctly reads Parquet files that have column
+  chunks with both dictionary encoded and not dictionary encoded
+  pages (#110).
+
 # nanoparquet 0.4.0
 
 * API changes: