7d7449f9de30ff0bffc475f2f2dac95f34490656
[ric-plt/lib/rmr.git] / src / rmr / si / src / rmr_si.c
1 // vim: ts=4 sw=4 noet :
2 /*
3 ==================================================================================
4         Copyright (c) 2019-2020 Nokia
5         Copyright (c) 2018-2020 AT&T Intellectual Property.
6
7    Licensed under the Apache License, Version 2.0 (the "License");
8    you may not use this file except in compliance with the License.
9    You may obtain a copy of the License at
10
11            http://www.apache.org/licenses/LICENSE-2.0
12
13    Unless required by applicable law or agreed to in writing, software
14    distributed under the License is distributed on an "AS IS" BASIS,
15    WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
16    See the License for the specific language governing permissions and
17    limitations under the License.
18 ==================================================================================
19 */
20
21 /*
22         Mnemonic:       rmr_si.c
23         Abstract:       This is the compile point for the si version of the rmr
24                                 library (formarly known as uta, so internal function names
25                                 are likely still uta_*)
26
27                                 With the exception of the symtab portion of the library,
28                                 RMr is built with a single compile so as to "hide" the
29                                 internal functions as statics.  Because they interdepend
30                                 on each other, and CMake has issues with generating two
31                                 different wormhole objects from a single source, we just
32                                 pull it all together with a centralised comple using
33                                 includes.
34
35                                 Future:  the API functions at this point can be separated
36                                 into a common source module.
37
38         Author:         E. Scott Daniels
39         Date:           1 February 2019
40 */
41
42 #include <ctype.h>
43 #include <stdio.h>
44 #include <stdlib.h>
45 #include <netdb.h>
46 #include <errno.h>
47 #include <string.h>
48 #include <errno.h>
49 #include <pthread.h>
50 #include <unistd.h>
51 #include <time.h>
52 #include <arpa/inet.h>
53 #include <semaphore.h>
54 #include <pthread.h>
55
56 #include "si95/socket_if.h"
57 #include "si95/siproto.h"
58
59 #define SI95_BUILD      1                       // we drop some common functions for si
60
61 #include "rmr.h"                                // things the users see
62 #include "rmr_agnostic.h"               // agnostic things (must be included before private)
63 #include "rmr_si_private.h"             // things that we need too
64 #include "rmr_symtab.h"
65 #include "rmr_logging.h"
66
67 #include "ring_static.c"                        // message ring support
68 #include "rt_generic_static.c"          // route table things not transport specific
69 #include "rtable_si_static.c"           // route table things -- transport specific
70 #include "rtc_static.c"                         // route table collector (thread code)
71 #include "tools_static.c"
72 #include "sr_si_static.c"                       // send/receive static functions
73 #include "wormholes.c"                          // wormhole api externals and related static functions (must be LAST!)
74 #include "mt_call_static.c"
75 #include "mt_call_si_static.c"
76
77
78 //------------------------------------------------------------------------------
79
80
81 /*
82         Clean up a context.
83 */
84 static void free_ctx( uta_ctx_t* ctx ) {
85         if( ctx && ctx->rtg_addr ) {
86                 free( ctx->rtg_addr );
87         }
88 }
89
90 // --------------- public functions --------------------------------------------------------------------------
91
92 /*
93         Returns the size of the payload (bytes) that the msg buffer references.
94         Len in a message is the number of bytes which were received, or should
95         be transmitted, however, it is possible that the mbuf was allocated
96         with a larger payload space than the payload length indicates; this
97         function returns the absolute maximum space that the user has available
98         in the payload. On error (bad msg buffer) -1 is returned and errno should
99         indicate the rason.
100
101         The allocated len stored in the msg is:
102                 transport header length +
103                 message header +
104                 user requested payload
105
106         The msg header is a combination of the fixed RMR header and the variable
107         trace data and d2 fields which may vary for each message.
108 */
109 extern int rmr_payload_size( rmr_mbuf_t* msg ) {
110         if( msg == NULL || msg->header == NULL ) {
111                 errno = EINVAL;
112                 return -1;
113         }
114
115         errno = 0;
116         return msg->alloc_len - RMR_HDR_LEN( msg->header ) - TP_HDR_LEN;        // allocated transport size less the header and other data bits
117 }
118
119 /*
120         Allocates a send message as a zerocopy message allowing the underlying message protocol
121         to send the buffer without copy.
122 */
123 extern rmr_mbuf_t* rmr_alloc_msg( void* vctx, int size ) {
124         uta_ctx_t*      ctx;
125         rmr_mbuf_t*     m;
126
127         if( (ctx = (uta_ctx_t *) vctx) == NULL ) {
128                 return NULL;
129         }
130
131         m = alloc_zcmsg( ctx, NULL, size, 0, DEF_TR_LEN );                              // alloc with default trace data
132         return  m;
133 }
134
135
136 /*
137         Allocates a send message as a zerocopy message allowing the underlying message protocol
138         to send the buffer without copy. In addition, a trace data field of tr_size will be
139         added and the supplied data coppied to the buffer before returning the message to
140         the caller.
141 */
142 extern rmr_mbuf_t* rmr_tralloc_msg( void* vctx, int size, int tr_size, unsigned const char* data ) {
143         uta_ctx_t*      ctx;
144         rmr_mbuf_t*     m;
145         int state;
146
147         if( (ctx = (uta_ctx_t *) vctx) == NULL ) {
148                 return NULL;
149         }
150
151         m = alloc_zcmsg( ctx, NULL, size, 0, tr_size );                         // alloc with specific tr size
152         if( m != NULL ) {
153                 state = rmr_set_trace( m, data, tr_size );                              // roll their data in
154                 if( state != tr_size ) {
155                         m->state = RMR_ERR_INITFAILED;
156                 }
157         }
158
159         return  m;
160 }
161
162 /*
163         This provides an external path to the realloc static function as it's called by an
164         outward facing mbuf api function. Used to reallocate a message with a different
165         trace data size.
166 */
167 extern rmr_mbuf_t* rmr_realloc_msg( rmr_mbuf_t* msg, int new_tr_size ) {
168         return realloc_msg( msg, new_tr_size );
169 }
170
171
172 /*
173         Return the message to the available pool, or free it outright.
174 */
175 extern void rmr_free_msg( rmr_mbuf_t* mbuf ) {
176         if( mbuf == NULL ) {
177                 return;
178         }
179
180         if( mbuf->flags & MFL_HUGE ||                                                   // don't cache oversized messages
181                 ! mbuf->ring ||                                                                         // cant cache if no ring
182                 ! uta_ring_insert( mbuf->ring, mbuf ) ) {                       // or ring is full
183
184                 if( mbuf->tp_buf ) {
185                         free( mbuf->tp_buf );
186                         mbuf->tp_buf = NULL;            // just in case user tries to reuse this mbuf; this will be an NPE
187                 }
188
189                 mbuf->cookie = 0;                       // should signal a bad mbuf (if not reallocated)
190                 free( mbuf );
191         }
192 }
193
194 /*
195         This is a wrapper to the real timeout send. We must wrap it now to ensure that
196         the call flag and call-id are reset
197 */
198 extern rmr_mbuf_t* rmr_mtosend_msg( void* vctx, rmr_mbuf_t* msg, int max_to ) {
199         char* d1;                                                                                                                       // point at the call-id in the header
200
201         if( msg != NULL ) {
202                 ((uta_mhdr_t *) msg->header)->flags &= ~HFL_CALL_MSG;                   // must ensure call flag is off
203
204                 d1 = DATA1_ADDR( msg->header );
205                 d1[D1_CALLID_IDX] = NO_CALL_ID;                                                                 // must blot out so it doesn't queue on a chute at the other end
206         }
207
208         return mtosend_msg( vctx, msg, max_to );
209 }
210
211 /*
212         Send with default max timeout as is set in the context.
213         See rmr_mtosend_msg() for more details on the parameters.
214         See rmr_stimeout() for info on setting the default timeout.
215 */
216 extern rmr_mbuf_t* rmr_send_msg( void* vctx, rmr_mbuf_t* msg ) {
217         char* d1;                                                                                                               // point at the call-id in the header
218
219         if( msg != NULL ) {
220                 ((uta_mhdr_t *) msg->header)->flags &= ~HFL_CALL_MSG;                   // must ensure call flag is off
221
222                 d1 = DATA1_ADDR( msg->header );
223                 d1[D1_CALLID_IDX] = NO_CALL_ID;                                                                         // must blot out so it doesn't queue on a chute at the other end
224         }
225
226         return rmr_mtosend_msg( vctx, msg,  -1 );                                                       // retries < 0  uses default from ctx
227 }
228
229 /*
230         Return to sender allows a message to be sent back to the endpoint where it originated.
231
232         With SI95 it was thought that the return to sender would be along the same open conneciton
233         and thus no table lookup would be needed to open a 'reverse direction' path. However, for
234         applications sending at high message rates, returning responses on the same connection
235         causes major strife. Thus the decision was made to use the same method as NNG and just
236         open a second connection for reverse path.
237
238         We will attempt to use the name in the received message to look up the endpoint. If
239         that failes, then we will write on the connection that the message arrived on as a
240         falback.
241
242         On success (state is RMR_OK, the caller may use the buffer for another receive operation),
243         and on error it can be passed back to this function to retry the send if desired. On error,
244         errno will liklely have the failure reason set by the nng send processing.  The following
245         are possible values for the state in the message buffer:
246
247         Message states returned:
248                 RMR_ERR_BADARG - argument (context or msg) was nil or invalid
249                 RMR_ERR_NOHDR  - message did not have a header
250                 RMR_ERR_NOENDPT- an endpoint to send the message to could not be determined
251                 RMR_ERR_SENDFAILED - send failed; errno has nano error code
252                 RMR_ERR_RETRY   - the reqest failed but should be retried (EAGAIN)
253
254         A nil message as the return value is rare, and generally indicates some kind of horrible
255         failure. The value of errno might give a clue as to what is wrong.
256
257         CAUTION:
258                 Like send_msg(), this is non-blocking and will return the msg if there is an error.
259                 The caller must check for this and handle it properly.
260 */
261 extern rmr_mbuf_t*  rmr_rts_msg( void* vctx, rmr_mbuf_t* msg ) {
262         int                     nn_sock;                        // endpoint socket for send
263         uta_ctx_t*      ctx;
264         char*           hold_src;                       // we need the original source if send fails
265         char*           hold_ip;                        // also must hold original ip
266         int                     sock_ok = 0;            // true if we found a valid endpoint socket
267         endpoint_t*     ep = NULL;                      // end point to track counts
268
269         if( (ctx = (uta_ctx_t *) vctx) == NULL || msg == NULL ) {               // bad stuff, bail fast
270                 errno = EINVAL;                                                                                         // if msg is null, this is their clue
271                 if( msg != NULL ) {
272                         msg->state = RMR_ERR_BADARG;
273                         msg->tp_state = errno;
274                 }
275                 return msg;
276         }
277
278         errno = 0;                                                                                                              // at this point any bad state is in msg returned
279         if( msg->header == NULL ) {
280                 rmr_vlog( RMR_VL_ERR, "rmr_send_msg: message had no header\n" );
281                 msg->state = RMR_ERR_NOHDR;
282                 msg->tp_state = errno;
283                 return msg;
284         }
285
286         ((uta_mhdr_t *) msg->header)->flags &= ~HFL_CALL_MSG;                   // must ensure call flag is off
287
288         sock_ok = uta_epsock_byname( ctx, (char *) ((uta_mhdr_t *)msg->header)->src, &nn_sock, &ep );   // always try src first
289         if( ! sock_ok ) {
290                 if( (nn_sock = msg->rts_fd) < 0 ) {
291                         if( HDR_VERSION( msg->header ) > 2 ) {                                                  // with ver2 the ip is there, try if src name not known
292                                 sock_ok = uta_epsock_byname( ctx, (char *) ((uta_mhdr_t *)msg->header)->srcip, &nn_sock, &ep  );
293                         }
294                         if( ! sock_ok ) {
295                                 msg->state = RMR_ERR_NOENDPT;
296                                 return msg;
297                         }
298                 }
299         }
300
301
302         msg->state = RMR_OK;                                                                                                                            // ensure it is clear before send
303         hold_src = strdup( (char *) ((uta_mhdr_t *)msg->header)->src );                                         // the dest where we're returning the message to
304         hold_ip = strdup( (char *) ((uta_mhdr_t *)msg->header)->srcip );                                        // both the src host and src ip
305         strncpy( (char *) ((uta_mhdr_t *)msg->header)->src, ctx->my_name, RMR_MAX_SRC );        // must overlay the source to be ours
306         msg = send_msg( ctx, msg, nn_sock, -1 );
307         if( msg ) {
308                 if( ep != NULL ) {
309                         switch( msg->state ) {
310                                 case RMR_OK:
311                                         ep->scounts[EPSC_GOOD]++;
312                                         break;
313
314                                 case RMR_ERR_RETRY:
315                                         ep->scounts[EPSC_TRANS]++;
316                                         break;
317
318                                 default:
319                                         // FIX ME uta_fd_failed( nn_sock );                     // we don't have an ep so this requires a look up/search to mark it failed
320                                         ep->scounts[EPSC_FAIL]++;
321                                         break;
322                         }
323                 }
324                 strncpy( (char *) ((uta_mhdr_t *)msg->header)->src, hold_src, RMR_MAX_SRC );    // always return original source so rts can be called again
325                 strncpy( (char *) ((uta_mhdr_t *)msg->header)->srcip, hold_ip, RMR_MAX_SRC );   // always return original source so rts can be called again
326                 msg->flags |= MFL_ADDSRC;                                                                                                               // if msg given to send() it must add source
327         }
328
329         free( hold_src );
330         free( hold_ip );
331         return msg;
332 }
333
334 /*
335         If multi-threading call is turned on, this invokes that mechanism with the special call
336         id of 1 and a max wait of 1 second.  If multi threaded call is not on, then the original
337         behavour (described below) is carried out.  This is safe to use when mt is enabled, but
338         the user app is invoking rmr_call() from only one thread, and the caller doesn't need
339         a flexible timeout.
340
341         On timeout this function will return a nil pointer. If the original message could not
342         be sent without blocking, it will be returned with the RMR_ERR_RETRY set as the status.
343
344         Original behavour:
345         Call sends the message based on message routing using the message type, and waits for a
346         response message to arrive with the same transaction id that was in the outgoing message.
347         If, while wiating for the expected response,  messages are received which do not have the
348         desired transaction ID, they are queued. Calls to uta_rcv_msg() will dequeue them in the
349         order that they were received.
350
351         Normally, a message struct pointer is returned and msg->state must be checked for RMR_OK
352         to ensure that no error was encountered. If the state is UTA_BADARG, then the message
353         may be resent (likely the context pointer was nil).  If the message is sent, but no
354         response is received, a nil message is returned with errno set to indicate the likley
355         issue:
356                 ETIMEDOUT -- too many messages were queued before reciving the expected response
357                 ENOBUFS -- the queued message ring is full, messages were dropped
358                 EINVAL  -- A parameter was not valid
359                 EAGAIN  -- the underlying message system wsa interrupted or the device was busy;
360                                         user should call this function with the message again.
361
362 */
363 extern rmr_mbuf_t* rmr_call( void* vctx, rmr_mbuf_t* msg ) {
364         uta_ctx_t*              ctx;
365
366         if( (ctx = (uta_ctx_t *) vctx) == NULL || msg == NULL ) {               // bad stuff, bail fast
367                 if( msg != NULL ) {
368                         msg->state = RMR_ERR_BADARG;
369                 }
370                 return msg;
371         }
372
373         return rmr_mt_call( vctx, msg, 1, 1000 );               // use the reserved call-id of 1 and wait up to 1 sec
374 }
375
376 /*
377         The outward facing receive function. When invoked it will pop the oldest message
378         from the receive ring, if any are queued, and return it. If the ring is empty
379         then the receive function is invoked to wait for the next message to arrive (blocking).
380
381         If old_msg is provided, it will be populated (avoiding lots of free/alloc cycles). If
382         nil, a new one will be allocated. However, the caller should NOT expect to get the same
383         struct back (if a queued message is returned the message struct will be different).
384 */
385 extern rmr_mbuf_t* rmr_rcv_msg( void* vctx, rmr_mbuf_t* old_msg ) {
386         uta_ctx_t*      ctx;
387         rmr_mbuf_t*     qm;                             // message that was queued on the ring
388
389         if( (ctx = (uta_ctx_t *) vctx) == NULL ) {
390                 errno = EINVAL;
391                 if( old_msg != NULL ) {
392                         old_msg->state = RMR_ERR_BADARG;
393                         old_msg->tp_state = errno;
394                 }
395                 return old_msg;
396         }
397         errno = 0;
398
399         return rmr_mt_rcv( ctx, old_msg, -1 );
400 }
401
402 /*
403         This allows a timeout based receive for applications unable to implement epoll_wait()
404         (e.g. wrappers).
405 */
406 extern rmr_mbuf_t* rmr_torcv_msg( void* vctx, rmr_mbuf_t* old_msg, int ms_to ) {
407         uta_ctx_t*      ctx;
408
409         if( (ctx = (uta_ctx_t *) vctx) == NULL ) {
410                 errno = EINVAL;
411                 if( old_msg != NULL ) {
412                         old_msg->state = RMR_ERR_BADARG;
413                         old_msg->tp_state = errno;
414                 }
415                 return old_msg;
416         }
417
418         return rmr_mt_rcv( ctx, old_msg, ms_to );
419 }
420
421 /*
422         This blocks until the message with the 'expect' ID is received. Messages which are received
423         before the expected message are queued onto the message ring.  The function will return
424         a nil message and set errno to ETIMEDOUT if allow2queue messages are received before the
425         expected message is received. If the queued message ring fills a nil pointer is returned
426         and errno is set to ENOBUFS.
427
428         Generally this will be invoked only by the call() function as it waits for a response, but
429         it is exposed to the user application as three is no reason not to.
430 */
431 extern rmr_mbuf_t* rmr_rcv_specific( void* vctx, rmr_mbuf_t* msg, char* expect, int allow2queue ) {
432         uta_ctx_t*      ctx;
433         int     queued = 0;                             // number we pushed into the ring
434         int     exp_len = 0;                    // length of expected ID
435
436         if( (ctx = (uta_ctx_t *) vctx) == NULL ) {
437                 errno = EINVAL;
438                 if( msg != NULL ) {
439                         msg->state = RMR_ERR_BADARG;
440                         msg->tp_state = errno;
441                 }
442                 return msg;
443         }
444
445         errno = 0;
446
447         if( expect == NULL || ! *expect ) {                             // nothing expected if nil or empty string, just receive
448                 return rmr_rcv_msg( ctx, msg );
449         }
450
451         exp_len = strlen( expect );
452         if( exp_len > RMR_MAX_XID ) {
453                 exp_len = RMR_MAX_XID;
454         }
455         if( DEBUG ) rmr_vlog( RMR_VL_DEBUG, " rcv_specific waiting for id=%s\n",  expect );
456
457         while( queued < allow2queue ) {
458                 msg = rcv_msg( ctx, msg );                                      // hard wait for next
459                 if( msg->state == RMR_OK ) {
460                         if( memcmp( msg->xaction, expect, exp_len ) == 0 ) {                    // got it -- return it
461                                 if( DEBUG ) rmr_vlog( RMR_VL_DEBUG, " rcv-specific matched (%s); %d messages were queued\n", msg->xaction, queued );
462                                 return msg;
463                         }
464
465                         if( ! uta_ring_insert( ctx->mring, msg ) ) {                                    // just queue, error if ring is full
466                                 if( DEBUG > 1 ) rmr_vlog( RMR_VL_DEBUG, " rcv_specific ring is full\n" );
467                                 errno = ENOBUFS;
468                                 return NULL;
469                         }
470
471                         if( DEBUG ) rmr_vlog( RMR_VL_DEBUG, " rcv_specific queued message type=%d\n", msg->mtype );
472                         queued++;
473                         msg = NULL;
474                 }
475         }
476
477         if( DEBUG ) rmr_vlog( RMR_VL_DEBUG, " rcv_specific timeout waiting for %s\n", expect );
478         errno = ETIMEDOUT;
479         return NULL;
480 }
481
482 /*
483         Set send timeout. The value time is assumed to be milliseconds.  The timeout is the
484         _rough_ maximum amount of time that RMR will block on a send attempt when the underlying
485         mechnism indicates eagain or etimeedout.  All other error conditions are reported
486         without this delay. Setting a timeout of 0 causes no retries to be attempted in
487         RMr code. Setting a timeout of 1 causes RMr to spin up to 1K retries before returning,
488         but _without_ issuing a sleep.  If timeout is > 1, then RMr will issue a sleep (1us)
489         after every 1K send attempts until the "time" value is reached. Retries are abandoned
490         if NNG returns anything other than EAGAIN or EINTER is returned.
491
492         The default, if this function is not used, is 1; meaning that RMr will retry, but will
493         not enter a sleep.  In all cases the caller should check the status in the message returned
494         after a send call.
495
496         Returns -1 if the context was invalid; RMR_OK otherwise.
497 */
498 extern int rmr_set_stimeout( void* vctx, int time ) {
499         uta_ctx_t*      ctx;
500
501         if( (ctx = (uta_ctx_t *) vctx) == NULL ) {
502                 return -1;
503         }
504
505         if( time < 0 ) {
506                 time = 0;
507         }
508
509         ctx->send_retries = time;
510         return RMR_OK;
511 }
512
513 /*
514         Set receive timeout -- not supported in nng implementation
515
516         CAUTION:  this is not supported as they must be set differently (between create and open) in NNG.
517 */
518 extern int rmr_set_rtimeout( void* vctx, int time ) {
519         rmr_vlog( RMR_VL_WARN, "Current underlying transport mechanism (SI) does not support rcv timeout; not set\n" );
520         return 0;
521 }
522
523
524 /*
525         This is the actual init workhorse. The user visible function meerly ensures that the
526         calling programme does NOT set any internal flags that are supported, and then
527         invokes this.  Internal functions (the route table collector) which need additional
528         open ports without starting additional route table collectors, will invoke this
529         directly with the proper flag.
530
531         CAUTION:   The max_ibm (max inbound message) size is the supplied user max plus the lengths
532                                 that we know about. The _user_ should ensure that the supplied length also
533                                 includes the trace data length maximum as they are in control of that.
534 */
535 static void* init(  char* uproto_port, int def_msg_size, int flags ) {
536         static  int announced = 0;
537         uta_ctx_t*      ctx = NULL;
538         char    bind_info[256];                         // bind info
539         char*   proto = "tcp";                          // pointer into the proto/port string user supplied
540         char*   port;
541         char*   interface = NULL;                       // interface to bind to (from RMR_BIND_IF, 0.0.0.0 if not defined)
542         char*   proto_port;
543         char    wbuf[1024];                                     // work buffer
544         char*   tok;                                            // pointer at token in a buffer
545         char*   tok2;
546         int             static_rtc = 0;                         // if rtg env var is < 1, then we set and don't listen on a port
547         int             state;
548         int             i;
549         int             old_vlevel;
550
551         old_vlevel = rmr_vlog_init();                   // initialise and get the current level
552         rmr_set_vlevel( RMR_VL_INFO );          // we WILL announce our version etc
553
554         if( ! announced ) {
555                 rmr_vlog( RMR_VL_INFO, "ric message routing library on SI95/g mv=%d flg=%02x (%s %s.%s.%s built: %s)\n",
556                         RMR_MSG_VER, flags, QUOTE_DEF(GIT_ID), QUOTE_DEF(MAJOR_VER), QUOTE_DEF(MINOR_VER), QUOTE_DEF(PATCH_VER), __DATE__ );
557                 announced = 1;
558         }
559         rmr_set_vlevel( old_vlevel );           // return logging to the desired state
560
561         errno = 0;
562         if( uproto_port == NULL ) {
563                 proto_port = strdup( DEF_COMM_PORT );
564         } else {
565                 proto_port = strdup( uproto_port );             // so we can modify it
566         }
567
568         if( (ctx = (uta_ctx_t *) malloc( sizeof( uta_ctx_t ) )) == NULL ) {
569                 errno = ENOMEM;
570                 return NULL;
571         }
572         memset( ctx, 0, sizeof( uta_ctx_t ) );
573
574         if( DEBUG ) rmr_vlog( RMR_VL_DEBUG, " rmr_init: allocating 266 rivers\n" );
575         ctx->nrivers = 256;                                                             // number of input flows we'll manage
576         ctx->rivers = (river_t *) malloc( sizeof( river_t ) * ctx->nrivers );
577         memset( ctx->rivers, 0, sizeof( river_t ) * ctx->nrivers );
578         for( i = 0; i < ctx->nrivers; i++ ) {
579                 ctx->rivers[i].state = RS_NEW;                          // force allocation of accumulator on first received packet
580         }
581
582         ctx->send_retries = 1;                                                  // default is not to sleep at all; RMr will retry about 10K times before returning
583         ctx->d1_len = 4;                                                                // data1 space in header -- 4 bytes for now
584         ctx->max_ibm = def_msg_size < 1024 ? 1024 : def_msg_size;                                       // larger than their request doesn't hurt
585         ctx->max_ibm += sizeof( uta_mhdr_t ) + ctx->d1_len + ctx->d2_len + TP_HDR_LEN + 64;             // add in header size, transport hdr, and a bit of fudge
586
587         ctx->mring = uta_mk_ring( 4096 );                               // message ring is always on for si
588         ctx->zcb_mring = uta_mk_ring( 128 );                    // zero copy buffer mbuf ring to reduce malloc/free calls
589
590         if( ! (flags & RMRFL_NOLOCK) ) {                                // user did not specifically ask that it be off; turn it on
591                 uta_ring_config( ctx->mring, RING_RLOCK );                      // concurrent rcv calls require read lock
592                 uta_ring_config( ctx->zcb_mring, RING_WLOCK );          // concurrent free calls from userland require write lock
593         } else {
594                 rmr_vlog( RMR_VL_INFO, "receive ring locking disabled by user application\n" );
595         }
596         init_mtcall( ctx );                                                             // set up call chutes
597         fd2ep_init( ctx );                                                              // initialise the fd to endpoint sym tab
598
599
600         ctx->max_plen = RMR_MAX_RCV_BYTES;                              // max user payload lengh
601         if( def_msg_size > 0 ) {
602                 ctx->max_plen = def_msg_size;
603         }
604
605         // we're using a listener to get rtg updates, so we do NOT need this.
606         //uta_lookup_rtg( ctx );                                                        // attempt to fill in rtg info; rtc will handle missing values/errors
607
608         ctx->si_ctx = SIinitialise( SI_OPT_FG );                // FIX ME: si needs to streamline and drop fork/bg stuff
609         if( ctx->si_ctx == NULL ) {
610                 rmr_vlog( RMR_VL_CRIT, "unable to initialise SI95 interface\n" );
611                 free_ctx( ctx );
612                 return NULL;
613         }
614
615         if( (port = strchr( proto_port, ':' )) != NULL ) {
616                 if( port == proto_port ) {              // ":1234" supplied; leave proto to default and point port correctly
617                         port++;
618                 } else {
619                         *(port++) = 0;                  // term proto string and point at port string
620                         proto = proto_port;             // user supplied proto so point at it rather than default
621                 }
622         } else {
623                 port = proto_port;                      // assume something like "1234" was passed
624         }
625
626         if( (tok = getenv( ENV_RTG_PORT )) != NULL && atoi( tok ) < 1 ) {       // must check here -- if < 1 then we just start static file 'listener'
627                 static_rtc = 1;
628         }
629
630         if( (tok = getenv( ENV_SRC_ID )) != NULL ) {                                                    // env var overrides what we dig from system
631                 tok = strdup( tok );                                    // something we can destroy
632                 if( *tok == '[' ) {                                             // we allow an ipv6 address here
633                         tok2 = strchr( tok, ']' ) + 1;          // we will chop the port (...]:port) if given
634                 } else {
635                         tok2 = strchr( tok, ':' );                      // find :port if there so we can chop
636                 }
637                 if( tok2  && *tok2 ) {                                  // if it's not the end of string marker
638                         *tok2 = 0;                                                      // make it so
639                 }
640
641                 snprintf( wbuf, RMR_MAX_SRC, "%s", tok );
642                 free( tok );
643         } else {
644                 if( (gethostname( wbuf, sizeof( wbuf ) )) != 0 ) {
645                         rmr_vlog( RMR_VL_CRIT, "rmr_init: cannot determine localhost name: %s\n", strerror( errno ) );
646                         return NULL;
647                 }
648                 if( (tok = strchr( wbuf, '.' )) != NULL ) {
649                         *tok = 0;                                                                       // we don't keep domain portion
650                 }
651         }
652
653         ctx->my_name = (char *) malloc( sizeof( char ) * RMR_MAX_SRC );
654         if( snprintf( ctx->my_name, RMR_MAX_SRC, "%s:%s", wbuf, port ) >= RMR_MAX_SRC ) {                       // our registered name is host:port
655                 rmr_vlog( RMR_VL_CRIT, "rmr_init: hostname + port must be less than %d characters; %s:%s is not\n", RMR_MAX_SRC, wbuf, port );
656                 return NULL;
657         }
658
659         if( (tok = getenv( ENV_NAME_ONLY )) != NULL ) {
660                 if( atoi( tok ) > 0 ) {
661                         flags |= RMRFL_NAME_ONLY;                                       // don't allow IP addreess to go out in messages
662                 }
663         }
664
665         ctx->ip_list = mk_ip_list( port );                              // suss out all IP addresses we can find on the box, and bang on our port for RT comparisons
666         if( flags & RMRFL_NAME_ONLY ) {
667                 ctx->my_ip = strdup( ctx->my_name );                    // user application or env var has specified that IP address is NOT sent out, use name
668         } else {
669                 ctx->my_ip = get_default_ip( ctx->ip_list );    // and (guess) at what should be the default to put into messages as src
670                 if( ctx->my_ip == NULL ) {
671                         rmr_vlog( RMR_VL_WARN, "rmr_init: default ip address could not be sussed out, using name\n" );
672                         ctx->my_ip = strdup( ctx->my_name );            // if we cannot suss it out, use the name rather than a nil pointer
673                 }
674         }
675         if( DEBUG ) rmr_vlog( RMR_VL_DEBUG, " default ip address: %s\n", ctx->my_ip );
676
677         if( (tok = getenv( ENV_WARNINGS )) != NULL ) {
678                 if( *tok == '1' ) {
679                         ctx->flags |= CTXFL_WARN;                                       // turn on some warnings (not all, just ones that shouldn't impact performance)
680                 }
681         }
682
683
684         if( (interface = getenv( ENV_BIND_IF )) == NULL ) {
685                 interface = "0.0.0.0";
686         }
687
688         snprintf( bind_info, sizeof( bind_info ), "%s:%s", interface, port );           // FIXME -- si only supports 0.0.0.0 by default
689         if( (state = SIlistener( ctx->si_ctx, TCP_DEVICE, bind_info )) < 0 ) {
690                 rmr_vlog( RMR_VL_CRIT, "rmr_init: unable to start si listener for %s: %s\n", bind_info, strerror( errno ) );
691                 free_ctx( ctx );
692                 return NULL;
693         }
694
695                                                                                                 // finish all flag setting before threads to keep helgrind quiet
696         ctx->flags |= CFL_MTC_ENABLED;                          // for SI threaded receiver is the only way
697
698         if( flags & RMRFL_NOTHREAD ) {                          // thread set to off; no route table collector started (could be called by the rtc thread itself)
699                 ctx->rtable = rt_clone_space( NULL, NULL, 0 );          // creates an empty route table so that wormholes still can be used
700         } else {
701                 if( static_rtc ) {
702                         rmr_vlog( RMR_VL_INFO, "rmr_init: file based route table only for context on port %s\n", uproto_port );
703                         if( pthread_create( &ctx->rtc_th,  NULL, rtc_file, (void *) ctx ) ) {   // kick the rt collector thread as just file reader
704                                 rmr_vlog( RMR_VL_WARN, "rmr_init: unable to start static route table collector thread: %s", strerror( errno ) );
705                         }
706                 } else {
707                         rmr_vlog( RMR_VL_INFO, "rmr_init: dynamic route table for context on port %s\n", uproto_port );
708                         if( pthread_create( &ctx->rtc_th,  NULL, rtc, (void *) ctx ) ) {        // kick the real rt collector thread
709                                 rmr_vlog( RMR_VL_WARN, "rmr_init: unable to start dynamic route table collector thread: %s", strerror( errno ) );
710                         }
711                 }
712         }
713
714         if( pthread_create( &ctx->mtc_th,  NULL, mt_receive, (void *) ctx ) ) {         // so kick it
715                 rmr_vlog( RMR_VL_WARN, "rmr_init: unable to start multi-threaded receiver: %s", strerror( errno ) );
716         }
717
718         free( proto_port );
719         return (void *) ctx;
720 }
721
722 /*
723         Initialise the message routing environment. Flags are one of the UTAFL_
724         constants. Proto_port is a protocol:port string (e.g. tcp:1234). If default protocol
725         (tcp) to be used, then :port is all that is needed.
726
727         At the moment it seems that TCP really is the only viable protocol, but
728         we'll allow flexibility.
729
730         The return value is a void pointer which must be passed to most uta functions. On
731         error, a nil pointer is returned and errno should be set.
732
733         Flags:
734                 No user flags supported (needed) at the moment, but this provides for extension
735                 without drastically changing anything. The user should invoke with RMRFL_NONE to
736                 avoid any misbehavour as there are internal flags which are suported
737 */
738 extern void* rmr_init( char* uproto_port, int def_msg_size, int flags ) {
739         return init( uproto_port, def_msg_size, flags & UFL_MASK  );            // ensure any internal flags are off
740 }
741
742 /*
743         This sets the default trace length which will be added to any message buffers
744         allocated.  It can be set at any time, and if rmr_set_trace() is given a
745         trace len that is different than the default allcoated in a message, the message
746         will be resized.
747
748         Returns 0 on failure and 1 on success. If failure, then errno will be set.
749 */
750 extern int rmr_init_trace( void* vctx, int tr_len ) {
751         uta_ctx_t* ctx;
752
753         errno = 0;
754         if( (ctx = (uta_ctx_t *) vctx) == NULL ) {
755                 errno = EINVAL;
756                 return 0;
757         }
758
759         ctx->trace_data_len = tr_len;
760         return 1;
761 }
762
763 /*
764         Return true if routing table is initialised etc. and app can send/receive.
765 */
766 extern int rmr_ready( void* vctx ) {
767         uta_ctx_t *ctx;
768
769         if( (ctx = (uta_ctx_t *) vctx) == NULL ) {
770                 return FALSE;
771         }
772
773         if( ctx->rtable != NULL ) {
774                 return TRUE;
775         }
776
777         return FALSE;
778 }
779
780 /*
781         This returns the message queue ring's filedescriptor which can be used for
782         calls to epoll.  The user shouild NOT read, write, or close the fd.
783
784         Returns the file descriptor or -1 on error.
785 */
786 extern int rmr_get_rcvfd( void* vctx ) {
787         uta_ctx_t* ctx;
788         int state;
789
790         if( (ctx = (uta_ctx_t *) vctx) == NULL ) {
791                 return -1;
792         }
793
794 /*
795         if( (state = nng_getopt_int( ctx->nn_sock, NNG_OPT_RECVFD, &fd )) != 0 ) {
796                 rmr_vlog( RMR_VL_WARN, "rmr cannot get recv fd: %s\n", nng_strerror( state ) );
797                 return -1;
798         }
799 */
800
801         return uta_ring_getpfd( ctx->mring );
802 }
803
804
805 /*
806         Clean up things.
807
808         There isn't an si_flush() per se, but we can pause, generate
809         a context switch, which should allow the last sent buffer to
810         flow. There isn't exactly an nng_term/close either, so there
811         isn't much we can do.
812 */
813 extern void rmr_close( void* vctx ) {
814         uta_ctx_t *ctx;
815
816         if( (ctx = (uta_ctx_t *) vctx) == NULL ) {
817                 return;
818         }
819
820         ctx->shutdown = 1;
821
822         SItp_stats( ctx->si_ctx );                      // dump some interesting stats
823
824         // FIX ME -- how to we turn off si; close all sessions etc?
825         //SIclose( ctx->nn_sock );
826
827 }
828
829
830 // ----- multi-threaded call/receive support -------------------------------------------------
831
832 /*
833         Blocks on the receive ring chute semaphore and then reads from the ring
834         when it is tickled.  If max_wait is -1 then the function blocks until
835         a message is ready on the ring. Else max_wait is assumed to be the number
836         of millaseconds to wait before returning a timeout message.
837 */
838 extern rmr_mbuf_t* rmr_mt_rcv( void* vctx, rmr_mbuf_t* mbuf, int max_wait ) {
839         uta_ctx_t*      ctx;
840         chute_t*        chute;
841         struct timespec ts;                     // time info if we have a timeout
842         long    new_ms;                         // adjusted mu-sec
843         long    seconds = 0;            // max wait seconds
844         long    nano_sec;                       // max wait xlated to nano seconds
845         int             state;
846         rmr_mbuf_t*     ombuf;                  // mbuf user passed; if we timeout we return state here
847
848         if( (ctx = (uta_ctx_t *) vctx) == NULL ) {
849                 errno = EINVAL;
850                 if( mbuf ) {
851                         mbuf->state = RMR_ERR_BADARG;
852                         mbuf->tp_state = errno;
853                 }
854                 return mbuf;
855         }
856
857         ombuf = mbuf;           // if we timeout we must return original msg with status, so save it
858
859         chute = &ctx->chutes[0];                                        // chute 0 used only for its semaphore
860
861         if( max_wait == 0 ) {                                           // one shot poll; handle wihtout sem check as that is SLOW!
862                 if( (mbuf = (rmr_mbuf_t *) uta_ring_extract( ctx->mring )) != NULL ) {                  // pop if queued
863                         if( ombuf ) {
864                                 rmr_free_msg( ombuf );                          // can't reuse, caller's must be trashed now
865                         }
866                 } else {
867                         mbuf = ombuf;                                           // return original if it was given with timeout status
868                         if( ombuf != NULL ) {
869                                 mbuf->state = RMR_ERR_TIMEOUT;                  // preset if for failure
870                                 mbuf->len = 0;
871                         }
872                 }
873
874                 if( mbuf != NULL ) {
875                         mbuf->flags |= MFL_ADDSRC;               // turn on so if user app tries to send this buffer we reset src
876                 }
877                 return mbuf;
878         }
879
880         if( ombuf ) {
881                 ombuf->state = RMR_ERR_TIMEOUT;                 // preset if for failure
882                 ombuf->len = 0;
883         }
884         if( max_wait > 0 ) {
885                 clock_gettime( CLOCK_REALTIME, &ts );   // sem timeout based on clock, not a delta
886
887                 if( max_wait > 999 ) {
888                         seconds = max_wait / 1000;
889                         max_wait -= seconds * 1000;
890                         ts.tv_sec += seconds;
891                 }
892                 if( max_wait > 0 ) {
893                         nano_sec = max_wait * 1000000;
894                         ts.tv_nsec += nano_sec;
895                         if( ts.tv_nsec > 999999999 ) {
896                                 ts.tv_nsec -= 999999999;
897                                 ts.tv_sec++;
898                         }
899                 }
900
901                 seconds = 1;                                                                                                    // use as flag later to invoked timed wait
902         }
903
904         errno = EINTR;
905         state = -1;
906         while( state < 0 && errno == EINTR ) {
907                 if( seconds ) {
908                         state = sem_timedwait( &chute->barrier, &ts );                          // wait for msg or timeout
909                 } else {
910                         state = sem_wait( &chute->barrier );
911                 }
912         }
913
914         if( state < 0 ) {
915                 mbuf = ombuf;                           // return caller's buffer if they passed one in
916         } else {
917                 errno = 0;                                              // interrupted call state could be left; clear
918                 if( DEBUG ) rmr_vlog( RMR_VL_DEBUG, " mt_rcv extracting from normal ring\n" );
919                 if( (mbuf = (rmr_mbuf_t *) uta_ring_extract( ctx->mring )) != NULL ) {                  // pop if queued
920                         mbuf->state = RMR_OK;
921                         mbuf->flags |= MFL_ADDSRC;               // turn on so if user app tries to send this buffer we reset src
922
923                         if( ombuf ) {
924                                 rmr_free_msg( ombuf );                                  // we cannot reuse as mbufs are queued on the ring
925                         }
926                 } else {
927                         errno = ETIMEDOUT;
928                         mbuf = ombuf;                           // no buffer, return user's if there
929                 }
930         }
931
932         if( mbuf ) {
933                 mbuf->tp_state = errno;
934         }
935         return mbuf;
936 }
937
938
939
940
941 /*
942         This is the work horse for the multi-threaded call() function. It supports
943         both the rmr_mt_call() and the rmr_wormhole wh_call() functions. See the description
944         for for rmr_mt_call() modulo the caveat below.
945
946         If endpoint is given, then we assume that we're not doing normal route table
947         routing and that we should send directly to that endpoint (probably worm
948         hole).
949 */
950 static rmr_mbuf_t* mt_call( void* vctx, rmr_mbuf_t* mbuf, int call_id, int max_wait, endpoint_t* ep ) {
951         rmr_mbuf_t* ombuf;                      // original mbuf passed in
952         uta_ctx_t*      ctx;
953         uta_mhdr_t*     hdr;                    // header in the transport buffer
954         chute_t*        chute;
955         unsigned char*  d1;                     // d1 data in header
956         struct timespec ts;                     // time info if we have a timeout
957         long    new_ms;                         // adjusted mu-sec
958         long    seconds = 0;            // max wait seconds
959         long    nano_sec;                       // max wait xlated to nano seconds
960         int             state;
961
962         errno = EINVAL;
963         if( (ctx = (uta_ctx_t *) vctx) == NULL || mbuf == NULL ) {
964                 if( mbuf ) {
965                         mbuf->tp_state = errno;
966                         mbuf->state = RMR_ERR_BADARG;
967                 }
968                 return mbuf;
969         }
970
971         if( ! (ctx->flags & CFL_MTC_ENABLED) ) {
972                 mbuf->state = RMR_ERR_NOTSUPP;
973                 mbuf->tp_state = errno;
974                 return mbuf;
975         }
976
977         if( call_id > MAX_CALL_ID || call_id < 2 ) {                                    // 0 and 1 are reserved; user app cannot supply them
978                 mbuf->state = RMR_ERR_BADARG;
979                 mbuf->tp_state = errno;
980                 return mbuf;
981         }
982
983         ombuf = mbuf;                                                                                                   // save to return timeout status with
984
985         chute = &ctx->chutes[call_id];
986         if( chute->mbuf != NULL ) {                                                                             // probably a delayed message that wasn't dropped
987                 rmr_free_msg( chute->mbuf );
988                 chute->mbuf = NULL;
989         }
990
991         hdr = (uta_mhdr_t *) mbuf->header;
992         hdr->flags |= HFL_CALL_MSG;                                                                             // must signal this sent with a call
993         memcpy( chute->expect, mbuf->xaction, RMR_MAX_XID );                    // xaction that we will wait for
994         d1 = DATA1_ADDR( hdr );
995         d1[D1_CALLID_IDX] = (unsigned char) call_id;                                    // set the caller ID for the response
996         mbuf->flags |= MFL_NOALLOC;                                                                             // send message without allocating a new one (expect nil from mtosend
997
998         if( max_wait >= 0 ) {
999                 clock_gettime( CLOCK_REALTIME, &ts );
1000
1001                 if( max_wait > 999 ) {
1002                         seconds = max_wait / 1000;
1003                         max_wait -= seconds * 1000;
1004                         ts.tv_sec += seconds;
1005                 }
1006                 if( max_wait > 0 ) {
1007                         nano_sec = max_wait * 1000000;
1008                         ts.tv_nsec += nano_sec;
1009                         if( ts.tv_nsec > 999999999 ) {
1010                                 ts.tv_nsec -= 999999999;
1011                                 ts.tv_sec++;
1012                         }
1013                 }
1014
1015                 seconds = 1;                                                                            // use as flag later to invoked timed wait
1016         }
1017
1018         if( ep == NULL ) {                                                                              // normal routing
1019                 mbuf = mtosend_msg( ctx, mbuf, 0 );                                     // use internal function so as not to strip call-id; should be nil on success!
1020         } else {
1021                 mbuf = send_msg( ctx, mbuf, ep->nn_sock, -1 );
1022         }
1023         if( mbuf ) {
1024                 if( mbuf->state != RMR_OK ) {
1025                         mbuf->tp_state = errno;
1026                         return mbuf;                                                                    // timeout or unable to connect or no endpoint are most likely issues
1027                 }
1028         }
1029
1030         state = 0;
1031         errno = 0;
1032         while( chute->mbuf == NULL && ! errno ) {
1033                 if( seconds ) {
1034                         state = sem_timedwait( &chute->barrier, &ts );                          // wait for msg or timeout
1035                 } else {
1036                         state = sem_wait( &chute->barrier );
1037                 }
1038
1039                 if( state < 0 && errno == EINTR ) {                                                             // interrupted go back and wait; all other errors cause exit
1040                         errno = 0;
1041                 }
1042
1043                 if( chute->mbuf != NULL ) {                                                                             // offload receiver thread and check xaction buffer here
1044                         if( memcmp( chute->expect, chute->mbuf->xaction, RMR_MAX_XID ) != 0 ) {
1045                                 rmr_free_msg( chute->mbuf );
1046                                 chute->mbuf = NULL;
1047                                 errno = 0;
1048                         }
1049                 }
1050         }
1051
1052         if( state < 0 ) {
1053                 return NULL;                                    // leave errno as set by sem wait call
1054         }
1055
1056         mbuf = chute->mbuf;
1057         if( mbuf != NULL ) {
1058                 mbuf->state = RMR_OK;
1059         }
1060         chute->mbuf = NULL;
1061
1062         return mbuf;
1063 }
1064
1065 /*
1066         Accept a message buffer and caller ID, send the message and then wait
1067         for the receiver to tickle the semaphore letting us know that a message
1068         has been received. The call_id is a value between 2 and 255, inclusive; if
1069         it's not in this range an error will be returned. Max wait is the amount
1070         of time in millaseconds that the call should block for. If 0 is given
1071         then no timeout is set.
1072
1073         If the mt_call feature has not been initialised, then the attempt to use this
1074         funciton will fail with RMR_ERR_NOTSUPP
1075
1076         If no matching message is received before the max_wait period expires, a
1077         nil pointer is returned, and errno is set to ETIMEOUT. If any other error
1078         occurs after the message has been sent, then a nil pointer is returned
1079         with errno set to some other value.
1080
1081         This is now just an outward facing wrapper so we can support wormhole calls.
1082 */
1083 extern rmr_mbuf_t* rmr_mt_call( void* vctx, rmr_mbuf_t* mbuf, int call_id, int max_wait ) {
1084         return mt_call( vctx, mbuf, call_id, max_wait, NULL );
1085 }
1086
1087
1088 /*
1089         Given an existing message buffer, reallocate the payload portion to
1090         be at least new_len bytes.  The message header will remain such that
1091         the caller may use the rmr_rts_msg() function to return a payload
1092         to the sender.
1093
1094         The mbuf passed in may or may not be reallocated and the caller must
1095         use the returned pointer and should NOT assume that it can use the
1096         pointer passed in with the exceptions based on the clone flag.
1097
1098         If the clone flag is set, then a duplicated message, with larger payload
1099         size, is allocated and returned.  The old_msg pointer in this situation is
1100         still valid and must be explicitly freed by the application. If the clone
1101         message is not set (0), then any memory management of the old message is
1102         handled by the function.
1103
1104         If the copy flag is set, the contents of the old message's payload is
1105         copied to the reallocated payload.  If the flag is not set, then the
1106         contents of the payload is undetermined.
1107 */
1108 extern rmr_mbuf_t* rmr_realloc_payload( rmr_mbuf_t* old_msg, int new_len, int copy, int clone ) {
1109         if( old_msg == NULL ) {
1110                 return NULL;
1111         }
1112
1113         return realloc_payload( old_msg, new_len, copy, clone );        // message allocation is transport specific, so this is a passthrough
1114 }
1115
1116 /*
1117         Enable low latency things in the transport (when supported).
1118 */
1119 extern void rmr_set_low_latency( void* vctx ) {
1120         uta_ctx_t*      ctx;
1121
1122         if( (ctx = (uta_ctx_t *) vctx) != NULL ) {
1123                 if( ctx->si_ctx != NULL ) {
1124                         SIset_tflags( ctx->si_ctx, SI_TF_NODELAY );
1125                 }
1126         }
1127 }
1128
1129 /*
1130         Turn on fast acks.
1131 */
1132 extern void rmr_set_fack( void* vctx ) {
1133         uta_ctx_t*      ctx;
1134
1135         if( (ctx = (uta_ctx_t *) vctx) != NULL ) {
1136                 if( ctx->si_ctx != NULL ) {
1137                         SIset_tflags( ctx->si_ctx, SI_TF_FASTACK );
1138                 }
1139         }
1140 }
1141