<div dir="ltr">Thanks Jolyon,<div><br></div><div>Silly me, I thought this was going to be simple.</div><div><br></div><div>Add Index, don&#39;t add index, it&#39;s a Boolean decision, I never expected NULL as an answer :)</div>
<div class="gmail_extra"><div><br>Steve Peacocke<br>Mobile: +64 220 612-611<div><div><a href="http://nz.linkedin.com/pub/steve-peacocke/1/a06/489" target="_blank">Linkedin Professional Profile</a></div></div></div>
<br><br><div class="gmail_quote">On Mon, Mar 31, 2014 at 8:56 AM, Jolyon Smith <span dir="ltr">&lt;<a href="mailto:jsmith@deltics.co.nz" target="_blank">jsmith@deltics.co.nz</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div dir="ltr">I don&#39;t think you can adopt a general rule for all boolean type conditions in data.  In the two example fields you cite, for example, I can see that there is a potential difference in the nature of the booleans involved.<br>

<br><blockquote style="margin:0 0 0 40px;border:none;padding:0px">ActiveRecord - looks like something that could change over time.  A record that was active may become inactive and I further speculate that there will over time be far more inactive records than active ones.<br>

<br>AccountTransactionType - looks like something that is fixed.  The type of a transaction seems unlikely to change once that transaction has been recorded.  You might call this a &quot;static&quot; boolean, as opposed to the more &quot;dynamic&quot; nature of the previous example.</blockquote>

<div class="gmail_extra"><br></div><div class="gmail_extra">Of course, more specific domain knowledge may reveal these assumptions to be invalid, but you get the general idea.... the characteristics of a particular datum go beyond it&#39;s simple data type and those characteristics in turn determine the most appropriate implementation (which in turn will depend on whether the dominant context is OLTP or OLAP - i.e. efficiency of creating/modifying data vs efficiency of queries).</div>

<div class="gmail_extra"><br></div><div class="gmail_extra"><br></div><div class="gmail_extra">In the case of &quot;static&quot; booleans for example, you might consider creating separate tables for records of different values in this field.  For convenience of querying all records you can of course project a view which unions the two (or more) tables involved, with a derived, virtual column containing the discriminating field value.  This also opens up the possibility that the most efficient indexes for rows of a certain type (i.e. now table) may well be different than those for the other.  i.e. the way you work with Income transactions might benefit from different indexes than Expense transactions.</div>

<div class="gmail_extra"><br></div><div class="gmail_extra">On the other hand, the way you work with income and expense transactions may mean that you are better off having indexes operating over ALL transactions, regardless of Income/Expense type.<br>

<br>See what I mean about &quot;the best way&quot; being dependent on far more than just the data type ?</div><div class="gmail_extra"><br></div><div class="gmail_extra">And there&#39;s still more to it than that...</div>

<div class="gmail_extra"><br></div><div class="gmail_extra">w.r.t index selectivity, I am not convinced that the 1 / # of distinct values metric is a particularly reliable measure.  It surely assumes an even distribution of distinct values across the data set ?<br>

</div><div class="gmail_extra"><br>i.e. if you have 100,000 records and they have a column where 50,000 rows have one value and 50,000 have another, then yes, the efficiency and thus the utility of any index on that value is going to be negligible (but then, no better than having no index isn&#39;t actually *worse*, is it ?  Although there will be some overhead introduced in maintaining the index, though I doubt this will itself be hugely significant).<br>

<br>On the other hand, if only 1,000 of those 100,000 records have one value and the remaining 99,000 have another, AND if your application most often queries that table to select those in the smaller subset (the 1,000) then whilst an index may not be of any benefit for querying the 99,000, it surely will provide benefit for those queries that select the 1,000 (or from among them), a benefit which *might* be worth the overhead of maintaining that index even though it provides little/no benefit for the handful/minority of queries that work with the 99,000 records ?<br>

<br><br></div><div class="gmail_extra"><div class="gmail_extra">The bottom line is, there is no shortcut for properly understanding your data and the way your application(s) work(s) with that data for correctly tuning your database structure and metadata for optimal performance.</div>

</div><div class="gmail_extra"><br>:)</div><div class="gmail_extra"><br></div><div class="gmail_extra"><br><div class="gmail_quote"><div><div class="h5">On 30 March 2014 15:19, Steve Peacocke <span dir="ltr">&lt;<a href="mailto:steve@peacocke.net" target="_blank">steve@peacocke.net</a>&gt;</span> wrote:<br>

</div></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div><div class="h5"><div dir="ltr">Hi all,<div>
<br></div><div>I&#39;m playing around with a Firebird database and wanted to know from you DB experts out there how you handle booleans in a table.</div>
<div><br></div><div>These could be as simple as</div>
<div>  ActiveRecord (Y/N)</div><div>  AccountTransactionType (I/E) - (Income or Expense)</div><div><br></div><div>That last I would normally think would be &quot;Income (Y/N)&quot; so that would be a boolean too.</div><div>


<br></div><div>My understanding is that this will never be indexed, even if you specifically add an index to it. So how do you handle it. There may be several boolean fields in a table definition.</div><div><br></div><div>


As these tables c an contain several hundred thousand records, this could potentially slow down any query to say total all records last 3 years where Active and Income - as the only index would then be on the date field, there is a possibility that this could potentially be a very slow query.</div>


<div><br></div><div>I&#39;ve heard of others creating another table to create, say, non-Avtive record ID&#39;s, but this one table could have several booleans, therefore creating several new tables (combining then into a single table with the field name would cause the same problem).</div>


<div><br></div><div>Any thoughts?<span><font color="#888888"><br clear="all"><div><br>Steve Peacocke<br>Mobile: <a href="tel:%2B64%20220%20612-611" value="+64220612611" target="_blank">+64 220 612-611</a><div><div><a href="http://nz.linkedin.com/pub/steve-peacocke/1/a06/489" target="_blank">Linkedin Professional Profile</a></div>


</div></div>
</font></span></div></div>
<br></div></div><div class="">_______________________________________________<br>
NZ Borland Developers Group - Delphi mailing list<br>
Post: <a href="mailto:delphi@listserver.123.net.nz" target="_blank">delphi@listserver.123.net.nz</a><br>
Admin: <a href="http://delphi.org.nz/mailman/listinfo/delphi" target="_blank">http://delphi.org.nz/mailman/listinfo/delphi</a><br>
Unsubscribe: send an email to <a href="mailto:delphi-request@listserver.123.net.nz" target="_blank">delphi-request@listserver.123.net.nz</a> with Subject: unsubscribe<br></div></blockquote></div><br></div></div>
<br>_______________________________________________<br>
NZ Borland Developers Group - Delphi mailing list<br>
Post: <a href="mailto:delphi@listserver.123.net.nz">delphi@listserver.123.net.nz</a><br>
Admin: <a href="http://delphi.org.nz/mailman/listinfo/delphi" target="_blank">http://delphi.org.nz/mailman/listinfo/delphi</a><br>
Unsubscribe: send an email to <a href="mailto:delphi-request@listserver.123.net.nz">delphi-request@listserver.123.net.nz</a> with Subject: unsubscribe<br></blockquote></div><br></div></div>